CN109605377A - 一种基于强化学习的机器人关节运动控制方法及系统 - Google Patents
一种基于强化学习的机器人关节运动控制方法及系统 Download PDFInfo
- Publication number
- CN109605377A CN109605377A CN201910052849.6A CN201910052849A CN109605377A CN 109605377 A CN109605377 A CN 109605377A CN 201910052849 A CN201910052849 A CN 201910052849A CN 109605377 A CN109605377 A CN 109605377A
- Authority
- CN
- China
- Prior art keywords
- network
- robot
- joint
- tactful
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于强化学习的机器人关节运动控制方法及系统。该方法包括:获取机器人末端的待运行轨迹;根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量;根据策略网络确定机器人关节每个插补周期的位置增量补偿;每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;根据给定位置增量和实际运动量,对价值网络进行实时训练更新;待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;采用更新后的策略网络调控下一待运行轨迹中机器人关节的运动。本发明具有误差小、效率高的特点。
Description
技术领域
本发明涉及机器人控制领域,特别是涉及一种基于强化学习的机器人关节运动控制方法及系统。
背景技术
机器人末端在运行中存在轨迹偏差的问题,可以运用强化学习的方法进行补偿,减少偏差。目前强化学习在该领域的应用主要有两类。一种是基于价值函数的方法,也称为critic-only,这种方法是通过观测和评估系统的表现来导出相应的最优策略。这种方法的缺点是误差会不断的累加,策略的细微改变都会对价值函数造成很大影响。另外一种是基于策略搜索的方法,也称为actor-only,这种方法直接对策略进行改进,该方法解决连续状态问题表现良好,在机器人领域应用较多,但是训练过程中只考虑当前策略或者临近的几次策略,因此,存在局部最优的问题。因此,可以采用策略网络和价值网络结合的方法,通过价值网络的评价来实现策略网络的更新,从而达到更好的训练效果。
发明内容
本发明的目的是提供一种基于强化学习的机器人关节运动控制方法及系统,具有误差小、效率高的特点。
为实现上述目的,本发明提供了如下方案:
一种基于强化学习的机器人关节运动控制方法,包括:
获取机器人末端的待运行轨迹;
根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
根据策略网络确定机器人关节每个插补周期的位置增量补偿;
每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
可选的,所述方法还包括:采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。
可选的,所述根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,具体包括:
根据对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。
可选的,所述根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新,具体包括:
根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
根据各回报函数训练更新所述策略网络。
可选的,所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,具体包括:
根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出。
可选的,所述根据各回报函数训练更新所述策略网络,具体包括;
以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
可选的,所述位置增量包括角度值和角速度值,所述位置增量补偿包括角度补偿和角速度补偿。
本发明还提供了一种基于强化学习的机器人关节运动控制系统,包括:
待运行轨迹获取模块,用于获取机器人末端的待运行轨迹;
位置增量计算模块,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
策略网络获取模块,用于获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
位置增量补偿确定模块,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;
实际运动量确定模块,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
价值网络更新模块,用于根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
策略网络更新模块,用于在所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
关节运动调控模块,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
可选的,所述系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;
所述价值网络更新模块,具体包括:
价值网络更新单元,用于根据对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;
所述策略网络更新模块,具体包括:
回报函数确定单元,用于根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
策略网络更新单元,用于根据各回报函数训练更新所述策略网络;
可选的,所述回报函数确定单元,具体包括:
回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
所述策略网络更新单元,具体包括;
策略网络更新子单元,用于以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于强化学习的机器人关节运动控制方法及系统构建了策略网络和价值网络,然后根据给定工业机器人末端运行轨迹,计算出机器人关节每个插补周期的位置增量,并根据策略网络进行位置增量补偿。在运行过程中,根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化,使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响,使训练向着有利的误差减少的方向进行,相较于单一网络的补偿方式更加准确和高效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于强化学习的机器人关节运动控制方法流程示意图;
图2为本发明实施例机器人关节运动控制信号输入示意图;
图3为本发明实施例基于强化学习的机器人关节运动控制系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于强化学习的机器人关节运动控制方法及系统,具有误差小、效率高的特点。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例基于强化学习的机器人关节运动控制方法流程示意图,如图1所示,本发明提供的基于强化学习的机器人关节运动控制方法步骤具体如下:
步骤101:获取机器人末端的待运行轨迹;
步骤102:根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
步骤103:获取策略网络,策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
步骤104:根据策略网络确定机器人关节每个插补周期的位置增量补偿;
步骤105:每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,如图2所示,得到机器人关节每个插补周期实际的运动量;
步骤106:根据给定位置增量和实际运动量,对价值网络进行实时训练更新,价值网络用于确定策略网络的精度;
步骤107:待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;
步骤108:采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
其中,步骤101之前还包括:
建立两个相同的神经网络:策略网络和价值网络。策略网络是一个可以观测环境状态的神经网络模型,能够预测出当前可以获得最大回报的策略。价值网络可以估计轨迹的长期回报,在更新时可以利用轨迹的回报得到目标价值,然后将模型的估计值和目标值进行比较,从而改进模型。采用均值为0,方差为0.1的高斯随机数进行神经网络参数初始化。策略网络的输入为以机器人关节的给定位置增量为输入,输出为机器人关节位置增量补偿,神经网络隐含层包含32个神经元,激活函数为线性整流函数。
步骤106具体包括:根据对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。
步骤107具体包括:根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
根据各回报函数训练更新策略网络,以策略网络的总体回报最大为训练目标,更新策略网络,总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
位置增量可以包括角度值和角速度值,但不仅限于角度值和角速度值,位置增量补偿与位置增量相对应,可以包括角度补偿和角速度补偿,但不仅限于角度补偿和角速度补偿。
本发明通过建立策略网络和价值网络计算关节位置增量补偿值,相较于单一网络的补偿方式更加准确和高效,以关节角度跟踪误差对价值网络和策略网络的权值进行更新,使得训练向着有利的误差减少的方向进行,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响。
本发明还提供了一种基于强化学习的机器人关节运动控制系统,如图3所示,本发明提供的基于强化学习的机器人关节运动控制系统包括:
待运行轨迹获取模块301,用于获取机器人末端的待运行轨迹;
位置增量计算模块302,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
策略网络获取模块303,用于获取策略网络,策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
位置增量补偿确定模块304,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;
实际运动量确定模块305,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
价值网络更新模块306,用于根据给定位置增量和实际运动量,对价值网络进行实时训练更新,价值网络用于确定策略网络的精度;
策略网络更新模块307,用于在待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;
关节运动调控模块308,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
其中,本发明提供的系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;
价值网络更新模块306,具体包括:
价值网络更新单元,用于根据对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;
策略网络更新模块307,具体包括:
回报函数确定单元,用于根据每个插补周期更新的价值网络的参数确定各插补周期策略网络的回报函数,直至待运行轨迹运行完毕;
策略网络更新单元,用于根据各回报函数训练更新策略网络;
回报函数确定单元,具体包括:
回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
策略网络更新单元,具体包括;
策略网络更新子单元,用于以策略网络的总体回报最大为训练目标,更新策略网络,总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
本发明提供的基于强化学习的机器人关节运动控制系统构建了策略网络和价值网络,然后根据给定工业机器人末端运行轨迹,计算出机器人关节每个插补周期的位置增量,并根据策略网络进行位置增量补偿。在运行过程中,根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化,使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响,使训练向着有利的误差减少的方向进行,相较于单一网络的补偿方式更加准确和高效。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于强化学习的机器人关节运动控制方法,其特征在于,包括:
获取机器人末端的待运行轨迹;
根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
根据策略网络确定机器人关节每个插补周期的位置增量补偿;
每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
2.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述方法还包括:采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。
3.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,具体包括:
根据θnew=θold+α▽θlogπθ(st,at)rt对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,▽θlogπθ(st,at)为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。
4.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新,具体包括:
根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
根据各回报函数训练更新所述策略网络。
5.根据权利要求4所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,具体包括:
根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出。
6.根据权利要求4所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据各回报函数训练更新所述策略网络,具体包括;
以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
7.根据权利要求1-6任一项所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述位置增量包括角度值和角速度值,所述位置增量补偿包括角度补偿和角速度补偿。
8.一种基于强化学习的机器人关节运动控制系统,其特征在于,包括:
待运行轨迹获取模块,用于获取机器人末端的待运行轨迹;
位置增量计算模块,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
策略网络获取模块,用于获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
位置增量补偿确定模块,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;
实际运动量确定模块,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
价值网络更新模块,用于根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
策略网络更新模块,用于在所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
关节运动调控模块,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
9.根据权利要求8所述的基于强化学习的机器人关节运动控制系统,其特征在于,所述系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;
所述价值网络更新模块,具体包括:
价值网络更新单元,用于根据θnew=θold+α▽θlogπθ(st,at)rt对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,▽θlogπθ(st,at)为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;
所述策略网络更新模块,具体包括:
回报函数确定单元,用于根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
策略网络更新单元,用于根据各回报函数训练更新所述策略网络。
10.根据权利要求9所述的基于强化学习的机器人关节运动控制系统,其特征在于,所述回报函数确定单元,具体包括:
回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
所述策略网络更新单元,具体包括;
策略网络更新子单元,用于以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910052849.6A CN109605377B (zh) | 2019-01-21 | 2019-01-21 | 一种基于强化学习的机器人关节运动控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910052849.6A CN109605377B (zh) | 2019-01-21 | 2019-01-21 | 一种基于强化学习的机器人关节运动控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109605377A true CN109605377A (zh) | 2019-04-12 |
CN109605377B CN109605377B (zh) | 2020-05-22 |
Family
ID=66018913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910052849.6A Active CN109605377B (zh) | 2019-01-21 | 2019-01-21 | 一种基于强化学习的机器人关节运动控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109605377B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110202583A (zh) * | 2019-07-09 | 2019-09-06 | 华南理工大学 | 一种基于深度学习的仿人机械手控制系统及其控制方法 |
CN110909859A (zh) * | 2019-11-29 | 2020-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN112297005A (zh) * | 2020-10-10 | 2021-02-02 | 杭州电子科技大学 | 一种基于图神经网络强化学习的机器人自主控制方法 |
CN114028156A (zh) * | 2021-10-28 | 2022-02-11 | 深圳华鹊景医疗科技有限公司 | 康复训练方法、装置及康复机器人 |
CN114609918A (zh) * | 2022-05-12 | 2022-06-10 | 齐鲁工业大学 | 一种四足机器人运动控制方法、系统、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130073080A1 (en) * | 2011-09-21 | 2013-03-21 | Filip Ponulak | Adaptive critic apparatus and methods |
CN107053179A (zh) * | 2017-04-21 | 2017-08-18 | 哈尔滨思哲睿智能医疗设备有限公司 | 一种基于模糊强化学习的机械臂柔顺力控制方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN108393892A (zh) * | 2018-03-05 | 2018-08-14 | 厦门大学 | 一种机器人前馈力矩补偿方法 |
CN109227550A (zh) * | 2018-11-12 | 2019-01-18 | 吉林大学 | 一种基于rbf神经网络的机械臂控制方法 |
-
2019
- 2019-01-21 CN CN201910052849.6A patent/CN109605377B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130073080A1 (en) * | 2011-09-21 | 2013-03-21 | Filip Ponulak | Adaptive critic apparatus and methods |
CN107053179A (zh) * | 2017-04-21 | 2017-08-18 | 哈尔滨思哲睿智能医疗设备有限公司 | 一种基于模糊强化学习的机械臂柔顺力控制方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN108393892A (zh) * | 2018-03-05 | 2018-08-14 | 厦门大学 | 一种机器人前馈力矩补偿方法 |
CN109227550A (zh) * | 2018-11-12 | 2019-01-18 | 吉林大学 | 一种基于rbf神经网络的机械臂控制方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110202583A (zh) * | 2019-07-09 | 2019-09-06 | 华南理工大学 | 一种基于深度学习的仿人机械手控制系统及其控制方法 |
CN110909859A (zh) * | 2019-11-29 | 2020-03-24 | 中国科学院自动化研究所 | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN111618847B (zh) * | 2020-04-22 | 2022-06-21 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN112297005A (zh) * | 2020-10-10 | 2021-02-02 | 杭州电子科技大学 | 一种基于图神经网络强化学习的机器人自主控制方法 |
CN114028156A (zh) * | 2021-10-28 | 2022-02-11 | 深圳华鹊景医疗科技有限公司 | 康复训练方法、装置及康复机器人 |
CN114609918A (zh) * | 2022-05-12 | 2022-06-10 | 齐鲁工业大学 | 一种四足机器人运动控制方法、系统、存储介质及设备 |
CN114609918B (zh) * | 2022-05-12 | 2022-08-02 | 齐鲁工业大学 | 一种四足机器人运动控制方法、系统、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109605377B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109605377A (zh) | 一种基于强化学习的机器人关节运动控制方法及系统 | |
CN108549237B (zh) | 基于深度增强学习的预观控制仿人机器人步态规划方法 | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN108161934B (zh) | 一种利用深度强化学习实现机器人多轴孔装配的方法 | |
CN110286592B (zh) | 一种基于bp神经网络的机器鱼多模态运动方法及系统 | |
Wang et al. | Uncalibrated visual tracking control without visual velocity | |
CN104808590B (zh) | 一种基于关键帧策略的移动机器人视觉伺服控制方法 | |
CN110450156B (zh) | 多自由度机械臂系统自适应模糊控制器的优化设计方法 | |
CN106970594B (zh) | 一种柔性机械臂的轨迹规划方法 | |
US8774968B2 (en) | Trajectory planning method, trajectory planning system and robot | |
CN109732605A (zh) | 一种机器人关节摩擦力矩的补偿方法及系统 | |
CN112743540B (zh) | 一种基于强化学习的六足机器人阻抗控制方法 | |
CN105652667B (zh) | 一种模型不确定双关节机械手的高精度轨迹跟踪控制方法 | |
CN111506063B (zh) | 一种基于分层强化学习框架的移动机器人无图导航方法 | |
CN108267952B (zh) | 一种水下机器人自适应有限时间控制方法 | |
CN108237531B (zh) | 一种仿人机器人步态自学习控制方法 | |
CN110154024A (zh) | 一种基于长短期记忆神经网络增量模型的装配控制方法 | |
CN107807522A (zh) | 水下机器人轨迹跟踪反步控制方法 | |
CN106094817B (zh) | 基于大数据方式的强化学习仿人机器人步态规划方法 | |
CN114347018A (zh) | 一种基于小波神经网络的机械臂扰动补偿方法 | |
CN114859725B (zh) | 一种非线性系统自适应事件触发控制方法及系统 | |
CN115416024A (zh) | 一种力矩控制的机械臂自主轨迹规划方法和系统 | |
CN113967909B (zh) | 基于方向奖励的机械臂智能控制方法 | |
CN107511830B (zh) | 一种五自由度混联机器人控制器参数自适应调整实现方法 | |
CN111002302A (zh) | 结合高斯混合模型和动态系统的机械臂抓取轨迹规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |