CN109605377B - 一种基于强化学习的机器人关节运动控制方法及系统 - Google Patents

一种基于强化学习的机器人关节运动控制方法及系统 Download PDF

Info

Publication number
CN109605377B
CN109605377B CN201910052849.6A CN201910052849A CN109605377B CN 109605377 B CN109605377 B CN 109605377B CN 201910052849 A CN201910052849 A CN 201910052849A CN 109605377 B CN109605377 B CN 109605377B
Authority
CN
China
Prior art keywords
network
position increment
strategy
robot
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910052849.6A
Other languages
English (en)
Other versions
CN109605377A (zh
Inventor
刘暾东
贺苗
吴晓敏
高凤强
王若宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910052849.6A priority Critical patent/CN109605377B/zh
Publication of CN109605377A publication Critical patent/CN109605377A/zh
Application granted granted Critical
Publication of CN109605377B publication Critical patent/CN109605377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Abstract

本发明公开了一种基于强化学习的机器人关节运动控制方法及系统。该方法包括:获取机器人末端的待运行轨迹;根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量;根据策略网络确定机器人关节每个插补周期的位置增量补偿;每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;根据给定位置增量和实际运动量,对价值网络进行实时训练更新;待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;采用更新后的策略网络调控下一待运行轨迹中机器人关节的运动。本发明具有误差小、效率高的特点。

Description

一种基于强化学习的机器人关节运动控制方法及系统
技术领域
本发明涉及机器人控制领域,特别是涉及一种基于强化学习的机器人关节运动控制方法及系统。
背景技术
机器人末端在运行中存在轨迹偏差的问题,可以运用强化学习的方法进行补偿,减少偏差。目前强化学习在该领域的应用主要有两类。一种是基于价值函数的方法,也称为critic-only,这种方法是通过观测和评估系统的表现来导出相应的最优策略。这种方法的缺点是误差会不断的累加,策略的细微改变都会对价值函数造成很大影响。另外一种是基于策略搜索的方法,也称为actor-only,这种方法直接对策略进行改进,该方法解决连续状态问题表现良好,在机器人领域应用较多,但是训练过程中只考虑当前策略或者临近的几次策略,因此,存在局部最优的问题。因此,可以采用策略网络和价值网络结合的方法,通过价值网络的评价来实现策略网络的更新,从而达到更好的训练效果。
发明内容
本发明的目的是提供一种基于强化学习的机器人关节运动控制方法及系统,具有误差小、效率高的特点。
为实现上述目的,本发明提供了如下方案:
一种基于强化学习的机器人关节运动控制方法,包括:
获取机器人末端的待运行轨迹;
根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
根据策略网络确定机器人关节每个插补周期的位置增量补偿;
每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
可选的,所述方法还包括:采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。
可选的,所述根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,具体包括:
根据
Figure BDA0001951396190000021
对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,
Figure BDA0001951396190000022
为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。
可选的,所述根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新,具体包括:
根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
根据各回报函数训练更新所述策略网络。
可选的,所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,具体包括:
根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出。
可选的,所述根据各回报函数训练更新所述策略网络,具体包括;
以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为
Figure BDA0001951396190000031
其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
可选的,所述位置增量包括角度值和角速度值,所述位置增量补偿包括角度补偿和角速度补偿。
本发明还提供了一种基于强化学习的机器人关节运动控制系统,包括:
待运行轨迹获取模块,用于获取机器人末端的待运行轨迹;
位置增量计算模块,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
策略网络获取模块,用于获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
位置增量补偿确定模块,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;
实际运动量确定模块,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
价值网络更新模块,用于根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
策略网络更新模块,用于在所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
关节运动调控模块,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
可选的,所述系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;
所述价值网络更新模块,具体包括:
价值网络更新单元,用于根据
Figure BDA0001951396190000041
对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,
Figure BDA0001951396190000042
为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;
所述策略网络更新模块,具体包括:
回报函数确定单元,用于根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
策略网络更新单元,用于根据各回报函数训练更新所述策略网络;
可选的,所述回报函数确定单元,具体包括:
回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
所述策略网络更新单元,具体包括;
策略网络更新子单元,用于以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为
Figure BDA0001951396190000043
其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于强化学习的机器人关节运动控制方法及系统构建了策略网络和价值网络,然后根据给定工业机器人末端运行轨迹,计算出机器人关节每个插补周期的位置增量,并根据策略网络进行位置增量补偿。在运行过程中,根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化,使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响,使训练向着有利的误差减少的方向进行,相较于单一网络的补偿方式更加准确和高效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于强化学习的机器人关节运动控制方法流程示意图;
图2为本发明实施例机器人关节运动控制信号输入示意图;
图3为本发明实施例基于强化学习的机器人关节运动控制系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于强化学习的机器人关节运动控制方法及系统,具有误差小、效率高的特点。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例基于强化学习的机器人关节运动控制方法流程示意图,如图1所示,本发明提供的基于强化学习的机器人关节运动控制方法步骤具体如下:
步骤101:获取机器人末端的待运行轨迹;
步骤102:根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
步骤103:获取策略网络,策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
步骤104:根据策略网络确定机器人关节每个插补周期的位置增量补偿;
步骤105:每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,如图2所示,得到机器人关节每个插补周期实际的运动量;
步骤106:根据给定位置增量和实际运动量,对价值网络进行实时训练更新,价值网络用于确定策略网络的精度;
步骤107:待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;
步骤108:采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
其中,步骤101之前还包括:
建立两个相同的神经网络:策略网络和价值网络。策略网络是一个可以观测环境状态的神经网络模型,能够预测出当前可以获得最大回报的策略。价值网络可以估计轨迹的长期回报,在更新时可以利用轨迹的回报得到目标价值,然后将模型的估计值和目标值进行比较,从而改进模型。采用均值为0,方差为0.1的高斯随机数进行神经网络参数初始化。策略网络的输入为以机器人关节的给定位置增量为输入,输出为机器人关节位置增量补偿,神经网络隐含层包含32个神经元,激活函数为线性整流函数。
步骤106具体包括:根据
Figure BDA0001951396190000061
对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,
Figure BDA0001951396190000062
为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。
步骤107具体包括:根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
根据各回报函数训练更新策略网络,以策略网络的总体回报最大为训练目标,更新策略网络,总体回报为
Figure BDA0001951396190000063
其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
位置增量可以包括角度值和角速度值,但不仅限于角度值和角速度值,位置增量补偿与位置增量相对应,可以包括角度补偿和角速度补偿,但不仅限于角度补偿和角速度补偿。
本发明通过建立策略网络和价值网络计算关节位置增量补偿值,相较于单一网络的补偿方式更加准确和高效,以关节角度跟踪误差对价值网络和策略网络的权值进行更新,使得训练向着有利的误差减少的方向进行,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响。
本发明还提供了一种基于强化学习的机器人关节运动控制系统,如图3所示,本发明提供的基于强化学习的机器人关节运动控制系统包括:
待运行轨迹获取模块301,用于获取机器人末端的待运行轨迹;
位置增量计算模块302,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
策略网络获取模块303,用于获取策略网络,策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
位置增量补偿确定模块304,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;
实际运动量确定模块305,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
价值网络更新模块306,用于根据给定位置增量和实际运动量,对价值网络进行实时训练更新,价值网络用于确定策略网络的精度;
策略网络更新模块307,用于在待运行轨迹运行完毕后,根据每个插补周期更新的价值网络的参数,对策略网络进行训练更新;
关节运动调控模块308,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
其中,本发明提供的系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;
价值网络更新模块306,具体包括:
价值网络更新单元,用于根据
Figure BDA0001951396190000081
对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,
Figure BDA0001951396190000082
为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;
策略网络更新模块307,具体包括:
回报函数确定单元,用于根据每个插补周期更新的价值网络的参数确定各插补周期策略网络的回报函数,直至待运行轨迹运行完毕;
策略网络更新单元,用于根据各回报函数训练更新策略网络;
回报函数确定单元,具体包括:
回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
策略网络更新单元,具体包括;
策略网络更新子单元,用于以策略网络的总体回报最大为训练目标,更新策略网络,总体回报为
Figure BDA0001951396190000083
其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
本发明提供的基于强化学习的机器人关节运动控制系统构建了策略网络和价值网络,然后根据给定工业机器人末端运行轨迹,计算出机器人关节每个插补周期的位置增量,并根据策略网络进行位置增量补偿。在运行过程中,根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化,使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合,可以避免价值函数误差在训练过程中不断累加,有效减少策略变化对价值函数的影响,使训练向着有利的误差减少的方向进行,相较于单一网络的补偿方式更加准确和高效。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于强化学习的机器人关节运动控制方法,其特征在于,包括:
获取机器人末端的待运行轨迹;
根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
根据策略网络确定机器人关节每个插补周期的位置增量补偿;
每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
2.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述方法还包括:采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。
3.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,具体包括:
根据θnew=θold+α▽θlogπθ(st,at)rt对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,▽θlogπθ(st,at)为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量。
4.根据权利要求1所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新,具体包括:
根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
根据各回报函数训练更新所述策略网络。
5.根据权利要求4所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,具体包括:
根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出。
6.根据权利要求4所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述根据各回报函数训练更新所述策略网络,具体包括;
以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为
Figure FDA0001951396180000021
其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
7.根据权利要求1-6任一项所述的基于强化学习的机器人关节运动控制方法,其特征在于,所述位置增量包括角度值和角速度值,所述位置增量补偿包括角度补偿和角速度补偿。
8.一种基于强化学习的机器人关节运动控制系统,其特征在于,包括:
待运行轨迹获取模块,用于获取机器人末端的待运行轨迹;
位置增量计算模块,用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量,记为给定位置增量;
策略网络获取模块,用于获取策略网络,所述策略网络为以机器人关节的给定位置增量为输入,以机器人关节位置增量补偿为输出,训练得到的神经网络模型;
位置增量补偿确定模块,用于根据策略网络确定机器人关节每个插补周期的位置增量补偿;
实际运动量确定模块,用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数,输入机器人,得到机器人关节每个插补周期实际的运动量;
价值网络更新模块,用于根据所述给定位置增量和实际运动量,对价值网络进行实时训练更新,所述价值网络用于确定所述策略网络的精度;
策略网络更新模块,用于在所述待运行轨迹运行完毕后,根据每个插补周期更新的所述价值网络的参数,对所述策略网络进行训练更新;
关节运动调控模块,用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。
9.根据权利要求8所述的基于强化学习的机器人关节运动控制系统,其特征在于,所述系统还包括:初始化模块,用于采用均值为0,方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化;
所述价值网络更新模块,具体包括:
价值网络更新单元,用于根据θnew=θold+α▽θlogπθ(st,at)rt对价值网络的权值进行更新,其中,θold为更新前的权值,θnew为更新后的权值,α为更新步长,▽θlogπθ(st,at)为策略的梯度,πθ(st,at)为所述策略网络在输入量为st时的输出,rt为在给定位置增量st下,采用补偿量at所获得的回报值,st为t时刻的给定位置增量,at为t时刻的补偿量;
所述策略网络更新模块,具体包括:
回报函数确定单元,用于根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数,直至所述待运行轨迹运行完毕;
策略网络更新单元,用于根据各回报函数训练更新所述策略网络。
10.根据权利要求9所述的基于强化学习的机器人关节运动控制系统,其特征在于,所述回报函数确定单元,具体包括:
回报函数确定子单元,用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r=r(st,at)+v(st+1)-v(st)其中,r(st,at)=-|e|,e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值;v(st)是t时刻所述价值网络的输出;
所述策略网络更新单元,具体包括;
策略网络更新子单元,用于以所述策略网络的总体回报最大为训练目标,更新所述策略网络,所述总体回报为
Figure FDA0001951396180000041
其中,R(τ)为运行轨迹τ的总体回报,P(τ,θ)为运行轨迹τ出现的概率。
CN201910052849.6A 2019-01-21 2019-01-21 一种基于强化学习的机器人关节运动控制方法及系统 Active CN109605377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910052849.6A CN109605377B (zh) 2019-01-21 2019-01-21 一种基于强化学习的机器人关节运动控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910052849.6A CN109605377B (zh) 2019-01-21 2019-01-21 一种基于强化学习的机器人关节运动控制方法及系统

Publications (2)

Publication Number Publication Date
CN109605377A CN109605377A (zh) 2019-04-12
CN109605377B true CN109605377B (zh) 2020-05-22

Family

ID=66018913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910052849.6A Active CN109605377B (zh) 2019-01-21 2019-01-21 一种基于强化学习的机器人关节运动控制方法及系统

Country Status (1)

Country Link
CN (1) CN109605377B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110202583B (zh) * 2019-07-09 2020-12-22 华南理工大学 一种基于深度学习的仿人机械手控制系统及其控制方法
CN110909859B (zh) * 2019-11-29 2023-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111618847B (zh) * 2020-04-22 2022-06-21 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112297005B (zh) * 2020-10-10 2021-10-22 杭州电子科技大学 一种基于图神经网络强化学习的机器人自主控制方法
CN114609918B (zh) * 2022-05-12 2022-08-02 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9156165B2 (en) * 2011-09-21 2015-10-13 Brain Corporation Adaptive critic apparatus and methods
CN107053179B (zh) * 2017-04-21 2019-07-23 苏州康多机器人有限公司 一种基于模糊强化学习的机械臂柔顺力控制方法
CN108052004B (zh) * 2017-12-06 2020-11-10 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108393892B (zh) * 2018-03-05 2020-07-24 厦门大学 一种机器人前馈力矩补偿方法
CN109227550A (zh) * 2018-11-12 2019-01-18 吉林大学 一种基于rbf神经网络的机械臂控制方法

Also Published As

Publication number Publication date
CN109605377A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109605377B (zh) 一种基于强化学习的机器人关节运动控制方法及系统
CN109732605B (zh) 一种机器人关节摩擦力矩的补偿方法及系统
CN108153153B (zh) 一种学习变阻抗控制系统及控制方法
CN110909859B (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN111428317B (zh) 一种基于5g和循环神经网络的关节摩擦力矩补偿方法
CN111443718B (zh) 基于预报误差法的高速列车状态反馈预测控制方法及系统
CN104190720B (zh) 一种自适应自动厚度控制方法及装置
CN109352655B (zh) 一种基于多输出高斯过程回归的机器人变形补偿方法
CN110802589A (zh) 一种工业机器人单关节伺服控制的迟滞补偿方法
CN112486024A (zh) 一种基于多质点模型的高速列车自适应控制方法及系统
CN115319759A (zh) 机械臂末端控制轨迹智能规划算法
CN115416024A (zh) 一种力矩控制的机械臂自主轨迹规划方法和系统
CN110039537B (zh) 一种基于神经网络的在线自学习多关节运动规划方法
CN113885321B (zh) 基于记忆相关Koopman的双模超声电机死区模糊补偿与线性预测控制方法及系统
CN112549027B (zh) 一种笛卡尔空间与关节空间曲线平滑过渡方法及装置
CN106033189A (zh) 飞行机器人位姿神经网络预测控制器
CN114800529B (zh) 一种基于定长记忆窗增量学习的工业机器人误差补偿方法
CN111673026A (zh) 一种锻压机压制过程的在线控制方法及其控制系统
CN114918919B (zh) 一种机器人运动技能学习方法及系统
CN113219841B (zh) 基于自适应鲁棒的水下多关节液压机械臂非线性控制方法
CN113741183B (zh) 基于阻尼比模型的工业机器人自适应导纳控制方法
CN113763434A (zh) 一种基于卡尔曼滤波多运动模型切换的目标轨迹预测方法
CN112894819A (zh) 一种基于双神经网络的机器人动力学运动控制方法及装置
CN114012733A (zh) 一种用于pc构件模具划线的机械臂控制方法
CN112947606A (zh) Bp神经网络pid预测控制的锅炉液位控制系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant