CN109605377A

CN109605377A - 一种基于强化学习的机器人关节运动控制方法及系统

Info

Publication number: CN109605377A
Application number: CN201910052849.6A
Authority: CN
Inventors: 刘暾东; 贺苗; 吴晓敏; 高凤强; 王若宇
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-04-12
Anticipated expiration: 2039-01-21
Also published as: CN109605377B

Abstract

本发明公开了一种基于强化学习的机器人关节运动控制方法及系统。该方法包括：获取机器人末端的待运行轨迹；根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量；根据策略网络确定机器人关节每个插补周期的位置增量补偿；每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；根据给定位置增量和实际运动量，对价值网络进行实时训练更新；待运行轨迹运行完毕后，根据每个插补周期更新的价值网络的参数，对策略网络进行训练更新；采用更新后的策略网络调控下一待运行轨迹中机器人关节的运动。本发明具有误差小、效率高的特点。

Description

一种基于强化学习的机器人关节运动控制方法及系统

技术领域

本发明涉及机器人控制领域，特别是涉及一种基于强化学习的机器人关节运动控制方法及系统。

背景技术

机器人末端在运行中存在轨迹偏差的问题，可以运用强化学习的方法进行补偿，减少偏差。目前强化学习在该领域的应用主要有两类。一种是基于价值函数的方法，也称为critic-only，这种方法是通过观测和评估系统的表现来导出相应的最优策略。这种方法的缺点是误差会不断的累加，策略的细微改变都会对价值函数造成很大影响。另外一种是基于策略搜索的方法，也称为actor-only，这种方法直接对策略进行改进，该方法解决连续状态问题表现良好，在机器人领域应用较多，但是训练过程中只考虑当前策略或者临近的几次策略，因此，存在局部最优的问题。因此，可以采用策略网络和价值网络结合的方法，通过价值网络的评价来实现策略网络的更新，从而达到更好的训练效果。

发明内容

本发明的目的是提供一种基于强化学习的机器人关节运动控制方法及系统，具有误差小、效率高的特点。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的机器人关节运动控制方法，包括：

获取机器人末端的待运行轨迹；

根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；

获取策略网络，所述策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；

根据策略网络确定机器人关节每个插补周期的位置增量补偿；

每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；

根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，所述价值网络用于确定所述策略网络的精度；

所述待运行轨迹运行完毕后，根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新；

采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。

可选的，所述方法还包括：采用均值为0，方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。

可选的，所述根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，具体包括：

根据对价值网络的权值进行更新，其中，θ_old为更新前的权值，θ_new为更新后的权值，α为更新步长，为策略的梯度，π_θ(s_t,a_t)为所述策略网络在输入量为s_t时的输出，r_t为在给定位置增量s_t下，采用补偿量a_t所获得的回报值，s_t为t时刻的给定位置增量，a_t为t时刻的补偿量。

可选的，所述根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新，具体包括：

根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数，直至所述待运行轨迹运行完毕；

根据各回报函数训练更新所述策略网络。

可选的，所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数，具体包括：

根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r＝r(s_t,a_t)+v(s_t+1)-v(s_t)其中，r(s_t,a_t)＝-|e|，e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值；v(s_t)是t时刻所述价值网络的输出。

可选的，所述根据各回报函数训练更新所述策略网络，具体包括；

以所述策略网络的总体回报最大为训练目标，更新所述策略网络，所述总体回报为其中，R(τ)为运行轨迹τ的总体回报，P(τ,θ)为运行轨迹τ出现的概率。

可选的，所述位置增量包括角度值和角速度值，所述位置增量补偿包括角度补偿和角速度补偿。

本发明还提供了一种基于强化学习的机器人关节运动控制系统，包括：

待运行轨迹获取模块，用于获取机器人末端的待运行轨迹；

位置增量计算模块，用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；

策略网络获取模块，用于获取策略网络，所述策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；

位置增量补偿确定模块，用于根据策略网络确定机器人关节每个插补周期的位置增量补偿；

实际运动量确定模块，用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；

价值网络更新模块，用于根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，所述价值网络用于确定所述策略网络的精度；

策略网络更新模块，用于在所述待运行轨迹运行完毕后，根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新；

关节运动调控模块，用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。

可选的，所述系统还包括：初始化模块，用于采用均值为0，方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化；

所述价值网络更新模块，具体包括：

价值网络更新单元，用于根据对价值网络的权值进行更新，其中，θ_old为更新前的权值，θ_new为更新后的权值，α为更新步长，为策略的梯度，π_θ(s_t,a_t)为所述策略网络在输入量为s_t时的输出，r_t为在给定位置增量s_t下，采用补偿量a_t所获得的回报值，s_t为t时刻的给定位置增量，a_t为t时刻的补偿量；

所述策略网络更新模块，具体包括：

回报函数确定单元，用于根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数，直至所述待运行轨迹运行完毕；

策略网络更新单元，用于根据各回报函数训练更新所述策略网络；

可选的，所述回报函数确定单元，具体包括：

回报函数确定子单元，用于根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r＝r(s_t,a_t)+v(s_t+1)-v(s_t)其中，r(s_t,a_t)＝-|e|，e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值；v(s_t)是t时刻所述价值网络的输出；

所述策略网络更新单元，具体包括；

策略网络更新子单元，用于以所述策略网络的总体回报最大为训练目标，更新所述策略网络，所述总体回报为其中，R(τ)为运行轨迹τ的总体回报，P(τ,θ)为运行轨迹τ出现的概率。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的基于强化学习的机器人关节运动控制方法及系统构建了策略网络和价值网络，然后根据给定工业机器人末端运行轨迹，计算出机器人关节每个插补周期的位置增量，并根据策略网络进行位置增量补偿。在运行过程中，根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化，使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合，可以避免价值函数误差在训练过程中不断累加，有效减少策略变化对价值函数的影响，使训练向着有利的误差减少的方向进行，相较于单一网络的补偿方式更加准确和高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于强化学习的机器人关节运动控制方法流程示意图；

图2为本发明实施例机器人关节运动控制信号输入示意图；

图3为本发明实施例基于强化学习的机器人关节运动控制系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例基于强化学习的机器人关节运动控制方法流程示意图，如图1所示，本发明提供的基于强化学习的机器人关节运动控制方法步骤具体如下：

步骤101：获取机器人末端的待运行轨迹；

步骤102：根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；

步骤103：获取策略网络，策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；

步骤104：根据策略网络确定机器人关节每个插补周期的位置增量补偿；

步骤105：每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，如图2所示，得到机器人关节每个插补周期实际的运动量；

步骤106：根据给定位置增量和实际运动量，对价值网络进行实时训练更新，价值网络用于确定策略网络的精度；

步骤107：待运行轨迹运行完毕后，根据每个插补周期更新的价值网络的参数，对策略网络进行训练更新；

步骤108：采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。

其中，步骤101之前还包括：

建立两个相同的神经网络：策略网络和价值网络。策略网络是一个可以观测环境状态的神经网络模型，能够预测出当前可以获得最大回报的策略。价值网络可以估计轨迹的长期回报，在更新时可以利用轨迹的回报得到目标价值，然后将模型的估计值和目标值进行比较，从而改进模型。采用均值为0，方差为0.1的高斯随机数进行神经网络参数初始化。策略网络的输入为以机器人关节的给定位置增量为输入，输出为机器人关节位置增量补偿，神经网络隐含层包含32个神经元，激活函数为线性整流函数。

步骤106具体包括：根据对价值网络的权值进行更新，其中，θ_old为更新前的权值，θ_new为更新后的权值，α为更新步长，为策略的梯度，π_θ(s_t,a_t)为所述策略网络在输入量为s_t时的输出，r_t为在给定位置增量s_t下，采用补偿量a_t所获得的回报值，s_t为t时刻的给定位置增量，a_t为t时刻的补偿量。

步骤107具体包括：根据每个插补周期更新的所述价值网络确定各插补周期所述策略网络的回报函数r＝r(s_t,a_t)+v(s_t+1)-v(s_t)其中，r(s_t,a_t)＝-|e|，e为所述每个插补周期关节的给定位置增量与所述实际运动量的差值；v(s_t)是t时刻所述价值网络的输出；

根据各回报函数训练更新策略网络，以策略网络的总体回报最大为训练目标，更新策略网络，总体回报为其中，R(τ)为运行轨迹τ的总体回报，P(τ,θ)为运行轨迹τ出现的概率。

位置增量可以包括角度值和角速度值，但不仅限于角度值和角速度值，位置增量补偿与位置增量相对应，可以包括角度补偿和角速度补偿，但不仅限于角度补偿和角速度补偿。

本发明通过建立策略网络和价值网络计算关节位置增量补偿值，相较于单一网络的补偿方式更加准确和高效，以关节角度跟踪误差对价值网络和策略网络的权值进行更新，使得训练向着有利的误差减少的方向进行，可以避免价值函数误差在训练过程中不断累加，有效减少策略变化对价值函数的影响。

本发明还提供了一种基于强化学习的机器人关节运动控制系统，如图3所示，本发明提供的基于强化学习的机器人关节运动控制系统包括：

待运行轨迹获取模块301，用于获取机器人末端的待运行轨迹；

位置增量计算模块302，用于根据机器人末端的待运行轨迹以及机器人逆运动学模型计算机器人关节在每个插补周期的位置增量，记为给定位置增量；

策略网络获取模块303，用于获取策略网络，策略网络为以机器人关节的给定位置增量为输入，以机器人关节位置增量补偿为输出，训练得到的神经网络模型；

位置增量补偿确定模块304，用于根据策略网络确定机器人关节每个插补周期的位置增量补偿；

实际运动量确定模块305，用于每个插补周期的给定位置增量与位置增量补偿之和作为机器人关节的运动参数，输入机器人，得到机器人关节每个插补周期实际的运动量；

价值网络更新模块306，用于根据给定位置增量和实际运动量，对价值网络进行实时训练更新，价值网络用于确定策略网络的精度；

策略网络更新模块307，用于在待运行轨迹运行完毕后，根据每个插补周期更新的价值网络的参数，对策略网络进行训练更新；

关节运动调控模块308，用于采用更新后的策略网络对下一待运行轨迹中机器人关节的运动进行调控。

其中，本发明提供的系统还包括：初始化模块，用于采用均值为0，方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化；

价值网络更新模块306，具体包括：

策略网络更新模块307，具体包括：

回报函数确定单元，用于根据每个插补周期更新的价值网络的参数确定各插补周期策略网络的回报函数，直至待运行轨迹运行完毕；

策略网络更新单元，用于根据各回报函数训练更新策略网络；

回报函数确定单元，具体包括：

策略网络更新单元，具体包括；

策略网络更新子单元，用于以策略网络的总体回报最大为训练目标，更新策略网络，总体回报为其中，R(τ)为运行轨迹τ的总体回报，P(τ,θ)为运行轨迹τ出现的概率。

本发明提供的基于强化学习的机器人关节运动控制系统构建了策略网络和价值网络，然后根据给定工业机器人末端运行轨迹，计算出机器人关节每个插补周期的位置增量，并根据策略网络进行位置增量补偿。在运行过程中，根据机器人末端运行轨迹偏差进行策略网络和价值网络参数的实时调整与优化，使工业机器人末端运行轨迹达到理想的效果。价值网络训练和策略网络训练相结合，可以避免价值函数误差在训练过程中不断累加，有效减少策略变化对价值函数的影响，使训练向着有利的误差减少的方向进行，相较于单一网络的补偿方式更加准确和高效。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的机器人关节运动控制方法，其特征在于，包括：

获取机器人末端的待运行轨迹；

2.根据权利要求1所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述方法还包括：采用均值为0，方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化。

3.根据权利要求1所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据所述给定位置增量和实际运动量，对价值网络进行实时训练更新，具体包括：

根据θ_new＝θ_old+α▽_θlogπ_θ(s_t,a_t)r_t对价值网络的权值进行更新，其中，θ_old为更新前的权值，θ_new为更新后的权值，α为更新步长，▽_θlogπ_θ(s_t,a_t)为策略的梯度，π_θ(s_t,a_t)为所述策略网络在输入量为s_t时的输出，r_t为在给定位置增量s_t下，采用补偿量a_t所获得的回报值，s_t为t时刻的给定位置增量，a_t为t时刻的补偿量。

4.根据权利要求1所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据每个插补周期更新的所述价值网络的参数，对所述策略网络进行训练更新，具体包括：

根据各回报函数训练更新所述策略网络。

5.根据权利要求4所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据每个插补周期更新的所述价值网络的参数确定各插补周期所述策略网络的回报函数，具体包括：

6.根据权利要求4所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述根据各回报函数训练更新所述策略网络，具体包括；

7.根据权利要求1-6任一项所述的基于强化学习的机器人关节运动控制方法，其特征在于，所述位置增量包括角度值和角速度值，所述位置增量补偿包括角度补偿和角速度补偿。

8.一种基于强化学习的机器人关节运动控制系统，其特征在于，包括：

待运行轨迹获取模块，用于获取机器人末端的待运行轨迹；

9.根据权利要求8所述的基于强化学习的机器人关节运动控制系统，其特征在于，所述系统还包括：初始化模块，用于采用均值为0，方差为0.1的高斯随机数对策略网络和价值网络的参数进行初始化；

所述价值网络更新模块，具体包括：

价值网络更新单元，用于根据θ_new＝θ_old+α▽_θlogπ_θ(s_t,a_t)r_t对价值网络的权值进行更新，其中，θ_old为更新前的权值，θ_new为更新后的权值，α为更新步长，▽_θlogπ_θ(s_t,a_t)为策略的梯度，π_θ(s_t,a_t)为所述策略网络在输入量为s_t时的输出，r_t为在给定位置增量s_t下，采用补偿量a_t所获得的回报值，s_t为t时刻的给定位置增量，a_t为t时刻的补偿量；

所述策略网络更新模块，具体包括：

策略网络更新单元，用于根据各回报函数训练更新所述策略网络。

10.根据权利要求9所述的基于强化学习的机器人关节运动控制系统，其特征在于，所述回报函数确定单元，具体包括：

所述策略网络更新单元，具体包括；