CN106970594A

CN106970594A - 一种柔性机械臂的轨迹规划方法

Info

Publication number: CN106970594A
Application number: CN201710320365.6A
Authority: CN
Inventors: 张勇
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2017-07-21
Anticipated expiration: 2037-05-09
Also published as: CN106970594B

Abstract

本发明公开了一种柔性机械臂的轨迹规划方法，不依赖于柔性机械臂的数学模型，而是通过强化学习算法动态地调整控制参数，从而为解决柔性机械臂的轨迹规划问题提供了一个新思路。所述柔性机械臂的轨迹规划方法，该方法包括：根据柔性机械臂的当前位姿和期望位姿，确定所述柔性机械臂运动轨迹的跟踪误差方程；根据柔性机械臂的状态和所述跟踪误差方程，确定所述柔性机械臂运动轨迹的代价函数；根据所述代价函数，和对所述柔性机械臂的控制策略，确定所述柔性机械臂运动轨迹的性能指标函数；基于强化学习算法确定使所述性能指标函数最小的最优控制策略，得到对期望运动轨迹的跟踪。

Description

一种柔性机械臂的轨迹规划方法

技术领域

本发明涉及机械臂技术领域，尤其涉及一种柔性机械臂的轨迹规划方法。

背景技术

柔性机械臂由于其高速、低耗、质轻等优点，在制作业、航空航天等领域的应用越来越多。因此，目前对柔性机械臂的研究收到广泛的关注。机械臂轨迹规划是其中一个重要问题，关键是根据作业任务的要求，计算出机械臂预期的运动轨迹。

现有的轨迹规划算法重要的是要求机械臂对环境有全面的感知能力，对工作环境状态信息的依赖程度也相对较高。例如，现有的采用遗传算法对机械臂进行轨迹规划时，首先要对机械臂建立精确的运动学和动力学模型，然后基于模型再优化末端执行器的轨迹曲线。考虑到柔性机械臂本身所具有的高度非线性、强耦合和时变等特点，建立起精确的模型往往很难，导致传统的基于模型的算法无法进行有效控制和轨迹规划。

因此，现有技术中主要是在对机械臂进行运动学和动力学建模基础上，然后在关节空间或笛卡尔空间中，通过解变换方程、运动学/动力学方程反解，或者差值运算来实现柔性机械臂的轨迹规划。但是如果对机械臂建模不精确或运行环境发生变化，传统的计算方法可靠性会降低，无法有效控制和轨迹规划。

发明内容

本发明提供一种柔性机械臂轨的迹规划方法，不依赖于柔性机械臂的数学模型，而是通过强化学习算法动态地调整控制参数，从而为解决柔性机械臂的轨迹规划问题提供了一个新思路。

本发明实施例提供了一种柔性机械臂的轨迹规划方法，该方法包括：

根据机械臂的当前位姿和期望位姿，确定所述机械臂运动轨迹的跟踪误差方程；

根据柔性机械臂的状态和所述跟踪误差方程，确定所述柔性机械臂运动轨迹的代价函数；

根据所述代价函数，和对所述柔性机械臂的控制策略，确定所述柔性机械臂运动轨迹的性能指标函数；

基于强化学习算法确定使所述性能指标函数最小的最优控制策略，得到对期望运动轨迹的跟踪。

在一种可能的实施方式中，本发明实施例提供的上述机械臂轨迹规划的方法中，根据机械臂的当前位姿和期望位姿，确定所述柔性机械臂运动轨迹的跟踪误差方程，包括：

采用下述公式确定所述跟踪误差方程：

其中，y_k为第k时刻机械臂的当前位姿，为第k时刻机械臂的期望位姿。

在一种可能的实施方式中，本发明实施例提供的上述柔性机械臂轨的迹规划方法中，根据柔性机械臂的状态和所述跟踪误差方程，确定所述柔性机械臂运动轨迹的代价函数，具体包括：

采用下述公式确定所述柔性机械臂运动轨迹的代价函数：

其中，

x_k为第k时刻所述柔性机械臂的状态，e_k为第k时刻所述柔性机械臂的跟踪误差，P、S和R分别为对应的权重矩阵。

在一种可能的实施方式中，本发明实施例提供的上述柔性机械臂轨的迹规划方法中，根据所述代价函数和对所述柔性机械臂的控制策略，确定所述柔性机械臂运动轨迹的性能指标函数，具体包括：

采用下述公式确定所述性能指标：

其中，x_k为第k时刻所述机械臂的状态，e_k为第k时刻所述柔性机械臂的跟踪误差，u_k为所述柔性机械臂的控制策略且作为第k时刻所需要的输入值。

在一种可能的实施方式中，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，基于强化学习算法确定使所述性能指标最小的最优控制策略，包括：

根据强化学习算法中的SARSA算法的动作值函数Q和动作值函数Q的更新表达式，确定最优控制策略的函数：

根据所述最优控制策略的函数，确定所述性能指标函数的最小值。

在一种可能的实施方式中，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，根据强化学习算法中的SARSA算法的动作值函数Q和动作值函数Q的更新表达式，确定最优控制策略的函数，具体包括：

采用下述方式确定所述最优控制策略的函数：

Q(x_k，e_k，u_k)＝r(x_k，e_k，u_k)+V(x_k，e_k，u_k)，

Q(x_k,e_k，u_k)←Q(x_k,e_k，u_k)+α[r_k+1+γQ(x_k+1,e_k+1,u_k+1)-Q(x_k,e_k，u_k)]，k≥0；

其中，α为对新得到的信息覆盖旧信息的程度的学习率，γ为对未来回报的重视程度的折扣因子，x_k+1为第k+1时刻所述柔性机械臂的状态，e_k+1为第k+1时刻所述柔性机械臂的跟踪误差，u_k+1为第k+1时刻所需要的输入值，Q^*(x_k,e_k，u_k)为Q(x_k,e_k，u_k)的最优。

在一种可能的实施方式中，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，根据所述最优控制策略的函数，确定所述性能指标函数的最小值，具体包括：

采用下述方式确定所述最小值：

本发明有益效果如下：

本发明实施例提供的柔性机械臂的轨迹规划方法，包括：根据机械臂的当前位姿和期望位姿，确定所述柔性机械臂运动轨迹的跟踪误差方程；根据柔性机械臂的状态和所述跟踪误差方程，确定所述柔性机械臂运动轨迹的代价函数；根据所述代价函数，和对所述柔性机械臂的控制策略，确定所述柔性机械臂运动轨迹的性能指标函数；基于强化学习算法确定使所述性能指标函数最小的最优控制策略，得到对期望运动轨迹的跟踪。因此，本发明实施例中的提供的柔性机械臂的轨迹规划方法，主要是采用强化学习算法确定的机械臂规划的轨迹，且在采用强化学习算法时，主要是基于柔性机械臂运动轨迹的跟踪误差、柔性机械臂运动轨迹的代价函数和柔性机械臂的控制策略确定的性能指标函数，从而确定最优轨迹规划，相比现有技术，不依赖于柔性机械臂的数学模型，而是通过强化学习算法通过不断的探索和试错学习来发现最优控制策略，从而为解决柔性机械臂的轨迹规划问题提供了一个新思路。

附图说明

图1为本发明实施例提供的一种柔性机械臂轨迹规划的方法的流程示意图；

图2为本发明实施例提供的一种SARSA算法的状态-动作对序列片段示意图；

图3为本发明实施例提供的一种柔性机械臂轨迹规划的结构示意图；

图4为本发明实施例提供的一种柔性机械臂轨迹规划的仿真结果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种柔性机械臂的轨迹规划方法，不依赖于柔性机械臂的数学模型，而是通过强化学习算法动态地调整控制参数，从而为解决柔性机械臂的轨迹规划问题提供了一个新思路。

参见图1，本发明实施例提供的一种柔性机械臂的轨迹规划方法，该方法包括：

S101、根据机械臂的当前位姿和期望位姿，确定柔性机械臂运动轨迹的跟踪误差方程；

S102、根据柔性机械臂的状态和跟踪误差方程，确定柔性机械臂运动轨迹的代价函数；

其中，本发明实施例中的状态可以采用现有技术中的方法确定柔性机械臂的状态。具体地，首先对多自由度柔性机械臂进行分析，确定柔性机械臂的状态空间表达式。

S103、根据代价函数，和对柔性机械臂的控制策略，确定柔性机械臂运动轨迹的性能指标函数；

S104、基于强化学习算法确定使性能指标函数最小的最优控制策略，得到对期望运动轨迹的跟踪，实现对期望运动轨迹的跟踪。

其中，常用的强化学习算法包括TD算法、Q学习算法和SARSA算法。本发明实施例中再确定性能指标函数的最小值时，主要基于Q学习算法和SARSA算法以及不断的学习和试错发现最优控制策略，实现对期望运动轨迹的跟踪。

通过本发明实施例提供的柔性机械臂的轨迹规划方法，主要是通过在对柔性机械臂进行分析后，确定柔性机械臂的状态，并根据机械臂的当前位姿和期望位姿，确定柔性机械臂运动轨迹的跟踪误差方程，从而使得将轨迹规划问题转化为轨迹跟踪问题，然后通过确定柔性机械臂的控制策略后，轨迹跟踪问题转化为最优跟踪控制问题，目标是找寻最优的控制策略使得机械臂运动轨迹的性能指标函数最小，进一步地，根据强化学习算法确定性能指标函数的最小值，从而得到柔性机械臂轨迹规划的最优值，较好地实现了对柔性机械臂运动轨迹的跟踪和期望。

下面首先介绍下如何确定柔性机械臂的状态空间表达式。

首先对多自由度柔性机械臂进行分析，在不考虑外部末端执行器作用力和静摩擦力的作用下，建立自由度为n的柔性机械臂在关节空间下相应的动力学模型为：

其中，公式(1)中，τ为柔性机械臂关节的转矩，q为柔性机械臂关节的变量，为柔性机械臂关节变量的速度，为柔性机械臂关节变量的加速度。其中，M(q)为n*n的对称矩阵，称为惯性矩阵，是n*1的科氏力和离心力矢量，G(q)为n*1的重力矢量。

根据公式(1)，进一步确定柔性机械臂的状态空间表达式为：

或其中，

结合采样保持方法，将公式(2)-(3)进行离散化，从而得到公式(4)，

x_k+1＝f(x_k)+g(x_k)u_k,y_k＝x_k (4)

然后，本发明实施例中根据柔性机械臂的状态空间表达式，以及公式(4)确定柔性机械臂的控制策略，进一步解决柔性机械臂的轨迹规划问题。

可选地，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，步骤S101根据柔性机械臂的当前位姿和期望位姿，确定柔性机械臂运动轨迹的跟踪误差方程，包括：

采用下述公式(1)确定跟踪误差方程：

其中，y_k为第k时刻柔性机械臂的当前位姿，为第k时刻柔性机械臂的期望位姿。

具体地，假设柔性机械臂在第k时刻期望的位姿为而实际上柔性机械臂的位姿为y_k，因此，为了使得当前位姿与期望位姿相同，则确定使得跟踪误差的值越小越好。具体地，如何使e_k最小，进一步需要建立关于e_k的方程，从而使得e_k最小。

可选地，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，步骤S102根据柔性机械臂的状态(4)和跟踪误差方程(5)，确定柔性机械臂运动轨迹的代价函数，具体包括：

采用下述公式确定柔性机械臂运动轨迹的代价函数：

其中，x_k为第k时刻柔性机械臂的状态，e_k为第k时刻柔性机械臂的跟踪误差，P、S和R分别为相应的权重矩阵。

具体地，本发明实施例中的代价函数是指柔性机械臂所得到的回报，对柔性机械臂在第k时刻所作出的动作的好坏作出一种评价。因为对于柔性机械臂系统，在试错学习过程中需要考虑到当前采取的动作对所得到的回报和下一个时刻的影响，从而避免出现Cliff Walkking现象。另外，本发明实施例中采用SARSA算法也是为了需要考虑到当前采取的动作对所得到的回报和下一个时刻的影响，从而避免出现Cliff Walkking现象。

可选地，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，步骤S103根据代价函数和对柔性机械臂的控制策略，确定柔性机械臂运动轨迹的性能指标函数，具体包括：

采用下述公式确定运动轨迹的性能指标函数：

其中，x_k为第k时刻柔性机械臂的状态，e_k为第k时刻柔性机械臂的跟踪误差，u_k为柔性机械臂的控制策略且作为第k时刻所需要的输入值。

具体地，本发明实施例中的控制策略为u_k＝h(x_k,e_k)，根据第k时刻的状态，以及跟踪误差，确定对柔性机械臂的控制策略为u_k，即u_k为柔性机械臂的控制策略且作为第k时刻所需要的输入值。通过控制策略的确定进一步将轨迹规划问题转化为了最优跟踪控制问题，即得到公式即通过强化学习算法，确定最优值。

可选地，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，步骤S104基于强化学习算法确定使性能指标最小的最优控制策略，包括：

根据最优控制策略的函数，确定性能指标函数的最小值。

具体地，强化学习算法包括TD算法、Q学习算法和SARSA算法。Q学习算法要解决的是这样的问题：一个能感知环境的自治agent，怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人，在工厂中学习最优操作工序以及学习棋类对奕等。当agent在其环境中做出每个动作时，施教者会提供奖励或惩罚信息，以表示结果状态的正确与否。另外，SARSA算法是一种策略算法，它是将预测的算法扩展到控制学习中而形成，即是基于执行策略所获取的经验来更新函数，从而得到最优值。

可选地，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，根据强化学习算法中的SARSA算法的动作值函数Q和动作值函数Q的更新表达式，确定最优控制策略的函数，具体包括：

采用下述方式确定最优控制策略的函数：

Q(x_k,e_k，u_k)＝r(x_k,e_k，u_k)+V(x_k,e_k，u_k)， (9)

Q(x_k,e_k，u_k)←Q(x_k,e_k，u_k)+α[r_k+1+γQ(x_k+1,e_k+1,u_k+1)-Q(x_k,e_k，u_k)]，k≥0；(10)

其中，α为对新得到的信息覆盖旧信息的程度的学习率，γ为对未来回报的重视程度的折扣因子，x_k+1为第k+1时刻柔性机械臂的状态，e_k+1为第k+1时刻柔性机械臂的跟踪误差，u_k+1为第k+1时刻所需要的输入值，Q^*(x_k,e_k，u_k)为Q(x_k,e_k，u_k)的最优。

具体地，参见图2所示的SARSA算法的状态-动作对序列片段的示意图。根据图2可见x_k+1与x_k,u_k，r_k+1有关，x_k+2与x_k+1,u_k+1，r_k+2有关。即动作值函数Q的每次更新都与x_k,e_k，u_k，r_k+1，x_k+1,e_k+1,u_k+1的值有关。因此，通过SARSA算法可以考虑到当前输入值和下一个输入值的状态和跟踪误差，从而进一步有效地确定最优控制策略。

可选地，本发明实施例提供的上述柔性机械臂的轨迹规划方法中，根据最优控制策略的函数，确定性能指标函数的最小值，具体包括：

采用下述方式确定所述最小值：

具体地，在得到公式(8)时，进一步根据通过公式(11)确定最优控制策略函数的最优值。

因此，本发明实施例中基于SARSA算法，柔性机械臂可以通过不断的探索和试错学习来发现最优控制策略，从而不依赖运动学或动力学模型，更好地实现了对机械臂运动轨迹的跟踪。

另外，通过本发明实施例提供的柔性机械臂的轨迹规划方法步骤，进一步可以根据几个阶段进行描述，参见图3，在实现柔性机械臂的轨迹规划方法包括：

轨迹规划器02根据柔性机械臂的期望位姿和当前位姿，确定柔性机械臂运动轨迹的跟踪误差方程；根据柔性机械臂的状态和跟踪误差方程，确定柔性机械臂运动轨迹的代价函数，以及根据回报评价器对代价函数的更新，和对柔性机械臂的控制策略，确定柔性机械臂运动轨迹的性能指标函数；

柔性机械臂01在该控制策略下产生动作；

回报评价器03根据柔性机械臂01的运行环境和动作对柔性机械臂的轨迹进行评价，并将该评价情况反馈给轨迹规划器02。

例如，当柔性机械臂具有三个关节时，采用本发明实施例提供的柔性机械臂的轨迹规划方法后，并且在仿真模型中得到图4所示的轨迹跟踪示意图。从图4中可以看出，通过本发明实施例提供的柔性机械臂的轨迹规划方法，得到的柔性机械臂的有效跟踪，且当前位姿与期望位姿几乎一致。

综上，本发明实施例提供的柔性机械臂的轨迹规划方法，包括：根据机械臂的当前位姿和期望位姿，确定柔性机械臂运动轨迹的跟踪误差方程；根据柔性机械臂的状态和跟踪误差方程，确定柔性机械臂运动轨迹的代价函数；根据代价函数，和对柔性机械臂的控制策略，确定柔性机械臂运动轨迹的性能指标函数；基于强化学习算法确定使性能指标函数最小的最优控制策略，得到对期望运动轨迹的跟踪。因此，本发明实施例中的提供的柔性机械臂的轨迹规划方法，主要是采用强化学习算法确定的柔性机械臂规划的轨迹，且在采用强化学习算法时，主要是基于柔性机械臂运动轨迹的跟踪误差、柔性机械臂运动轨迹的代价函数和柔性机械臂的控制策略确定的性能指标函数，从而确定的最优轨迹规划，相比现有技术，不依赖于柔性机械臂的数学模型，而是通过强化学习算法通过不断的探索和试错学习来发现最优控制策略，从而为解决柔性机械臂的轨迹规划问题提供了一个新思路。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种柔性机械臂的轨迹规划方法，其特征在于，该方法包括：

根据柔性机械臂的当前位姿和期望位姿，确定所述柔性机械臂运动轨迹的跟踪误差方程；

2.根据权利要求1所述的方法，其特征在于，根据柔性机械臂的当前位姿和期望位姿，确定所述柔性机械臂运动轨迹的跟踪误差方程，包括：

采用下述公式确定所述跟踪误差方程：

e_{k} = y_{k} - {\hat{y}}_{k}, k &GreaterEqual; 0;

3.据权利要求2述的方法，其特征在于，根据柔性机械臂的状态和所述跟踪误差方程，确定所述柔性机械臂运动轨迹的代价函数，具体包括：

采用下述公式确定所述柔性机械臂运动轨迹的代价函数：

其中，

x_k为第k时刻所述柔性机械臂的状态，e_k为第k时刻所述机械臂的跟踪误差，P、S和R分别为对应的权重矩阵。

4.根据权利要求3述的方法，其特征在于，根据所述代价函数和对所述柔性机械臂的控制策略，确定所述柔性机械臂运动轨迹的性能指标函数，具体包括：

采用下述公式确定所述性能指标：

V (x_{k}, e_{k}) = \lim_{N &RightArrow; \infty} Σ_{k = 0}^{N - 1} r (x_{k}, e_{k}, u_{k}), u_{k} = h (x_{k}, e_{k}), k &GreaterEqual; 0;

其中，x_k为第k时刻所述柔性机械臂的状态，e_k为第k时刻所述柔性机械臂的跟踪误差，u_k为所述柔性机械臂的控制策略且作为第k时刻所需要的输入值。

5.根据权利要求4述的方法，其特征在于，基于强化学习算法确定使所述性能指标最小的最优控制策略，包括：

6.根据权利要求5所述的方法，其特征在于，根据强化学习算法中的SARSA算法的动作值函数Q和动作值函数Q的更新表达式，确定最优控制策略的函数，具体包括：

采用下述方式确定所述最优控制策略的函数：

h^{*} (x_{k}, e_{k}) = \arg_{u_{k}} m i n (Q^{*} (x_{k}, e_{k}, u_{k})), Q (x_{k}, e_{k}, u_{k}) = r (x_{k}, e_{k}, u_{k}) + V (x_{k}, e_{k}, u_{k}),

7.根据权利要求6所述的方法，其特征在于，根据所述最优控制策略的函数，确定所述性能指标函数的最小值，具体包括：

采用下述方式确定所述最小值：

\frac{\partial}{\partial u} Q^{*} (x_{k}, e_{k}, u_{k}) = 0.