CN109176532A

CN109176532A - 一种机械臂路径规划方法、系统及装置

Info

Publication number: CN109176532A
Application number: CN201811333508.8A
Authority: CN
Inventors: 刘智勇; 熊方舟; 张丰; 张丰一; 杨旭; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-01-11
Anticipated expiration: 2038-11-09
Also published as: CN109176532B

Abstract

本发明属于机器人技术领域，具体涉及一种机械臂路径规划方法、系统及装置，旨在解决从序贯式数据逐步建立序列模型而发生灾难性遗忘的问题。本发明方法包括，从多任务序列R中选取一个未经优化的任务R_i；基于任务R_i的局部策略p_i来生成成功抓取的样本轨迹集合D_m；基于D_m拟合线性高斯动力学模型；采用直接优化单一的局部策略的方法优化得到优化后的局部策略p¹ _i；基于p¹ _i生成成功抓取的样本轨迹集合D¹ _m；采用EWC算法，基于D¹ _m优化全局策略π_θ；重复上述步骤直至R任务被遍历，输出最后优化的到的全局策略π_θ，进行机械臂多任务下的路径规划。通过本发明从序贯式数据逐步建立序列模型而不发生灾难性的遗忘。

Description

一种机械臂路径规划方法、系统及装置

技术领域

本发明属于机器人技术领域，具体涉及一种机械臂路径规划方法、系统及装置。

背景技术

人类通常能够仅从单个的训练示例中正确的推广到其他任务中，为了能够做到这点，人类成功地利用先前学习任务中获得的知识，以偏向后续的学习。相反地，机器学习方法尚未成功设计出可以从非常小的数据集中很好的泛化的鲁棒学习算法。与大多数旨在单独学习单一功能的机器学习方法相比，自主学习解决了学习者面对学习任务流的情况。如果知识通过多个学习任务传递，这些场景提供了产生协同效应的机会。多任务学习是一种归纳迁移机制，利用额外的信息来提高当前任务的学习性能，包括提高泛化准确率，学习速度和已学习模型的可理解性。在序列多任务学习中，在学习当前任务时，会侧重于当前任务的信息，而倾向于遗忘之前任务的相关信息，学习了新的任务或数据会使先前的任务性能大幅下降。因此，存在着遗忘先前任务信息的问题。本发明提出应用强化学习的框架来解决自主学习的问题。

作为人工智能领域的核心组成部分，强化学习为了机器人领域提供了一个框架和一套工具，用于设计复杂且难以设计的行为以与现实世界进行交互。换句话说，强化学习使机器人能够通过试错自主地寻找最优行为。总的来说，强化学习是学习如何从状态映射到行为来使长期奖励信号最大化。

从学习过程中获得的初始经验来估计预期的长期奖励需要使用传统的方法，例如动态规划方法和时序差分方法。然而传统的方法不能满足机器人领域中高维连续的状态空间和行为空间的要求。强化学习中的策略搜索方法已经被广泛应用于机器人任务中。直接策略搜索能够有效的解决高维的复杂系统，但是这种方法需要足够多的样本。此外，尽管随着深度强化学习的发展，策略搜索仍然比较容易陷入局部次优解中。

引导式策略搜索(guided policy search,GPS)引入了轨迹优化来缓解样本问题，从而引导策略搜索远离局部最优解。这种方法主要了利用以轨迹为中心的优化来生成合适的样本，并引导学习过程来训练复杂的高维策略。然而，目前的GPS算法只能对不同的任务采用批量的模式来训练策略，并且会遇到增量数据处理的挑战。如果所有的训练任务是按序列给出，并且在早期训练时期不能集体给出所有训练任务，则GPS的方法将不起作用。

GPS方法可以针对单个任务的情况从流数据进行学习策略。大多数的强化学习算法，例如，Q-learning算法和Sarsa算法，只能在在线模式下针对一项任务工作。另一方面，有许多在线学习模型用于解决多任务问题。但是，GPS方法在不知道先验知识和特定的序列的情况下不能处理多个不同的学习任务。在没有灾难性遗忘的情况下持续学习的能力对于实现与现实世界的有效交互具有重要意义。例如，在机器人应用领域，算法必须满足强大的实时要求，这通常对在线学习场景提出了更高的要求。具体而言，机器人将被要求学习实时处理序列任务的技能，并迅速的适应动态环境。

GPS方法中的序列多任务学习问题可以被认为是自主学习问题的一部分，因为机器人旨在增加新的任务知识，同时在任务之间传递知识。自主学习被认为是有效的学习连续性任务的一般方法，已经为强化学习探索一段时间了。然而，当前的神经网络方法仍然无法完全实现持续学习，且存在与这种学习模式相关的灾难性遗忘问题。

因此，如何发明一种能够在线自主学习多任务的机械臂轨迹规划方法成为了亟需解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决从数据序列逐步建立序列模型而发生灾难性遗忘的问题，本发明的一方面，提出了一种机械臂路径规划方法，包括以下步骤：

步骤S1，从多任务序列R中选取一个未经优化的任务R_i；

步骤S2，基于R_i的先验的局部策略p_i来生成成功抓取的样本轨迹D_i＝τ_i，j，得到第一成功样本集合D_m，其中i为局部策略在全局策略中的编号，j为样本编号；

步骤S3，基于步骤S2的样本轨迹D_i拟合线性高斯动力学模型q_i(x_t+1|x_t，u_t)，其中x_t为时间步t下机械臂的状态，u_t表示根据全局策略所选择的动作；

步骤S4，采用直接优化单一的局部策略的方法对局部策略p_i进行优化得到优化后的局部策略p¹ _i；基于p¹ _i生成成功抓取的样本轨迹D¹ _i，得到第二成功样本集合D¹ _m；

步骤S5，采用EWC算法，基于D¹ _m优化全局策略π_θ；判断多任务序列R是否为空，为空时跳转步骤S6，不为空时将任务R_i从多任务序列R中去除并跳转步骤S1；

步骤S6，基于步骤S5输出优化后的全局策略π_θ进行机械臂多任务下的路径规划。

在一些优选的实施方式中，步骤S5中所采用的EWC算法，其公式如下：

其中，θ为当前任务R待学习的参数，θ_i为之前任务R_i待学习的参数，T为执行任务R_i的时间步总数，t时间步，D_KL(π_θ(u_t|x_t，m)||p_m(u_t|x_t，m))表示利用任务m收集到的样本对全局策略进行训练，π_θ(u_t|x_t，m)表示全局策略，u_t表示根据全局策略所选择的动作，x_t，m表示机械臂在t时刻的状态，p_m(u_t|x_t，m)表示任务m的局部策略，λ_i为超参数，m为当前任务，F_i为任务R_i的Fisher信息。

在一些优选的实施方式中，步骤S4中“直接优化单一的局部策略的方法”，其方法为LQR算法，公式为：

其中，E_pi为任务R_i在局部策略p_i下的损失函数的期望，T为执行任务R_i的时间步总数，t时间步，l(x_t，u_t)为预设的损失函数。

在一些优选的实施方式中，在步骤S1之前还包括步骤S0：

步骤S0，将局部策略初始化为空。

在一些优选的实施方式中，所述机械臂的状态包括机械臂相对于目标位置的关节角度、速度、末端执行器的位置。

本发明的另一方面，提出了一种机械臂路径规划系统，包括任务选择模块、第一样本提取模块、动力学模型拟合模块、局部策略优化模块、全局策略优化模块、路径规划模块；

所述任务选择模块，配置为从多任务序列R中选取一个未经优化的任务R_i；

所述第一样本提取模块，配置为基于R_i的先验的局部策略p_i来生成成功抓取的样本轨迹D_i＝τ_i，j，得到第一成功样本集合D_m，其中i为局部策略在全局策略中的编号，j为样本编号；

所述动力学模型拟合模块，配置为基于所述第一样本提取模块的样本轨迹D_i拟合线性高斯动力学模型q_i(x_t+1|x_t，u_t)，其中x_t为时间步t下机械臂的状态，u_t表示根据全局策略所选择的动作；

所述局部策略优化模块，配置为采用直接优化单一的局部策略的方法对局部策略p_i进行优化得到优化后的局部策略p¹ _i；基于p¹ _i生成成功抓取的样本轨迹D¹ _i，得到第二成功样本集合D¹ _m；

所述全局策略优化模块，配置为采用EWC算法，基于D¹ _m优化全局策略π_θ；判断多任务序列R是否为空，为空时跳转所述路径规划模块，不为空时将任务R_i从多任务序列R中去除并跳转所述任务选择模块；

所述路径规划模块，配置为基于步骤S5输出优化后的全局策略π_θ进行机械臂多任务下的路径规划。

在一些优选的实施方式中，所述全局策略优化模块中所采用的EWC算法，其公式如下：

其中，θ为当前任务R待学习的参数，θ_i为之前任务R_i待学习的参数，T为执行任务R_i的时间步总数，t时间步，D_KL(π_θ(u_t|x_t，m)||p_m(u_t|x_t，m))表示利用任务m收集到的样本对全局策略进行训练，π_θ(u_t|x_t，m)表示全局策略，u_t表示根据全局策略所选择的动作，x_t，m表示机械臂在t时刻的状态，p_m(u_t|x_t，m)表示任务m的局部策略，λ_i为超参数，m为当前任务的索引，F_i为任务R_i的Fisher信息。

在一些优选的实施方式中，所述局部策略优化模块中“直接优化单一的局部策略方法”，其方法为LQR算法，公式为：

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的机械臂路径规划方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的机械臂路径规划方法。

本发明能够有效地利用连续任务的信息，使机器人能够逐步完成新任务，而不会忘记先前学过的任务，实现了从数据序列逐步建立序列模型而不发生灾难性的遗忘，保证了全局策略优化的有效性，提升了路径规划的环境适应性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1本发明机械臂路径规划方法流程示意图；

图2是本发明的一个实施例的机械臂操作示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了从数据序列逐步建立序列模型而不发生灾难性的遗忘，即为了解决机器人在线持续学习多任务的问题，本发明基于序列多任务学习机制，以高效且可扩展的方式重新构建GPS方法。之前的GPS方法只能处理在早期的训练阶段同时提供来自所有任务的数据的情况，对连续任务的学习构成了不切实际的约束。通过利用和调整近期提出的弹性权重固化(Elastic Weight Consolidation,EWC)算法，本发明提出结合Fisher信息(Fisherinformation,FI)来保护以前任务的重要的权重，同时学习当前的新任务。本发明提出的序列多任务学习的方法在一定程度上能克服灾难性遗忘的问题。

为了更好的对本发明技术方案进行说明，下面对一些涉及到的概念进行说明。

强化学习中机器人的目标是在环境中寻找一个策略π以完成特定的任务。在每一个时间步t机器人观察一个状态x_t，然后根据策略π(u_t|x_t)选择一个动作u_t,根据动力学模型q(x_t+1|x_t，u_t)产生状态转移。

策略搜索方法旨在优化一个参数化的全局策略π_θ(u_t|X_t)。给定随机动态模型p(x_t+1|x_t，u_t)和损失函数l(x_t，u_t)，目标是最小化期待的损失：

其中，J(θ)为目标函数，为损失函数对全局策略求期望，T为总的时间步。

GPS算法主要是利用一系列局部策略p(u|x)以优化用深度神经网络表示的全局策略π_θ。这些局部策略用来生成能够引导策略搜索到高奖励区域的引导样本。最小的期望的损失函数可以被重新写为如下的约束问题：

其中，E_p[l(τ)]为损失函数对局部策略求期望，l(τ)为损失函数，τ为轨迹；为约束当前局部策略靠近全局策略。

根据先前任务的重要性，弹性权重固化算法应用神经网络来调整某些权重的学习过程。下面简单介绍一下这个算法。

假设有一系列要学习的任务，为了简单，仅考虑两个任务A和B。为了完成任A，机器人将采用基于梯度下降的方法来学习参数当考虑到任务B时，机器人需要训练参数θ来完成这两个任务。EWC算法通过优化参数θ将其保持在任务A的低错误区域(以为中心的附近区域)来保持任务A的知识。给定训练数据集D＝D_A∪D_B(其中，D_A和D_B分别表示任务A和任务B的训练数据)，条件概率w(θ|D)能够由先验概率w(θ)和数据的概率分布w(D|θ)计算得出：

logw(θ|D)＝logw(D_B|θ)+logw(θ|D_A)-logw(D_B)

EWC算法主要是为了最小化目标函数l(θ),

其中，损失函数l(θ)表示给定参数的数据的对数概率的负值；l_B(θ)表示任务B的损失函数；FI矩阵F_i携带了关于任务A的信息；θ_i代表了每一个神经网络的参数的集合；i表示任务的索引值；λ为预设的量化旧任务A和新任务B之间的相对重要性的参数。

一旦EWC算法已经学习到用于解决这两个任务的近似的参数θ，就转移到第三个新任务C。因此，上述公式再次用于学习新的参数，既可以完成新任务C，也可以保证神经网络的参数接近已完成的任务A和任务B的学习参数。

本发明主要引用了EWC算法中的FI矩阵，FI矩阵携带了之前任务的信息。引入FI矩阵后，在机械臂的序列式多任务学习中，可一定程度上克服灾难性遗忘的问题。

本发明实施例的一种机械臂路径规划方法，如图1所示，包括以下步骤：

步骤S1，从多任务序列R中选取一个未经优化的任务R_i；

图1中先基于任务1，学习的局部策略p1，生成全局策略c1，通过关键信息(包括神经网络的参数)提取，构成先前的信息m1；然后基于任务2，学习的局部策略p2，生成全局策略c2，通过关键信息(包括神经网络的参数)提取，构成先前的信息m2，并与已有先前的信息进行求和，更新先前的信息；后面任务3、····任务N依次执行，并在任务N的对应的优化步骤中获取最终的全局策略cN。

为了更清晰地对本发明机械臂路径规划方法进行说明，下面对本方发明方法一种实施例中各步骤进行展开详述。

本发明一个实施例的一种机械臂路径规划方法，包括以下步骤：

步骤S0，将局部策略初始化为空。

由于先前任务的缺失，因此将先前的局部策略初始化为空。

定义机器人操作系统的状态包括机械臂相对于目标位置的关节角度、速度和末端执行器的位置。

步骤S1，从多任务序列R中选取一个未经优化的任务R_i。

对于多任务序列，一般按照任务序列的排序进行顺次选择；也可以按照其他设定的顺序进行选择；或者通过排除法每次都从未选择过的任务中随机选择一个。各种方法的目的都是对各任务进行遍历，本质相同。

步骤S2，基于R_i的先验的局部策略p_i来生成成功抓取的样本轨迹D_i＝τ_i，j，得到第一成功样本集合D_m，其中i为局部策略在全局策略中的编号，j为样本编号。

本发明提出的直接优化单一的局部策略，这样就打破了全局策略与局部策略之间的限制关系，其中局部策略的优化不会被全局策略所影响。局部策略通常采用LQR(linear-quadratic regulators,LQR)算法进行优化。传统的GPS算法可以快速有效的训练全局策略。作为缺乏这些交互的补偿机制，本发明提出持续优化局部策略，直到它们能够在当前任务条件下完成任务为止。因此，本发明只选择由这些能够完成任务的轨迹生成的“成功的样本”以执行下一步。利用局部策略生成的成功的样本，可以很容易的将全局策略进行优化。本步骤通过执行局部策略p_i收集“成功的样本”，并将所有“成功的样本”的集合记作D_m。

步骤S3，基于步骤S2的样本轨迹D_i拟合线性高斯动力学模型q_i(x_t+1|x_t，u_t)，其中x_t为时间步t下机械臂的状态，u_t表示根据全局策略所选择的动作。

在拟合动力学模型时，可以使用先验来大大减少每次迭代所需要的样本数量。通用的方法是通过将背景动力学分布拟合为一种粗略的全局模型，在其他时间步和迭代中从样本构造先验。对于机器人等物理系统，这种分布的一个很好的选择是高斯混合模型(Gaussian Mixture Model,GMM),它对应于柔和的分段线性动力学模型。机器人的动力学模型可以通过这种分段线性函数合理的近似。动力学模型的拟合方法和多文献都有描述，此处不再进行详细阐述。

步骤S4，采用直接优化单一的局部策略的方法对局部策略p_i进行优化得到优化后的局部策略p¹ _i；基于p¹ _i生成成功抓取的样本轨迹D¹ _i，得到第二成功样本集合D¹ _m。

传统的GPS算法在增量式地学习策略时通常不能正常工作，因为传统的GPS算法需要学习具有全部任务条件的全局策略。传统GPS算法中全局策略与局部策略的交互结构限制了其在序列多任务学习模式中的应用。为了能够逐步学习任务，机器人应该能够在遇到新的任务条件时将全局策略与局部策略优化之间的相互影响分开。在线方法要求从每个单一的局部策略异步学习全局策略。因此，与传统的GPS算法不同，本发明提出直接优化单一的局部策略：

其中，为损失函数对局部策略求期望，T为执行任务R_i的时间步总数，t时间步，l(x_t，u_t)为预设的损失函数。

步骤S5，采用EWC算法，基于D¹ _m优化全局策略π_θ；判断多任务序列R是否为空，为空时跳转步骤S6，不为空时将任务R_i从多任务序列R中去除并跳转步骤S1。

机器人利用从步骤4中收集到的局部策略来优化全局策略。通过采用EWC算法的变体形式来完成不同任务条件下的优化。更确切地说，本发明使用能够完成任务的那些轨迹来生成成功的样本并使用样本集D_m来优化全局策略。这与传统的GPS算法不同，后者收集所有的样本来进行优化。此外，通过修改的EWC算法实现了在不同任务下持续学习的能力，其中融合了不同的FI矩阵，并对迄今为止遇到的任务条件进行求和操作。特别地，引入可变权重参数λ_i以测量不同任务条件的重要性，这与传统的EWC算法中设置参数λ为常数不同。本发明采用这个修改后的EWC算法来形式化全局策略的优化问题。

根据上式，本发明采用梯度下降方法训练一个神经网络来优化全局策略以使机器人能够持续学习不同的任务。这就相当于实现了序列多任务学习而不发生灾难性的遗忘。针对当前任务得到最优全局策略后，返回步骤1，针对下一任务进行全局策略的优化。

如图2所示，是本发明一种实施例的机械臂操作示意图，图示中的机械臂要分别将图中1、2、3处的物体抓取到4处，则对应的任务包括三个，对应上述方法需要进行三次任务迭代进行全局策略的优化。

本方发明的另一实施例的机械臂路径规划系统，包括任务选择模块、第一样本提取模块、动力学模型拟合模块、局部策略优化模块、全局策略优化模块、路径规划模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的机械臂路径规划系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的机械臂路径规划方法。

本发明第六实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的机械臂路径规划方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种机械臂路径规划方法，其特征在于，包括以下步骤：

步骤S1，从多任务序列R中选取一个未经优化的任务R_i；

2.根据权利要求1所述的机械臂路径规划方法，其特征在于，步骤S5中所采用的EWC算法，其公式如下：

3.根据权利要求1所述的机械臂路径规划方法，其特征在于，步骤S4中“直接优化单一的局部策略的方法”，其方法为LQR算法，公式为：

4.根据权利要求1-3任一项所述的机械臂路径规划方法，其特征在于，在步骤S1之前还包括步骤S0：

步骤S0，将局部策略初始化为空。

5.根据权利要求1-3任一项所述的机械臂路径规划方法，其特征在于，所述机械臂的状态包括机械臂相对于目标位置的关节角度、速度、末端执行器的位置。

6.一种机械臂路径规划系统，其特征在于，包括任务选择模块、第一样本提取模块、动力学模型拟合模块、局部策略优化模块、全局策略优化模块、路径规划模块；

7.根据权利要求6所述的机械臂路径规划系统，其特征在于，所述全局策略优化模块中所采用的EWC算法，其公式如下：

其中，θ为当前任务R待学习的参数，θ_i为之前任务R_i待学习的参数，T为执行任务R_i的时间步总数，t时间步，D_KL(π_θ(u_t|x_t，m)||p_m(u_t|x_t，m))表示利用任务m收集到的样本对全局策略进行训练，π_θ(u_t|x_t，m)表示全局策略，u_t表示根据全局策略所选择的动作，x_t，m表示机械臂在t时刻的状态，p_m(u_t|x_t，m)表示局部策略，λ_i为超参数，m为当前任务的索引，F_i为任务R_i的Fisher信息。

8.根据权利要求6所述的机械臂路径规划系统，其特征在于，所述局部策略优化模块中“直接优化单一的局部策略方法”，其方法为LQR算法，公式为：

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-5任一项所述的机械臂路径规划方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-5任一项所述的机械臂路径规划方法。