CN111618862A

CN111618862A - 一种先验知识引导下的机器人操作技能学习系统及方法

Info

Publication number: CN111618862A
Application number: CN202010535605.6A
Authority: CN
Inventors: 宋锐; 李凤鸣; 李贻斌; 王艳红; 刘义祥
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-04
Anticipated expiration: 2040-06-12
Also published as: CN111618862B

Abstract

本公开提出了一种先验知识引导下的机器人操作技能学习系统及方法，包括：物理环境模块、评价模块及机器人操作技能策略学习模块；物理环境模块采集机器人作业环境信息及当前的操作状态；评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值；机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习，建立操作接触状态与机械臂动作一一映射的专家知识库，输出机器人动作决策。有效提高学习效率，降低学习难度。

Description

一种先验知识引导下的机器人操作技能学习系统及方法

技术领域

本公开属于机器学习技术领域，尤其涉及一种先验知识引导下的机器人操作技能学习系统及方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

强化学习已经成为机器人操作技能学习的主要方法，它通过模仿人类的学习方式，在不进行显式教学的情况下，利用传感器反馈信息，通过不断地与环境交互，得到外部的奖励或惩罚信号，适应不断变化的环境，采取适当的动作。

但是发明人在研究中发现，目前的大部分学习方法完全是从零开始探索，训练时间较长，使得机器人技能学习的效率下降。

发明内容

为克服上述现有技术的不足，本公开提供了一种先验知识引导下的机器人操作技能学习系统，将专家经验知识和操作操作工艺规则的先验知识应用于强化学习的方法，减少机器人操作技能学习过程中的无效探索，有效提高学习效率，降低学习难度。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

一方面，公开了一种先验知识引导下的机器人操作技能学习系统，包括：

物理环境模块、评价模块及机器人操作技能策略学习模块；

所述物理环境模块采集机器人作业环境信息及当前的操作状态；

所述评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值；

所述机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习，建立操作接触状态与机械臂动作一一映射的专家知识库，输出机器人动作决策。

另一方面，公开了一种先验知识引导下的机器人操作技能学习方法，包括：

采集机器人作业环境信息及当前的操作状态；

利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值；

基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习，建立操作接触状态与机械臂动作一一映射的专家知识库，输出机器人动作决策。

以上一个或多个技术方案存在以下有益效果：

本公开技术方案结合反馈探索策略，将专家经验知识和操作工艺规则的先验知识应用于机器人操作技能学习过程中，有效提高学习效率，降低学习难度。

本公开技术方案结合操作工艺规则的评价体系，可以根据规则进行灵活调整，有利于提高机器人操作任务的灵活性。

本公开技术方案操作技能学习模块主要解决机器人遇到未知的装配状态时，能够通过自主探索学习并找到接下来要执行的动作。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例机器人操作技能学习系统框架图；

图2为本公开实施例先验知识引导下的机器人操作操作技能学习方法框架图；

图3为本公开实施例基于深度策略梯度算法训练流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种先验知识引导下的机器人操作技能学习系统，将专家经验知识和操作操作工艺规则的先验知识应用于强化学习的方法，减少机器人操作技能学习过程中的无效探索，有效提高学习效率，降低学习难度。

图1所示的机器人操作技能学习系统，分为物理环境模块、评价模块、机器人操作技能策略学习模块、数据存储区四部分，其中物理环境模块包括机器人、控制器、传感系统(包括视觉系统、力觉系统、关节传感系统等)。传感系统主要采集机器人作业环境的主要信息，包括：机械臂的末端接触力、机械臂的运动状态、当前装配工件的图像，评价模块是利用操作操作工艺的先验知识对以往机器人探索操作策略的表现进行评价，指导调整机制，从而调整策略学习过程。传感系统输出的图像、力/力矩、位移、关节角度、关节速度等参数作为当前的操作状态，与机器人当前执行的动作、评价体系给出的奖励值组成多元组数，存入数据操作区。技能学习模块主要负责操作策略的学习，给出机器人动作决策。

本公开实施例子提出的先验知识包括专家经验和操作工艺规则。专家经验是指通过人为设定操作过程中的多种典型接触状态与机械臂动作，借助多次实验采集大量样本通过学习训练，从而建立的操作接触状态与机械臂动作一一映射的专家知识库。操作工艺规则主要是指根据操作工艺设定的操作质量，通过建立影响操作质量的位姿偏移量、操作深度、操作接触力等参数模型，从而得到的操作参数与操作质量之间的规则。算法具体框架如图2所示，评估网络即装配状态值网络，主要是用来计算当前动作的Q值，巨册网络也是策略网络，主要是根据当前的状态，选择机械臂下一步要执行的动作。

系统从数据存储区获取多元组数，首先判断取出的操作状态是否存在基于人类经验的专家知识库，如果是，根据专家经验直接映射到机器人的操作动作；如果不是，输入到策略网络中计算状态值函数，根据状态值函数的值来选择机器人下一步的执行动作。其中，策略网络是针对机器人装配动作选择策略μ的拟合构建的网络模型。

算法执行步骤为：

步骤1：通过传感系统将作业环境信息放入数据存储区D＝{e₁,e₂…e_t}，其中e_t＝(s_t,a_t,r_t,s′_t)，表示每个时间步t的转移样本。s_t表示从操作作业环境获得的操作状态，a_t表示机械臂的执行动作，r_t表示评价体系输出的奖励值，s′_t表示机械臂执行完动作后的操作状态。

步骤2：从数据存储区取出数据样本，将取出的样本中的s_t，首先输入到知识库，采用SVDD新类识别的方法，判断是否是库中已有状态。如果是，直接根据专家经验知识库，发送出机械臂的动作a_t传给控制器，转到步骤4。如果不是，转到步骤3。

步骤3：从数据存储区取出四元组数，将操作状态作为输入数据，输入到建立的深度策略网络模型中，将机器人的对应的操作动作输出，并同时将此四元组中的操作状态和动作值输入到状态-动作值评论家网络中，计算出状态-动作值Q，输出机器人动作。

策略网络用来评价选择的装配动作的好坏。策略网络的输入是结合经验池中的e_t＝(s_t,a_t,r_t,s′_t)，输入是当前的装配状态、，输出是动作值，选择CNN的网络结构。状态-动作值网络是计算Q值函数的网络，，主要是为了计算选择的装配动作的Q值，利用Q值来判断选择的装配动作的优劣。

步骤4：将得到的动作执行指令通过控制器输出给机器人，机器人执行动作。

步骤5：机器人执行动作后，根据评价体系对机器人执行动作的策略进行评价，并把评价奖赏值r传给数据存储区。

在该实施例子中，传感系统由视觉传感器、六维力传感器、关节传感器组成，视觉提供当前操作环境图像，预处理成特征矩阵P，六维力传感器安装在机械臂末端，用来获得零部件之间的操作力F和力矩信息M。通过关节传感器获得机械臂的运动状态R，包括关节角度、角速度、关节扭矩等。上述信息作为装配状态的描述[P F M R]。

专家模型对应操作状态-机械臂动作的映射关系，映射关系的建立通过极限学习机的方法得到，具体的步骤为：

2-1设定机械臂末端的初始位置，执行操作过程，记录操作状态s_t；

2-2调整机械臂动作，使机械臂完成操作任务，记录调整过程中的操作状态s_t以及执行动作a_t；

2-3采集多组操作状态—机械臂调整动作的数据，采用极限学习机的方法，经过训练得到专家知识模型，知识库建立在分类学习模型的基础上的。

步骤3中

本步骤涉及基于深度策略梯度算法，训练流程如图3所示。步骤3描述的训练过程是这个网络参数的更新过程。评估网络也可以成为状态值网络，决策网络也成为策略网络。

3-1当前状态动作值Q值定义为：

Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))]

μ表示经过训练后得到的最优策略，s_t为当前装配状态，a_t机械臂装配动作，执行策略μ，s_t+1为执行完动作a_t后的下一装配状态。Q^μ(s_t,a_t)表示t时刻在策略μ下机械臂选择执行动作a_t后的长期累积奖励，Q^μ(s_t+1,μ(s_t+1)表示下一时刻即t+1的长期累积奖励。

3-2设Q网络的损失函数为：

其中，y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')，N表示经验池中四元组的数目。

3-3计算策略网络的梯度

其中，γ是折扣因子。

该步骤解释了策略梯度的方法，主要来更新网络参数，优化目标函数，使得损失函数收敛。

3-4采用Adam优化状态值网络和策略网络的参数，对应的目标网络均采用软策略进行更新参数，保证算法的稳定性。

状态值网络主要根据计算的Q值选择执行动作a_t，策略网络是评价当前选择的a_t的好坏。

θ′←τ·θ+(1-τ)·θ′

其中，τ＝0.001，θ为当前网络参数，θ′为目标网络参数。

评价模块通过嵌入操作工艺规则的先验知识来设置，考虑更多的因素，描述更复杂的奖励逻辑。设定奖励r＝r₁+r₂，其中r₁为每集结束时奖励agent成功完成操作任务的正奖励，r₂为每步惩罚操作任务速度低、接触力大的负奖励。设操作任务可以通过M个时间步长成功完成，且接触力不超过安全边界时，则agent可以获得限制在[0，+1)内，于是有

其中，K是当前装配步长，K_max是给定的最大步长。

奖励r₂与接触力/力矩有关，结合操作任务工艺，将操作任务质量分为成功，较好，非常好，较差，失败五种类型，建立接触力/力矩-质量评价规则库，设定r₂∈[-1,0)，输出负奖励为-1，对应于最坏输入的最大惩罚，其中机器人在这个时间步长执行最坏的操作策略。利用先验知识对以往操作策略的表现进行评价，指导调整机制，从而调整策略探索过程。

另一实施例子中，公开了一种先验知识引导下的机器人操作技能学习方法，包括：

采集机器人作业环境信息及当前的操作状态；

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种先验知识引导下的机器人操作技能学习系统，其特征是，包括：

物理环境模块、评价模块及机器人操作技能策略学习模块；

2.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述物理环境模块包括：

传感系统，采集机器人作业环境的主要信息，其中，采集的图像、力或力矩、位移、关节角度、关节速度参数作为当前的操作状态。

3.如权利要求2所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，还包括数据存储区，将传感系统输出的机器人当前的操作状态、机器人当前执行的动作、评价模块给出的奖励值组成多元组数，进行存储。

4.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述评价模块通过设定操作过程中的多种典型接触状态与机械臂动作，采集大量样本通过学习训练，从而建立的操作接触状态与机械臂动作一一映射的专家知识库。

5.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述评价模块根据操作工艺设定操作质量，通过建立影响操作质量的位姿偏移量、操作深度、操作接触力参数模型，得到操作参数与操作质量之间的规则。

6.如权利要求3所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述机器人操作技能策略学习模块从数据存储区获取多元组数，首先判断取出的操作状态是否存在专家知识库，如果是，根据专家知识库存储的数据直接映射到机器人的操作动作；如果不是，输入到策略网络中计算状态值函数，根据状态值函数的值来选择机器人下一步的执行动作。

7.如权利要求3所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述传感系统由视觉传感器、六维力传感器、关节传感器组成，所述视觉传感器采集机器人当前操作环境图像，预处理成特征矩阵；

所述六维力传感器安装在机械臂末端，用来获得零部件之间的操作力和力矩信息；

所述关节传感器用于获得机械臂的运动状态，包括关节角度、角速度、关节扭矩。

8.一种先验知识引导下的机器人操作技能学习方法，其特征是，包括：

采集机器人作业环境信息及当前的操作状态；

9.如权利要求8所述的一种先验知识引导下的机器人操作技能学习方法，其特征是，所述输出机器人动作决策时，取出数据样本，将取出的样本中的操作状态，首先输入到专家知识库，采用类识别的方法，判断是否是库中已有状态，如果是，直接根据专家经验知识库，发送出机械臂的动作传给控制器；

如果不是，从数据存储区取出四元组数，将操作状态作为输入数据，输入到建立的深度策略网络模型中，将机器人的对应的操作动作输出，并同时将此四元组中的操作状态和动作值输入到状态-动作值评论家网络中，计算出状态-动作值，输出机器人动作。

10.如权利要求8所述的一种先验知识引导下的机器人操作技能学习方法，其特征是，建立操作接触状态与机械臂动作一一映射的专家知识库时：

设定机械臂末端的初始位置，执行操作过程，记录操作状态；

调整机械臂动作，使机械臂完成操作任务，记录调整过程中的操作状态以及执行动作；

采集多组操作状态—机械臂调整动作的数据，采用极限学习机的方法，经过训练得到专家知识模型。