CN110394804A

CN110394804A - 一种基于分层线程框架的机器人控制方法、控制器及系统

Info

Publication number: CN110394804A
Application number: CN201910789411.6A
Authority: CN
Inventors: 宋锐; 权威; 李凤鸣; 李贻斌; 姬冰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-01
Anticipated expiration: 2039-08-26
Also published as: CN110394804B

Abstract

本公开提供了基于分层线程框架的机器人控制方法、控制器及系统。其中，该方法，包括确定目标工件位姿，引导机械臂移动至工件正上方，作为装配初始位置；调取任务层中待完成的装配任务，进而确定出与装配任务相关联的技能层中相应技能及相应技能关联的原语层中的装配状态参数；声明主网络及多个线程并初始化网络参数；线程包括采集线程和训练线程；利用采集线程采集与当前装配任务相关联的装配状态参数样本数据并存储至经验池，直至样本数量达到阈值时，同步启动训练线程，更新主网络；利用更新的主网络输出的结果来调整机械臂动作，判断是否完成装配任务，若是，则装配结束；否则，返回继续执行训练线程，直至完成装配任务。

Description

一种基于分层线程框架的机器人控制方法、控制器及系统

技术领域

本公开属于机器人控制领域，尤其涉及一种基于分层线程框架的机器人控制方法、控制器及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

目前，制造业越来越多地由大规模量产转向批量定置化生产，这推动了生产系统处理更多的产品变化、更短的生产周期和更小的批量。这种转变需要一种新型的柔性机器人来应对生产中的不确定性，以便适应新的工业环境。同时，需要车间的非专家对完成对生产不同产品的重新编程。

发明人发现，单纯采用深度学习等方法完成对机器人的训练需要较长的训练时间，或者费用较高的训练案例。

发明内容

为了解决上述问题，本公开的第一个方面提供一种基于分层线程框架的机器人控制方法，其设立采集样本线程与多个训练线程，提高了训练效率，减少训练总时间。

为了实现上述目的，本公开采用如下技术方案：

一种基于分层线程框架的机器人控制方法，包括：

确定目标工件位姿，引导机械臂移动至工件正上方，作为装配初始位置；

调取任务层中待完成的装配任务，进而确定出与装配任务相关联的技能层中相应技能及相应技能关联的原语层中的装配状态参数；

声明主网络及多个线程并初始化网络参数；线程包括采集线程和训练线程；训练线程的数量与装配任务相关联的技能个数相等；

利用采集线程采集与当前装配任务相关联的装配状态参数样本数据并存储至经验池，直至样本数量达到阈值时，同步启动训练线程，更新主网络；

利用更新的主网络输出的结果来调整机械臂动作，判断是否完成装配任务，若是，则装配结束；否则，返回继续执行训练线程，直至完成装配任务。

为了解决上述问题，本公开的第二个方面提供一种基于分层线程框架的机器人控制器，其设立采集样本线程与多个训练线程，提高了训练效率，减少训练总时间。

为了实现上述目的，本公开采用如下技术方案：

一种基于分层线程框架的机器人控制器，包括：

装配初始位置确定模块，其用于确定目标工件位姿，引导机械臂移动至工件正上方，作为装配初始位置；

装配任务分解模块，其用于调取任务层中待完成的装配任务，进而确定出与装配任务相关联的技能层中相应技能及相应技能关联的原语层中的装配状态参数；

网络初始化模块，其用于声明主网络及多个线程并初始化网络参数；线程包括采集线程和训练线程；训练线程的数量与装配任务相关联的技能个数相等；

主网络更新模块，其用于利用采集线程采集与当前装配任务相关联的装配状态参数样本数据并存储至经验池，直至样本数量达到阈值时，同步启动训练线程，更新主网络；

装配任务完成判断模块，其用于利用更新的主网络输出的结果来调整机械臂动作，判断是否完成装配任务，若是，则装配结束；否则，返回继续执行训练线程，直至完成装配任务。

本公开的第三个方面提供一种基于分层线程框架的机器人控制系统。

一种基于分层线程框架的机器人控制系统，包括上述所述的基于分层线程框架的机器人控制器。

本公开的有益效果是：

(1)本公开将装配任务、技能、装配状态分别分层存储至任务层、技能层和原语层中，而且声明主网络及多个线程，线程包括采集线程和训练线程；训练线程的数量与装配任务相关联的技能个数相等；多个线程互不干扰，相对于以往的网络可以提高更新收敛性、降低相关性。

(2)本公开设立采集样本线程与多个训练线程，提高了训练效率，减少训练总时间。

(3)本公开考虑到机器人技能学习，适用于当今生产环境中小批量多类型生产，能够应用于多种环境，减少更改实验场景时编程的工作量。

(4)本公开的机器人控制器及控制系统具有一定自主学习能力，可适应环境变化，有较好鲁棒性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的机器人控制场景；

图2是本公开实施例的实现装配操作的过程；

图3是本公开实施例的基于分层线程框架的机器人控制方法流程图；

图4是本公开实施例的网络训练过程；

图5是本公开实施例的基于分层线程框架的机器人控制器结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本实施例的基于分层线程框架的机器人控制方法的场景还包括视觉系统和机器人运动控制系统，其中，视觉系统和机器人运动控制系统均为现有结构。

例如：视觉系统可采用工业相机来实现；

机器人运动控制系统包括驱动装置、机械臂、工控机和工作台。

本实施例的场景如图1所示，实现装配操作的过程如图2所示，工业相机引导机械臂到达装配实验指定的初始位置，随后机械臂进行装配操作，储存经验池样本，进而训练网络参数，将网络输出的动作作为控制系统输入调整机械臂运动，从而实现装配操作。

在具体实施中，如图3所示，本实施例的基于分层线程框架的机器人控制方法，包括：

S101：确定目标工件位姿，引导机械臂移动至工件正上方，作为装配初始位置。

在具体实施中，首先构建机器人所在环境的坐标系，在确定坐标系下，确定目标工件的坐标信息以及工件自身的姿态信息。

然后，接收视觉引导系统发出的引导机械臂移动的信号，输出驱动信号至驱动装置中，由驱动装置驱动机械臂移动至工件的正上方，以当前的机械臂所在的位置作为装配初始位置。

S102：调取任务层中待完成的装配任务，进而确定出与装配任务相关联的技能层中相应技能及相应技能关联的原语层中的装配状态参数。

具体地，原语层：以简单直观的符号单位描述系统基本功能，比如装配状态参数，其中，装配状态参数包括但不限于机械臂六维力、位姿、关节角度和关节力矩这些参数。

技能层：由原语组成，不同技能间可嵌入或协调。

任务层：由完成目标所需的技能组成，嵌入了编程和计划功能，以及已保存的任务执行情况。

S103：声明主网络及多个线程并初始化网络参数；线程包括采集线程和训练线程；训练线程的数量与装配任务相关联的技能个数相等。

具体地，主网络采用Actor-Critic结构，Actor以装配状态参数为输入，从连续动作中按照一定的概率选取合适的动作action；Critic基于Actor的行为评判行为的得分。

各个训练线程均采用Actor-Critic结构，Actor以装配状态参数为输入，从连续动作中按照一定的概率选取合适的动作action；Critic基于Actor的行为评判行为的得分。

S104：利用采集线程采集与当前装配任务相关联的装配状态参数样本数据并存储至经验池，直至样本数量达到阈值时，同步启动训练线程，更新主网络。其具体训练过程如图4所示。

采集线程还采集装配过程中的状态、动作、奖励值以及下个状态并构成一组样本存入经验池。

在执行训练线程的过程中，训练线程从经验池中调取相应装配状态参数样本数据对相应技能进行训练。

各个线程将更新结果传递给主网络。

各个线程清空缓存，获取主网络最新参数，重复训练步骤。

S105：利用更新的主网络输出的结果来调整机械臂动作，判断是否完成装配任务，若是，则装配结束；否则，返回继续执行训练线程，直至完成装配任务。

本实施例将装配任务、技能、装配状态分别分层存储至任务层、技能层和原语层中，而且声明主网络及多个线程，线程包括采集线程和训练线程；训练线程的数量与装配任务相关联的技能个数相等；多个线程互不干扰，相对于以往的网络可以提高更新收敛性、降低相关性。

本实施例设立采集样本线程与多个训练线程，提高了训练效率，减少训练总时间。

本实施例考虑到机器人技能学习，适用于当今生产环境中小批量多类型生产，能够应用于多种环境，减少更改实验场景时编程的工作量。

实施例2

如图5所示，本实施例的一种基于分层线程框架的机器人控制器，包括：

(1)装配初始位置确定模块，其用于确定目标工件位姿，引导机械臂移动至工件正上方，作为装配初始位置；

(2)装配任务分解模块，其用于调取任务层中待完成的装配任务，进而确定出与装配任务相关联的技能层中相应技能及相应技能关联的原语层中的装配状态参数；

(3)网络初始化模块，其用于声明主网络及多个线程并初始化网络参数；线程包括采集线程和训练线程；训练线程的数量与装配任务相关联的技能个数相等；

主网络采用Actor-Critic结构，Actor以装配状态参数为输入，从连续动作中按照一定的概率选取合适的动作action；Critic基于Actor的行为评判行为的得分；

(4)主网络更新模块，其用于利用采集线程采集与当前装配任务相关联的装配状态参数样本数据并存储至经验池，直至样本数量达到阈值时，同步启动训练线程，更新主网络；

(5)装配任务完成判断模块，其用于利用更新的主网络输出的结果来调整机械臂动作，判断是否完成装配任务，若是，则装配结束；否则，返回继续执行训练线程，直至完成装配任务。

本实施例的机器人控制器具有一定自主学习能力，可适应环境变化，有较好鲁棒性。

实施例3

一种基于分层线程框架的机器人控制系统，包括上如图5所示的基于分层线程框架的机器人控制器。

本实施例的控制系统具有一定自主学习能力，可适应环境变化，有较好鲁棒性。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于分层线程框架的机器人控制方法，其特征在于，包括：

2.如权利要求1所述的基于分层线程框架的机器人控制方法，其特征在于，原语层中的装配状态参数包括机械臂六维力、位姿、关节角度和关节力矩。

3.如权利要求1所述的基于分层线程框架的机器人控制方法，其特征在于，主网络采用Actor-Critic结构，Actor以装配状态参数为输入，从连续动作中按照一定的概率选取合适的动作action；Critic基于Actor的行为评判行为的得分。

4.如权利要求1所述的基于分层线程框架的机器人控制方法，其特征在于，采集线程还采集装配过程中的状态、动作、奖励值以及下个状态并构成一组样本存入经验池。

5.如权利要求1所述的基于分层线程框架的机器人控制方法，其特征在于，在执行训练线程的过程中，训练线程从经验池中调取相应装配状态参数样本数据对相应技能进行训练。

6.如权利要求1所述的基于分层线程框架的机器人控制方法，其特征在于，各个训练线程均采用Actor-Critic结构，Actor以装配状态参数为输入，从连续动作中按照一定的概率选取合适的动作action；Critic基于Actor的行为评判行为的得分。

7.一种基于分层线程框架的机器人控制器，其特征在于，包括：

8.如权利要求7所述的基于分层线程框架的机器人控制器，其特征在于，主网络采用Actor-Critic结构，Actor以装配状态参数为输入，从连续动作中按照一定的概率选取合适的动作action；Critic基于Actor的行为评判行为的得分；

9.如权利要求7所述的基于分层线程框架的机器人控制器，其特征在于，采集线程还采集装配过程中的状态、动作、奖励值以及下个状态并构成一组样本存入经验池。

10.一种基于分层线程框架的机器人控制系统，其特征在于，包括如权利要求7-9中任一项所述的基于分层线程框架的机器人控制器。