CN111015676A

CN111015676A - 基于无手眼标定的抓取学习控制方法、系统、机器人及介质

Info

Publication number: CN111015676A
Application number: CN201911296308.4A
Authority: CN
Inventors: 欧勇盛; 李纪庆; 徐升; 王志扬; 熊荣; 陈凯; 金少堃; 彭远哲; 吴新宇; 其他发明人请求不公开姓名
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-17
Anticipated expiration: 2039-12-16
Also published as: CN111015676B

Abstract

本发明公开了一种基于无手眼标定的抓取学习控制方法，包括：获取机器人完成示教任务过程中的运动数据的样本；利用采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵；获取机器人当前末端位姿和当前像素坐标，结合期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据以用于控制机器人完成抓取任务。本发明还公开了一种基于无手眼标定的抓取学习控制系统。本发明还公开了一种采用上述基于无手眼标定的抓取学习控制系统的机器人。本发明也公开了一种计算机可读存储介质。本发明的基于无手眼标定的抓取学习控制方法，示教方便、结构简单、无需标定且适应能力强，具有较强的应用前景。

Description

基于无手眼标定的抓取学习控制方法、系统、机器人及介质

技术领域

本发明涉及机器人伺服图像控制领域，具体地，涉及一种基于无手眼标定的抓取学习控制方法、系统、机器人及介质。

背景技术

随着机器人技术的发展，机器人越来越多的融入到人类的生活和工作中，代替人类完成各种作业。在现阶段的机器人的应用中，尤其是工业应用中，在机器人上部署视觉系统，对机器人的手眼关系进行精准校准是非常重要的一步。但是进行手眼标定需要耗费大量的时间，并且如果机器人和相机的相对位置发生偏差，机器人的作业任务将可能出现失败，更严重的会导致事故发生。为了消除手眼位置偏差带来的不利影响，机器人的部署和维护需要专业人士进行大量的工作。在小批量多品种生产线中，维护和部署时的停工停线使得生产线的使用非常繁琐且导致生产效率低下。如果能降低机器人部署和维护的门槛和时间，将给机器人的广泛应用和普及带来极大的促进作用。

发明内容

为解决上述现有技术存在的问题，本发明提供了一种基于无手眼标定的抓取学习控制方法、系统、机器人及介质。

为了达到上述发明目的，本发明采用了如下的技术方案：

根据本发明的一方面，提供了一种基于无手眼标定的抓取学习控制方法，所述抓取学习控制方法包括：

获取机器人完成示教任务过程中的运动数据的采样样本；

利用所述采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵；

获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据以用于控制机器人完成抓取任务。

进一步地，所述利用所述采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵的方法包括：

利用所述采样样本进行学习，通过数据驱动方法对所述采样样本进行建模，获得所建模型中抓取成功概率最大的像素坐标作为期望像素坐标；

利用所述采样样本和所述期望像素坐标，通过多层超限学习机对所述采样样本进行建模，从而获得像素偏差与机械臂末端速度的变换关系矩阵。

进一步地，所述利用所述采样样本进行学习，通过数据驱动方法对所述采样样本进行建模，获得所建模型中抓取成功概率最大的像素坐标作为期望像素坐标的方法包括：

用高斯混合模型对所述采样样本中成功抓取的概率密度构建概率密度模型；

获取使所述概率密度模型的成功抓取的概率最高的像素坐标作为期望像素坐标。

进一步地，所述利用所述采样样本和所述期望像素坐标，通过多层超限学习机对所述采样样本进行建模，从而获得像素偏差与机械臂末端速度的变换关系矩阵的方法包括：

采用多层超限学习机对机械臂末端速度控制数据与像素偏差之间的映射关系构建映射模型；所述映射模型包括输出层的权值；

利用所述采样样本和所述期望像素坐标对所述映射模型进行训练，获得最优的输出层的权值；

将所述最优的输出层的权值代入所述映射模型获得像素偏差与机械臂末端速度的变换关系矩阵。

进一步地，获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标和所述像素偏差与机械臂末端速度的变换关系矩阵，且还结合自适应控制系数生成机械臂末端速度控制数据以用于控制机器人完成抓取任务。

进一步地，所述自适应控制系数通过模糊逻辑控制法获得。

进一步地，所述模糊逻辑控制法包括：

构建模糊逻辑控制单元；其中，所述模糊逻辑控制单元包括隶属函数、模糊规则库以及解模糊类型；

求像素偏差的二范数、求所述像素偏差的二范数的导数作为模糊逻辑控制单元的两个输入；

根据所述两个输入计算模糊逻辑控制单元的隶属函数的重心加权平均值获得自适应控制系数。

进一步地，所述获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据以用于控制机器人完成抓取任务的方法包括：

获取机器人当前末端位姿和待抓取物体的当前像素坐标；

计算所述当前像素坐标和所述期望像素坐标之间的偏差获得像素偏差；

根据所述像素偏差、所述像素偏差与机械臂末端速度的变换关系矩阵生成机械臂末端速度控制数据；

根据所述机械臂末端速度控制数据控制机器人完成抓取任务。

根据本发明的另一方面，还提供了一种基于无手眼标定的抓取学习控制系统，所述控制系统包括处理器以及与所述处理器连接的存储器，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求上述的抓取学习控制方法。

根据本发明的又一方面，还提供了一种机器人，所述机器人包括：相机、传感组件、驱动电路和基于无手眼标定的抓取学习控制系统，所述相机、所述传感组件、和驱动电路分别与所述基于无手眼标定的抓取学习控制系统连接；

其中，所述相机用于获取待抓取物体的当前像素坐标；

所述传感组件用于获取机器人的当前末端位姿；

所述基于无手眼标定的抓取学习控制系统用于获取机器人完成示教任务过程中的运动数据的采样样本；并利用所述采样样本进行学习，获得期望像素坐标和像素偏差与机械臂末端速度的变换关系矩阵；且获取机器人当前末端位姿和当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据；

所述驱动电路用于响应所述机械臂末端速度控制数据以控制机器人完成抓取任务；

其中，所述基于无手眼标定的抓取学习控制系统为上述的抓取学习控制系统。

根据本发明的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序数据，所述程序数据被执行时实现如上述的抓取学习控制方法。

本发明的有益效果：本发明通过事先控制机器人完成示教任务，采集示教任务中的运动数据的采样样本，通过采样样本学习获得期望像素坐标和像素偏差与机械臂末端速度的变换关系矩阵，从而无需人为设定期望的像素坐标，机器人可以通过采样样本自主学习正确的抓取位置，无需对机器人系统进行事先的手眼标定，通过采样样本便可以求取像素偏差与机械臂末端速度的变换关系矩阵，示教方便、结构简单、无需标定且适应能力强。

附图说明

通过结合附图进行的以下描述，本发明的实施例的上述和其它方面、特点和优点将变得更加清楚，附图中：

图1是本发明的实施例的基于无手眼标定的抓取学习控制方法的流程示意图；

图2是本发明的实施例的步骤S200的流程示意图；

图3是本发明的实施例的步骤S210的流程示意图；

图4是本发明的实施例的步骤S220的流程示意图；

图5是本发明的实施例的多层超限学习机的模型示意图；

图6是本发明的实施例的单个超限学习机的结构示意图；

图7是本发明的实施例的模糊逻辑控制单元的模糊规则库；

图8是本发明的实施例的步骤S300的流程示意图；

图9是本发明的实施例的基于无手眼标定的抓取学习控制系统的结构示意图；

图10是本发明的实施例的机器人的结构示意图；

图11是本发明的实施例的计算机可读存储介质的结构示意图。

具体实施方式

以下，将参照附图来详细描述本发明的实施例。然而，可以以许多不同的形式来实施本发明，并且本发明不应该被解释为限制于这里阐述的具体实施例。相反，提供这些实施例是为了解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够理解本发明的各种实施例和适合于特定预期应用的各种修改。在附图中，为了清楚起见，可以夸大元件的形状和尺寸，并且相同的标号将始终被用于表示相同或相似的元件。

将理解的是，尽管在这里可使用术语“第一”、“第二”等来描述各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开来。

本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

需要首先说明的是，本申请所提供的技术方案可应用于机器人上，本申请所述的机器人包括但不局限于机械臂、人形机器人等一系列带有关节、连杆等结构的机器人产品。通常关节、连杆等结构末端连接有末端执行器，通过改变关节结构的角度可实现伸缩、并通过末端执行器的辅助完成抓取等动作。本申请所提供的技术方案中机器人的关节结构装有相机，相机可装于关节结构的末端，也可装于关节结构的外部，在本申请的实施例中，相机安装于关节机构的末端用于获取待抓取物品的当前像素坐标。本申请所提供的机器人还安装有传感组件，用于获取机械臂各关节角度、关节结构末端的位置数据等。

图1是本发明的实施例的基于无手眼标定的抓取学习控制方法的流程示意图。

参见图1可知，本申请的实施例的基于无手眼标定的抓取学习控制方法的方法包括：

S100、获取机器人完成示教任务过程中的运动数据的采样样本；

其中，示教任务是指预先给出示教动作(无论是人类动作还是人类控制机器人运动)和示教力的过程。完成示教任务的方法有很多，在本实施例中，采用对机器人进行抓取作业示教的方法，即人类对机器人“教学”如何操作任务的过程，人类示教者手把手拖曳机器人的末端执行器去执行抓取任务，通过这一过程将人的操作技能传递给机器人。可以理解的是，在其它实施方式中，完成示教任务的方法还可以包括远程操纵(即人类示教者通过遥控器或示教器对机器人进行操纵)、运动捕捉系统或数据手套(即人类示教者亲自完成抓取任务，由运动捕捉器或数据手套等设备采集数据)等，本发明对此不做限制。

运动数据是指机器人完成示教任务过程中，机械臂末端位姿、机械臂各关节角度和机器人安装的相机所获取的待抓取物体的当前像素坐标等。在本实施例中，机器人通过自带的传感组件(运动感知系统)和相机，按照采样时间间隔对机器人的机械臂末端位姿、机械臂各关节角度、待抓取物体的当前像素坐标等信息进行采样，从而获取一系列采样样本：

其中i_a是整数，i_a＝1,...,N_traj；N_traj表示进行示教任务的次数；

k_a是整数，

表示完成第i_a次示教任务过程中所采集的采样点的个数。

表示第i_a次示教任务中第k_a个采样点采集的待抓取物体的当前像素坐标。当前像素坐标是指采样时，相机所捕获的图片中，待抓取物体上的特征点在相机所捕获的图片的二维坐标系中的坐标，也就是说相机捕获的图片相当于一个二维的图像坐标系(具有U、V坐标轴)，采样时获取待抓取物体上的特征点在这个二维坐标系中的坐标。

表示第i_a次示教任务中第k_a个采样点采集的动作数据。具体地，

其中，

表示第i_a次示教任务中第k_a个采样点的末端位姿。其中，末端位姿是指机械臂末端在基坐标系中的坐标。基坐标系是指以机器人的机械臂基座为原点，构建的具有X、Y、Z三个方向的三维坐标系，末端位姿是指机器人的机械臂末端在所构建的三维坐标系的X、Y、Z坐标轴上的坐标以及绕X、Y、Z坐标轴上的三个旋转角，又称欧拉角。

表示第i_a次示教任务中第k_a个采样点的速度信息。具体地，

δt_a为采样时间间隔。

步骤S200、利用所述采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵。

在步骤S200中，利用步骤S100采集的采样样本，应用数据驱动的建模方法(如线性回归、神经网络、支持向量机等)建立数据驱动的模型，学习和表征机器人的手眼关系和像素坐标系下的抓取位置，从而计算最佳的像素坐标作为期望像素坐标，因此机器人视觉伺服系统的手眼关系无需专业人士进行标定。通过收集的采样样本，利用快速学习算法对动作数据和像素坐标的映射关系进行建模，获得像素偏差与机械臂末端速度的变换关系矩阵。

步骤S300、完成步骤S100和步骤S200之后，机器人可以进行抓取任务的复现，机器人进行抓取任务时，获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据以用于控制机器人完成抓取任务。

在步骤S300中，已求出期望像素坐标和像素偏差与机械臂末端速度的变换关系矩阵，在实际完成抓取任务的过程中，在采样时刻获取机器人的当前末端位姿和待抓取物体的当前像素坐标，计算期望像素坐标和当前像素坐标之间的偏差获得像素偏差，通过像素偏差以及像素偏差与机械臂末端速度的变换关系矩阵生成机械臂末端速度控制数据以改变机器人的当前末端位姿，使机器人逼近待抓取物体从而完成抓取任务。

图2是本发明的实施例的步骤S200的流程示意图。

参考图2所示，步骤S200包括：

S210、利用所述采样样本进行学习，通过数据驱动方法对所述采样样本进行建模，获得所建模型中抓取成功概率最大的像素坐标作为期望像素坐标。

步骤S210是期望像素坐标(抓取点)的学习阶段，通过数据驱动的方法对所述采样样本进行建模学习。即通过建模学习从采样样本中成功抓取目标的概率密度，获得所建模型中抓取成功概率最大的像素坐标作为期望像素坐标，以用于下一步的伺服控制参考。

S220、利用所述采样样本和所述期望像素坐标，通过多层超限学习机对所述采样样本进行建模，从而获得像素偏差与机械臂末端速度的变换关系矩阵。

步骤S220是像素偏差与机械臂末端速度的变换关系的学习阶段，即通过步骤S210求出的期望像素坐标，计算每个采样点的期望像素坐标与当前像素坐标的偏差即像素偏差，构建像素偏差、机械臂末端速度控制数据、像素偏差与机械臂末端速度之间的映射关系的模型。基于图像视觉伺服控制的目标是为了逼近期望像素坐标，也就是使像素偏差逼近于0。求得像素偏差与机械臂末端速度的映射关系，以获得使像素偏差逼近于0的机械臂末端速度控制数据(改变机器人末端速度)，从而指导下一时刻的机器人的运动方向。

图3是本发明的实施例的步骤S210的流程示意图。

参见图3所示，步骤S210包括：

S211、用高斯混合模型对所述采样样本中成功抓取的概率密度构建概率密度模型；

在步骤S211中，我们定义成功抓取的参数是G＝[g_pas,g_hei]，其中g_pas＝s^*表示采样样本中的抓取像素坐标矩阵，抓取像素坐标是指：在采样样本中，成功抓取物体的情况下，在关闭手爪时，待抓取物体在图像坐标系中的坐标。采样样本中所有的抓取位置构成抓取像素坐标矩阵。g_hei表示与g_pas＝s^*对应的抓取高度。抓取高度是指机器人抓取物体时，机械臂末端位姿数据相对于机器人的基坐标系的Z坐标轴的分量，称为抓取高度。抓取高度太高，即机械臂末端在待抓取物体的上方，无法抓取物体；抓取高度太低，机械臂末端容易碰撞物体或者台面，导致机器人损坏或者抓取失败等其他风险。g_hei表示与g_pas＝s^*对应的抓取高度，即采样样本中，所有成功抓取物体时的抓取高度构成的矩阵。

采用高斯混合模型来建模这些从示教任务中收集的成功抓取目标的概率密度形成概率密度模型。通过采样样本训练得到的抓取空间模型表示为S_grasp，它包含K_b个高斯核，即

其中

表示第k_b个高斯核中的权重；

表示第k_b个高斯核中的均值，

表示第k_b个高斯核中的方差。

接着，采用期望最大值算法(EM)求解参数

最优的高斯核数目K_b通过贝叶斯信息准则(BIC)计算得到。

从而，成功抓取的概率密度模型构建为：

其中，

为一维高斯分布的概率密度函数，

S212、获取使所述概率密度模型的成功抓取概率最高的像素坐标作为期望像素坐标。

对于每个抓取都会根据成功抓取的概率密度模型的概况计算出一个值，根据这个值可以判断成功抓取物体的可能性。

具体地，通过计算argmax_GP(G|S_grasp)，求得在抓取空间模型S_grasp中使概率密度模型的值最高的像素坐标，该坐标即为我们所求的期望像素坐标。

图4是本发明的实施例的步骤S220的流程示意图。

参照图4所示，步骤S220包括：

S221、采用多层超限学习机对机械臂末端速度控制数据与像素偏差之间的映射关系构建映射模型；所述映射模型包括输出层的权值；

具体地，在基于图像的伺服控制系统中，机械臂末端速度控制数据

与像素偏差与机械臂末端速度的变换关系矩阵

的关系式为：

其中λ表示控制系数，E表示像素偏差，像素偏差即当前像素坐标与期望像素坐标的差值。基于图像的伺服控制系统的目标就是为了使当前像素坐标逼近期望像素坐标，即使像素偏差E无限趋近于0。

为了获得像素偏差与机械臂末端速度的变换关系矩阵

在本发明的实施方式中，采用了多层超限学习机对像素偏差E与机械臂末端速度控制数据

之间的映射关系进行建模。

图5是本发明的实施例的多层超限学习机的模型示意图。

参照图5所示，本发明的实施例采用了6层超限学习机：第一超限学习机ELM1、第二超限学习机ELM2、第三超限学习机ELM3、第四超限学习机ELM4、第五超限学习机ELM5、第六超限学习机ELM6构建像素偏差E与机械臂末端速度控制数据

之间的映射关系的模型。每层学习机对应一个末端位姿的一个方向的分量的控制。由上文可知，末端位姿是指机器人的关节结构的末端在所构建的三维坐标系的X、Y、Z坐标轴上的坐标以及绕X、Y、Z坐标轴上的三个旋转角，又称欧拉角。第一超限学习机ELM1是对像素偏差E与机械臂末端速度控制数据

在X坐标轴上的分量的映射关系进行建模；第二超限学习机ELM2是对像素偏差E与机械臂末端速度控制数据在Y坐标轴上的分量的映射关系进行建模；第三超限学习机ELM3是对像素偏差E与机械臂末端速度控制数据在Z坐标轴上的分量的映射关系进行建模；第四超限学习机ELM4是对像素偏差E与机械臂末端速度控制数据在绕X坐标轴的旋转角上的分量的映射关系进行建模；第五超限学习机ELM5是对像素偏差E与机械臂末端速度控制数据在绕Y坐标轴的旋转角上的分量的映射关系进行建模；第六超限学习机ELM6是对像素偏差E与机械臂末端速度控制数据在绕Z坐标轴的旋转角上的分量的映射关系进行建模。

输入

表示第i_a次示教任务中第k_a个采样点的像素偏差在图像坐标系中的U轴的分量；输入

表示第i_a次示教任务中第k_a个采样点的像素偏差在图像坐标系中的V轴的分量。

输出-

表示机械臂末端速度控制数据

在X坐标轴上的分量；输出-

表示机械臂末端速度控制数据

在Y坐标轴上的分量；输出-

表示机械臂末端速度控制数据

在Z坐标轴上的分量。输出-

表示机械臂末端速度控制数据

在绕X坐标轴的旋转角上的分量；输出-

表示机械臂末端速度控制数据

在绕Y坐标轴的旋转角上的分量；输出-

表示机械臂末端速度控制数据

在绕Z坐标轴的旋转角上的分量。其中，X_m是表示在X坐标轴上的分量，X_n是表示绕X坐标轴的旋转角，Y_m、Y_n、Z_m、Z_n同理。

下面将以单个超限学习机的获取进行详细阐述。

图6是本发明的实施例的单个超限学习机的结构示意图。

参照图6所示，单个超限学习机包括输入层、隐藏层以及输出层。其中，输入层具有d个神经元，隐藏层具有

个神经元，输出层具有d个神经元。假设隐藏的激活函数为g，那么我们要学习的模型可以表达为：

其中，

表示机械臂末端速度控制数据；

表示隐藏层神经元个数，

为整数，

为隐藏层的偏置，

i_b为整数；

为隐藏层的权值，维度为

表示第i_b个神经元的隐藏层的权值

的转置；

为输出层的权值，维度为

在超限学习机的训练过程中，隐藏层的权值

和隐藏层的偏置

是随机选择并固定不变的，训练的过程只需要确定输出层的权值

即可。具体地，可通过对下式的优化过程求得输出层的权值

min||Hβ^T-O||；

其中，β^T表示输出层的权值β的转置；O表示示教任务采样点的速度信息，

H表示影响矩阵，影响矩阵H通过下式求解：

由隐藏层的权值w和隐藏层的偏置b都是固定的，因此影响系数H也是固定的。训练的目标即求解最优的一组输出层权值

使得式子：min||Hβ^T-O||取到最小值。

优选地，作为本发明的一种实施方式，激活函数g一般选择S形函数(sigmoid函数)或双曲正切函数(tanh函数)，在本实施例中，激活函数使用修改后的S形函数，即：

t_b表示激活函数中的采样时间，e表示自然底数。

可以理解的是，本发明并不限制与此，只要满足

且

且单调递增的连续、连续可微的函数都符合激活函数的要求，其中

是激活函数g(t_b)的倒数，

表示实数空间。

超限学习机的训练目标是找到一组最佳的输出层的权值

在本发明的实施例中，采用最小二乘法可求得最佳的输出层的权值

即：

其中

是影响矩阵H的广义逆矩阵(Moore-Penrose)，通过这种方法可不经过迭代求得输出层权值，从而快速获得当前像素坐标与位置变换关系。

控制系数λ决定了控制器的收敛时间和速度曲线，在示教任务过程中由于示教者的不同技能水平和个人偏好，不同示教者产生的示教数据各异，如果采用固定增益的控制系数λ，会导致基于数据驱动学习的模型的控制表现不同。为了在更短的收敛时间下获得更高效的速度曲线，优选地，本发明的实施例中控制系数λ采用的是自适应控制系数。控制系数λ采用自适应控制系数可以使得伺服控制器的收敛速度更快。

优选地，自适应控制系数通过模糊逻辑控制法获得。

具体地，在本发明的实施例中模糊逻辑控制法包括：

构建模糊逻辑控制单元；其中，所述模糊逻辑控制单元包括隶属函数、模糊规则库以及解模糊类型。

求像素偏差E的二范数||E||、求像素偏差的二范数||E||的导数d||E||/dt_c作为模糊逻辑控制单元的两个输入，这里t_c表示对像素偏差的二范数||E||进行求导的时间。

根据所述两个输入||E||、d||E||/dt_c计算模糊逻辑控制单元的隶属函数的重心加权平均值获得自适应控制系数。

在本实施例中，采用的模糊逻辑控制单元的类型是Mamdani，采用的隶属函数为(μ_ic(λ_a))，采用的去模糊化类型是面积的重心(COA)。

图7是本发明的实施例的模糊逻辑控制单元的模糊规则库。

参照图7所示，模糊规则库包括n_d种模糊逻辑规则，在本发明的实施例中，模糊规则库包括9种模糊逻辑规则，即：

规则1、当||E||为“L”、d||E||/dt_c为“L”时，控制系统λ为“H”；

规则2、当||E||为“L”、d||E||/dt_c为“M”时，控制系统λ为“H”；

规则3、当||E||为“L”、d||E||/dt_c为“H”时，控制系统λ为“H”；

规则4、当||E||为“M”、d||E||/dt_c为“L”时，控制系统λ为“H”；

规则5、当||E||为“M”、d||E||/dt_c为“M”时，控制系统λ为“M”；

规则6、当||E||为“M”、d||E||/dt_c为“H”时，控制系统λ为“L”；

规则7、当||E||为“H”、d||E||/dt_c为“L”时，控制系统λ为“M”；

规则8、当||E||为“H”、d||E||/dt_c为“M”时，控制系统λ为“M”；

规则9、当||E||为“H”、d||E||/dt_c为“H”时，控制系统λ为“L”。

其中，“L”表示“Low”、“M”表示“Medium”、“H”表示“High”上述模糊逻辑规则是根据实验经验得到的。

本发明的实施例的模糊逻辑控制单元具有加权因子才

和第i_d个模糊逻辑规则。

其中：

其中，||E||为像素偏差的二范数、dE||/dt_c表示像素偏差的二范数||E||的导数，λ_a表示自适应增益。将||E||和d||E||/dt_c代入上述式子求得λ_a，λ等于输出隶属函数(μ_i(λ_a))的重心加权平均值。

在本发明的实施例中，控制系数λ采用自适应控制系数，我们构建了一个模糊逻辑单元来获得控制系数λ的自适应控制系从而用于提高控制品质。在定义模糊逻辑单元时，我们引入了||E||和d||E||/dt_c，模糊逻辑单元的模糊成员函数的是高斯函数，模糊逻辑的输入||E||和d||E||/dt_c值是通过最大最小值归一化了的，控制系数λ与示教任务过程中的运动数据的采样样本无关，只与当前像素坐标的||E||和d||E||/dt_c相关。

图8是根据本发明的实施例的步骤S300的流程示意图。

参照图8所示，步骤S300包括：

S310、获取机器人当前末端位姿和获取待抓取物体的当前像素坐标；

S320、计算所述当前像素坐标和所述期望像素坐标之间的偏差获得像素偏差；

S330、根据所述像素偏差、所述像素偏差与机械臂末端速度的变换关系矩阵生成机械臂末端速度控制数据；

S340、根据所述机械臂末端速度控制数据控制机器人完成抓取任务。

本发明通过事先控制机器人完成示教任务，采集示教任务中的采样样本，通过采样样本学习获得期望像素坐标和像素偏差与机械臂末端速度的变换关系矩阵，从而无需人为设定期望的像素坐标，机器人可以通过采样样本自主学习正确的抓取位置，无需对机器人系统进行事先的手眼标定，通过采样样本便可以求取像素偏差与机械臂末端速度的变换关系矩阵，示教方便、结构简单、无需标定且适应能力强。且控制系数采用自适应控制系数，可以使得伺服控制器的收敛速度更快。

图9是本发明的实施例的基于无手眼标定的抓取学习控制系统的结构示意图。

参照图9所示，本申请的实施例的基于无手眼标定的抓取学习控制系统100包括处理器110，以及与处理器110连接的存储器120。其中，存储器120存储程序数据和处理器110工作执行的结果。而处理器110在运行所示存储的程序数据时，用于执行如上述各个实施中所述的基于无手眼标定的抓取学习控制方法。其中，在一实施例中，本申请所提供的基于无手眼标定的抓取学习控制系统100可以是直接装载在机器人200上。在另一实施例中，本申请所提供的基于无手眼标定的抓取学习控制系统100可以是装载在可以与机器人200进行实时通讯的设备上，具体在此不一一列举。

图10是本发明的实施例的机器人的结构示意图。

参照图10所示，本发明的实施例还提供一种机器人200，在本发明的实施例中机器人200包括：相机220、传感组件210、驱动电路230和基于无手眼标定的抓取学习控制系统100。其中，相机220、传感组件210、驱动电路230分别与基于无手眼标定的抓取学习控制系统100中的处理器110连接。

其中，相机220用于获取当前像素坐标。传感组件210用于获取当前末端位姿，基于无手眼标定的抓取学习控制系统100用于获取机器人完成示教任务过程中的运动数据的采样样本；并利用采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵；且获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据。驱动电路230用于响应机械臂末端速度控制数据以完成抓取任务。基于无手眼标定的抓取学习控制系统100为上述实施例的基于无手眼标定的抓取学习控制系统100，抓取学习控制系统中的处理器110用于运行程序数据，以执行上述实施例中任一个抓取学习控制方法，进而控制机器人200完成抓取学习控制任务。

参照图11所示，本申请还提供一种计算机可读存储介质300，该计算机可读存储介质300存储有程序数据310，该程序数据310被执行时实现如上所述一种抓取学习控制方法。具体地，上述具有存储功能的计算机可读存储介质300可以是存储器120、个人计算机、服务器、网络设备或者U盘等其中的一种。

虽然已经参照特定实施例示出并描述了本发明，但是本领域的技术人员将理解：在不脱离由权利要求及其等同物限定的本发明的精神和范围的情况下，可在此进行形式和细节上的各种变化。

Claims

1.一种基于无手眼标定的抓取学习控制方法，其特征在于，所述抓取学习控制方法包括：

获取机器人完成示教任务过程中的运动数据的采样样本；

获取机器人当前末端位姿和待抓物体的当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据以用于控制机器人完成抓取任务。

2.根据权利要求1所述的抓取学习控制方法，其特征在于，所述利用所述采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵的方法包括：

3.根据权利要求2所述的抓取学习控制方法，其特征在于，所述利用所述采样样本进行学习，通过数据驱动方法对所述采样样本进行建模，获得所建模型中抓取成功概率最大的像素坐标作为期望像素坐标的方法包括：

4.根据权利要求2所述的抓取学习控制方法，其特征在于，所述利用所述采样样本和所述期望像素坐标，通过多层超限学习机对所述采样样本进行建模，从而获得像素偏差与机械臂末端速度的变换关系矩阵的方法包括：

5.根据权利要求1所述的抓取学习控制方法，其特征在于，获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标和所述像素偏差与机械臂末端速度的变换关系矩阵，且还结合自适应控制系数生成机械臂末端速度控制数据以用于控制机器人完成抓取任务。

6.根据权利要求5所述的抓取学习控制方法，其特征在于，所述自适应控制系数通过模糊逻辑控制法获得。

7.根据权利要求6所述的抓取学习控制方法，其特征在于，所述模糊逻辑控制法包括：

根据所述两个输入计算模糊逻辑控制单元的隶属函数的重心加权平均值从而获得自适应控制系数。

8.根据权利要求1所述的抓取学习控制方法，其特征在于，所述获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据以用于控制机器人完成抓取任务的方法包括：

获取机器人当前末端位姿和待抓取物体的当前像素坐标；

9.一种基于无手眼标定的抓取学习控制系统，其特征在于，所述控制系统包括处理器以及与所述处理器连接的存储器，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1至8任一项所述的抓取学习控制方法。

10.一种机器人，其特征在于，所述机器人包括：相机、传感组件、驱动电路和基于无手眼标定的抓取学习控制系统，所述相机、所述传感组件、和驱动电路分别与所述基于无手眼标定的抓取学习控制系统连接；

其中，所述相机用于获取待抓取物体的当前像素坐标；

所述传感组件用于获取机器人的当前末端位姿；

所述基于无手眼标定的抓取学习控制系统用于获取机器人完成示教任务过程中的运动数据的采样样本；并利用所述采样样本进行学习，获得期望像素坐标以及像素偏差与机械臂末端速度的变换关系矩阵；且获取机器人当前末端位姿和待抓取物体的当前像素坐标，结合所述期望像素坐标以及所述像素偏差与机械臂末端速度的变换关系矩阵，生成机械臂末端速度控制数据；

其中，所述基于无手眼标定的抓取学习控制系统为权利要求9所述的抓取学习控制系统。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序数据，所述程序数据被执行时实现如权利要求1至8任一项所述的抓取学习控制方法。