CN112068422B

CN112068422B - 一种基于小样本的智能机器人的抓取学习方法及装置

Info

Publication number: CN112068422B
Application number: CN202010772250.2A
Authority: CN
Inventors: 雷渠江; 桂光超; 徐杰; 李秀昊; 刘纪; 潘艺芃; 王卫军; 韩彰秀
Original assignee: Guangzhou Institute of Advanced Technology of CAS
Current assignee: Guangzhou Institute of Advanced Technology of CAS
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2023-04-14
Anticipated expiration: 2040-08-04
Also published as: CN112068422A

Abstract

本发明公开了一种基于小样本的智能机器人的抓取学习方法及装置，方法包括：获取目标物体的图像，并确定目标物体所在的区域；获取对目标物体的第一示教动作和第二示教动作；根据目标物体、第一示教动作和第二示教动作确定目标物体的授权抓取区域和禁止抓取区域的标签值，并得到样本点数据集；对样本点数据集进行数据增强，以得到目标样本点数据集；利用目标样本点数据集和缩减的DenseNet 121模型进行学习训练，得到目标训练模型，并输出目标物体对应的图像空间中的目标抓取信息；控制智能机器人根据目标抓取信息执行抓取任务。通过该技术方案，智能机器人就可以基于小样本自动学习示教抓取，不需要大量的图像，对操作者更加友好。

Description

一种基于小样本的智能机器人的抓取学习方法及装置

技术领域

本发明涉及智能机器人技术领域，更具体地，涉及一种智能机器人的抓取学习方法及装置。

背景技术

随着社会老龄化程度的加深以及家庭结构的变化，我国的养老以及病痛护理等方面面临了越来越严峻的问题。应对这一日益增长的市场需求，新兴的家用养老服务机器人既可以应对社会老龄化侯医护人员不足的缺口，又能显著提升服务对象生活质量水平。目前市场上广泛应用的机器人可以部署在特定环境中按照要求基于任务进行重复和具有规律性的工作。但是在家用养老服务机器人领域有大量不确定的任务(如位置未知时)，需要基于不同任务重新部署机器人，这需要很长的工作时间。此外，由于家用机器人的定位，不可能要求用专业工程师部署任务。这对家用养老服务机器人的适应性提出了重要挑战。

机器人抓取技术，即机器人按照要求用机械臂抓取特定物体的技术，是近年来发展起来的一门新兴技术。区别于工业机器人的抓取技术，家用机器人的抓取的内容主要包括以下三点：a)将一个物体标记为柄部(授权抓取位置)和头部(禁止抓取位置)，机器人抓取柄部；b)机器人抓取物体后将其放置在特定位置上；c)机器人抓取易碎的物体。在当前机器人示教抓取技术中有两种主要的方法：1)在大量图像上标注抓取位置，从而标记数据的使用；2)基于模拟器或真实环境，使用试错法学习如何抓取。在第一种方法中卷积神经网络(CNN)的应用部分地解决了这一问题，在目标识别和抓取提供了很好的结果。然而，它们也伴随着一些限制，比如需要特定数据库的使用(Cornell database)或大量训练时间。第二种方法需要耗费大量时间以及在学习时存在损坏易碎物体的现象。

发明内容

鉴于上述问题，本发明提出了一种基于小样本的智能机器人的抓取学习方法和相应的装置，其可以基于小样本学习示教动作，从而使得机器人可以参与更多复杂的任务。

根据本发明实施例的第一方面，提供一种基于小样本的智能机器人的抓取学习方法，所述方法包括：

获取目标物体的图像，并确定所述目标物体所在的区域；

获取对所述目标物体的第一示教动作和第二示教动作；

根据所述目标物体、所述第一示教动作和所述第二示教动作确定所述目标物体的授权抓取区域和禁止抓取区域的标签值，并得到样本点数据集，所述样本点数据集中包括多个元组，每个元组包括从一个拍摄角度得到的所述目标物体所在的区域和对应的授权抓取区域和禁止抓取区域的标签值；

对所述样本点数据集进行数据增强，以得到目标样本点数据集；

利用所述目标样本点数据集和缩减的DenseNet 121模型进行学习训练，得到目标训练模型，并输出所述目标物体对应的图像空间中的目标抓取信息；

控制所述智能机器人根据所述目标抓取信息执行抓取任务。

在一个实施例中，优选地，采用以下至少一种方式对所述样本点数据集进行数据增强：

数据随机位移方式、数据随机缩放方式、数据随机平移方式、数据随机旋转方式和基于插值的SMOTE方式。

在一个实施例中，优选地，采用基于插值的SMOTE方法对所述样本点数据集进行数据增强，包括：

确定特征空间，并将每个元组对应到所述特征空间中的一点，作为样本特征点，并根据样本不平衡比例确定采用倍率N；

对每一个样本特征点，根据欧式距离确定与其对应的K个最近邻样本点；

针对每个最近邻样本点，在所述样本特征点与所述最近邻样本点的连线段上，随机选取一点作为新的样本点。

在一个实施例中，优选地，利用所述目标样本点数据集和缩减的DenseNet 121模型进行学习训练，得到目标训练模型，包括：

采用以下公式计算所述目标训练模型的损失函数；

L＝L_weighted-L2+λ₂L_L2reg

其中，

L表示复合损失函数，L_weighted-L2表示L₂损失函数，λ₂表示超参数，L_L2reg表示L₂正则化损失函数，n×m表示所述图像的尺寸，

表示权重因子，

表示所述目标物体所在的区域中包含标签值label_i的像素数，label_i表示第i组标签值；|pred_i|表示权重因子的第一分量。

在一个实施例中，优选地，控制所述智能机器人根据所述目标抓取信息执行抓取任务，包括：

将所述目标抓取信息进行手眼标定的几何变换，以得到实际空间中的实际抓取信息；

控制所述智能机器人根据所述实际抓取信息执行抓取任务。

根据本发明实施例的第二方面，提供一种基于小样本的智能机器人的抓取学习装置，所述装置包括：

第一确定模块，用于获取目标物体的图像，并确定所述目标物体所在的区域；

获取模块，用于获取对所述目标物体的第一示教动作和第二示教动作；

第二确定模块，用于根据所述目标物体、所述第一示教动作和所述第二示教动作确定所述目标物体的授权抓取区域和禁止抓取区域的标签值，并得到样本点数据集，所述样本点数据集中包括多个元组，每个元组包括从一个拍摄角度得到的所述目标物体所在的区域和对应的授权抓取区域和禁止抓取区域的标签值；

数据增强模块，用于对所述样本点数据集进行数据增强，以得到目标样本点数据集；

训练模块，用于利用所述目标样本点数据集和缩减的DenseNet 121模型进行学习训练，得到目标训练模型，并输出所述目标物体对应的图像空间中的目标抓取信息；

抓取模块，用于控制所述智能机器人根据所述目标抓取信息执行抓取任务。

在一个实施例中，优选地，所述训练模块用于：

采用以下公式计算所述目标训练模型的损失函数；

L＝L_weighted-L2+λ₂L_L2reg

其中，

表示权重因子，

在一个实施例中，优选地，所述抓取模块包括：

变换单元，用于将所述目标抓取信息进行手眼标定的几何变换，以得到实际空间中的实际抓取信息；

抓取单元，用于控制所述智能机器人根据所述实际抓取信息执行抓取任务。

本发明实施例中，基于观察的示教学习方法与传统示教编程方法最大的区别是在于更低的操作成本，对操作者更加友好，同时可以让机器人理解和领会特定操作技能，从而在不同情况下仍然具有一定的泛化能力，拥有示教学习能力的智能机器人可以参与更加多变复杂的任务。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于小样本的智能机器人的抓取学习方法的流程图。

图2是本发明一个实施例的基于小样本的智能机器人的抓取学习方法中步骤S106的流程图。

图3是本发明一个实施例的基于小样本的智能机器人的抓取学习方法的流程示意图。

图4是本发明一个实施例的基于小样本的智能机器人的抓取学习装置的框图。

图5是本发明一个实施例的基于小样本的智能机器人的抓取学习装置中抓取模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的基于小样本的智能机器人的抓取学习方法的流程图，如图1所示，基于小样本的智能机器人的抓取学习方法包括：

步骤S101，获取目标物体的图像，并确定所述目标物体所在的区域。

智能机器人可以通过摄像头获取目标物体的图像，表示为I∈{0,1}^n×m，其中，n×m是图像尺寸，背景的像素设为0，物体的像素为1。

步骤S102，获取对所述目标物体的第一示教动作和第二示教动作。

操作人员戴上食指和拇指为特定颜色的手套后进行示教动作，并被摄像机拍摄识别。之后通过记录手指的坐标来标记和存储抓取物体上的授权抓取位置和禁止抓取位置。

步骤S103，根据所述目标物体、所述第一示教动作和所述第二示教动作确定所述目标物体的授权抓取区域和禁止抓取区域的标签值，并得到样本点数据集，所述样本点数据集中包括多个元组，每个元组包括从一个拍摄角度得到的所述目标物体所在的区域和对应的授权抓取区域和禁止抓取区域的标签值。

具体地，根据目标物体的图像，第一示教动作和第二示教动作，标签生成为图像L∈{-1,0,+1}^n×m，值+1表示授权抓取区域，0表示无信息区域，即背景，-1表示禁止抓取区域。从场景中捕获相应的输入I，从不同的角度收集演示并存储为元组(Input,Label)。

步骤S104，对所述样本点数据集进行数据增强，以得到目标样本点数据集；

步骤S105，利用所述目标样本点数据集和缩减的DenseNet 121模型进行学习训练，得到目标训练模型，并输出所述目标物体对应的图像空间中的目标抓取信息；

步骤S106，控制所述智能机器人根据所述目标抓取信息执行抓取任务。

在该实施例中，操作人员只要进行一次示教动作，智能机器人就可以基于该小样本自动学习示教抓取，不需要大量的图像，对操作者更加友好，同时可以让机器人理解和领会特定操作技能，从而在不同情况下仍然具有一定的泛化能力，拥有示教学习能力的智能机器人可以参与更加多变复杂的任务。

针对每个最近邻样本点，在所述样本特征点与所述最近邻样本点的连线段上，随机选取一点作为新的样本点。其中，新的样本点满足以下公式：

(Input_new，Label_new)＝(Input，Label)+rand(0，1)*(Input_n-Input，Label_n-Label)

其中，rand(0，1)表示从0到1之间随机挑选一个数。

采用以下公式计算所述目标训练模型的损失函数；

L＝L_weighted-L2+λ₂L_L2reg

其中，

表示权重因子，

具体地，映射函数是未经预处理的truncated DenseNet 121模型light CNN。激活函数输出端为“tanh”函数，其他为“RELU”函数。Dropout率为40％，以防止网络过拟合。神经网络共6914个参数。

在该实施例中，损失函数引入像素级L2损失函数的改进版本，将每个像素误差乘以特定权重，权重因子的第一分量|pred_i|用于通过聚焦感兴趣区域上的梯度下降来将网络的注意力集中在感兴趣的部分上。第二个部分通过降低大区域的重要性来强调对标签地图中表示不足区域的学习。超参数λ₂平衡了这两个分量。为了防止过度拟合，通常在网络的权值和偏差上使用L2正则化损失LL2reg，具体的，可以采用随机梯度下降训练网络，学习率为10^-4，momentum为0.9，λ₁＝20，λ₂＝5∶10^-5。

如图2所示，在一个实施例中，优选地，上述步骤S106包括：

步骤S201，将所述目标抓取信息进行手眼标定的几何变换，以得到实际空间中的实际抓取信息；

步骤S202，控制所述智能机器人根据所述实际抓取信息执行抓取任务。

在该实施例中，计算得到像素级表示G∈[-1，0，1]^n×m，其中，-1表示禁止抓取位置，+1表示授权抓取位置。图像背景中的所有像素(I中的0)都设置为G中的0。首先，确定抓取优先级最高的像素(u_g，v_g)＝argmax_u，v(G(u_g，v_g))。然后，通过对以抓取点为中心的输入子区域执行PCA算法，计算图像帧中的抓取角α。最后，通过基于手眼标定的几何变换将(u_g，v_g，α)转换为g＝(x，y，z，θ)，从而使机器人能够在工作空间内直接执行抓取动作。

通过本申请的上述方案，其图像处理的效果和流程如图3所示。

通过以上描述介绍了基于小样本的智能机器人的抓取学习方法的实现过程，该过程可由装置实现，下面对该装置的内部结构和功能进行介绍。

图4是本发明一个实施例的基于小样本的智能机器人的抓取学习装置的框图，如图4所示，基于小样本的智能机器人的抓取学习装置包括：

第一确定模块41，用于获取目标物体的图像，并确定所述目标物体所在的区域；

获取模块42，用于获取对所述目标物体的第一示教动作和第二示教动作；

第二确定模块43，用于根据所述目标物体、所述第一示教动作和所述第二示教动作确定所述目标物体的授权抓取区域和禁止抓取区域的标签值，并得到样本点数据集，所述样本点数据集中包括多个元组，每个元组包括从一个拍摄角度得到的所述目标物体所在的区域和对应的授权抓取区域和禁止抓取区域的标签值；

数据增强模块44，用于对所述样本点数据集进行数据增强，以得到目标样本点数据集；

训练模块45，用于利用所述目标样本点数据集和缩减的DenseNet 121模型进行学习训练，得到目标训练模型，并输出所述目标物体对应的图像空间中的目标抓取信息；

抓取模块46，用于控制所述智能机器人根据所述目标抓取信息执行抓取任务。

在一个实施例中，优选地，所述训练模块用于：

采用以下公式计算所述目标训练模型的损失函数；

L＝L_weighted-L2+λ₂L_L2reg

其中，

表示权重因子，

如图5所示，在一个实施例中，优选地，所述抓取模块46包括：

变换单元51，用于将所述目标抓取信息进行手眼标定的几何变换，以得到实际空间中的实际抓取信息；

抓取单元52，用于控制所述智能机器人根据所述实际抓取信息执行抓取任务。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。