CN110692082B

CN110692082B - 学习装置、学习方法、学习模型、推算装置以及夹持系统

Info

Publication number: CN110692082B
Application number: CN201880035634.7A
Authority: CN
Inventors: 草野仁志; 久米绚佳; 松元叡一
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2017-05-31
Filing date: 2018-05-30
Publication date: 2023-07-11
Anticipated expiration: 2038-05-30
Also published as: JP2018205929A; EP3633610A1; US20200094406A1; US20210276182A1; US11034018B2; US11565407B2; EP3633610A4; WO2018221614A1; CN110692082A; JP6546618B2

Abstract

提供一种进行用于根据计算机上的图像适当地确定夹持物体的位置及姿势的学习的学习装置。根据一个实施方式，学习装置具备：检测单元，检测物体的存在的位置和夹持该物体的教学工具的信息；训练数据生成单元，将由所述检测单元检测出的所述教学工具的信息变换为所述教学工具的位置及姿势的信息，生成将所述物体的存在的位置信息与夹持该物体的所述教学工具的位置及姿势的信息相关联的数据即训练数据；以及学习部，使用所述训练数据学习由具备多个层的神经网络模型表示的学习模型，该学习模型是当经由所述检测单元被输入目标物体的存在的位置信息时输出能够夹持所述目标物体的夹持单元的位置及姿势的信息的学习模型。

Description

学习装置、学习方法、学习模型、推算装置以及夹持系统

技术领域

本发明涉及学习装置、学习方法、学习模型、推算装置以及夹持系统。

背景技术

目前，对于各种各样的用途进行使用机器人的自动化，根据各个用途广泛地进行研究开发。使用附属于机器人的臂来夹持物体的研究也在广泛进行。为了用机器人的夹持器(gripper)部分夹持物体，需要根据使用物体的检测装置例如RGB-D相机检测的物体的位置来确定机器人的夹持器的位置及朝向。作为推算该夹持器的位置及朝向的方法，开发了利用在其他领域中也广泛使用的神经网络、深度学习的方法(参照日本特开2016-132086号公报)。

然而，通过以往的方法，难以求得高维度的夹持姿势，特别是难以预测在计算机上的图像中难以注释的信息。虽然也有使用CAD识别3维物体的方法，但是需要CAD模型而且必须在识别物体之后确定夹持姿势，经济上和时间上的成本高。此外，在以往的方法中，未能发现除了学习夹持器从正上方夹持物体以外的夹持方法的例子。

发明内容

因此，本发明提供进行用于根据计算机上的图像适当地确定夹持物体的位置及姿势的学习的学习装置。

一个实施方式所涉及的学习装置具备：

检测单元，检测物体的存在的位置和夹持该物体的教学工具的信息；

训练数据(监督数据)生成单元，将由所述检测单元检测出的所述教学工具的信息变换为所述教学工具的位置及姿势的信息，生成将所述物体的存在的位置信息与夹持该物体的所述教学工具的位置及姿势的信息相关联的数据即训练数据；以及

学习部，使用所述训练数据学习由具备多个层的神经网络模型表示的学习模型，该学习模型是当经由所述检测单元被输入目标物体的存在的位置信息时输出能够夹持所述目标物体的夹持单元的位置及姿势的信息的学习模型。

根据本发明所涉及的学习装置，能够进行用于根据计算机上的图像来适当地确定夹持物体的位置及姿势的学习。

附图说明

图1是示出一个实施方式所涉及的夹持系统的概略的图。

图2是示出一个实施方式所涉及的计算机的功能的框图。

图3是模式化地示出一个实施方式所涉及的用于取得训练数据的教学工具的图。

图4是示出一个实施方式所涉及的学习模型的层的图。

图5是示出一个实施方式所涉及的学习阶段的处理的流程图。

图6是示出一个实施方式所涉及的推算阶段的处理的流程图。

图7A是示出一个实施方式所涉及的目标物体的一个例子的图。以及是示出推算出的夹持位置及姿势的例子的图。

图7B是示出一个实施方式所涉及的目标物体的推算出的夹持位置的一个例子的图。

图7C是示出一个实施方式所涉及的目标物体的推算出的姿势的一个例子的图。

(符号说明)

1：夹持系统；10：计算机；100：输入部；102：训练数据生成部；104：学习部；106：推算部；108：输出部；110：训练数据存储部；112：学习模型存储部；12：控制器；14：机器人；16：夹持器；18：相机；2：教学工具；20：教学工具主体；22：标记器；24：教学工具基准点。

具体实施方式

以下，参照附图，更详细地说明本发明的实施方式。本实施方式并非限定本发明。此外，在各图中对具有同等功能的构成要素附加相同的符号，相同的构成要素的详细说明不再重复。

本实施方式所涉及的学习装置例如在由附属于机器人的或者作为机器人的构成要素的夹持器夹持成为目标的物体(以下记载为目标物体)的情况下，利用由以捕获目标物体的方式设置的相机拍摄的图像，学习输出能够夹持物体的夹持器的位置及朝向的信息的模型。

图1是使用由本实施方式所涉及的学习装置学习出的学习模型的由机器人实施的物体的夹持系统。夹持系统1具备计算机10、控制器12、机器人14、夹持器16以及相机18。

计算机10是与控制器12、夹持器16以及相机18连接并进行夹持系统1整体的控制的计算机，例如具有CPU(Central Processing Unit，中央处理单元)、各种存储器以及用户接口。在该计算机10内存储有由学习装置学习出的学习模型。学习装置可以搭载在计算机10内。另外，可以搭载进行用于学习以及用于将实测值应用于学习模型的运算的GPU(Graphical Processing Unit，图形处理单元)等加速器。

控制器12是接收来自计算机10的信号并将用于控制机器人14的信号发送给机器人14的控制装置。控制器12将从计算机10接收的信号变换为用于控制机器人14的信号，发送用于使机器人14动作的信号。

此外，在计算机10内进行信号变换等情况下可以省略该控制器12。此外，计算机10以及控制器12可以搭载于机器人14。即，可以将计算机10、控制器12以及机器人14统一构成为一体的机器人。根据资源、成本等其他因素，这些构成是可变的。

机器人14是支承夹持物体的夹持器16的框体。在本实施方式的说明中，主要将机器人14说明为夹持器16的支承框体，但是不限于此，也可以具有其他功能、用于其他用途。

夹持器16是接收来自计算机10的能够夹持的位置及姿势的信息并用于夹持目标物体的装置(夹持单元)，例如是具备3个可动的爪部的夹持装置。爪部例如具有1个或多个关节，能够以各个关节能够分别操作的方式来控制。夹持器16由计算机10、控制器12或者机器人14控制。即，夹持器16由控制部控制。在夹持目标物体的情况下，根据从计算机10接收的位置及姿势的信息来控制。

此外，作为夹持器16的结构，不仅是爪型结构，也可以是滑动型结构、杆型结构。爪的数量也不限于3个，也可以是2个或者4个以上。该夹持器16可以例如经由臂(未图示)与机器人14物理连接或者电连接。

另外，夹持器16可以不与计算机10连接。在这种情况下，夹持器16可以经由控制器12以及机器人14取得用于夹持目标物体的位置及姿势(3维方向)的信息。

在以下的说明中，夹持器16的位置是指相对于夹持器16的基准点的位置。夹持器16的基准点是指用于在将位置信息提供给夹持器16的情况下使得在夹持系统1内能够唯一确定夹持器16的位置的点。例如，在是具有3个爪的夹持器的情况下，可以将这些爪的初始位置(例如最延伸的状态的位置)处的爪的端部的中心点(也可以是重心)作为夹持器16的基准点，也可以将设置这些爪的点作为夹持器16的基准点。另外，也可以将机器人14的臂与夹持器16连接的点作为夹持器16的基准点，并不限于此。

此外，虽然有在调整夹持器16的位置时根据机器人14的臂的动作来调整的情况，但是在以下的说明中，设为夹持器16的位置及姿势的控制是包括夹持器16的位置或姿势的控制以及机器人14的臂的动作的控制的概念。

相机18是与计算机10连接、用于从预定位置及方向捕捉物体的图像的捕获装置。该相机18例如是从铅直方向拍摄物体的RGB-D相机，捕捉相对以预定点为基准(以下记载为相机18的基准点)的相机18的摄影面水平的位置(x，y)处的物体的RGB值以及物体的各位置(x，y)处的相对相机18的摄影面垂直的位置z(深度)。

相机18只要是能够如此捕捉物体存在的位置(x，y，z)的装置，则不限于RGB-D相机，也可以是其他能够检测物体的3维位置的检测装置。例如，可以是以从2个方向或者3个方向捕捉物体的方式具备多个相机、能够捕捉物体的3维位置的装置。另外，也可以不是用于拍摄可见光的相机，而是能够3维地测量物体的其他检测装置。

此外，在图1中相机18仅与计算机10连接，但是不限于此。例如，可以搭载于计算机10，也可以设置或者搭载于机器人14等。在这种情况下，相机18可以直接与计算机10连接，也可以经由机器人14等与计算机10连接。

相机18的基准点例如也能够设为相机18的位置或者夹持器16的初始位置。不限于此，也可以将在被测量的物体处能够唯一确定位置(x，y，z)的点作为相机18的基准点。在这种情况下，原则上相机18在夹持系统1内处于被固定的位置。即，拍摄训练数据的系统和拍摄目标物体的系统优选是相同的系统。

另外，相机18例如可以同夹持器16一起与机器人14的臂连接，或者也可以安装在夹持器16。并且，也能够将相机18的基准点设为与夹持器16的基准点相同。或者，可以另行以成为在夹持系统1中能够唯一确定用相机18拍摄的物体的各点的位置的坐标系的方式设定基准点。在这种情况下，例如，夹持系统1内的物体的存在的位置可以根据相机18相对相机18的基准点的位置和由相机18拍摄的图像中的物体的各位置的坐标来计算。

此外，相机18的基准点可以是与夹持器16的基准点相同的点。在这种情况下，能够将夹持系统1内的3维坐标在相同坐标系中处理。另外，作为夹持器16等的姿势，可以在这些3维坐标系中例如将在x-y平面上与x轴平行的姿势设为基准。如此，夹持器16等的位置及姿势可以是任意的，只要是能够在夹持系统1内唯一确定即可。

夹持目标物体的系统可以与拍摄生成训练数据的图像的系统不同。在这种情况下，在夹持目标物体的系统中，例如，相机18到物体的距离以及相机18的基准点和夹持器16的基准点的相对位置关系优选与拍摄生成训练数据的图像的系统是等同的。在这以外的情况下，通过进行输入的目标物体的图像中的坐标以及输出的夹持器16的位置及姿势信息的校正，也能够适用本实施方式。

在相机18被固定在夹持系统1内的情况下，作为一个例子，相机18以拍摄设置物体的面的70cm×50cm幅度的平面的方式设置于在铅直方向上距离该平面75cm的位置。这是一个例子，并不排除其他设置方法。

图2是示出计算机10的功能的框图的一个例子。计算机10例如具备输入部100、训练数据生成部102、学习部104、推算部106以及输出部108。此外，具备存储训练数据的训练数据存储部110以及存储根据训练数据学习出的学习模型的学习模型存储部112。未图示CPU等的结构。图中的实线表示学习阶段中的数据流，虚线表示夹持信息的推算阶段中的数据流。

经由输入部100将数据等输入给计算机10。如果是学习阶段，则输入的数据是成为训练数据的、图3中示出的夹持在相机18中拍摄的物体的教学工具2的图像。如果是推算阶段，则是成为夹持的目的的目标物体的图像。另外，经由未图示的用户接口，输入表示学习的请求、用于推算夹持信息的请求。

在经由输入部100对计算机10输入了教学工具2的图像的情况下，训练数据生成部102变换输入的图像数据并生成训练数据。稍后描述从输入的图像向训练数据中具备的3维位置及3维姿势的变换的详细内容。

学习部104使用存储在训练数据存储部110中的训练数据生成用于夹持信息的推算的学习模型。学习部104依照来自用户的请求，根据存储在该训练数据存储部110中的数据生成学习模型，将生成的学习模型存储到学习模型存储部112。此外，学习部104可以将正在学习中的状况状态、学习结束的信息输出到输出部108。

推算部106根据学习模型推算用于夹持目标物体的位置及姿势的信息。例如，当经由输入部100接收用于推算夹持信息的请求时，推算部106根据存储在学习模型存储部112中的学习模型，关于输入的目标物体的图像，推算夹持器16能够夹持该目标物体的位置(3维位置)及姿势(3维方向)的信息。推算出的信息例如可以在输出部108显示，也可以经由输出部108发送给机器人14或者夹持器16。

此外，也能够将推算部106推算出的信息作为新的训练数据反馈。如用单点划线表示的箭头那样，可以将在推算部106中推算出的信息、夹持器16实际能否夹持目标物体的信息、或者用户确认信息并预测能否夹持目标物体的结果作为训练数据输出给训练数据存储部110。

在图2中，说明为学习部104和推算部106在相同计算机10内，但是不限于此。即，根据共同的学习模型存储部112，可以在分别独立的计算机内设置学习部104和推算部106。此外，训练数据存储部110以及学习模型存储部112可以不设置在计算机10内，而是可以例如具备经由网络的数据库服务器等并设置在该数据库服务器内。

在如图2所示的结构的情况下，计算机10是将用于取得夹持器16能够夹持目标物体的位置及姿势信息的学习模型最优化的学习装置，并且是根据该学习模型推算夹持器16能够夹持目标物体的位置及姿势信息的推算装置。

图3是示出本实施方式所涉及的用于制作学习模型而使用的教学工具2的例子的图。教学工具2具备教学工具主体20以及标记器22。

教学工具主体20是在制作训练数据时人操作的工具，通过由该教学工具主体20夹持物体，能够将能够夹持物体的教学工具2的位置及姿势积累为训练数据。

标记器22是固定在教学工具主体20的标记器。虽然由相机18拍摄的教学工具2的位置能够通过提取教学工具主体20的位置而求得，但是通常难以仅通过取得教学工具主体20的图像来提取教学工具2的姿势。

因此，能够通过将标记器22固定到教学工具主体20，从图像检测标记器22，推算标记器22在3维空间中的位置(x，y，z)或姿势(R，P，Y)，从而能够推算教学工具2的姿势。此外，在图3中，标记器22由3个不同的标记器构成，但是不限于此，只要能够确保读取的精度，则也可以由1个或者2个标记器构成。为了提高精度，也可以检测以教学工具主体20的长边方向及短边方向的2个矢量为基础的方向。

另外，不限于使用标记器22，例如也可以使用3轴传感器、6轴传感器、光、电波、声波等来提取教学工具2的位置或姿势。此外，在上面的记载中作为训练数据而取得能够夹持的数据，但是不限于此，也可以使用教学工具2也收集不能夹持的数据。通过这种方式，不仅能够使用正面数据而且也能够使用负面数据进行学习。

教学工具基准点24是成为教学工具2的位置及姿势的基准的点。以该教学工具基准点24的位置为基准，测量教学工具2的3维位置(x，y，z)。例如，教学工具2的位置通过训练数据生成部102根据标记器22的位置求得教学工具基准点24的位置来确定。更简单地，可以将教学工具2的2个端点的中心的位置作为教学工具2的位置(x，y)。关于位置z，在相机18是RGB-D相机的情况下，可以从其测量结果求得。

此外，教学工具2的位置只要以在夹持系统1内能够唯一确定的方式来表现即可。例如，可以相对地表示教学工具基准点24相对于上述夹持器16的基准点的位置，也可以相对地表示教学工具基准点24相对于相机18的基准点的位置。

教学工具2的姿势通过读取标记器22来检测。即，以教学工具基准点24为中心、以教学工具主体20的长边方向为基准，检测作为滚转角R、俯仰角P以及偏摆角Y的姿势(R，P，Y)。例如，通过教学工具主体20的短边方向相对于长边方向倾斜了多少(R)、长边方向从水平方向倾斜了多少(P)、长边方向和短边方向以水平面状旋转了多少(Y)来检测。此时，由训练数据生成部102例如通过将水平面上以预定姿势设置的状态的教学工具2的3维方向作为基准而求得透视变换矩阵来计算标记器22在各方向上的倾斜度，从而相机18拍摄的教学工具2的图像的信息被变换为姿势信息。

接下来说明各阶段中的动作。首先，说明用于推算夹持器16能够夹持目标物体的位置及姿势的信息的学习模型。

图4是示出本实施方式中的学习模型的一个例子的图。如该图4所示，学习模型由FCN(Fully Convolutional Network，全卷积网络)构成。FCN是卷积网络(以下记载为CNN：Convolutional Neural Network，卷积神经网络)中的一种，是指用卷积运算进行所有的层间运算的学习。即，是不存在池化层以及全连接的层间的网络。通过利用FCN，能够构成结构不复杂、计算成本低的网络。此外，学习模型不限于FCN，也可以利用其他网络。

关于该学习模型，当作为输入图像而输入3幅200×200像素的RGB图像和1幅深度图图像时，输出被预测为能够夹持的位置图(PLM：Predicted Location Map，预测位置图)和姿势/深度图(PCM：Predicted Configuration Map，预测配置图)。PLM及PCM是表示针对用相机18拍摄的每个像素能否夹持的信息。

更具体地，PLM是表示在2维位置(x，y)处存在夹持器16的情况下是否存在能够夹持目标物体的可能性的图。例如是如下图：PLM的各像素在如果在对应于该像素的位置(x，y)处存在夹持器16则能够夹持目标物体的情况下是接近1的值，在不是如此的情况下是接近0.5的值或者0.5以下的值。如后所述，其原因在于，输出的PLM及PCM的数据经由sigmoid函数成为(0，1)的区域。

PCM是将如果以深度及姿势(z，R，P，Y)操作夹持器16则存在能够夹持目标物体的可能性这样的深度及姿势的4维信息映射到2维位置(x，y)而得到的。具体地，如以下方式生成该PCM。首先，将在相机18中检测出的数据中的实际能够夹持的该4维信息例如聚类为300组，准备为训练数据。通过参照被聚类的该训练数据，将推算出的夹持器16的深度及姿势的4维信息映射了针对每个训练数据、即以被聚类的各个深度及姿势存在实际能够夹持的可能性的2维位置(x，y)，从而得到PCM。

由于存在夹持器16相对目标物体能够夹持该目标物体的可能性的该4维信息几乎有无限组，所以为了缓和它们，使用将深度及姿势的组合聚类为上述300组的结果。对于这种聚类，作为一个例子，使用k-means法，也可以使用其他普遍的聚类方法。此外，在本实施方式中，通过使用包括不能夹持物体的情况的训练数据在内的301组的训练数据生成PCM。

关于图4中的各层进行说明。在各层的上方记载的S1或者S2表示向该层卷积时的步长。如果是S1，则表示步长为1，如果是S2，则表示步长为2。在此，作为一个例子，对用S1表示的层使用3×3的卷积核，对用S2表示的层使用4×4的卷积核。在各层的下方记载的16、32、64、302数字表示各层的通道数。

最左的层是输入层，200×200(像素)×4(通道)的物体被拍摄的数据被输入。接下来的层(以下除输入层及输出层外，按照从左到右的顺序，设为第1层、第2层、…)将输入到该输入层的4通道的数据与3×3尺寸的核进行卷积运算，生成16通道的同一尺寸的数据。即，第1层成为200×200×16的层。卷积时的填充(padding)设为1。当用Chainer(日本注册商标)的伪代码表示时，为

layer1＝chainer.functions.Convolution2d(4,16,3,stride＝1,pad＝1)(input)。

更具体地，对于输入图像的各通道使用16组3×3尺寸的核来进行卷积运算并生成16通道的第1层的数据。即，作为1个核的集合，存在R(Red，红)、G(Green，绿)、B(Blue，蓝)、D(Depth，深度)图像用的核，对于输入图像的各通道将对应于各个通道的核进行卷积积分。然后，将卷积积分的结果合成为1个图像。

例如，通过根据预定权重对各通道的图像进行加权求和来执行合成。权重的系数也能够包括在各核中，在这种情况下，在将各通道用对应的核进行卷积之后，对各通道的输出进行求和，从而生成输出的通道。通过将16组这样的核的集合适用于输入图像，进行从4通道到16通道的变换。

此外，在除最后一层(第11层)外的所有层中，在卷积运算之后，进行批量归一化，适用作为激活函数的ReLU(Rectified Linear Unit，修正线性单元)。在此，批量归一化表示以使各通道的平均成为0、方差成为1的方式进行归一化的处理。ReLU表示将数据中的负值设为0的变换。当用伪代码表示时，为

layer1＝chainer.functions.relu(chainer.functions.BatchNormalization(layer1))。

第2层是将第1层与4×4尺寸的核进行卷积运算并将通道数设为32的100×100×32的数据层。同样在用伪代码表示时，为

layer2＝chainer.functions.Convolution2d(16,32,4,stride＝2,pad＝1)(layer1)。

通过交替进行基于3×3尺寸的核的步长1的卷积(不改变尺寸)和基于4×4尺寸的核的步长2的卷积(下采样)直到25×25×64的第6层，来执行下采样。此外，与上述同样地，进行如下归一化及激活：

layer2＝chainer.functions.relu(chainer.functions.BatchNormalization(layer2))。

之后，转移到上采样的过程。通过进行下采样的相反的操作来执行上采样。例如，第7层表示为：

layer7＝chainer.functions.Deconvolution2d(64,64,4,stride＝2,pad＝1)(layer6)。

然后，通过执行进行与下采样相反的操作直到作为200×200×16尺寸的第11层，来执行上采样。在上采样的过程中也同样地执行归一化及激活，例如，表示为：

layer7＝chainer.functions.relu(chainer.functions.BatchNormalization(layer7))。

在最后一层中，使用sigmoid函数进行激活来代替上述的激活。另外，通过将对能够夹持目标物体的位置及姿势的信息进行聚类而得到的结果输入为训练数据，从在最后一层中得到的结果中，网络推算能够夹持目标物体的6维的位置及姿势信息(x，y，z，R，P，Y)，输出给输出层。例如，输出200×200×1的(x，y)数据作为PLM，输出能够夹持的200×200×300的数据以及不能夹持的200×200×1的数据合计200×200×301的(z，R，P，Y)数据作为PCM。

在最后一层中，将PCM例如输出为如图4的最下段所示的图像。该图像是表示针对被聚类的各训练数据在该训练数据表示的深度及姿势下能够夹持目标物体的2维位置(x，y)的映射数据。针对各训练数据的映射数据，例如，可以将通过分别不同的颜色着色的数据合成为表示1幅PCM的图像并输出。在将这些图像合成为1幅图像的情况下，对于各位置(x，y)，可以用表示具有最高输出值的集群的颜色来着色。另一方面，PLM是1通道的输出，所以可以例如将从最后一层输出的值通过基于灰度或其他着色的比例方法变换成图像并输出。

此外，上述的学习模型是作为一个例子示出的，也可以进行基于其他网络的学习以及最优化。例如，也可以基于像一般的CNN那样包括池化层、全连接层的网络来进行学习。

接下来，说明生成该学习模型的学习阶段。图5是示出本实施方式中的学习处理的流程图。

首先，收集由相机18拍摄的物体及教学工具2的图像数据(步骤S10)。经由相机18，输入关于多个物体中的每一个使用教学工具2能够夹持的多个位置及姿势，从而取得该图像数据。关于多个物体中的每一个，输入多个夹持位置及夹持姿势作为用于向训练数据变换的图像数据。取得的训练数据经由输入部100输入给训练数据生成部102。

作为一个例子，在物体的数量为7个的情况下，在将各物体配置为12个任意位置以及任意姿势、对于各配置设定100个能够夹持的位置及姿势时，对于各物体收集12×100＝1200组图像数据，作为整体收集7×12×100＝8400组图像数据。

接下来，关于取得的各图像数据进行向训练数据的变换处理(步骤S11)。训练数据生成部102变换输入的图像数据并生成训练数据。生成的训练数据存储到训练数据存储部110。另外，例如，在如上所述取得大量数据的情况下，输出的能够夹持目标物体的位置及姿势的信息变成几乎无限组。因此，训练数据生成部102使用k-means等聚类方法，将教学工具2能够夹持物体的位置(z)及姿势(R，P，Y)的4维信息例如分类成300组能够夹持的位置及姿势的信息。这些聚类的结果也可以存储在训练数据存储部110中。

1个集合的训练数据是具备将4维(例如R，G，B，D)的物体的图像与6维(例如x，y，z，R，P，Y)的能够夹持该物体的位置及姿势的信息相关联的数据的数据。即，对于多个物体分别具备多个集合的上述训练数据的数据被存储在训练数据存储部110中。

接下来，进行学习(步骤S12)。在学习的最优化中例如使用Adam(Adaptive MomentEstimation，自适应矩估计)。作为使用Adam的情况下的学习参数，可以设α＝0.0004、批尺寸为80等。此外，学习的最优化方法不限于Adam，也可以使用NAG、Adagrad、RMSprop、Adadelta等其他最优化方法。另外，为了求得学习时的初始值，可以进行预学习。例如可以使用VGG16模型来执行预学习。

另外，为了抑制过拟合，可以通过Label-preserving transformation(标签保留转换)的方法人工地生成数据。该方法例如是如下方法：制作对被标记为能够夹持的数据局部地施加改变的人工数据，将该数据也假定为能够夹持的位置及姿势的信息。

例如，在有夹持器16的位置及姿势相近的2个训练数据的情况下，将处在这些数据的中间的位置及姿势的信息假定为能够夹持的位置及姿势的信息，生成新的训练数据。通过这种方式，例如可以将上述的8400组数据增加到3倍程度。通过如此补充样本，例如，能够抑制引起虽然在关于某位置及姿势的信息中是能够夹持的、但在仅将滚转角从该位置及姿势的信息轻微地偏离的情况下被判定为不能夹持这样的过拟合的可能性。

在学习中，例如使用以下的评价函数来进行学习模型的最优化。具体地，使用下面记载的评价函数进行有训练(监督)的学习，例如在各层间进行卷积中使用的核的最优化。此外，在下面的记载中，输出的图像如上所述成为sigmoid函数的输出，所以输出图像的像素值不会成为0及1。

作为PLM的评价函数：

[公式1]

在此，a表示倍率，n表示学习数据的总数，W/H分别表示学习中使用的图像的宽度/高度，t表示成为目标的PLM，y表示输出。倍率a例如为200。

作为PCM的评价函数：

[公式2]

在此，C表示分类数，S_k表示成为t_k ^(i,j)＝1的像素总数，u表示成为目标的PCM，y表示输出。

可以使用以PCM的评价函数和PLM的评价函数表示的评价函数L＝L_PLM+λL_PCM通过反向传播算法最优化学习模型来执行学习。在此，λ例如为200。通过进行这样的学习，例如最优化进行卷积的各核。此外，评价函数只要是能够评价PLM及PCM的函数即可，并不限于上述的内容。另外，在学习阶段中，可以将训练数据分为2组进行交叉验证。学习出的学习模型存储到学习模型存储部112。

通过进行如上所述的学习，生成图4所示的学习模型。接下来，说明目标物体的图像被拍摄的情况下的能够夹持位置及姿势的信息的推算阶段。图6是示出本实施方式中的推算处理的流程图。

首先，推算部106经由输入部100取得由相机18拍摄的目标物体的图像(步骤S20)。关于该图像，在相机18是RGB-D相机的情况下，取得在平面上表示的R、G、B的各颜色分量的图像以及表示拍摄的图像中的各个深度的图像。

接下来，推算部106将在步骤S20中取得的图像作为输入图像输入到存储在学习模型存储部112中的学习模型，取得表示能够夹持该目标物体的夹持器16的位置及姿势的PLM及PCM(步骤S21)。由相机18取得的目标物体的图像被输入到图4所示的最左的输入层。由具备被输入图像的卷积网络的学习模型输出针对该目标物体的PCM和PLM。

此外，关于PCM和PLM的输出，可以如图4所示作为图像经由输出部108输出。PLM的图像将夹持器16能够夹持目标物体的可能性高的夹持器16的位置作为点的集合输出。PCM将各点处的夹持器的深度(距相机18的铅直方向的距离)及姿势的4维数据(z，R，P，Y)与聚类为300组的结果对照，作为图像输出。例如，如上所述各个分类在图像上作为不同的颜色输出。

接下来，推算部106从由学习模型输出的能够夹持的夹持器16的深度及姿势的数据中选择得分高的信息，经由输出部108输出该信息(步骤S22)。作为得分，例如，参照输出的PLM及PCM的图本身。

接下来，通过操作经由输出部108从计算机10接收到能够夹持的位置及姿势的信息的夹持器16，机器人14能够使用夹持器16夹持目标物体(步骤S23)。

图7A是目标物体的一个例子。如该图7A所示，目标物体例如是瓶子。图7B及图7C是示出由上述的学习模型推算出的目标物体的夹持位置及姿势的图。在这些图中，是使用7种训练数据用的物体来最优化学习模型、并将未用作训练数据用的物体的目标物体适用于该学习模型的例子。

图7B是俯视示出夹持目标物体的位置及姿势的图，图7C是图7B的A-A’剖视图。在这些图7B及图7C中，实线是根据得分最高的能够夹持的位置及姿势的信息示出夹持器16的位置及姿势的线，接着以虚线、点划线的顺序示出得分高的信息。

当是基于得分最高的能够夹持的位置及姿势的信息的位置及姿势时，夹持器16能够从这些图中读取出能够夹持目标物体。即，夹持器16位于图7B所示的水平方向及图7C所示的铅直方向的位置，在各图中能够读取出以夹持目标物体的方式设定了夹持器16的姿势。关于虚线、点划线，也同样能够读取出能够夹持目标物体。

此外，在如图7B及图7C所示的例子中，作为得分，首先提取PLM的输出值最高的点(x，y)，按该点(x，y)处的PCM的得分由高到低的顺序图示3个能够夹持的位置及姿势的信息。能够夹持的位置及姿势的提取不限于此，也可以通过由预定的评价函数评价PLM和PCM的输出值来提取。例如，可以简单地输出PLM及PCM的输出值的积最高的位置及姿势，也可以输出基于预定权重的PLM及PCM的加权平均值最高的位置及姿势。

如以上那样，根据本实施方式，通过使用根据多维度例如6维的训练数据进行最优化而得到的学习模型，能够推算自由度高的、换言之、适应多维自由度的能够夹持的位置及姿势的信息。在上述的实施方式中设为6维，但是例如通过使用基于夹持器16的爪的关节处的弯曲程度、爪彼此的距离等其他参数的训练数据，也能够针对更高维度的自由度推算表示能够夹持的状态的信息。通过如此将自由度设为高维度，在利用各种形状的夹持单元的情况下，也能够采用本实施方式所涉及的学习方法。

例如，在学习夹持器16的关节的动作并使其作为能够夹持的信息输出的情况下，可以与夹持器16的形状匹配地将教学工具变形。例如，也能够使得教学工具的爪部分处具有1个或多个关节，由相机18还拍摄关节的动作设为训练数据。作为其他例子，在想要限定夹持器16的爪彼此的距离的情况下，可以将教学工具的爪彼此的距离设为与夹持器16的爪彼此的距离等同。另外，在夹持器16的姿势的自由度例如是2的情况下，也可以追加这些爪彼此的距离、爪的长度等其他自由度并作为6维以上的自由度来学习，输出能够夹持数据。如此，本实施方式中的学习装置能够进行6维以上的自由度的学习并进行数据的推算。

作为训练数据的制作方法，可以如上述的实施方式那样使用与夹持器16不同形状的教学工具2，作为其他例子，也能够使用与夹持器16相同形状的教学工具。在这种情况下，能够消除或减小教学工具2与夹持器16的形状的误差，能够避免虽然在训练数据中用教学工具2能够夹持、但是用实际的夹持器16不能夹持这样的问题。在使用这样的与夹持器16相同形状的教学工具的情况下，可以通过人实际使用机器人14的操作系统操作机器人14来收集训练数据。

此外，可以使用如协动机器人那样通过人从外部施加物理力而能够变形的机器人，使作为教学工具的夹持器16动作到实际能够夹持物体的位置及姿势，将该位置及姿势的状态作为训练数据。在这种情况下，作为教学工具的夹持器16的位置及姿势可以与上述的实施方式同样地根据用相机18拍摄的内容来取得。另外，在能够经由机器人14取得夹持器16的位置及姿势的信息的情况下，可以不仅用相机18拍摄夹持器16，而且相机18也进行物体的拍摄，能够夹持的位置及姿势的信息经由机器人14取得，将该物体的图像信息与能够夹持的位置及姿势的信息相关联而作为训练数据。

此外，在取得训练数据的情况下，可以不夹持实际的物体，而是用相机18获取物体的信息，使用VR(Virtual Reality，虚拟现实)技术、AR(Augmented Reality，增强现实)技术虚拟地或扩展地定义物体，人操作教学工具2或者夹持器16，取得能够夹持该虚拟的物体或者该扩展的物体的位置及姿势的信息。通过这种方式，能够削减用于取得训练数据的教学用的惯用构筑的成本，并且易于在同一物体的状况下多人进行教学，从而抑制由主观引起的教学的偏差。

此外，在本实施方式中，通过将由学习模型推算出的位置及姿势的信息作为图像输出，在关于由相机18拍摄的目标物体自动地推算能够夹持的位置及姿势的信息之后，能够使用户从输出的候补中容易地选择能够夹持的位置及姿势的信息。

另外，在本实施方式中，由于是基于FCN的学习模型，所以能够高速地进行运算，特别是能够削减学习阶段中的时间成本。这例如在将针对推算出的位置及姿势的信息实际能否夹持作为新的训练数据的情况下也有效。

本实施方式所涉及的夹持系统1例如可以在物流仓库中的商品的分拣、工厂中的分拣等分拣大量以及/或者多品种的物体时使用。另外，例如也可以在无尘室内的物体的分拣等用户难以接近物体的情况下或者不希望用户接近物体的情况下进行远程操作时使用。此外，可以在机器人14使用道具来进行作业的情况下为了夹持该道具而应用。

此外，在上述的实施方式的说明中，使用表示垂直、水平、铅直等方向的词汇，但是可以任意地定义它们，只要是在夹持系统1内能够相对地确定的方向即可。例如，可以使相机18在夹持系统1内在相对重力水平的方向上拍摄，在这种情况下，作为一个例子，可以将x轴定义为与相机18的拍摄面平行且相对重力方向水平的轴，将y轴定义为与拍摄面平行且与x轴垂直的轴，将z轴定义为与相机18的拍摄面垂直的轴。此外，如果是夹持系统1内的3维的位置能够唯一确定的线性独立的轴，则也无需各轴严格意义上正交。

关于坐标系，与安装的场景匹配地不限于正交坐标系，也能够使用其他坐标系例如圆柱坐标系等。关于姿势也是同样，只要是在夹持系统1内能够唯一确定，则不限于上述的R，P，Y，例如也可以使用欧拉角或者偏角、方向余弦来表示。如此，只要能够根据3维位置及3维姿势唯一地确定教学工具2及夹持器16的位置及姿势，则可以是任意的，能够选择在系统的设计中易于使用的类型。

在上述全部记载中，夹持系统1的至少一部分可以由硬件构成，也可以由软件构成并由CPU等通过软件的信息处理来实施。在由硬件构成的情况下，可以将实现夹持系统1及其至少一部分的功能的程序储存在软盘、CD-ROM等存储介质中，使计算机读入来执行。存储介质不限于磁盘、光盘等可装卸的存储介质，也可以是硬盘装置、存储器等固定型的存储介质。即，可以使用硬件资源来具体地安装基于软件的信息处理。此外，基于软件的处理可以安装在数字电路、模拟电路或者FPGA(Field-Programmable Gate Array，现场可编程门阵列)等电路中并由硬件执行。可以具备控制电路，一部分或者全部功能通过这些电路来控制。学习模型的生成、向学习模型进行了输入之后的处理例如可以使用GPU等加速器来进行。

另外，本实施方式所涉及的学习模型能够用作作为人工智能软件的一部分的程序模块。即，计算机10的CPU根据存储在学习模型存储部112中的模型，针对输入到卷积网络的输入层的由相机18拍摄的图像数据进行运算，从该卷积网络的输出层输出结果，以此方式来动作。

根据上述全部记载，只要是本领域技术人员，就可能能够想到本发明的追加、效果或者各种变形，但是本发明的方式不限于上述各个实施方式。可以在不脱离从权利要求书中规定的内容及其等同物推导出的本发明的概念性的思想和趣旨的范围内进行各种追加、变更以及部分删除。

Claims

1.一种学习装置，其中，具备：

检测单元，取得物体的图像信息和夹持该物体的教学工具的信息；

训练数据生成单元，将由所述检测单元取得的所述教学工具的信息变换为所述教学工具的位置及姿势的信息，生成将所述物体的图像信息与夹持该物体的所述教学工具的位置及姿势的信息相关联的数据即训练数据；以及

学习部，使用所述训练数据学习由具备多个层的神经网络模型表示的学习模型，该学习模型是当经由所述检测单元被输入目标物体的图像信息时输出能够夹持所述目标物体的夹持单元的位置及姿势的信息的学习模型，

所述学习模型输出的所述姿势的信息包括能够表现绕多个轴的旋转角度的信息。

2.根据权利要求1所述的学习装置，其中，所述学习模型将能够夹持所述目标物体的所述夹持单元的位置以及姿势的信息作为图像信息输出。

3.根据权利要求1所述的学习装置，其中，

所述检测单元将所述教学工具的位置检测为3维数据，

所述训练数据是具备至少包括所述教学工具的3维位置信息的6维以上的自由度的数据。

4.根据权利要求3所述的学习装置，其中，所述学习模型是卷积神经网络模型。

5.根据权利要求4所述的学习装置，其中，所述学习模型是在各层间不存在全连接层且所有层间通过卷积运算被连接的卷积神经网络模型。

6.根据权利要求1至5中的任意一项所述的学习装置，其中，

所述检测单元将所述教学工具的位置检测为3维数据；

所述训练数据中包括的所述教学工具的位置是用所述教学工具相对预定的基准点的垂直位置以及用2维表示的水平位置这3维表示的位置；

所述训练数据中包括的所述教学工具的姿势是用所述教学工具相对预定的基准姿势的滚转角、俯仰角及偏摆角这3维表示的姿势；

所述训练数据具备6维数据，该6维数据是所述教学工具能够夹持该物体的用所述3维表示的位置以及用所述3维表示的姿势的数据，

所述学习模型输出的所述夹持单元的位置及姿势的信息是所述夹持单元的用所述3维表示的位置以及用所述3维表示的姿势。

7.根据权利要求6所述的学习装置，还具备训练数据生成部，该训练数据生成部根据所述检测单元检测出的设置于所述教学工具的标记器的信息，取得所述训练数据的所述6维数据。

8.根据权利要求6所述的学习装置，其中，所述学习部将所述教学工具能够夹持物体的多个位置及姿势的信息中的、对基于所述检测单元检测出的距该物体的深度信息以及所述教学工具的姿势信息的多个信息进行聚类而得到的信息用作训练数据。

9.一种推算装置，其中，具备：

检测单元，取得目标物体的图像信息；

存储部，存储由具备多个层的神经网络模型表示的学习模型，该学习模型是当被输入物体的图像信息时输出能够夹持所述物体的夹持单元的位置及姿势的信息的学习模型；

推算部，将由所述检测单元取得的所述目标物体的图像信息输入到所述学习模型，推算所述夹持单元能够夹持所述目标物体的位置及姿势的信息；以及

夹持单元，根据由所述推算部推算出的所述位置及姿势的信息，夹持所述目标物体，

由所述推算部推算出的所述姿势的信息包括能够表现绕多个轴的旋转角度的信息。

10.根据权利要求9所述的推算装置，其中，

还具备输出部，该输出部将所述推算部推算出的所述位置及姿势的信息输出为图像信息。

11.根据权利要求10所述的推算装置，其中，

所述输出部输出的所述图像信息具备：

所述夹持单元能够夹持所述目标物体的2维位置信息，该2维位置信息表示相对所述检测单元的检测面平行的平面中的位置；以及

所述夹持单元能够夹持所述目标物体的3维姿势信息以及相对所述检测单元的检测面垂直方向的深度信息。

12.根据权利要求9所述的推算装置，其中，

所述目标物体的图像信息包括所述目标物体的距离图像。

13.根据权利要求9所述的推算装置，其中，

所述能够表现绕多个轴的旋转角度的信息包括所述夹持单元的3维姿势角的信息。

14.根据权利要求9所述的推算装置，其中，

由所述推算部推算出的所述位置及姿势的信息具有包括所述夹持单元的角度信息的6维以上的自由度。

15.根据权利要求9所述的推算装置，其中，

所述推算部推算与所述夹持单元的姿势的多个分类有关的信息。

16.根据权利要求9至15中任意一项所述的推算装置，其中，

所述神经网络模型是基于根据虚拟现实VR技术或增强现实AR技术中的至少一个生成的夹持物体的信息生成的。

17.根据权利要求16所述的推算装置，其中，

所述夹持物体的信息是根据由相机获取的实际物体的信息生成的。

18.一种夹持系统，其中，具备：

根据权利要求9至15中的任意一项所述的推算装置；以及

控制部，将所述夹持单元控制为基于由所述推算部推算出的位置及姿势的信息的位置及姿势，使所述夹持单元夹持所述目标物体。

19.一种学习方法，其中，具备：

检测单元取得物体的图像信息和夹持该物体的教学工具的信息的步骤；

训练数据生成单元将由所述检测单元取得的所述教学工具的信息变换为所述教学工具的位置及姿势的信息，生成将所述物体的图像信息与夹持该物体的所述教学工具的位置及姿势的信息相关联的数据即训练数据的步骤；

学习部使用所述训练数据学习由具备多个层的神经网络模型表示的学习模型的步骤，该学习模型是当经由所述检测单元被输入目标物体的图像信息时输出能够夹持所述目标物体的夹持单元的位置及姿势的信息的学习模型，

20.一种推算方法，包括：

检测步骤，检测单元取得目标物体的图像信息；

推算步骤，推算部将由所述检测单元取得的所述目标物体的图像信息输入到学习模型，推算夹持单元能够夹持所述目标物体的位置及姿势的信息，所述学习模型是由具备多个层的神经网络模型表示的学习模型，所述学习模型当被输入物体的图像信息时输出能够夹持所述物体的所述夹持单元的位置及姿势的信息；以及

夹持步骤，所述夹持单元根据在所述推算步骤中由所述推算部推算出的所述位置及姿势的信息，夹持所述目标物体，

在所述推算步骤中由所述推算部推算出的所述姿势的信息包括能够表现绕多个轴的旋转角度的信息。

21.一种学习模型，其中，

所述学习模型是由学习单元根据训练数据学习出的、由具备多个层的神经网络模型表示的学习模型，所述训练数据是训练数据生成单元根据检测单元取得的物体的图像信息和夹持该物体的教学工具的信息生成的、将所述物体的图像信息与夹持该物体的所述教学工具的位置及包括能够表现绕多个轴的旋转角度的信息的姿势的信息相关联的数据，

所述学习模型使计算机如下发挥功能：当经由所述检测单元被输入目标物体的图像信息时，在所述多个层之间进行基于学习结果的运算，输出能够夹持所述目标物体的夹持单元的位置及姿势的信息。