CN111615623A

CN111615623A - 触觉信息推测装置、触觉信息推测方法以及程序

Info

Publication number: CN111615623A
Application number: CN201980008690.6A
Authority: CN
Inventors: 高桥城志; J·E·T·坦
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2018-01-16
Filing date: 2019-01-15
Publication date: 2020-09-01
Also published as: EP3742142A4; WO2019142796A1; EP3742142A1; JP6587195B2; US11590658B2; US20200130193A1; JP2019124582A

Abstract

实现根据视觉信息取得触觉信息的触觉信息推测装置。触觉信息推测装置具备视觉触觉特征量提取部，该视觉触觉特征量提取部将由视觉传感器取得的物体的视觉信息输入到根据视觉信息和与所述视觉信息关联起来的触觉信息生成的模型中，提取与所述物体的触觉信息有关的特征量。

Description

触觉信息推测装置、触觉信息推测方法以及程序

技术领域

本发明涉及触觉信息推测装置、触觉信息推测方法以及程序。

背景技术

当前，广泛进行着关于处理视觉信息、声音信息、动作信息等多种信息的机械学习的研究。也广泛进行着使用从触觉传感器输入的力的检测这样的信息来进行物体的控制的研究。

然而，在这些研究结果中，难以像人类经验性地进行的动作(例如根据视觉信息判定物体的不易滑的部位)这样从得到的视觉信息取得触觉信息。因此，存在难以使机器人进行像人类通常进行的那样观察物体、判断该物体的不易滑的部位并根据判断结果进行物体的夹持这样的动作的课题。

发明内容

因此，本发明的实施方式提出一种根据视觉信息推测触觉信息的触觉信息推测装置、触觉信息推测方法以及程序。

一个实施方式所涉及的触觉信息推测装置具备视觉触觉特征量提取部，该视觉触觉特征量提取部将由视觉传感器取得的物体的视觉信息输入到根据视觉信息和与所述视觉信息关联起来的触觉信息生成的模型中，提取与所述物体的触觉信息有关的特征量。

根据一个实施方式，能够根据物体的视觉信息来推测该物体的触觉信息。

附图说明

图1是示出一个实施方式所涉及的触觉信息推测装置的功能的框图。

图2是示出一个实施方式所涉及的自组织化的空间的一个例子的图。

图3是示出一个实施方式所涉及的学习阶段的流程的流程图。

图4是示出一个实施方式所涉及的推测阶段的流程的流程图。

图5是示出一个实施方式所涉及的触觉信息推测装置的功能的框图。

图6是示意地示出夹持物体的情形的图。

图7是示意地示出一个实施方式所涉及的夹持信息取得部的图。

图8是示出一个实施方式所涉及的触觉信息推测装置的功能的框图。

图9是示出一个实施方式所涉及的推测阶段的流程的流程图。

图10是示出一个实施方式所涉及的推测阶段的流程的流程图。

图11是示出一个实施方式所涉及的触觉信息推测装置的功能的框图。

具体实施方式

(第1实施方式)

在本实施方式中，说明在输入视觉信息后推测并输出触觉信息的触觉信息推测装置。该触觉信息推测装置可以不仅输出根据视觉信息推测触觉信息的结果，而且还输出根据视觉信息生成触觉信息的生成模型。以下参照附图详细说明。

图1是示出本实施方式所涉及的触觉信息推测装置1的功能的框图。触觉信息推测装置1具备视觉传感器100、触觉传感器102、输入部104、模型生成部106、输出部108以及视觉触觉特征量提取部110。

视觉传感器100取得物体的视觉信息。例如，视觉传感器100具备相机，取得物体的视觉信息作为图像信息并输入到输入部104。相机既可以是将图像取得为彩色图像的相机，也可以是将图像取得为灰度图像的相机。另外，可以搭载诸如取得包括来自视觉传感器100的深度信息的图像信息的RGB-D相机等设备。

触觉传感器102取得物体的触觉信息。例如，触觉传感器102可以具备阵列状地配置的多个压力点传感器。这些多个压力点传感器可以被软性的硅树脂等覆盖，能够作为面来感知压力。作为其他例子，也可以使用一般流通的片状、膜状的触感传感器。

作为触觉传感器102的其他例子，也可以是具备具有弹性且有透射性的硅树脂等物质作为与物体接触的接触部、用相机等拍摄该接触部的位移并根据该拍摄状态取得作为面的压力的传感器。拍摄位移的相机既可以是立体相机，也可以是诸如能够通过超声波等判断表面的凹凸的设备。

如上述例子，触觉传感器102是能够将作为点取得的压力信息取得为面的压力信息的传感器即可。另外，可以不一定是能够在相同的定时取得作为面的压力信息的传感器，也可以是能够由能够取得1点以上的点的压力信息的传感器对物体的面上的点进行扫描来感知各点处的压力信息从而取得作为面的压力信息的传感器。

触觉传感器102也可以是如上所述测定从物体的表面向触觉传感器102施加的压力的例子。作为其他例子，也可以是诸如能够测量来自物体的内部的反作用力的传感器。

输入部104在生成模型的学习阶段(以下简记为学习阶段)中，接收视觉传感器100感知到的视觉信息以及触觉传感器102感知到的触觉信息作为传感器信号。接收到的传感器信号向模型生成部106输出。

此外，视觉传感器100或者触觉传感器102中的至少1个可以是设置于触觉信息推测装置1的外部的其他装置。在该情况下，输入部104接收来自该外部的视觉传感器和/或该外部的触觉传感器的信号，向模型生成部106输出。这样，输入部104可以不仅进行触觉信息推测装置1内的传感器信号的接收，而且还接受来自外部的信号的输入。

作为其他例子，在模型生成的过程中，也可以视觉传感器100以及触觉传感器102不经由输入部104而分别向模型生成部106输入感知到的传感器信号。而且，也可以作为输入部104的一部分具备视觉传感器100或者触觉传感器102中的至少1个。

另一方面，在推测触觉信息的推测阶段(以下简记为推测阶段)中，输入部104从视觉传感器100被输入视觉信息。如上所述，视觉传感器100既可以设置于触觉信息推测装置1的内部，也可以是从处于外部的视觉传感器输入视觉信息的设备。而且，也可以是从处于外部的文件服务器等经由网络等输入视觉信息的设备。输入的视觉信息向视觉触觉特征量提取部110发送。

模型生成部106根据输入的视觉信息以及与视觉信息关联起来的触觉信息，生成在输入视觉信息及触觉信息后输出视觉信息及触觉信息的模型。该模型例如是根据CNN(Convolutional Neural Network：卷积神经网络)、FNN(Feedforward Neural Network：前馈神经网络)等学习模型生成的模型。作为其他例子，也可以生成在输入视觉信息后输出触觉信息的模型。

作为输入输出信息的其他例子，生成的模型也可以是在输入视觉信息及触觉信息后输出触觉信息的模型、或者在输入视觉信息后输出视觉信息及触觉信息的模型。

这样，生成的模型是根据视觉信息以及与该视觉信息关联起来的触觉信息而生成、通过自组织化自动生成与作为将视觉信息和触觉信息关联起来的特征量的视觉触觉特征量有关的信息的模型即可。

模型生成部106将生成的模型向输出部108以及视觉触觉特征量提取部110发送。此外，在触觉信息推测装置1的外部不使用模型的情况下，也可以不一定向输出部108输出。在学习阶段中，可以从输出部108输出生成的模型的损耗(loss)、梯度等参数，使用户能够确认模型的学习状况。

输出部108在学习阶段中，将从模型生成部106输出的模型向外部输出。通过这样向外部输出模型，在其他触觉信息推测装置中也能够使用相同的模型。另一方面，在推测阶段中，输出从视觉信息变换的触觉信息、视觉触觉特征量等。

视觉触觉特征量提取部110在学习阶段中，根据模型生成部106，取得自组织化的视觉触觉特征量，生成视觉触觉特征量的自组织化的空间。该自组织化的空间与通常的种类(class)分类及类型(category)分类等不同，是以状态沿着轴连续或离散地变化的方式形成的空间。

图2是示出对视觉触觉特征量提取部110提取的视觉触觉特征量进行可视化的情形的一个例子的图。在图2的例子中，作为表示触觉的特征量，示出易滑性和硬度的关系。纵轴表示易滑性，表示越接近原点O越易滑、越远离原点O越难滑。另一方面，横轴表示硬度，表示越接近原点O越硬、越远离原点O越软。

所进行的上述针对轴的说明是图中的区域内的说明。例如，在图中，接近原点O的区域是物体易滑并且硬的区域。垂直方向远离原点O且水平方向接近原点O的区域是难滑并且硬的区域。同样地，如图所示，存在易滑并且软的区域和难滑并且软的区域。

为了图示，示出椭圆状的区域，但特征量如上所述沿着轴连续或离散地变化，这些区域不是能够明确地区分的区域。即，该视觉触觉特征量提取部110进行的自组织化不是一般的种类分类及类型化(categorization)，而是硬度及易滑性等指标沿着轴变化的自组织化。

这些分类不限定于易滑性和硬度，也可以还具备其他指标作为触觉特征量。在具备其他指标的情况下，并非2维地表示的空间，而成为表示3维以上的高维的状态的空间。即使在2维的情况下，也不限定于易滑性和硬度，也可以根据输出的信息的目的使用适当的指标。

另外，即使是易滑性和硬度的指标，根据模型生成部106生成的模型的中间层中的维度，也存在在2维空间中无法明确地表现的可能性。在这样的情况下，也可以以能够在3维以上的空间中表现的方式对易滑性及硬度的指标进行自组织化。

这样，视觉触觉特征量提取部110根据生成的模型，提取自组织化的视觉触觉特征量。

在推测阶段中，视觉触觉特征量提取部110例如在模型生成部106通过自动编码器生成模型的情况下，使用该模型的编码器部分对输入的视觉信息进行编码。然后，根据该编码后的信息在自组织化的空间中存在于哪个位置来提取视觉触觉特征量。提取的视觉触觉特征量经由输出部108输出。

接下来，使用流程图说明学习阶段的动作。图3是示出触觉信息推测装置1的学习阶段中的动作的流程图。

首先，经由输入部104分别从视觉传感器100及触觉传感器102取得视觉信息及触觉信息(S100)。例如，在由触觉传感器102取得物体的触觉信息的定时取得该物体的图像作为视觉信息，该视觉信息及该触觉信息经由输入部104输入到触觉信息推测装置1。也可以如上所述，视觉传感器100及触觉传感器102不经由输入部104而将各自取得的信息向模型生成部106发送。

作为其他例子，也可以用户经由输入部104指定视觉传感器100及触觉传感器102感知各自的传感器信息的定时而取得视觉信息及触觉信息。在该情况下，可以在输入部104中具备用于用户输入指示的用户接口。作为其他例子，也可以经由输入部104输入预先取得的视觉信息以及与该视觉信息关联起来的触觉信息。预先取得的信息可以是存储于文件服务器等的信息。

视觉传感器100如上所述例如是相机，从输入部104输入由相机拍摄的图像作为视觉信息。关于图像信息，在以彩色取得的情况下，可以变换为灰度而输入。另外，为了排除照明等光的照射方法的影响，可以针对每个区域进行亮度、明度、彩度或者对比度、动态范围等的调节而输入。作为一个例子，视觉传感器100取得物体的表面的纹理信息作为视觉信息并向输入部104输入。这些学习的前处理不限于在视觉传感器100中进行，也可以在输入部104、其他模块中进行。

触觉传感器102如上所述例如是具备阵列状地配置的多个压力点传感器的传感器。在这样的具备多个压力点传感器的传感器的情况下，在以预定的力向物体按压时，触觉传感器102从输入部104输入集成了各个传感器感知到的数据的信息作为触觉信息。更具体地，通过2维地配置以预定的力向物体按压的情况下的压力点传感器中的1个1个压力点传感器感知到的压力信息，触觉传感器102感知作为面的压力信息。换言之，设为与图像中的像素对应的是压力点传感器，输入作为面的压力信息作为触觉信息。

在此，预定的力可以是指例如在感知到与物体接触之后从物体施加到触觉传感器102的外力。作为其他例子，在夹爪等指状物中具备触觉传感器102的情况下，可以是在以将该指状物间的距离设为预定距离的方式控制的情况下从物体施加到触觉传感器102的力。这样，在接触各种物体的情况下，能够在同样的状态下感知即可。

由此，不仅对硬的物体能够适当地取得触觉信息，而且对软的物体或者发生变形的物体也能够适当地取得触觉信息。

而且，也可以使触觉传感器102从上述状态向与触觉传感器102的压力点排列的方向平行的方向移动预定距离，将在移动中受到的压力的感知信息或者移动后的位置处的压力的感知信息追加为触觉信息。通过这样感知移动了预定距离的信息，除了给予预定的力而能够取得的硬度信息以外，还能够根据移动了预定距离的情况下的各压力点传感器的感知，取得物体表面的易滑性的信息。在取得移动中的感知信息的情况下，可以不仅使得进行预定距离的移动，而且还施加预定的力而使得移动并取得压力信息作为触觉信息。在取得移动中的感知信息的情况下，可以将触觉信息取得为按照时间序列的信息。

从触觉传感器102输入的信息不限于此，也可以使用1个压力传感器将该信息设为触觉信息，在片状的触感传感器的情况下，也可以从输入部104输入根据该触感传感器的规格感知到的触觉信息。

如上述说明，向输入部104输入的视觉信息及触觉信息成为以具有像素数或压力点数的元素的张量(例如向量或矩阵)表示的高维的数据。在取得使得移动预定距离的情况下的信息作为触觉信息的情况下，可以将具有压力点数的元素数的2个以上的矩阵、即不移动的状态的矩阵以及正在移动或移动后的状态的矩阵用作触觉信息而使得进行学习。在取得移动中的按照时间序列的信息的情况下，输入的触觉信息既可以是3维的矩阵，也可以是多通道的矩阵。

接下来，模型生成部106生成在输入视觉信息及触觉信息后输出视觉信息及触觉信息的模型(S102)。模型生成部106例如通过使用自动编码器来生成该模型。在使用自动编码器的情况下，向模型输入视觉信息及触觉信息，通过学习生成诸如能够取得该视觉信息及该触觉信息的网络。生成的模型如上所述既可以是基于CNN的模型，也可以是FNN等其他网络模型。

在输入输出这双方中使用视觉信息及触觉信息的情况下，也可以使用图像作为视觉信息、使用压力点传感器取得的压力信息作为触觉信息，将这些数据设为不同的通道的数据来实现CNN。在以时间序列取得压力信息的情况下，既可以将生成模型实现为如上所述将按该时间序列排列的压力信息分别设为不同的通道的CNN，也可以以作为3维的矩阵输入的方式实现。在使用其他网络的情况下，关于视觉信息及触觉信息的数据，也可以实现例如输入各个像素值的输入层以及输出各个压力点值的输出层。

在学习中，激活函数既可以是恒等映射，也可以是非恒等映射。另外，作为损失函数，既可以使用平方误差，也可以使用其他线性或非线性的误差函数。可以针对训练数据适当地构成小批量(mini-batch)来进行学习。作为最优化的算法，可以使用Momentum、Adam等，但不限于此，也可以使用其他最优化算法。

作为其他例子，也可以通过学习生成诸如在输入视觉信息后输出触觉信息的网络作为模型。作为模型，与上述同样地，生成基于CNN或FNN等网络的模型。而且，也可以以能够提取特征量的方式构成诸如在中间层中具有诸如成为2维等低维度的层的网络。在该情况下，模型生成部106例如通过进行带监督的学习，生成在对输入层输入视觉信息后输出与该视觉信息关联起来的触觉信息的模型。

如上所述，可以生成具有成为低维度的层作为中间层的模型，该模型将视觉信息及触觉信息作为输入、将触觉信息作为输出，或者将视觉信息作为输入、将视觉信息及触觉信息作为输出。这些模型也能够通过进行带监督的学习来生成。

接下来，视觉触觉特征量提取部110根据模型生成部106生成的模型，提取将视觉信息及触觉信息联系起来的视觉触觉特征量(S104)。例如，通过取得生成输入到模型的视觉信息对触觉信息产生什么样的影响这样的特征量的网络的中间层，提取该视觉触觉特征量。

在S102中生成的模型的中间层以低维度表现视觉信息与触觉信息之间的特征量。因此，视觉触觉特征量提取部110根据该中间层提取并输出自组织化的视觉触觉特征量的空间。另外，在该S104中，视觉触觉特征量提取部110可以生成在输入视觉信息后输出触觉信息的模型。

作为一个例子，视觉触觉特征量提取部110在模型生成部106根据CNN通过自动编码器生成模型的情况、即通过所谓卷积自动编码器生成模型的情况下，取得作为该模型中的代码(code)部分的层的中间层。取得的中间层是相对于输入到模型的视觉信息及触觉信息这样的高维度(像素数、压力点数)的数据表示压缩后的低维度的特征量的层。模型生成部106可以通过将中间层中的维度压缩至2维或者3维等低维度而以能够对特征量进行可视化的方式生成模型。在该情况下，视觉触觉特征量提取部110通过提取该中间层来提取自组织化的特征量。

模型生成部106生成的模型无需以这样设为2维等低维度的方式生成，也可以以具有例如16×16维度这样的更高维度的中间层的方式生成。在这样中间层并非2维等程度的低维度的情况下，视觉触觉特征量提取部110可以提取生成的模型的中间层，以使其输入输出针对该中间层一致的方式，生成通过自动编码器落入低维度的编码器，提取视觉触觉特征量。

低维度的特征量例如如图2所示。在图2中，易滑性和硬度沿着2维的轴形成空间。视觉触觉特征量提取部110通过对特征量进行自组织化，形成以这些指标为轴的空间。如上所述，该空间无需是2维的，而也可以形成为3维以上的维度的空间。

例如，在物体与触觉传感器102接触的状态下，触觉传感器102的至少一部分相对物体有速度地移动，作为一个例子，在触觉传感器102以沿着物体的表面的方式移动的情况下，触觉传感器102取得的数据成为按照时间序列的信息。在该情况下，能够将硬度作为法线方向、将易滑性作为平面方向的分量来取得触觉信息。通过这样取得触觉信息，利用自组织化映射考虑了硬度及易滑性的视觉触觉特征量。

作为其他例子，使用卷积自动编码器中的编码器部分，在自动编码器中，在编码的层中提取各种特征量。也可以根据该编码的层来映射硬度及易滑性的指标。视觉触觉特征量提取部110也可以使用该编码器的层并进行FNN的学习来生成新的网络并提取特征量。在该情况下，可以在新的网络的生成中进行带监督的学习，由此，能够明确地提取关于硬度及易滑性的特征量。

不论针对上述哪种情况，都可以使用模型生成部106生成的模型来进行微调。视觉触觉特征量提取部110也可以通过使用生成的模型进行微调来生成在输入视觉信息后提取硬度及易滑性这样的视觉触觉特征量的新的模型。

这样，无需用户明确地进行标记，既能够根据通过形成CNN的自动编码器而取得的视觉信息及触觉信息来通过自组织化提取以硬度及易滑性为指标的视觉触觉特征量，另外也能够通过使用自组织化的中间层执行带监督的学习来明确地提取以硬度及易滑性为指标的视觉触觉特征量。

此外，自组织化的特征量的空间不限于硬度、易滑性这样的诸如人类明确地理解的信息。然而，通过如上所述触觉传感器102针对视觉信息预先取得诸如包括硬度和易滑性的信息，能够通过自组织化来形成包含硬度和易滑性作为某些指标的自组织化的空间。

即，并非必须如图2所示将视觉触觉特征量形成为空间，例如在形成2维的空间的情况下，也可以横轴、纵轴都形成为人类无法直接感知的指标(例如针对视觉信息的线性或者非线性地组合了硬度和易滑性的指标)。换言之，自组织化的视觉触觉特征量在表现为数值时，不一定限定于人类能够明确地理解为触觉的指标，也可以是人类无法在感觉上理解的指标。

视觉触觉特征量提取部110存储这样生成的自组织化的视觉触觉特征量的空间或者提取视觉触觉特征量的模型。也可以不仅存储于视觉触觉特征量提取部110内，而且还存储于触觉信息推测装置1内的未图示的存储部。作为其他例子，也可以经由输出部108输出生成的视觉触觉特征量提取模型，而能够在其他触觉信息推测装置中利用。

在学习阶段中，通过如以上所述进行学习，生成在输入视觉信息及触觉信息后输出该视觉信息及触觉信息的模型，根据生成的模型，提取诸如在输入视觉信息后输出触觉信息的自组织化的视觉触觉特征量的空间。

接下来，使用流程图说明推测阶段。图4是示出从视觉信息中提取视觉触觉特征量的推测阶段的处理的流程的流程图。在推测阶段中，如图1中的断线所示发送接收数据。

首先，经由输入部104取得视觉信息(S200)。关于视觉信息，例如，将视觉传感器100感知到的视觉信息经由输入部104向触觉信息推测装置1输入。除此以外，也可以将包括在外部取得的视觉信息的数据输入到输入部104。输入的视觉信息例如是与在学习中使用的物体不同的物体的视觉信息。

接下来，视觉触觉特征量提取部110从输入的视觉信息中提取视觉触觉特征量(S202)。视觉触觉特征量提取部110根据在学习阶段中准备的自组织化的空间或者提取视觉触觉特征量的模型，根据输入的视觉信息取得触觉信息。

视觉触觉特征量提取部110使用模型生成部106生成的模型以及视觉触觉特征量提取部110提取的自组织化的视觉触觉特征量的空间，根据视觉信息取得触觉信息。例如，将视觉信息输入到模型生成部106生成的模型，取得中间层中的输出。之后，在视觉触觉特征量的空间中，获取所取得的中间层的输出被映射到哪个坐标。然后，根据映射后的中间层的输出，取得触觉信息。

接下来，输出部108输出视觉触觉特征量提取部110取得的触觉信息(S204)。通过根据输出的触觉信息例如使与机器人连接的夹爪等夹持部动作，能够进行基于触觉信息的物体的夹持。

作为其他例子，也可以预先在触觉信息推测装置1中变换为用于控制夹持部的信号而向机器人输出，或者，还可以在触觉信息推测装置1中具备夹持部，向该夹持部输出控制信号来进行夹持部的控制。触觉信息推测装置1中具备的夹持部可以是触觉传感器102具备的夹爪等。

如以上所述，根据本实施方式，通过对输入的视觉信息以及触觉信息进行自组织化，无需用户进行标记等而能够根据输入的视觉信息取得触觉信息。这样，用户不进行标记而通过使用通过学习自组织化的特征量取得触觉信息，从而能够取得得到了视觉信息的未知的物体的触觉信息。

而且，根据本实施方式，作为触觉信息，不是输出归类或标记的值，而是例如将硬度、易滑性这样的指标作为数值输出，所以能够输出使机器人的夹持部等进行精密的动作的指标。即，能够以更细致的精度而非硬、软这样的粗略的指标，控制用于使机器人的夹持部等动作的力，能够针对各种物体进行基于该物体的触觉信息的夹持。

例如，不限于工厂等中的形状及材质确定的物体的夹持，由于夹持的力而变形的布、袋(pouch)这样的难以对其形状、硬度等进行模型化的物体、每周更换的销售用便当的食材这样的进行模型化花费成本的物体、易于产生个体差的物体等的触觉信息也能够根据本实施方式所涉及的触觉信息推测装置1来高精度地推测。

(第2实施方式)

图5是示出本实施方式所涉及的触觉信息推测装置1的功能的框图。除了上述第1实施方式所涉及的触觉信息推测装置1的功能以外，还具备夹持信息取得部112。

夹持信息取得部112例如具备能够夹持物体的夹爪。该夹持信息取得部112夹持物体，视觉传感器100将夹持的状态感知为视觉信息。在这样夹持物体的状态下，取得物体及夹持位置的信息作为视觉信息，经由输入部104向模型生成部106发送取得的视觉信息。也可以与该视觉信息关联起来，发送物体是否稳定地夹持着的信息。也可以针对物体的形状在各种位置尝试夹持、即改变物体的夹持状态，取得视觉信息、触觉信息以及能否夹持的信息作为训练数据。

例如，可以用户经由输入部104输入是否夹持着物体。作为其他例子，也可以在夹持信息取得部112中设置重量计，判断是否保持举起物体的状态。也可以通过在夹持信息取得部112中使夹持物体的部位向与重力方向相反的方向移动，掌握重量信息成为预定值(物体的重量)的状态持续预定的秒数、或者即使使得移动预定距离但重量信息也不从预定值变化的状态持续等状况，来判断是否保持举起物体的状态。

根据该视觉信息，模型生成部106关于夹持位置进行学习，关于能够稳定地夹持物体的位置生成夹持位置模型。该夹持位置模型被生成为与上述的用于提取视觉触觉特征量的模型不同的模型。夹持位置模型能够根据各种学习方法及各种模型进行学习。例如，可以进行从输入层将物体的形状及夹持位置作为视觉信息输入，从输出层输出能否夹持的带监督的学习。作为其他例子，也可以生成诸如在输入物体的形状后输出在哪个位置易于夹持的模型。在该情况下，不仅可以取得2维信息，而且也可以取得3维信息。

在学习阶段中，模型生成部106向夹持位置推测部114发送学习了的夹持位置模型。夹持位置推测部114存储接收到的夹持位置模型。在推测阶段中，夹持位置推测部114依照所存储的夹持位置模型，根据视觉信息推测夹持位置并经由输出部108输出。

另外，可以在夹爪的夹持物体的部位具备触觉传感器102。在具备触觉传感器102的情况下，夹持信息取得部112可以将触觉传感器102感知到的触觉信息经由输入部104向模型生成部106输入。通过在夹持信息取得部112中具备触觉传感器102，能够在相同的定时取得夹持的位置及触觉信息和与视觉信息关联起来的数据。

图6是示意性地图示具备触觉传感器102的夹持信息取得部112的图。例如，夹持信息取得部112在处于位置112A的情况下能够夹持物体，在处于位置112B及位置112C的情况下无法夹持物体。

在位置112A，夹持信息取得部112向输入部104发送能够夹持物体这样的信息及其触觉信息，在相同的定时，视觉传感器100向输入部104发送视觉信息。这样将能够夹持的位置、触觉信息和与它们关联起来的视觉信息向模型生成部106输入。

另一方面，在位置112B及位置112C，夹持信息取得部112发送无法夹持物体这样的信息。在该情况下，根据物体和触觉传感器102接触的状态下的数据，发送触觉信息。从视觉传感器100发送与物体接触的状态的感知信息。

例如，在夹持信息取得部112与物体接触的时段中，视觉传感器100进行拍摄，触觉传感器102取得触觉信息。之后，如上所述，为了判断能否在该位置夹持，使夹持信息取得部112任意地移动，掌握夹持状况。在掌握夹持状况之后，将夹持信息取得部112检测到的能够夹持信息以及触觉传感器102感知到的触觉信息分别和视觉传感器100感知到的视觉信息关联起来发送。由此，在上述2种情况、即能够夹持的情况、无法夹持的情况这双方下，能够用相同的控制发送来自各个传感器的信息。

在推测阶段中，在输入视觉信息时，将该视觉信息输入到视觉触觉特征量提取部110以及模型生成部生成的夹持位置模型，输出视觉触觉特征量以及能够在哪个位置夹持。这样，将物体的纹理数据输入到视觉触觉特征量提取部110，将物体的形状数据输入到夹持位置模型，能够取得哪个位置易于夹持，并且取得以何种程度的力夹持即可的信息。

如以上所述，根据本实施方式，通过不仅将触觉信息和视觉信息关联起来、而且将基于物体的形状的能够夹持信息也与视觉信息关联起来并进行模型化，能够根据视觉信息所包含的纹理信息及形状信息，输出在夹持时进行控制的力及位置这双方。

此外，在上述中，视觉传感器100的位置没有特别限定。例如，如上述状况，是处于固定位置的视觉传感器100，但不限于此。图7是示出与视觉传感器100的位置有关的其他例子的图。

如图7所示，视觉传感器100可以设置于夹持信息取得部112。这样，通过在夹持信息取得部112中具备视觉传感器100，能够取得更高精度的夹持位置信息以及触觉信息。

例如，在如图7所示具备视觉传感器100时，能够将物体的形状信息和夹持位置信息关联起来取得，并且取得基于触觉传感器102的位置的视觉信息，所以能够针对触觉传感器102的感知信息，更正确地取得触觉传感器102接触的部位的纹理信息。

在该情况下，也可以作为视觉信息，将取得形状信息的定时和取得纹理信息的定时错开而取得。即，也可以形状信息在诸如能够取得物体的整体的位置取得，纹理信息在触觉传感器102和物体接触的状态下取得。

在学习阶段中，根据这样取得的视觉信息等信息，进行基于形状的夹持位置、基于纹理的视觉触觉特征量的学习。

在推测阶段中，首先，取得物体整体的形状的视觉信息，推测夹持位置，之后取得在夹持位置夹持的部位处的纹理信息，推测视觉触觉特征量。这样，也能够设为2个时段的结构。

而且，与视觉传感器100被固定的情况同样地，在学习阶段及推测阶段这双方中，并非必须将视觉信息的取得设为2个时段，也可以取得物体整体的视觉信息作为视觉信息，根据取得的该视觉信息还取得纹理信息。

(第3实施方式)

图8是示出本实施方式所涉及的触觉信息推测装置1的功能的框图。触觉信息推测装置1还具备夹持位置决定部116、物体特性推测部118、夹持力决定部120、夹持控制部122以及夹持部124。

夹持位置决定部116根据夹持位置推测部114推测的夹持位置来决定夹持位置。夹持位置推测部114既可以如上述第2实施方式那样根据生成的夹持位置模型推测夹持位置，也可以通过其他手法根据视觉信息推测夹持位置。另外，在从夹持部124有信息的反馈的情况下，根据反馈的信息更新物体的夹持的位置。

物体特性推测部118根据视觉触觉特征量提取部110提取的视觉触觉特征量来推测物体的特性。而且，物体特性推测部118可以不仅根据视觉触觉特征量而且还根据夹持位置决定部116决定的夹持位置来推测物体中的夹持的部位的特性。另外，在从夹持部124有信息的反馈的情况下，根据反馈的信息更新物体的特性。在进行更新的情况下，可以还更新从视觉触觉特征量提取部110输出的视觉触觉特征量向物体的特性的变换信息。

夹持力决定部120根据物体特性推测部118推测的物体的特性来决定夹持的力。

夹持位置决定部116及夹持力决定部120可以从输出部108输出决定的夹持位置及夹持力，使得外部的夹持装置夹持要夹持的预定物体，即作为与在学习中使用的物体不同的其他物体的预定夹持物体。在如图8所示在触觉信息推测装置1中具备夹持部124的情况下，也可以不输出到外部而向夹持控制部122输出。

夹持控制部122根据夹持位置决定部116决定的夹持位置以及夹持力决定部120决定的夹持力，向夹持部124输出用于控制夹持部124的信号。此外，该夹持控制部122并非是必须的结构，也可以夹持位置决定部116及夹持力决定部120直接向夹持部124输出信息，在夹持部124中生成控制信号并动作。作为其他例子，也可以夹持位置决定部116及夹持力决定部120分别生成控制信号来使夹持部124动作。

夹持部124夹持作为实际上夹持的预定的其他物体的预定夹持物体，将与其夹持状态有关的信息向夹持位置决定部116和/或物体特性推测部118反馈。

学习阶段中的动作与上述各实施方式相同。另外，在图8中，省略了第2实施方式中的夹持信息取得部112，但也可以具备夹持信息取得部112。以下说明推测阶段中的动作。

图9是示出本实施方式所涉及的推测阶段中的动作的流程图。

首先，视觉传感器100取得预定夹持物体的视觉信息，经由输入部104向视觉触觉特征量提取部110及夹持位置推测部114输入视觉信息(S300)。接下来，视觉触觉特征量提取部110使用生成的模型从视觉信息中提取视觉触觉特征量(S302)。

夹持位置推测部114根据输入的视觉信息推测能够夹持预定夹持物体的位置，夹持位置决定部116根据夹持位置推测部114推测的能够夹持的位置决定预定夹持物体的夹持位置(S304)。例如，夹持位置推测部114对能够以何种程度夹持这样的指标进行数值化来推测多个能够夹持的位置，夹持位置决定部116根据该数值化的指标决定最适合的能够夹持的位置。在具备夹持信息取得部112、在模型生成部106中生成夹持位置模型的情况下，使用该夹持位置模型来推测并决定夹持位置。

物体特性推测部118根据视觉触觉特征量提取部110提取的视觉触觉特征量来推测物体的特性(S306)。物体的特性是指，例如，考虑了基于提取的视觉触觉特征量的硬度及易滑性这双方的为了夹持物体而需要的特性。作为一个例子，物体的特性是指根据硬度及易滑性的特征量的数值进行预定的变换而取得的值。预定的变换既可以是指预先定义的变换，也可以是指通过强化学习等学习了该定义的变换的变换。

如上所述，在模型生成部106生成的模型的中间层中自组织化的视觉触觉特征量不一定限于人类在感觉上能够理解的信息。在这样的情况下，物体特性推测部118根据诸如人类难以直接感知是什么样的感觉或触觉的视觉触觉特征量，计算为了计算夹持该物体所需要的力而需要的物体的特性。这样，自组织化的视觉触觉特征量是能够提取能够变换为为了夹持物体而给予的力的物体的特性的特征量即可。

另外，物体特性推测部118可以在S306中不仅根据视觉触觉特征量而且还根据夹持位置推测部114推测的夹持位置推测物体的特性。例如，可以在夹持位置推测部114推测的能够夹持的位置，根据夹持部124和预定夹持物体接触的部位处的预定夹持物体的纹理信息，推测物体的特性。

接下来，夹持力决定部120根据推测的物体的特性来决定作为夹持时给予的力的夹持力(S308)。推测的物体的特性是如上所述例如对基于硬度及易滑性这双方的特性进行数值化而得到的值，夹持力决定部120根据该数值化的值决定夹持力。反过来说，为了决定夹持力，对硬度及易滑性进行数值化而得到的值是物体的特性，物体特性推测部118根据提取的视觉触觉特征量来推测用于决定夹持力的特性值。

输出部108输出夹持位置决定部116决定的夹持位置以及夹持力决定部120决定的夹持力(S310)。这样，本实施方式所涉及的触觉信息推测装置1在想要夹持的物体的视觉信息被输入后，决定并输出夹持位置以及夹持力。通过进行这样的输出，能够更具体地输出为了控制夹爪等夹持装置而需要的信息，而非输出视觉触觉特征量这样的抽象的值。

图10是示出具备夹持部124的情况下的触觉信息推测装置1的动作的一个例子的流程图。在具备夹持部124的情况下，想要通过夹持部124实际上对预定夹持物体进行夹持并反馈该夹持的状态来进一步提高夹持位置及夹持力的决定精度。

直至S308的夹持力的决定的动作与上述图9所示的动作相同。即，在取得预定夹持物体的视觉信息后，触觉信息推测装置1执行夹持位置的决定以及夹持力的决定。

接下来，夹持控制部122通过进行夹持部124的控制来执行夹持动作(S312)。夹持控制部122生成诸如夹持部124以决定的夹持位置以及决定的夹持力动作的控制信号并向夹持部124发送。夹持部124通过根据从夹持控制部122接收到的控制信号进行动作来执行预定夹持物体的夹持。

接下来，夹持控制部122判断夹持动作是否结束(S314)。在夹持动作结束的情况下(S314：是)，结束触觉信息推测装置1的动作。

另一方面，在夹持动作未结束的情况下(S314：否)，夹持部124向夹持位置决定部116和/或物体特性推测部118反馈夹持状态的信息(S316)。反馈的信息例如是是否稳定地夹持着的信息，或者在夹持部124中具备触觉传感器的情况下是该触觉传感器的感知信息这样的信息。

接下来，夹持位置决定部116和/或物体特性推测部118根据反馈的信息来更新夹持部124的控制所需的各种信息(S318)。

例如，夹持位置决定部116根据预定夹持物体的形状决定夹持位置，但在该决定不适当的情况下，更新夹持位置。例如，也可以使用强化学习进行夹持位置的更新。

在使用强化学习的情况下，作为一个例子，关于夹持的稳定度设定奖励，通过MDP(Markov Decision Process：马尔可夫决策过程)进行学习。奖励既可以与上述实施方式同样地根据举起预定的距离的情况下的预定夹持物体的载荷状况来设定，或者在夹持部124具备触觉传感器的情况下也可以根据触觉传感器的状态来设定。也可以使用半马尔可夫决策过程而非使用MDP。在希望使用预定夹持物体中的无法从视觉传感器100感知的部位的信息的情况下，也可以使用部分观测马尔可夫决策过程。强化学习的方法不限于上述例子，只要能够适当地学习即可。

不仅可以关于夹持位置的决定进行该强化学习，而且可以关于夹持力的决定进行该强化学习。例如，物体特性推测部118根据来自夹持部124的反馈信息，通过强化学习更新物体的特性信息。夹持力决定部120根据物体特性推测部118更新的物体的特性信息来更新夹持力。

而且，该信息的更新可以反映到模型生成部106生成的各种模型。即，可以针对生成的模型将通过强化学习得到的信息作为监督数据来进行网络的更新。在该情况下，在进一步想要夹持未知的物体的情况下，能够使视觉触觉特征量提取部110、物体特性推测部118或者夹持位置推测部114中的视觉触觉特征量的提取、物体特性的推测或者夹持位置的推测的精度提高。

如以上所述，根据本实施方式，还能够通过更新夹持位置、夹持力，在开始对预定夹持物体进行夹持的时间点适当地更新夹持位置、夹持力。另外，还能够在夹持中适当地更新夹持力。通过适当地更新夹持位置、夹持力，能够更精密地进行物体的夹持。

此外，夹持部124不需要一定设置于触觉信息推测装置1，也可以是与触觉信息推测装置1连接的存在于外部的夹爪等装置。另外，关于反馈信息，也可以并非是从夹持部124发送的信息，而是视觉传感器100感知夹持部124或者外部的夹爪等装置的视觉信息，根据该视觉信息发送反馈信息。

(第4实施方式)

在上述实施方式中，具备夹持部124，但也可以上述第2实施方式中的夹持信息取得部112兼具夹持部124。图11是示出具备夹持部124、夹持部124兼具夹持信息取得部112的功能的结构的框图。

如图11所示，夹持部124具备触觉传感器102和视觉传感器100。视觉传感器100无需设置于夹持部124，也可以与夹持部124独立地设置。作为其他例子，也可以在触觉信息推测装置1中还设置与设置于夹持部124的视觉传感器100不同的视觉传感器100。

通过这样将最终地夹持物体的夹持部124和具备取得触觉信息的触觉传感器102的夹持信息取得部112设为相同的设备，能够更精密地进行夹持力及夹持位置的推测及决定。

在如图1、图5、图8、图11所示的各实施方式中的触觉信息推测装置1中，关于来自视觉传感器100及触觉传感器102的数据输入的控制、模型生成部106中的模型生成的控制、视觉触觉特征量提取部110中的视觉触觉特征量的提取的控制、夹持位置推测部114及物体特性推测部118中的推测的控制、夹持位置决定部116及夹持力决定部120中的决定的控制、夹持控制部122的控制，也可以由未图示的控制部一并或单独地进行其全部或者一部分。该控制部可以是通过模拟、数字或者FPGA等实现的控制电路。

在上述所有记载中，触觉信息推测装置1的至少一部分既可以由硬件构成，也可以由软件构成且CPU等通过软件的信息处理实施。在由软件构成的情况下，可以将实现触觉信息推测装置1及其至少一部分的功能的程序收纳到软盘、CD-ROM等存储介质，使计算机读入并执行。存储介质不限定于磁盘、光盘等能够装卸的存储介质，也可以是硬盘装置、存储器等固定型的存储介质。即，可以使用硬件资源具体地实现由软件进行的信息处理。而且，由软件进行的处理也可以安装到FPGA等电路并由硬件执行。学习模型的生成、输入到学习模型后的处理例如可以使用GPU等加速器进行。

另外，本实施方式所涉及的数据推测模型能够用作作为人工智能软件的一部分的程序模块。即，计算机的CPU以根据储存于储存部的模型进行运算并输出结果的方式动作。

作为在上述实施方式中输入的视觉信息的图像的格式只要是原始数据、PNG格式等能够适当地表现纹理信息及形状信息的格式，则可以是任意的格式。

根据上述所有记载，本领域技术人员可能能够想到本发明的追加、效果或者各种变形，但本发明的方案不限定于上述各个实施方式。能够在不脱离从在权利要求书中规定的内容及其等同物导出的本发明的概念性的思想和要旨的范围内，进行各种追加、变更以及部分的删除。

符号说明

1：触觉信息推测装置；100：视觉传感器；102：触觉传感器；104：输入部；106：模型生成部；108：输出部；110：视觉触觉特征量提取部；112：夹持信息取得部；114：夹持位置推测部；116：夹持位置决定部；118：物体特性推测部；120：夹持力决定部；122：夹持控制部；124：夹持部。

Claims

1.一种触觉信息推测装置，具备：

视觉触觉特征量提取部，该视觉触觉特征量提取部将由视觉传感器取得的物体的视觉信息输入到根据视觉信息和与所述视觉信息关联起来的触觉信息生成的模型中，提取与所述物体的触觉信息有关的特征量。

2.根据权利要求1所述的触觉信息推测装置，还具备：

物体特性推测部，该物体特性推测部根据与所述物体的触觉信息有关的特征量，推测所述物体的特性。

3.根据权利要求1或2所述的触觉信息推测装置，其中，

所述模型是对所述视觉信息和与所述视觉信息关联起来的触觉信息进行自组织化而得到的模型。

4.根据权利要求1至3中的任意一项所述的触觉信息推测装置，其中，

所述视觉触觉特征量提取部根据所述模型生成与所述视觉信息及与所述视觉信息关联起来的触觉信息有关的空间，根据所述空间中的与所述物体的视觉信息有关的数据，提取与所述物体的触觉信息有关的特征量。

5.根据权利要求1至4中的任意一项所述的触觉信息推测装置，其中，

所述物体的视觉信息具备所述物体的纹理信息。

6.根据权利要求1至5中的任意一项所述的触觉信息推测装置，其中，

所述物体的视觉信息具备所述物体的形状信息。

7.根据权利要求1至6中的任意一项所述的触觉信息推测装置，其中，

所述物体的触觉信息具备来自所述物体的表面的作为面的压力信息。

8.根据权利要求1至7中的任意一项所述的触觉信息推测装置，其中，

所述模型是由自动编码器生成的模型。

9.根据权利要求2至8中的任意一项所述的触觉信息推测装置，还具备：

夹持位置决定部，根据所述物体的视觉信息，决定对所述物体进行夹持的位置；

夹持力决定部，根据决定的所述夹持的位置以及推测的所述物体的特性，决定对所述物体进行夹持的力；以及

输出部，输出所述夹持的位置及所述夹持的力。

10.根据权利要求9所述的触觉信息推测装置，还具备：

夹持部，该夹持部根据所述夹持的位置及所述夹持的力来夹持所述物体，

所述夹持位置决定部根据所述夹持部夹持所述物体的状态，更新所述夹持的位置。

11.根据权利要求10所述的触觉信息推测装置，其中，

根据从所述夹持部取得的信息，通过强化学习更新所述模型。

12.一种触觉信息推测装置，具备：

模型生成部，该模型生成部根据物体的视觉信息和与所述视觉信息关联起来的触觉信息，生成具备对视觉触觉特征量进行自组织化的中间层的模型，所述视觉触觉特征量是与所述视觉信息及所述触觉信息有关的特征量。

13.一种触觉信息推测方法，

将由视觉传感器取得的物体的视觉信息输入到根据视觉信息和与所述视觉信息关联起来的触觉信息生成的模型中，提取与所述物体的触觉信息有关的特征量。

14.根据权利要求13所述的触觉信息推测方法，

还根据与所述物体的触觉信息有关的特征量，推测所述物体的特性。

15.一种程序，使计算机作为视觉触觉特征量提取单元发挥功能，该视觉触觉特征量提取单元

16.根据权利要求15所述的程序，使计算机还作为物体特性推测部发挥功能，该物体特性推测部

根据与所述物体的视觉信息有关的特征量，推测所述物体的特性。