CN114631114A

CN114631114A - 图像处理装置和图像处理方法

Info

Publication number: CN114631114A
Application number: CN202080075911.4A
Authority: CN
Inventors: 中野芳宏
Original assignee: MinebeaMitsumi Inc
Current assignee: MinebeaMitsumi Inc
Priority date: 2019-10-31
Filing date: 2020-10-29
Publication date: 2022-06-14
Also published as: JP7319891B2; EP4052870A1; WO2021085560A1; JP2021072002A; EP4052870A4; US20220351363A1

Abstract

本发明的一个方案的图像处理装置(10)具备获取部(151)和推定部(152)。获取部(151)获取对散装的工件(W1a、W1b)进行拍摄而得到的第一图像和第二图像。推定部(152)生成所述第一图像的特征量与第二图像的特征量的匹配图，针对所述第一图像和所述第二图像分别推定作为目标的各工件的位置、姿势以及类别分类得分，并基于使用所述匹配图而得到的匹配结果和位置的推定结果来推定所述工件位置。

Description

图像处理装置和图像处理方法

技术领域

本发明涉及一种图像处理装置和图像处理方法。

背景技术

已知一种为了用机械臂等抓持散装的多个对象物(工件)而对工件的三维位置和姿势进行识别的技术。此时，通过使用三维测量仪，能对工件的三维位置和姿势进行识别。

现有技术文献

专利文献

专利文献1：日本特开2019－058960号公报

发明内容

发明所要解决的问题

然而，三维测量仪价格高昂，因此大量引入工厂等会耗费成本。因此，优选的是，根据由普通摄像机等拍摄装置拍摄到的二维图像来识别对象物的位置、姿势。

本发明以上述问题为一个例子，其目的在于提供一种推定对象物的位置的图像处理装置和图像处理方法。

用于解决问题的方案

本发明的一个方案的图像处理装置具备获取部和推定部。获取部获取对散装的工件进行拍摄而得到的第一图像和第二图像。推定部生成所述第一图像的特征量与第二图像的特征量的匹配图，针对所述第一图像和所述第二图像分别推定作为目标的各工件的位置、姿势、类别分类得分，基于使用所述匹配图而得到的匹配结果和位置的推定结果来推定所述工件位置。

发明效果

根据本发明的一个方案，能通过图像处理来推定对象物的位置。

附图说明

图1是表示安装有第一实施方式的图像处理装置的物体抓持系统的一个例子的图。

图2是表示第一实施方式的物体抓持系统的结构的一个例子的框图。

图3是表示学习处理的一个例子的流程图。

图4是表示对象物的三维数据的一个例子的图。

图5是表示配置有多个对象物的虚拟空间的捕捉图像的一个例子的图。

图6是表示与机械臂的控制相关的处理的一个例子的图。

图7是表示与机械臂的控制相关的处理的另一个例子的图。

图8是表示第一实施方式的检测模型的一个例子的图。

图9是表示由第一实施方式的特征检测层(u1)输出的特征图的一个例子的图。

图10是表示第一实施方式的对象物的位置和姿势的推定结果的一个例子的图。

图11是表示第一实施方式的对象物的抓持位置的推定结果的另一个例子的图。

图12是表示由第一实施方式的立体摄像机拍摄到的散装图像的一个例子的图。

图13是表示第一实施方式的散装图像与匹配图的关系的一个例子的图。

图14是表示第一实施方式的推定处理的一个例子的流程图。

图15是表示第一实施方式的推定处理的一个例子的图。

图16是变形例的包含托盘的散装图像的一个例子的图。

图17是表示变形例的位置偏移推定模型的一个例子的图。

图18是表示变形例的位置偏移推定模型的另一个例子的图。

具体实施方式

以下，参照附图对实施方式的图像处理装置和图像处理方法进行说明。需要说明的是，本发明不受本实施方式限定。此外，有时候附图中的各元件的尺寸关系、各元件的比例等会与实际不同。有时候附图彼此之间也会包括彼此的尺寸关系、比例不同的部分。此外，一个实施方式、变形例中所记载的内容原则上也同样地适用于其他实施方式、变形例。

(第一实施方式)

第一实施方式中的图像处理装置例如在物体抓持系统1中被使用。图1是表示安装有第一实施方式的图像处理装置的物体抓持系统的一个例子的图。图1所示的物体抓持系统1具备未图示的图像处理装置10、摄像机20以及机械臂30。摄像机20例如设于能拍摄机械臂30和由机械臂30抓持的作为对象物的散装的工件41、42等的双方的位置。摄像机20例如拍摄工件41、42的图像和机械臂30并将其输出给图像处理装置10。需要说明的是，机械臂30和散装的工件41、42等也可以用不同的摄像机来拍摄。如图1所示，第一实施方式的摄像机20中使用了例如公知的立体摄像机等能拍摄多个图像的摄像机。图像处理装置10使用从摄像机20输出的图像来推定工件41、42等的位置和姿势。图像处理装置10基于推定出的工件41、42等的位置和姿势来输出对机械臂30的动作进行控制的信号。机械臂30基于从图像处理装置10输出的信号来进行抓持工件41、42等的动作。需要说明的是，图1中公开了多个不同种类的工件41、42等，但工件的种类也可以为一种。在第一实施方式中，对工件为一种的情况进行说明。此外，工件41、42等配置为位置和姿势不规则。如图1所示，例如，多个工件也可以配置为在俯视下重叠。此外，工件41、42是对象物的一个例子。

图2是表示第一实施方式的物体抓持系统的结构的一个例子的框图。如图2所示，图像处理装置10通过网络NW以可通信的方式与摄像机20和机械臂30连接。此外，如图2所示，图像处理装置10具备通信I/F(接口)11、输入I/F12、显示器13、存储电路14以及处理电路15。

通信I/F11对通过网络NW实现的与外部装置的数据输入输出的通信进行控制。例如，通信I/F11由网卡、网络适配器、网络接口控制器(NIC：Network InterfaceController)等实现，接收从摄像机20输出的图像的数据，并且发送向机械臂30输出的信号。

输入I/F12与处理电路15连接，将接收自图像处理装置10的管理者(未图示)的输入操作转换为电信号并向处理电路15输出。例如，输入I/F12为开关按钮、鼠标、键盘、触摸面板等。

显示器13与处理电路15连接，显示从处理电路15输出的各种信息和各种图像数据。例如，显示器13由液晶监视器、CRT(阴极射线显像管：Cathode Ray Tube)监视器、触摸面板等实现。

存储电路14例如由存储器等存储装置实现。存储电路14中存储有由处理电路15执行的各种程序。此外，存储电路14中临时存储有处理电路15执行各种程序时使用的各种数据。存储电路14具有机械(深度)学习模型141。而且，机械(深度)学习模型141具备神经网络结构141a和学习参数141b。神经网络结构141a使用了例如图8的卷积神经网络b1这样的公知的网络，为后述的图15所示的网络结构。学习参数141b例如是卷积神经网络的卷积滤波器的权重，为了推定对象物的位置和姿势而被学习，是要进行优化的参数。神经网络结构141a也可以设置于推定部152。需要说明的是，以学习完成模型为例对本发明中的机械(深度)学习模型141进行说明，但不限于此。需要说明的是，以下有时候会将机械(深度)学习模型141简单地记为“学习模型141”。

学习模型141用于根据从摄像机20输出的图像来推定工件的位置和姿势的处理。学习模型141例如通过学习多个工件的位置和姿势以及对该多个工件进行拍摄而得到的图像作为教师数据而生成。需要说明的是，在第一实施方式中，学习模型141例如由处理电路15生成，但不限于此，也可以由外部的计算机生成。以下，对学习模型141由未图示的学习装置生成并更新的实施方式进行说明。

在第一实施方式中，用于生成学习模型141的大量图像例如通过在虚拟空间上配置多个工件并捕捉该虚拟空间的图像来生成。图3是表示学习处理的一个例子的流程图。如图3所示，学习装置获取对象物的三维数据(步骤S101)。三维数据例如可以通过公知的3D扫描等方法来获取。图4是表示对象物的三维数据的一个例子的图。通过获取三维数据，能在虚拟空间上任意变更并配置工件的姿势。

接着，学习装置设定在虚拟空间上配置对象物时的各种条件(步骤S102)。对象物向虚拟空间的配置例如可以使用公知的图像生成软件来进行。配置的对象物的数量、位置、姿势等条件可以设定为由图像生成软件随机生成对象物，但不限于此，也可以由图像处理装置10的管理者任意设定。接着，学习装置按照设定的条件在虚拟空间上配置对象物(步骤S103)。接着，学习装置例如通过捕捉配置有多个对象物的虚拟空间来获取配置的对象物的图像、位置以及姿势(步骤S104)。在第一实施方式中，对象物的位置和姿势例如通过三维坐标(x，y，z)来表示，对象物的姿势通过表示物体的姿势或旋转状态的四维数即四元数(qx，qy，qz，qw)来表示。图5是表示配置有多个对象物的虚拟空间的捕捉图像的一个例子的图。如图5所示，在虚拟空间上以随机的位置和姿势分别配置有多个对象物W1a和W1b。此外，以下，有时会将随机配置的对象物的图像记为“散装图像”。接着，学习装置将获取到的图像以及配置好的对象物的位置和姿势保存于存储电路14(步骤S105)。进而，学习装置以预定的次数反复进行步骤S102至步骤S105(步骤S106)。需要说明的是，在此，有时会将保存于存储电路14的通过上述步骤而获取到的图像与配置对象物的位置和姿势的组合记为“教师数据”。通过以规定的次数反复进行步骤S102至步骤S105的处理来反复进行学习处理，因此会生成足够数量的教师数据。

并且，学习装置通过使用生成的教师数据进行规定次数的学习处理来生成或更新神经网络结构141a中用作加权的学习参数141b(步骤S107)。如此，通过将获取了三维数据的对象物配置于虚拟空间上，能容易地生成用于学习处理的包括对象物的图像与位置和姿势的组合的教师数据。

回到图2，处理电路15通过中央处理器(CPU：Central Processing Unit)等处理器来实现。处理电路15控制图像处理装置10整体。处理电路15通过读取存储于存储电路14的各种程序并执行读取的程序来执行各种处理。例如，处理电路15具有图像获取部151、推定部152以及机器人控制部153。

图像获取部151例如通过通信I/F11来获取散装图像并将其输出给推定部152。图像获取部151是获取部的一个例子。

推定部152使用输出的散装图像来推定对象物的位置和姿势。推定部152例如使用学习模型141来进行对于对象物的图像的推定处理，并向机器人控制部153输出推定结果。需要说明的是，推定部152例如也可以进一步推定供对象物配置的托盘等的位置和姿势。关于推定托盘的位置和姿势的结构，稍后进行说明。

机器人控制部153基于推定出的对象物的位置和姿势来生成控制机械臂30的信号，并通过通信I/F11向机械臂30输出该信号。机器人控制部153例如获取与当前的机械臂30的位置和姿势相关的信息。并且，机器人控制部153根据当前的机械臂30的位置和姿势以及推定出的对象物的位置和姿势来生成机械臂30抓持对象物时移动的轨迹。需要说明的是，机器人控制部153也可以基于托盘等的位置和姿势来对机械臂30移动的轨迹进行修正。

图6是表示与机械臂的控制相关的处理的一个例子的图。如图6所示，推定部152根据散装图像来推定作为目标的对象物的位置和姿势。同样地，推定部152也可以根据散装图像来推定配置有对象物的托盘等的位置和姿势。机器人控制部153基于推定出的对象物和托盘等的模型来计算出机械臂30的手指的位置坐标和姿势，生成机械臂30的轨迹。

需要说明的是，机器人控制部153也可以进一步输出在机械臂30抓持对象物之后对用于排列抓持到的对象物的机械臂30的动作进行控制的信号。图7是表示与机械臂的控制相关的处理的另一个例子的图。如图7所示，图像获取部151获取由摄像机20拍摄到的对由机械臂30抓持到的对象物进行拍摄而得到的图像。推定部152推定作为目标的由机械臂30抓持到的对象物的位置和姿势并将其输出给机器人控制部153。此外，图像获取部151也可以进一步获取由摄像机20拍摄到的作为排列目的地的托盘等的图像，其中，该托盘等成为抓持到的对象物的移动目的地。此时，图像获取部151进一步获取已排列于作为排列目的地的托盘等的对象物的图像(排列完成图像)。推定部152根据排列目的地的图像或者排列完成图像来推定作为排列目的地的托盘等的位置和姿势以及已排列完成的对象物的位置和姿势。并且，机器人控制部153基于推定出的由机械臂30抓持到的对象物的位置和姿势、作为排列目的地的托盘等的位置和姿势以及已排列完成的对象物的位置和姿势来计算出机械臂30的手指的位置坐标和姿势，生成排列对象物时的机械臂30的轨迹。

接着，对推定部152中的推定处理进行说明。推定部152例如使用采用了具有公知的下采样、上采样、跳跃连接的物体检测模型的模型来提取对象物的特征量。图8是表示第一实施方式的检测模型的一个例子的图。在图8所示的物体检测模型中，d1层例如经由卷积神经网络b1通过下采样来将散装图像P1(320×320像素)划分为纵横40×40网格，并针对各网格计算出多个特征量(例如256种)。此外，相当于比d1层靠下位的层的d2层将d1层中划分出的网格划分得比d1层粗大(例如20×20网格)，并计算出各网格的特征量。同样地，相当于比d1层和d2层靠下位的层的d3层和d4层分别将d2层中划分出的网格划分得更粗大。d4层通过上采样按更精细的划分来计算出特征量，同时，通过跳跃连接s3，将该特征量与d3层的特征量整合而生成u3层。跳跃连接既可以是单纯的加法、特征量的结合，也可以对d3层的特征量实施卷积神经网络这样的转换。同样地，通过跳跃连接s2，将d2层的特征量与对u3层进行上采样而计算出的特征量整合而生成u2层。进而，同样地生成u1层。其结果是，在u1层中，计算出与d1层同样地被划分为40×40网格的各网格的特征量。

图9是表示由第一实施方式的特征提取层(u1)输出的特征图的一个例子的图。图9所示的特征图的水平方向表示被划分为40×40网格的散装图像P1的水平方向的各网格，垂直方向表示垂直方向的各网格。此外，图9所示的特征图的深度方向表示各网格中的特征量的元素。

图10是表示第一实施方式的对象物的位置和姿势的推定结果的一个例子的图。如图10所示，推定部输出表示对象物的位置的二维坐标(Δx，Δy)、表示对象物的姿势的四元数(qx，qy，qz，qw)以及类别分类的得分(C0，C1，…，Cn)。需要说明的是，在第一实施方式中，作为推定结果，不计算表示对象物的位置的坐标中的表示从摄像机20到对象物的距离的深度值。关于计算深度值的结构，稍后进行说明。需要说明的是，此处所说的深度是指与摄像机的光轴平行的z轴方向上的从摄像机的z坐标到对象物的z坐标的距离。需要说明的是，类别分类的得分是按照每个网格输出的值，是该网格中包含对象物的中心点的概率。例如，在对象物的种类为n种的情况下，对此加上“不包含对象物的中心点的概率”而输出n+1个类别分类的得分。例如，在作为对象物的工件只有一种的情况下，输出两个类别分类的得分。此外，在多个对象物存在于同一网格内的情况下，输出堆积在更上方的物体的概率。

在图10中，点C表示网格Gx的中心，作为坐标(Δx，Δy)的点ΔC例如表示检测到的对象物的中心点。即，在图10所示的例子中，对象物的中心从网格Gx的中心点C向x轴方向偏移了Δx，向y轴方向偏移了Δy。

需要说明的是，也可以代替图10而如图11所示设定对象物的中心以外的任意点a、b、c并输出任意点a、b、c相对于网格Gx的中心的点C的坐标(Δx1，Δy1，Δz1，Δx2，Δy2，Δz2，x3，Δy3，Δz3)。需要说明的是，任意点可以设定于对象物的任意位置，既可以是一个点，也可以是多个点。

需要说明的是，当网格的划分比对象物的大小粗大时，多个对象物会进入一个网格，恐怕各对象物的特征会混在一起而造成误检测，因此在第一实施方式中，只使用最终生成的精细的(40×40网格的)特征量为计算出的特征提取层(u1)的输出的特征图。

此外，在第一实施方式中，例如通过使用立体摄像机拍摄左右两种图像来确定从摄像机20到对象物的距离。图12是表示由第一实施方式的立体摄像机拍摄到的散装图像的一个例子的图。如图12所示，图像获取部151获取左图像P1L和右图像P1R这两种散装图像。此外，推定部152针对左图像P1L和右图像P1R的双方使用学习模型141来进行推定处理。需要说明的是，在进行推定处理时，也可以共享用于左图像P1L的学习参数141b的一部分或全部来作为对右图像P1R的加权。需要说明的是，也可以不使用立体摄像机而使用一台摄像机并使摄像机的位置移位而在两处拍摄相当于左右两种图像的图像。

因此，第一实施方式中的推定部152通过使用将左图像P1L的特征量与右图像P1R的特征量组合而得到的匹配图来抑制对象物的误识别。在第一实施方式中，匹配图在右图像P1R和左图像P1L中针对各特征量示出了特征量的关联的强弱。即，通过使用匹配图，能着眼于各图像中的特征量来谋求左图像P1L与右图像P1R的匹配。

图13是表示第一实施方式的散装图像与匹配图的关系的一个例子的图。如图13所示，在以左图像P1L为基准与右图像P1R取得了对应的匹配图ML中着重显示出网格MLa，该网格MLa是左图像P1L的包含对象物W1L的中心点的网格的特征量与右图像P1R中包含的特征量的关联最大的网格。同样地，在以右图像P1R为基准与左图像P1L取得了对应的匹配图MR中也着重显示出网格MRa，该网格MRa是右图像P1R的包含对象物W1R的中心点的网格的特征量与左图像P1L中包含的特征量的关联最大的网格。此外，匹配图ML中关联最大的网格MLa与左图像P1L中的对象物W1L所在的网格对应，匹配图MR中关联最大的网格MRa与右图像P1R中的对象物W1R所在的网格对应。由此，能确定左图像P1L中对象物W1L所在的网格与右图像P1R中对象物W1R所在的网格一致。即，在图12中，一致的网格为左图像P1L的网格G1L和右图像P1R的网格G1R。由此，基于左图像P1L中的对象物W1L的X坐标和右图像P1R中的对象物W1R的X坐标，能确定对于对象物W1的视差，因此能确定从摄像机20到对象物W1的深度z。

图14是表示第一实施方式的推定处理的一个例子的流程图。此外，图15是表示第一实施方式的推定处理的一个例子的图。接下来，使用图12至图15来进行说明。首先，图像获取部151如图12所示的左图像P1L和右图像P1R那样获取对象物的左右的各图像(步骤S201)。接着，推定部152针对左右的各图像的水平方向的各网格，计算出特征量。在此，在如上所述地将各图像划分为40×40网格并针对各网格计算256个特征量的情况下，在各图像的水平方向上得到如式(1)的左边第一项和第二项所示的40行40列的矩阵。

接着，推定部152执行图15所示的处理m。首先，推定部152例如通过式(1)来计算出矩阵积，该矩阵积是针对从左图像P1L中提取出的确定列的特征量，将从右图像P1R中提取出的相同列的特征量转置而得到的矩阵积。在式(1)中，在左边第一项中，左图像P1L的确定列的水平方向上的第一个网格中的各特征量l11至l1n分别沿着行方向排列。另一方面，在式(1)的左边第二项中，右图像P1R的确定列的水平方向上的第一个网格的各特征量r11至r1n分别沿着列方向排列。即，左边第二项的矩阵是将右图像P1R的确定列的水平方向上的网格的各特征量r11至r1m分别沿着行方向排列而得到的矩阵转置后的矩阵。此外，式(1)的右边是计算左边第一项的矩阵与左边第二项的矩阵的矩阵积而得到的矩阵。式(1)的右边的第一列表示从右图像P1R中提取出的第一个网格的特征量与从左图像P1L中提取出的确定列的水平方向的各网格的特征量的关联，第一行表示从左图像P1L中提取出的第一个网格的特征量与从右图像P1R中提取出的确定列的水平方向的各网格的特征量的关联。即，式(1)的右边表示左图像P1L的各网格的特征量与右图像P1R的各网格的特征量的关联图。需要说明的是，在式(1)中，下标“m”表示各图像的水平方向的网格的位置，下标“n”表示各网格中的特征量的编号。即，m为1～40，n为1～256。

接着，推定部152使用计算出的关联图来计算相对于矩阵(1)所示的右图像P1R的左图像P1L的匹配图ML。相对于左图像P1L的右图像P1R的匹配图ML例如通过针对关联图的行方向使用Softmax函数而计算出。由此，对水平方向的关联的值进行了归一化。也就是说，以行方向的值合计为1的方式进行转换。

接着，推定部152例如通过式(2)，将从右图像P1R中提取出的特征量与计算出的匹配图ML进行卷积。式(2)的左边第一项是将矩阵(1)转置而得的矩阵，左边第二项是式(1)的左边第一项的矩阵。需要说明的是，在本发明中，用于取得关联的特征量和用于与匹配图进行卷积的特征量使用相同的特征量，但也可以通过卷积神经网络等，根据提取出的特征量分别生成用于重新取得关联的特征量和用于卷积的特征量。

接着，推定部152使由式(2)得到的特征量与从左图像P1L中提取出的特征量结合，例如通过卷积神经网络来生成新的特征量。如此，通过整合左右图像的特征量，位置、姿势的推定精度提高。需要说明的是，图15中的处理m也可以反复进行多次。

接着，推定部152根据在此得到的特征量，例如通过卷积神经网络来推定位置、姿势以及类别分类。总的来说，推定部152使用计算出的关联图来计算如矩阵(2)所示的左图像P1L相对于右图像P1R的匹配图MR(步骤S202)。左图像P1L相对于右图像P1R的匹配图MR也与右图像P1R相对于左图像P1L的匹配图ML同样地例如通过针对关联图的行方向使用Softmax函数而计算出。

接着，推定部152例如通过式(3)来将左图像P1L的特征量与计算出的匹配图进行卷积。式(3)的左边第一项为矩阵(2)，左边第二项为式(1)的左边第二项的矩阵的转置前的矩阵。

接着，推定部152选择根据左图像P1L而推定出的目标(对象物)的类别分类的推定结果最大的网格，将其与预设的阈值进行比较(步骤S203)。在未超过阈值的情况下，设为无目标并结束。在超过了阈值的情况下，根据针对该网格的与右图像P1R的匹配图ML，选择数值最大的网格(步骤S204)。

接着，在选择出的网格中，对右图像P1R的目标的类别分类的推定结果和预设的阈值进行比较(步骤S208)。在超过阈值的情况下，根据针对该网格的与左图像P1L的匹配图ML，选择数值最大的网格(步骤S209)。在未超过阈值的情况下，将根据左图像P1L的推定结果而选择出的网格的类别分类得分设为0并回到步骤S203(步骤S207)。

接着，比较步骤S209中选择出的匹配图ML的网格与步骤S204中根据左图像P1L的推定结果而选择出的网格是否相等(步骤S210)。在网格不同的情况下，将步骤S204中根据左图像P1L的推定结果而选择出的网格的类别分类得分设为0，并回到步骤S203的网格的选择(步骤S207)。最终，根据在左图像P1L和右图像P1R中选择出的网格的位置信息(例如，图1中的水平方向x的值)的检测结果来计算出视差(步骤S211)。

接着，基于由步骤S211计算出的视差，计算出目标的深度(步骤S212)。需要说明的是，在针对多个目标计算深度的情况下，在步骤S211之后，将根据左图像P1L和右图像P1R的推定结果而选择出的网格的类别分类得分设为0，然后回到步骤S203，此后，反复进行至步骤S212即可。

如上所述，第一实施方式中的图像处理装置10具备获取部和推定部。获取部获取对散装的工件进行拍摄而得到的第一图像和第二图像。推定部生成第一图像的特征量与第二图像的特征量的匹配图，针对第一图像和第二图像分别推定作为目标的各工件的位置、姿势以及类别分类得分，基于使用所述注意力图而得到的匹配结果和位置的推定结果来推定工件位置，由此计算出从立体摄像机到工件的深度。由此，能抑制物体识别中的误检测。

(变形例)

以上，对本发明的实施方式进行了说明，但本发明不限于上述实施方式，只要不脱离其主旨，就能进行各种变更。例如，在第一实施方式中，对于对象物(工件)为一种的情况进行了说明，但不限于此，图像处理装置10也可以是检测多个工件的种类的结构。此外，图像处理装置10不仅可以检测对象物，还可以检测配置有对象物的托盘等的位置、姿势。图16是表示变形例的包含托盘的散装图像的一个例子的图。在图16所示的例子中，图像处理装置10能通过确定配置有对象物的托盘的位置和姿势来设定轨迹使得机械臂30不会与托盘发生碰撞。需要说明的是，作为检测的对象的托盘是障碍物的一个例子。图像处理装置10也可以是检测托盘以外的其他成为障碍物的物品的结构。

此外，图像处理装置10以例如将散装图像划分为40×40网格的例子进行了说明，但不限于此，也可以划分为更细或更粗大的网格来检测对象物，此外，也可以以像素单位来进行推定处理。由此，图像处理装置10能更高精度地计算摄像机与对象物的距离。图17是表示变形例的位置偏移推定模型的一个例子的图。如图17所示，图像处理装置10也可以切除左图像P1L和右图像P1R中的推定位置周边的尺寸比网格小的部分进行结合。并且，也可以与第一实施方式中的推定处理同样地进行推定处理，并基于处理结果来推定位置偏移。

此外，在以细或粗大的网格单位、像素单位进行推定处理的情况下，也可以与第一实施方式同样地在左图像P1L和右图像P1R中分别单独地进行推定处理。图18是表示变形例的位置偏移推定模型的另一个例子的图。在图18所示的例子中，图像处理装置10分别单独地对左图像P1L和右图像P1R进行推定处理。在该情况下，图像处理装置10也与第一实施方式同样地在进行各自的推定处理时将针对左图像P1L的加权与针对右图像P1R的加权共享。

此外，也可以不对散装的工件41、42的图像进行如上所述的推定处理，而对机械臂30、保持于机械臂30的工件41、42或者排列于排列目的地的工件41、42进行如上所述的推定处理。

此外，本发明不受上述实施方式限定。将上述的各构成要素适当组合而构成的发明也包含在本发明中。此外，本领域的技术人员能容易地推导出进一步的效果、变形例。因此，本发明的更广泛的方案不限于上述的实施方式，能进行各种变更。

附图标记说明

1：物体抓持系统；

10：图像处理装置；

20：摄像机；

30：机械臂；

41、42：工件。

Claims

1.一种图像处理装置，其特征在于，具有：

获取部，获取对散装的工件进行拍摄而得到的第一图像和第二图像；以及

推定部，生成所述第一图像的特征量与所述第二图像的特征量的匹配图，针对所述第一图像和所述第二图像分别推定作为目标的各工件的位置、姿势以及类别分类得分，并基于使用所述匹配图而得到的匹配结果和位置的推定结果来推定所述工件位置。

2.根据权利要求1所述的图像处理装置，其特征在于，

所述获取部为立体摄像机，

所述推定部计算从所述立体摄像机到所述工件的深度。

3.根据权利要求1所述的图像处理装置，其特征在于，

所述推定部还在所述第一图像和所述第二图像的至少任一方中检测所述工件以外的障碍物。

4.一种图像处理方法，其特征在于，

计算机获取对散装的工件进行拍摄而得到的第一图像和第二图像，

所述计算机生成所述第一图像的特征量与所述第二图像的特征量的匹配图，针对所述第一图像和所述第二图像分别推定作为目标的各工件的位置、姿势以及类别分类得分，并基于使用所述匹配图而得到的匹配结果和位置的推定结果来推定所述工件位置。