CN110023992A

CN110023992A - 系统、夹具、信息处理装置、信息处理方法和程序

Info

Publication number: CN110023992A
Application number: CN201780074636.2A
Authority: CN
Inventors: 永塚仁夫; 山岸建
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2016-12-05
Filing date: 2017-11-28
Publication date: 2019-07-16
Anticipated expiration: 2037-11-28
Also published as: JP2018092449A; WO2018105434A1; US11200695B2; EP3550512A4; EP3550512A1; JP7051287B2; US20190378298A1; CN116402887A; CN110023992B

Abstract

提供了一种系统，包括至少一个信息处理设备，其单独地或协同地实现：获得对象的第一图像的第一图像获取功能；获得指示第一图像中对象的角度的角度信息的角度信息获取功能；基于第一图像和角度信息生成词典数据的词典数据生成功能；获得与第一图像不同的对象的第二图像的第二图像获取功能；以及基于第二图像和词典数据估计第二图像中的对象的角度的角度估计功能。

Description

系统、夹具、信息处理装置、信息处理方法和程序

技术领域

本发明涉及系统、夹具(jig)、信息处理装置、信息处理方法和程序。

背景技术

基于图像的对象识别是近年来的一种通用技术。在基于图像的对象识别中，例如，提取由成像装置捕获的图像的特征量，并且将特征量与作为词典数据预先登记的特征量进行匹配，从而识别出图像中的对象。这里，图像中对象的角度的改变也改变了特征量，因此需要为对象的每个角度准备词典数据，以便增加对象识别的可用性。

PTL 1和PTL 2是用于为基于图像的对象识别中的对象的每个角度准备词典数据的技术的示例。PTL 1描述了一种基于通过以45度间隔旋转对象而获得的八个图像来识别对象的技术。PTL 2描述了通过从通过以五度增量等在水平角度方向和天顶角方向上旋转对象而获得的大量图像中识别公共部分，学习对象模型的技术。

[引用列表]

[专利文献]

[PTL 1]

日本专利公开号2003-346152

[PTL 2]

美国专利申请公开号2013/0202212

发明内容

[技术问题]

这些技术是用于识别图像中的对象的技术，即，估计图像中的对象是什么，并且不打算从图像中提取附加信息。然而，鉴于近年来使用对象识别技术的多样化领域，基于图像提供关于对象的附加信息可能是有利的。

因此，本发明的目的是提供新颖和改进的系统、夹具、信息处理装置、信息处理方法和程序，能够基于图像估计对象的角度。

[问题的解决方案]

本发明的一方面提供了一种系统，包括一个或多个信息处理装置，其单独或协同地实现以下功能，包括：获取对象的第一图像的第一图像获取功能，获取指示第一图像中对象的角度的角度信息的角度信息获取功能，基于第一图像和角度信息生成词典数据的词典数据生成功能，获取与第一图像不同的对象的第二图像的第二图像获取功能，以及基于第二图像和词典数据估计第二图像中的对象的角度的角度估计功能。

另外，本发明的另一方面提供了一种能够附接到平台设备的夹具，平台设备包括围绕第一轴旋转的基部部分，固定在相对于基部部分上的第一轴对称的位置处的一对支撑件，分别连接到一对支撑件、以便在基部部分的相对侧上围绕垂直于第一轴的第二轴枢转的一对臂，在一对支撑件的相对侧上、固定在一对臂的边缘之间的保持器，设置基部部分围绕第一轴旋转的角度和一对臂围绕第二轴枢转的角度的控制单元。夹具包括：附接构件，能够附接到平台设备的保持器，对象保持器，用于附接对象，和连接构件，连接附接构件和对象保持器，并限定附接构件和对象保持器之间的位置关系，使得在附接构件附接到平台设备的保持器时，附接到对象保持器的对象位于第一轴和第二轴的交点附近。

另外，本发明的又一方面提供了一种信息处理装置，包括：处理器，其实现以下功能：获取彼此不同的、对象的多个图像的图像获取功能，获取多个图像共有的角度信息的角度信息获取功能，角度信息指示对象的角度，以及基于多个图像和多个图像共有的角度信息生成词典数据的词典数据生成功能。

另外，本发明的又一方面提供了一种信息处理装置，包括：处理器，其实现以下功能：获取对象的第一图像和基于指示第一图像中的对象的角度的角度信息生成的词典数据的词典数据获取功能，获取与第一图像不同的对象的第二图像的图像获取功能，以及基于第二图像和词典数据估计第二图像中的对象的角度的角度估计功能。

另外，本发明的又一方面提供了一种信息处理方法，包括获取彼此不同的、对象的多个图像的步骤，获取多个图像共有的角度信息的步骤，角度信息指示对象的角度，以及使用处理器基于多个图像和多个图像共有的角度信息，生成词典数据的步骤。

另外，本发明的又一方面提供了一种信息处理方法，包括获取基于对象的第一图像和指示第一图像中的对象的角度的角度信息生成的词典数据的步骤，获取与第一图像不同的对象的第二图像的步骤，以及使用处理器基于第二图像和词典数据估计第二图像中的对象的角度的步骤。

另外，本发明的又一方面提供了一种用于使处理器实现功能的程序，包括：获取彼此不同的、对象的多个图像的图像获取功能，获取多个图像共有的角度信息的角度信息获取功能，角度信息指示对象的角度，和基于多个图像和多个图像共有的角度信息生成词典数据的词典数据生成功能。

另外，本发明的又一方面提供了一种用于使处理器实现功能的程序，包括：获取基于对象的第一图像和指示第一图像中的对象的角度的角度信息生成的词典数据的词典数据获取功能，获取与第一图像不同的对象的第二图像的第二图像获取功能，和基于第二图像和词典数据估计第二图像中的对象的角度的角度估计功能。

附图说明

图1是示出根据本发明第一实施例的系统的示意图。

图2是示出图1所示系统中的终端的功能配置的框图。

图3是示出图1所示系统中使用的平台设备和夹具的配置的示意性透视图。

图4是沿图3的线I-I截取的剖视图。

图5是用于描述在本发明的第一实施例中生成的词典数据的概念图。

图6是用于描述图1所示系统中的机器人的示意性配置的图。

图7是示出图1所示的系统中的机器人的功能配置的框图。

图8是示出本发明第一实施例中的词典数据生成处理的示例的流程图。

图9是示出本发明第一实施例中的识别处理的示例的流程图。

图10是示出本发明第一实施例中的修剪处理的示例的流程图。

图11是用于描述图10中所示的修剪处理的概念图。

图12是示出本发明第一实施例中的词典数据更新处理的示例的流程图。

图13是示出根据本发明第二实施例的机器人的功能配置的框图。

图14是用于描述本发明的第三实施例的示意图。

图15是示出根据本发明第三实施例的机器人的功能配置的框图。

图16是示出本发明实施例中的信息处理装置的硬件配置的示例的框图。

具体实施方式

在下文中，将参考附图详细描述本发明的一些实施例。注意，在本说明书和附图中，通过向具有基本相同的功能配置的组成元件提供相同的附图标记，将省略重复的描述。

(第一实施例)

图1是示出根据本发明第一实施例的系统10的示意图。参考图1，系统10包括通过网络NW彼此连接的终端100、数据库200和机器人300。相机150和平台设备160连接到终端100。机器人300包括相机310和机械臂320。

在系统10中，相机150通过稍后描述的夹具170捕获附接到平台设备160的对象obj的图像。终端100从相机150获取图像并从平台设备160获取指示对象obj的角度的角度信息。注意，在下面的描述中，除非另外特别说明，否则对象obj的角度是三维空间中的角度，诸如在正交坐标系中由三个轴的旋转量指示的角度。终端100基于所获取的图像和角度信息(以及对象obj的标识信息)生成词典数据。所生成的词典数据被存储在数据库200中。

另一方面，机器人300使用相机310来捕获对象obj的图像，同时机械臂320保持对象obj。机器人300基于从数据库200获取的词典数据和捕获图像来识别图像中的对象obj，并进一步估计图像中对象obj的角度。

以这种方式，机器人300可以识别对象obj并进一步估计由机械臂320保持的对象obj的角度。该角度指示例如对象obj相对于参考姿势的旋转程度。机器人300例如可以基于角度的估计结果来控制机械臂320以旋转对象obj，从而将对象obj设置为期望的姿势。

系统10可用于例如使用机器人300来自动化安排或组织商品的工作。系统10还可用于例如指定如何旋转对象obj，以便读取布置在对象obj的预定部分处的信息(诸如所打印的代码和射频识别符(RFID))。注意，系统10的使用不限于这些示例，并且可以存在各种其他用途。

(生成词典数据的配置)

图2是示出图1所示系统中的终端100的功能配置的框图。参考图2，终端100包括图像获取单元110、角度信息获取单元120和词典数据生成单元130。终端100例如是个人计算机、平板电脑、智能电话等，以及通过稍后描述的信息处理装置的硬件配置实现的组件的功能。具体地，例如，图像获取单元110、角度信息获取单元120和词典数据生成单元130的功能由包括在信息处理装置中的处理器实现。由词典数据生成单元130生成的词典数据210存储在通过网络连接到终端100的数据库200中。通过存储连接到网络的一个或多个信息处理装置来实现数据库200的功能。注意，在终端100包括多个处理器的情况下，多个处理器可以协作以实现组件的功能。另外，如稍后所述，由终端100的处理器实现的部分或全部功能也可以由服务器实现。在下文中，将描述组件的功能。

图像获取单元110获取由相机150捕获的对象obj的图像。这里，相机150是捕获对象的图像的成像装置的示例。具体地，相机150例如是包括图像传感器的数字相机，并且图像获取单元110接收由相机150生成的图像数据。尽管相机150通过诸如通用串行总线(USB)的有线通信接口(在所示示例中)连接到终端100，在另一示例中，相机150可以通过诸如蓝牙(注册商标)的无线通信接口连接到终端100。或者，相机150可以内置在终端100中，并且可以通过总线将图像数据发送到图像获取单元110。

角度信息获取单元120从平台设备160获取指示对象obj的角度的角度信息。这里，在本实施例中，由终端100的角度信息获取单元120获取的角度信息指示基于平台设备160的坐标系统的对象obj的角度。注意，角度信息获取单元120生成对象obj的角度信息，将角度信息发送到平台设备160，并将角度信息提供给词典数据生成单元130的情况也包括在“角度信息获取单元120获取角度信息”的情况中。在这种情况下，平台设备160根据从角度信息获取单元120接收的角度信息设置保持对象obj的角度。在本实施例中，平台设备160是用于保持对象obj的保持部件的示例。类似于相机150，平台设备160还可以通过有线通信接口连接到终端100，或者可以通过无线通信接口连接到终端100。

如上所述，对象obj的角度是三维空间中的角度，诸如由正交坐标系中的三个轴的旋转量指示的角度。因此，角度信息获取单元120通过例如等于当前姿势与对象obj的参考姿势之间的差的旋转量来表示角度信息。这里，参考姿势是例如当平台设备160被重置时对象obj的姿势。或者，参考姿势可以是当图像获取单元110首先获取对象obj的图像以生成词典数据210时对象obj的姿势。

词典数据生成单元130基于由图像获取单元110获取的图像、对象obj的标识信息和由角度信息获取单元120获取的角度信息来生成词典数据210。这里，可以通过任何方式指定对象obj的标识信息。例如，可以基于用户输入到终端100的信息来指定对象obj的标识信息。还可以通过将由图像获取单元110获取的图像与为基于图像的对象识别单独提供的词典数据相匹配来指定对象obj的标识信息。或者，词典数据生成单元130可以将标识信息分配给通常包括在由图像获取单元110获取的多个图像中的对象obj。

注意，基于图像的对象识别中的已知技术可以适当地用于在本实施例中用于生成词典数据210的信息中的对象obj的图像和标识信息的组合。例如，词典数据生成单元130可以使用在基于图像的对象识别中使用的适当方法来从图像中提取特征量，并且可以将所提取的特征量与对象obj的标识信息和角度信息相关联。另外，例如，词典数据生成单元130可以使用通过在基于图像的对象识别中使用的适当方法分类和标记的对象obj的标识信息。

另外，尽管在本实施例的描述中基于对象obj的标识信息生成词典数据210，但是可以不基于对象obj的标识信息生成词典数据210。例如，在为单一类型的对象obj提供系统10的情况下，词典数据210可以不包括对象obj的标识信息。另一方面，在如本实施例中词典数据210包括对象obj的标识信息的情况下，可以识别多种类型的对象obj，然后可以进一步估计对象obj的角度。

(平台设备和夹具的配置)

在下文中，将进一步描述根据本实施例的系统10中与终端100一起使用的平台设备160的配置和用于将对象obj附接到平台设备160的夹具170的配置。

图3是示出图1所示的系统中使用的平台设备160和夹具170的配置的示意性透视图。图4是沿图3的线I-I截取的剖视图。参考图3和图4，平台设备160包括基部161、一对支撑件162、一对臂163、一对销(pin)164、保持器(holder)165、梁(beam)166和控制单元167。夹具170包括：附接构件171、连接构件172、对象保持器173和背景板174。注意，图3中未示出背景板174。在下文中，将描述每个组件。

在平台设备160中，基部161例如是旋转台。基部161由控制单元167控制的电机(未示出)驱动，并绕轴A₁旋转。这里，轴A₁与相机150的光轴(如图4中的轴A₃所示)正交。一对支撑件162在相对于轴A₁对称的位置处固定在基部161上。因此，一对支撑件162的中点基本上与轴A₁重合。销164在基部161的相对侧上用于将一对臂163分别连接到的一对支撑件162。销164位于与轴A₁正交的轴A₂上。一对臂163中的每一个可绕轴A₂枢转(pivotable)。具体地，一对支撑件162和销164通过齿轮连接，或者销164和一对臂163通过齿轮连接。由控制单元167控制的电机(未示出)连接到齿轮，并且一对臂163绕轴A₂枢转。

保持器165在一对支撑件162的相对侧上通过梁166固定在一对臂163的边缘之间。尽管在例如平台设备160用作相机的自动平台的情况下，保持器165是设置有相机的构件，但是在本实施例中，如后所述，夹具170的附接构件171被附接到保持器165。如上所述，当一对臂163绕轴A₂旋转(revolve)时，保持器165绕轴A₂枢转。这里，在保持器165根据一对臂163的构造绕轴A₂旋转的同时，保持器165的附接表面165s保持为面向轴A₂。

控制单元167例如是结合到平台设备160中的微控制器，并且控制单元167如上所述控制电机以控制基部161的旋转和一对臂163的枢轴。控制单元例如根据预定程序或来自终端100的指令控制电机167。这样，控制单元167设置基部161绕轴A₁的旋转角度和一对臂163绕轴A₂枢转的角度。终端100的角度信息获取单元120获取例如角度信息，该角度信息是指示由控制单元167设置的角度的值的信息。

上述平台设备160主要分布为使附接到保持器165的相机的平移(绕轴A₁的旋转)和倾斜(轴A₂的切换)自动化的装置。本实施例旨在使用平台设备160自动设置对象obj的角度，从而有效地生成覆盖各种角度的词典数据210。然而，在对象obj直接附接到平台设备160的保持器165的情况下，当一对臂163枢转时，保持器165绕轴A₂摆动，结果，对象obj的位置变为显著地离开相机150的光轴(如图4中的轴A₃所示)。因此，如下面在本实施例中所述，对象obj通过夹具170附接到平台设备160。

在夹具170中，附接构件171是可以附接到平台设备160的保持器165的构件。例如，附接构件171设置有对应于用于固定设置在保持器165上的相机的结构的附接结构。具体地，在保持器165设置有用于固定相机的螺钉的情况下，附接构件171设置有螺孔。或者，附接构件171可以设置有可以与保持器165的结构无关地使用的附接结构。具体地，附接构件171可以设置有用于夹持保持器165的夹子、缠绕在保持器165上的带子等。

对象保持器173是用于附接对象obj的构件。例如，对象保持器173设置有附接结构，该附接结构能够在尽可能减少与对象obj的接触区域的同时固定对象obj。这是因为附接结构和对象obj的接触区域可以成为由相机150捕获的对象obj的图像中的遮挡区域。具体地，对象保持器173可以设置有用于夹持对象obj的夹子、用于抓住对象obj的钩子、用于附接对象obj的粘合表面等。另外，对象保持器173可以设置有用于作为磁体对物质的对象obj的磁体。

连接构件172连接附接构件171和对象保持器173。另外，连接构件172限定附接构件171和对象保持器173之间的位置关系，使得当附接构件171附接到平台设备160的保持器165时，附接到对象保持器173的对象obj定位在轴A₁和轴A₂的交点附近。例如，连接构件172连接到附接构件171，以便当连接构件171附接到保持器165时沿着一对臂163延伸。在这种情况下，连接构件172在沿着一对臂163的方向上的长度基本上等于通过从保持器165和轴线A2之间的距离减去附接构件171和对象保持器173的厚度以及对象的厚度的一半而获得的距离。连接构件172可以具有可以沿着臂163的方向调节长度的结构。这允许根据对象obj的大小调节连接构件172的长度，以使对象obj的中心接近轴A₁和轴A₂的交点。

如上所述通过夹具170附接到平台设备160的对象obj位于轴A₁和轴A₂的交点附近。因此，即使当平台设备160的基部161绕轴A₁旋转时或者当一对臂163绕轴A₂枢转时，对象obj的位置基本上没有变化，并且位置不会显著离开相机150的光轴(如图4中的轴A₃所示)。因此，当平台设备160的控制单元167设置基部161绕轴A₁的旋转角度和一对臂163的枢轴绕轴A₂的角度时，在本实施例中，角度可以被认为是对象obj绕轴A₁和轴A₂的旋转量。

注意，在使用平台设备160和夹具170的情况下，尽管对象obj不绕垂直于轴A₁和轴A₂的轴A₃(即，相机150的光轴)旋转，绕轴A₃的旋转可以通过由相机150捕获的图像的平面旋转来精确地补充。另外，尽管在上面的描述中为了简化说明了对象obj在相机150的光轴上，但是对象obj可以不是在相机150的光轴上。

背景板174附接到连接构件172或对象保持器173，并提供对象obj的背景。例如，背景板174可以设置有用于选择性地附接屏幕的附接结构。屏幕可包括例如由不同材料形成的多个屏幕。材料的实例包括纸、布和薄膜。屏幕还可以包括不同颜色或不同反射特性的多个屏幕。可以交换屏幕以提供具有不同材料、颜色、反射特性等的对象obj的多个可交换背景。另外，背景板174可以例如可拆卸地附接到连接构件172或对象保持器173。在这种情况下，可以选择性地附接多个背景板174以提供具有不同材料、颜色、反射特性等的对象obj的多个可交换背景。具体地，背景板174可以包括例如多个背景板174，其中面向对象obj的表面由不同的材料形成。材料的示例包括纸、布和薄膜。背景板174还可以包括多个背景板174，其中面向对象obj的表面具有不同的颜色或不同的反射特性。

(词典数据的概念描述)

图5是用于描述在本发明的第一实施例中生成的词典数据的概念图。图5示出了与由特定标识信息指定的对象obj(在所示示例中的连接器)相关联的词典数据210。在所示的示例中，对象obj的角度是由关于三维空间中的正交坐标系的三个轴(X轴、Y轴和Z轴)的旋转量指示的矢量。关于对象obj的角度，词典数据210包括至少N_X×N_Y×N_Z个元素，其通过将整个圆周划分为关于围绕X轴的旋转量(rot_X)的N_X个元素、将整个圆周划分为关于围绕Y轴的旋转量(rot_Y)的N_Y个元素、以及将整个圆周划分为关于围绕Z轴的旋转量(rot_Z)的N_Z个元素而定义。每个元素与对应于对象obj的至少一个图像的信息相关联。这里，与对象obj的图像对应的信息可以是，例如，当对象obj处于由旋转量(rot_X，rot_Y，rot_Z)指示的角度时，从由相机150捕获的图像提取的特征量。

注意，在该示例中，关于轴的旋转量(rot_X，rot_Y，rot_Z)的划分宽度可以不同(即，N_X、N_Y和N_Z中的至少一个可以与其他的不同)。另外，旋转量可能不均匀划分。例如，在稍后描述的对象obj的角度估计中存在不可能以高可靠性估计的角度的情况下，与该角度对应的旋转量附近的旋转量的划分宽度可以被设置为小于其他部分的划分宽度。

例如，在机器人300的相机310以未知角度捕获对象obj的图像的情况下，从捕获图像提取的特征量和与词典数据210的元素相关联的特征量可以匹配，以估计对象obj的角度。

这里，词典数据210可以包括基于相同对象obj和多个不同图像的角度信息生成的多个元素。在这种情况下，词典数据210的元素数量大于N_X×N_Y×N_Z。例如，捕获多个图像的环境条件可以在与相同角度信息相关联的多个图像之间变化。环境条件可以是例如背景或光的排列。在多个不同环境条件下生成词典数据210可以提供可以在各种环境条件下估计对象obj的角度的词典数据210。

在上述情况下，终端100的图像获取单元110获取对象obj的多个不同图像。例如，当平台设备160的控制单元167在通过使用夹具170的背景板174交换对象obj的背景之前和之后设置相同的角度时，图像获取单元110可以获取对象obj的图像。在这种情况下，词典数据生成单元130基于具有不同背景的多个图像、多个图像共有的对象obj的标识信息，以及指示多个图像共有的对象obj的角度的角度信息，来生成词典数据210的多个元素。

(机器人的配置)

图6是用于描述图1所示系统中的机器人300的示意性配置的图。参考图6，机器人300包括相机310、机械臂320、控制单元330、传感器340和电机350。机器人300可以例如使用机械臂320来保持对象obj，并根据控制单元330的控制，使用相机310来捕获对象obj的图像。在本实施例中，机械臂320也是用于保持对象obj的保持部件的示例，类似于平台设备160。控制单元330通过例如稍后描述的信息处理装置的硬件配置来实现。

传感器340包括用于获取机器人300使用的或从机器人300发送到另一装置的各种测量值的传感器。具体地，传感器340可以包括加速度传感器、角速度传感器、地磁传感器和/或全球导航卫星系统(GNSS)接收器。传感器340还可以包括激光范围扫描仪，诸如深度传感器和激光成像检测和测距(LIDAR)。

电机350根据控制单元330的控制激活机器人300的每个组件。电机350可包括例如用于激活关节结构(未示出)以改变机器人的姿势或移动机器人300的电机(致动器)。电机350还可以包括用于旋转车轮以移动机器人300的电机。注意，包括电机350的机器人300的每个组件的配置可以是基于已知的设计机器人的方法的适当配置。这里，机器人300可以不改变姿势或者可以不移动。类似地，机器人300可以不包括关节结构(除了机械臂320之外)或者可以不包括轮子。

(估计对象角度的配置)

图7是示出图1所示系统中的机器人300的功能配置的框图。参考图7，除了相机310和机械臂320之外，机器人300还包括图像获取单元331、词典数据获取单元332、对象识别/角度估计单元333、结果输出单元334、词典数据更新单元335、机械臂控制单元336和角度信息获取/角度估计单元337。除了相机310和机械臂320之外的组件由例如实现机器人300的控制单元330的信息处理装置的处理器实现。注意，在控制单元330包括多个处理器的情况下，多个处理器可以协作以实现组件的功能。另外，如稍后所述，由控制单元330的处理器实现的部分或全部功能也可以由服务器实现。在下文中，将描述组件的功能。注意，稍后将参考流程图详细描述关于词典数据的更新的功能，并且这里将简单地描述这些功能。

图像获取单元331获取由相机310捕获的对象obj的图像。这里，在本实施例中，相机310也是捕获对象的图像的成像装置的示例，类似于相机150。尽管由相机150捕获的图像和由相机310捕获的图像包括相同类型的对象obj，但是图像彼此不同。具体地，相机310例如是包括图像传感器的数字相机，并且图像获取单元331接收由相机310生成的图像数据。例如，机器人300使用机械臂320来保持对象obj。在这种情况下，由图像获取单元331获取的图像包括由机械臂320保持的对象obj。或者，图像获取单元331可以包括不由机械臂320保持但是放置在桌子、地板上等的对象obj。尽管在所示示例中相机310内置在机器人300中，并且相机310通过总线将图像数据发送到图像获取单元331，但是相机310可以通过有线通信接口或者无线通信接口外部连接到机器人300。

词典数据获取单元332从通过网络连接到机器人300的数据库200获取词典数据210。如上所述，基于对象obj的图像和角度信息(以及对象obj的标识信息)生成词典数据210。机器人300使用词典数据210来估计由机械臂320保持的对象obj的角度。注意，词典数据获取单元332可以不获取整个词典数据210。例如，在针对多种类型的对象生成词典数据210并且包括在由图像获取单元331获取的图像中的对象obj已经被标识的情况下，词典数据获取单元332选择性地获取与字典数据210中的对象obj的标识信息相关联的元素。

对象识别/角度估计单元333基于由图像获取单元331获取的对象obj的图像和由词典数据获取单元332获取的词典数据210来估计图像中的对象obj的角度。在针对多种类型的对象生成词典数据210并且包括在由图像获取单元331获取的图像中的对象obj没有被标识的情况下，对象识别/角度估计单元333使用基于图像的对象识别来指定对象obj的标识信息。可以将已知技术应用于基于图像的对象识别，并且将不描述细节。例如，在针对多种类型的对象生成词典数据210的情况下，或者在包括在由图像获取单元331获取的图像中的对象obj已经被标识的情况下，对象识别/角度估计单元333不运行对象识别。

另一方面，对象识别/角度估计单元333通过例如将由图像获取单元331获取的图像与词典数据210的元素相匹配来估计对象obj的角度。在这种情况下，与词典数据210的元素相关联的、具有匹配中分数最高的角度被估计为图像中对象obj的角度。如稍后所述，用于估计对象obj的角度的词典数据210可以包括大量元素。因此，对象识别/角度估计单元333可以基于由图像获取单元331获取的图像来修剪词典数据210，并且可以将所修剪的词典数据210与图像进行匹配。这里，在本实施例中，修剪是通过具有比用于估计对象obj的角度的匹配更低的处理负荷的处理来确定要从匹配中排除的词典数据210的处理。

结果输出单元334输出由对象识别/角度估计单元333识别的结果。如上所述，尽管机器人300可以使用对象obj的角度的估计结果用于机器人300的操作，诸如用于控制机械臂320，但是如果需要，机器人300还可以以某种形式输出估计结果。更具体地，例如，估计结果可以在机器人300的显示器上显示为图像，或者可以作为来自扬声器的声音输出。另外，估计结果可以通过网络从包括在机器人300中的通信装置发送到另一个装置。结果输出单元334控制估计结果的输出。注意，在不必输出估计结果的情况下，不提供结果输出单元334。

词典数据更新单元335根据由对象识别/角度估计单元333估计的对象obj的角度的估计结果和由稍后描述的角度信息获取/角度估计单元337重新估计的重新估计结果来更新词典数据210。更具体地，在由对象识别/角度估计单元333估计的角度的可靠性不超过阈值的情况下，词典数据更新单元335基于由角度信息获取/角度估计单元337重新估计的角度的重新估计结果来更新词典数据210。注意，在以下描述中，由对象识别/角度估计单元333估计的角度的估计函数也将被称为“第一角度估计函数”，并且由角度信息获取/角度估计单元337重新估计的角度的重新估计函数也将被称为“第二角度估计函数”。角度估计函数可以不彼此独立地进行。例如，如稍后所述，角度信息获取/角度估计单元337通过使用由对象识别/角度估计单元333估计的角度的估计结果来重新估计角度。即，存在“第一角度估计函数”被单独运行，并且还存在“第二角度估计函数”称为“第一角度估计函数”的情况。

机械臂控制单元336控制保持对象obj的机器人300的机械臂320。当词典数据更新单元335更新词典数据210时，机械臂控制单元336控制机械臂320旋转对象obj。注意，这里的旋转指示改变对象obj的角度。对象obj的旋转是关于在对象obj的角度的重新估计中运行的对象obj的物理操作的示例。

角度信息获取/角度估计单元337从机械臂控制单元336获取指示对象obj的角度的角度信息。这里，在本实施例中，由机器人的角度信息获取/角度估计单元337获取的角度信息300指示基于机器人300或机械臂320的坐标系的对象obj的角度。因此，在本实施例中，从机械臂控制单元336获取的角度信息可能不直接与词典数据210的角度信息相关联。因此，在本实施例中，角度信息获取/角度估计单元337根据机械臂控制单元336控制机械臂320旋转对象obj之前和之后的角度信息计算对象obj的旋转量Δθ，并且旋转量Δθ用于后面描述的角度的重新估计。

角度信息获取/角度估计单元337基于在对象obj的旋转之后对象obj的角度θ₂(由对象识别/角度估计单元333基于图像(第二图像)和词典数据210估计的)以及基于旋转量Δθ，还重新估计在对象obj的旋转之前、图像(第一图像)中的对象obj的角度θ₁(简单地说，θ₁＝θ₂-Δθ)。这里，旋转量Δθ是关于对象obj的物理操作量的示例。注意，角度θ₁、角度θ₂和旋转量Δθ中的每一个可以是例如包括关于坐标系的每个轴的旋转元素(图5的示例中的rot_X，rot_Y和rot_Z)的矢量。

在由对象识别/角度估计单元333基于对象obj的旋转之后的图像(第二图像)和词典数据210估计的对象obj的角度θ₂的可靠性超过阈值的情况下，词典数据更新单元335基于指示由角度信息获取/角度估计单元337(基于角度θ₂)重新估计的角度θ₁的角度信息、并基于在对象obj的旋转之前的图像(第一图像)更新词典数据210。

另一方面，在由对象识别/角度估计单元333基于对象obj的旋转之后的图像(第二图像)和词典数据210估计的对象obj的角度θ₂的可靠性不超过阈值的情况下，机械臂控制单元336控制机械臂320以旋转量Δθ'进一步旋转对象obj，并且对象识别/角度估计单元333基于对象obj的旋转之后的图像(第三图像)和词典数据210估计对象obj的角度θ₃。在角度θ₃的可靠性超过阈值的情况下，角度信息获取/角度估计单元337基于角度θ₃和总旋转量(Δθ+Δθ')重新估计角度θ₁，并且词典数据更新单元335基于重新估计的结果更新词典数据210。

以这种方式，一旦以足够的可靠性重新估计角度θ₁，词典数据更新单元335就基于角度θ₁和对象obj的旋转之前的图像(第一图像)来更新词典数据210。具体地，词典数据更新单元335添加或替换词典数据210的元素。结果，当相机310稍后在类似的环境条件下以角度θ₁捕获对象obj的图像时，角度θ₁可能是在没有重新估计的情况下具有高可靠性地被估计。

(处理流程示例)

在下文中，将参考图8和图12描述根据本实施例的系统10中的处理流程的示例。

图8是示出根据本发明第一实施例的词典数据生成处理的示例的流程图。参考图8，在登记处理中，终端100的图像获取单元110首先获取图像(S101)，并且角度信息获取单元120获取角度信息(步骤S103)。可以首先运行步骤S101和S103中的任何一个，或者可以并行运行步骤S101和S103。例如，一旦图像获取单元110实时获取由相机150捕获的图像，角度信息获取单元120可以从平台设备160获取角度信息。此外，一旦角度信息获取单元120将角度信息发送到平台设备160，图像获取单元110可以实时获取由相机150捕获的图像。或者，图像获取单元110可以按时间顺序连续获取由相机150捕获的图像，以及角度信息获取单元120可以按时间顺序连续获取在平台设备160中设置的角度信息。

接下来，终端100的词典数据生成单元130将在步骤S101中获取的图像与在步骤S103中获取的角度信息相关联。例如，在实时获取图像和角度信息两者的情况下，词典数据生成单元130将图像和基本上同时获取的角度信息相关联。另一方面，在以时滞获取或稍后获取的图像和角度信息的情况下，词典数据生成单元130将图像和包括公共密钥的角度信息相关联。在这种情况下的密钥可以是例如时间戳，或者可以是与时间戳分开分配的序列号等。

接下来，词典数据生成单元130基于在步骤S105中彼此关联的图像和角度信息来生成词典数据210(步骤S107)。这里，如已经描述的，词典数据生成单元130可以应用已知的基于图像的对象识别技术来生成词典数据210。此外，在例如词典数据生成单元130连续获取基本相同的图像和角度信息的集合的情况下，词典数据生成单元130可以确定该信息是冗余的并且跳过词典数据210的生成。

图9是示出本发明第一实施例中的识别处理的示例的流程图。参考图9，机器人300的图像获取单元331首先在识别处理中获取图像(步骤S301)。如上所述，图像获取单元331获取由相机310捕获的图像，并且该图像包括例如由机械臂320保持的对象obj。接下来，词典数据获取单元332从数据库200获取词典数据210(步骤S303)。

接下来，对象识别/角度估计单元333基于在步骤S301中获取的图像和在步骤S303中获取的词典数据210来识别对象obj(步骤S305)。注意，可以将已知技术应用于基于图像的对象识别，并且将不描述细节。此外，如上所述，在例如针对单一类型的对象生成词典数据210的情况下，或者在已经识别出包括在图像中的对象obj的情况下，跳过步骤S305的对象识别。

接下来，对象识别/角度估计单元333修剪词典数据210(步骤S307)。例如，在如图5所示的通过将整个圆周划分为关于每个轴的旋转量(rot_X，rot_Y，rot_Z)的52个元素(即，N_X＝N_Y＝N_Z)来生成词典数据210的情况下，所生成的词典数据210至少包括52³＝140,608个元素。在多个不同图像与相同角度相关联的情况下，元素的数量变得更大，以生成如上所述的词典数据210。用于匹配词典数据210的所有元素的处理负荷是巨大的，并且修剪词典数据210的益处很大。

图10是示出了本发明第一实施例中的修剪处理的示例的流程图。图11是用于描述图10中所示的修剪处理的概念图。参考图10，对象识别/角度估计单元333首先确定与对象obj对应的修剪过程(步骤S331)。例如，对应于对象obj的修剪过程与词典数据210一起预先设置并存储在数据库200中。在运行图9所示的步骤S305的情况下，对象识别/角度估计单元333根据步骤S305中的对象的识别结果确定修剪处理。

以下步骤S333和S335是根据与图11所示的示例中的对象obj相对应的修剪过程而运行的处理的示例。这里运行的处理可能基于对象类型而变化。在该示例中，对象识别/角度估计单元333掩蔽图像(步骤S333)并进一步减少图像的颜色(步骤S335)。接下来，对象识别/角度估计单元333运行修剪(步骤S337)。在所示的示例中，例如，从具有减少颜色的所掩蔽图像中提取多个特征部分，以及从匹配目标中删除多个类似提取的特征部分之间的位置关系与图像不同的词典数据210中的元素。

在图11所示的示例中，对象obj是连接器。在所示示例中设置的修剪过程集中于线缆的颜色(线缆1至线缆3)。在图10所示的步骤S333中，掩蔽了图像中除线缆之外的部分(掩模在图11中指示为MSK)。这消除了存在于所掩蔽部分中的端子盖(terminal cover)的阴影的影响。此外，尽管未在图1中表示，在步骤S335中减少图像的颜色，使得表示两个边缘(线缆1和线缆3)处的线缆颜色的差异。这允许容易地在两个边缘(线缆1和线缆3)处提取线缆作为图像的每个元素和词典数据210中的两个特征部分。

此外，在图10所示的步骤S337中，基于具有所减少颜色的所掩蔽图像来修剪词典数据210。具体地，例如，当从图像中的线缆3观看时，线缆1位于右上方。另一方面，当从词典数据210的元素组210b(连接器绕视轴旋转)中的线缆3观察时，线缆1位于左上方。另外，当从元素组210c(连接器反转)中的线缆3观察时，线缆1位于左下方。因此，在步骤S337中从匹配目标中移除元素组210b和210c。结果，仅对元素组210a运行匹配(如在图像中，当从线缆1观看时，线缆1位于右上方)。

回到图9，在步骤S307中修剪词典数据210之后，对象识别/角度估计单元333将图像与词典数据210进行匹配(步骤S309)。匹配可以是例如模板匹配。注意，可以将已知技术应用于图像的匹配，并且将不描述细节。注意，尽管基于对象的分数被计算为已知的基于图像的对象识别中的匹配结果，但是在步骤S307中计算基于对象的角度的分数。

接下来，对象识别/角度估计单元333基于步骤S309中的匹配结果来估计对象obj的角度(S311)。步骤S311中的估计结果可以是例如由与在步骤S309中的匹配中计算的最高分数的词典数据210的元素相关联的角度信息指示的角度。

接下来，对象识别/角度估计单元333确定在步骤S309中的匹配中计算的分数是否超过阈值(步骤S313)。这里，与阈值相比较的分数是例如最高匹配分数。或者，可以确定匹配分数的某个最高百分比(例如，10％)是否超过阈值。在步骤S313的确定中匹配分数未超过阈值的情况下(否)，词典数据更新单元335更新词典数据210(步骤S315)。另一方面，在步骤S313的确定中匹配分数超过阈值的情况下(是)，可以不运行更新词典数据210的处理。必要时，结果输出单元334输出步骤S311中的估计结果。

图12是示出了本发明第一实施例中的词典数据更新处理的示例的流程图。参考图12，机器人300的角度信息获取/角度估计单元337首先在更新处理中存储从机械臂控制单元336提供的对象obj的角度信息(步骤S351)。这里，在步骤S351中存储的角度例如基于机械臂320指示坐标系中的对象obj的角度。接下来，机械臂控制单元336控制机械臂320旋转对象obj(步骤S353))。

在旋转对象obj之后，估计对象obj的角度(步骤S355)。步骤S355的处理对应于例如图9所示的步骤S301至S311的处理。具体地，图像获取单元331获取对象obj的旋转之后的图像(第二图像)，并且对象识别/角度估计单元333估计旋转之后的图像(第二图像)中的对象obj的角度。注意，可以使用在先前运行的步骤S303中获取的词典数据210，并且可以假设在先前执运行的步骤S305中已经识别出对象obj。

接下来，词典数据更新单元335确定在步骤S355中估计的匹配分数是否超过阈值(步骤S357)。该确定可以如在例如图9所示的步骤S313中那样运行。在步骤S357的确定中匹配分数未超过阈值的情况下(否)，重新运行步骤S353和步骤S355的处理。也就是说，机械臂控制单元336控制机械臂320以进一步旋转对象obj(步骤S353)，并且对象识别/角度估计单元333估计旋转之后的图像(第三图像)中的对象obj的角度(步骤S355)。

另一方面，在步骤S357的确定中匹配分数超过阈值的情况下(是)，角度信息获取/角度估计单元337从在步骤S355中估计的角度θ₂和对象obj的旋转量Δθ重新估计初始角度θ₁(步骤S359)。这里，初始角度θ₁是对象obj旋转之前的角度，并且是对象识别/角度估计单元333无法以足够的可靠性估计的角度。另一方面，角度θ₂是由对象识别/角度估计单元333基于对象obj的旋转之后的图像(第二图像)和词典数据210估计的对象obj的角度，并且在步骤S357的确定中证明了该角度以足够的可靠性被估计。另外，基于在步骤S353中存储的对象obj的角度信息和在步骤S353时从机械臂控制单元336提供的对象obj的角度信息来计算旋转量Δθ。

注意，作为步骤S357的确定的结果，在步骤S353和S355的处理重复N次的情况下，角度信息获取/角度估计单元337从在最后运行的步骤S355中估计的角度θ_N+1和在运行N次的步骤S353中的对象obj的总旋转量Δθ_TTL重新估计初始角度θ₁。基于在步骤S353中存储的对象obj的角度信息和在步骤S353时从机械臂控制单元336提供的对象obj的角度信息来计算总旋转量Δθ_TTL。

接下来，词典数据更新单元335将与在步骤S359中重新估计的初始角度θ₁相对应的角度信息与在图9所示的步骤S301中获取的对象obj的旋转之前的图像(第一图像)相关联(步骤S361)。此外，词典数据更新单元335在步骤S361中基于彼此关联的图像和角度信息更新词典数据210(步骤S363)。这里，词典数据210的更新包括添加词典数据210的元素和/或替换词典数据210的元素。

在上述步骤S363中，词典数据更新单元335基于图像和角度信息添加词典数据210的元素。结果，当机器人300的相机310稍后在类似的环境条件下以角度θ₁捕获对象obj的图像时，可能以高可靠性估计角度θ₁。注意，在例如词典数据210专用于机器人300，并且期望相机310捕获对象obj的图像时的环境条件不会改变的情况下，词典数据更新单元335可以基于图像和角度信息替换词典数据210的元素。

可以如上所述更新词典数据210以累积关于对象obj的角度或环境条件的附加词典数据210，因为对于该对象obj，通过使用首先生成的词典数据210，难以进行具有高可靠性的估计。以这种方式，使用词典数据210来估计对象obj的角度的机器人300可以自主地增强词典数据210以提高估计的鲁棒性。

(更新前的验证处理示例)

这里，参考图12描述的词典数据更新处理可以包括附加处理，该附加处理是在更新词典数据210之前的验证处理。对于第一示例，可以运行验证是否在图12所示的步骤S351之前运行词典数据更新处理的处理(示出为步骤S371“验证处理1”)。在根据第一示例的验证处理中，图像获取单元331在步骤S353中在对象obj旋转之前重新获取对象obj的图像。对象识别/角度估计单元333估计重新获取的图像中的对象obj的角度。在估计中的匹配分数超过阈值的情况下(与图9中所示的步骤S311中的估计不同)，取消词典数据更新处理，并且至少不运行步骤S363的词典数据的更新。

例如，在图9所示的步骤S301中由图像获取单元331获取的图像中，由于偶然因素(诸如相机310的焦点的延迟或照明条件的瞬时变化(例如，由闪电或闪光灯引起))，图像可能存在不期望的变化，并且这可能减少估计的可靠性。如第一示例中的验证处理对于防止基于由于偶然因素而具有低再现性的信息来更新词典数据210是有效的。

另外，对于第二示例，可以在图12所示的步骤S361之后运行验证是否基于准备好的角度信息和图像来更新词典数据的处理(示出为步骤S373“验证处理2”)。在根据第二示例的验证处理中，词典数据更新单元335基于在步骤S361中关联的角度信息和图像来生成临时词典数据。接下来，机械臂控制单元336控制机械臂320旋转对象obj，这与步骤S353相反。这使得对象obj返回到原始角度θ₁。此外，图像获取单元331新获取返回到原始角度θ₁的对象obj的图像，并且对象识别/角度估计单元333基于由词典数据更新单元335生成的临时词典数据估计由图像获取单元331新获取的图像中的对象obj的角度。这里，在可以估计原始角度θ₁并且匹配分数超过阈值的情况下，词典数据更新单元335更新步骤S363的词典数据210。否则，不更新步骤S363的词典数据210。

第二示例对于例如防止无法有助于提高角度估计的可靠性的词典数据210的更新是有效的。基于相机310捕获对象obj的图像时的环境条件，即使当基于由图像获取单元331获取的图像更新词典数据210时，也可能无法提高稍后获取的类似图像中的角度估计的可靠性。如第二示例中的验证处理对于防止由于可能无助于提高角度估计的可靠性的不必要元素而导致的词典数据210的容量增加是有效的。

(其他修改)

注意，尽管角度信息获取/角度估计单元337在该示例中重新估计对象obj的旋转之后的角度，但是角度信息获取/角度估计单元337可以在另一个示例中的在机器人300被电机350随着对象obj一起移动之后重新估计角度。可以通过机器人300的移动来改变相机310捕获图像时的环境条件，并且可以在不旋转对象obj的情况下以高可靠性估计角度。注意，在稍后描述的第三实施例中更详细地描述了用于移动机器人300的配置。

另外，机器人300的移动可以与对象obj的旋转组合。例如，在对象obj的旋转之后的角度的重新估计中仍然没有获得足够的可靠性的情况下，角度信息获取/角度估计单元337可以在机器人300与对象obj一起移动之后重新估计角度。例如，在相机310捕获对象obj的图像时的环境条件与生成词典数据210时相机150的环境条件显著不同的情况下，重新估计的处理可能是有效的。

通过将功能分散到图1、2和图7中所示的示例中的终端100、数据库200和机器人300来实现根据本实施例的系统10的功能。在另一个示例中，系统10的大多数功能可以由服务器实现。也就是说，由示例中描述的终端100和机器人300的处理器实现的功能也可以由包括数据库200的服务器的处理器实现。在这种情况下，终端100将由相机150捕获对象obj的图像，以及从平台设备160获取的对象obj的角度信息发送到服务器，并且服务器将它们关联以生成词典数据210。另一方面，机器人300将由相机310捕获的对象obj的图像发送到服务器，并且服务器基于图像估计对象obj的角度。机器人300从服务器接收角度的估计结果。在所估计角度的可靠性不超过阈值的情况下，服务器可以要求机器人300旋转对象obj以重新估计角度，并且在旋转之后获取对象obj的图像。注意，实现功能的服务器的数量可以不是一个，并且分散在网络上的多个服务器可以实现功能。另外，实现功能的服务器可以是与包括数据库200的存储器分离的装置。

(第二实施例)

接下来，将描述本发明的第二实施例。注意，通过向具有与第一实施例类似的配置的部件提供共同的附图标记，可以省略重复的描述。

图13是示出根据本发明第二实施例的机器人300a的功能配置的框图。参考图13，在本实施例中，机器人300a实现了关于词典数据210的生成和使用词典数据210估计对象obj的角度的全部功能。具体地，机器人300a的控制单元330的处理实现图像获取单元110和331、角度信息获取/角度估计单元120和337、词典数据生成/更新单元130和335、词典数据获取单元332、对象识别/角度估计单元333、结果输出单元334和机械臂控制单元336。注意，在控制单元330包括多个处理器的情况下，多个处理器可以协作以实现组件的功能。另外，如稍后所述，由控制单元330的处理器实现的部分或全部功能也可以由服务器实现。另外，数据库200存储在机器人300a的控制单元330的存储器中。在下文中，将进一步描述这些组件。

图像获取单元110和331具有参考图2描述的图像获取单元110和参考图7描述图像获取单元331两者的功能。即，图像获取单元110和331将由相机310捕获的对象obj的图像提供给词典数据生成/更新单元130和335，以便生成词典数据210，并将图像提供给对象识别/角度估计单元333，以便使用词典数据210来估计对象obj的角度。

角度信息获取/角度估计单元120和337具有参考图2描述的角度信息获取单元120和参考图7描述的角度信息获取/角度估计单元337两者的功能。即，角度信息获取/角度估计单元120和337将从机械臂控制单元336获取的角度信息提供给词典数据生成/更新单元130和335，以便生成词典数据210。此外，角度信息获取/角度估计单元120和337基于从机械臂控制单元336获取的角度信息计算对象obj的旋转量Δθ，并且基于旋转量Δθ和由对象识别/角度估计单元333估计的角度θ₂来进一步估计初始角度θ₁，以便更新词典数据210。

注意，在本实施例中，由机器人300的角度信息获取/角度估计单元337获取的角度信息可以基于机械臂320的坐标系指示对象obj的角度。在这种情况下，由角度信息获取/角度估计单元337获取的角度信息指示的对象obj的角度不仅可以通过由机械臂控制单元336设置的机械臂320的旋转量来改变，而且可以通过连接到机械臂320的机器人300的其他组成元件(诸如臂)的操作量来改变。另外，对象obj的哪个表面由机械臂320保持也可以随时变化。因此，即使当与生成词典数据210的情况相同的机械臂320保持对象obj时，使用词典数据210来估计图像中的对象obj的角度也是有益的。

词典数据生成/更新单元130和335具有参考图2描述的词典数据生成单元130和参考图7描述了词典数据更新单元335两者的功能。即，词典数据生成/更新单元130和335基于由图像获取单元110和331获取的图像、以及由角度信息获取/角度估计单元120和337获取的角度信息生成词典数据210，以便生成词典数据210。另外，词典数据生成/更新单元130和335根据由对象识别/角度估计单元估计的对象obj的角度的估计结果、以及由角度信息获取/角度估计单元120和337重新估计的角度的重新估计结果来更新词典数据210，以便使用词典数据210来估计对象obj的角度。

如第二实施例中所示，根据第一实施例的系统10的功能可以通过诸如机器人300a的单个装置来实现。在这种情况下，还可以说系统10由单个装置实现。类似地，系统10的配置可以通过各种设备配置来实现。例如，系统10可以包括多个机器人300，并且每个机器人300可以生成词典数据210并通过使用词典数据210来估计对象的角度。在这种情况下，存储在数据库200中的词典数据210由多个机器人300共享。

另外，例如，在第二实施例中，包括数据库200的服务器可以实现由机器人300a的控制单元330实现的功能。在这种情况下，生成词典数据的机器人300a将由相机310捕获的对象obj的图像和从机械臂控制单元336获取的对象obj的角度信息发送到服务器，并且服务器将它们联以生成以生成词典数据210。另一方面，估计角度的机器人300a将由相机310捕获的对象obj的图像发送到服务器，并且服务器基于图像估计对象obj的角度。机器人300a从服务器接收角度的估计结果。服务器还可以要求机器人300a旋转对象obj以重新估计角度，并且在所估计的角度的可靠性不超过阈值的情况下，在旋转之后获取对象obj的图像。

(第三实施例)

接下来，将描述本发明的第三实施例。注意，通过向具有与第二实施例类似的配置的部件提供共同的附图标记，将省略重复的描述。

图14是用于描述本发明的第三实施例的示意图。参考图14，本实施例中的机器人300b相对于对象obj移动，而不是使用机械臂来保持对象。在所示的示例中，机器人300b的移动包括围绕对象的旋转REV。在这种情况下，对象obj围绕由相机310捕获的图像中的轴A₁旋转。机器人300b的移动还包括相对于相机310的对象obj倾斜TLT。在这种情况下，对象obj围绕由相机310捕获的图像中的轴A₂旋转。

图15是示出根据本发明第三实施例的机器人300b的功能配置的框图。根据本实施例的机器人300b与图13所示的机器人300a不同，机器人300b包括电机控制单元339，电机控制单元339控制电机350以代替机械臂控制单元336控制机械臂320。

电机控制单元339控制机器人300的电机350。如参考图6所述，电机350包括用于激活机器人300的关节结构或旋转机器人300b的轮子从而移动机器人300b或改变机器人300b的姿势的电机。如参考图14所述，电机控制单元339控制电机350以使机器人300b围绕对象obj旋转和/或使机器人300b相对于相机310的对象obj倾斜。

角度信息获取/角度估计单元120和337b获取指示对象obj的角度的角度信息。这里，通过例如使用在机器人300和相机310的移动期间由图像获取单元331获取的多个时间序列图像来获取角度信息，以运行基于图像的同时定位和映射(SLAM)。注意，可以通过使用包括在机器人300a中的其他传感器340的测量结果来运行SLAM，诸如深度传感器和激光范围扫描仪。在这种情况下，角度信息获取/角度估计单元120和337b使用SLAM来指定相机310的移动量，然后基于相机310和对象obj之间的单独指定的位置关系来获取对象obj的角度信息。或者，角度信息获取/角度估计单元120和337b可以基于由电机控制单元339控制的电机350的值来指定相机310的移动量。

本实施例允许使用如上所述获取的角度信息来生成词典数据210。此外，在对象识别/角度估计单元333不能基于词典数据210以足够的可靠性估计角度的情况下，电机控制单元339可以控制电机350旋转图像中的对象obj，从而重新估计角度并更新词典数据210。在本实施例中，相机310相对于对象obj的相对移动是关于在重新估计对象obj的角度时运行的对象obj的物理操作的示例。

根据上述本发明第三实施例的配置，即使在对象obj较大的情况下或在对象obj较小但是不能移动的情况下，也可以生成用于估计对象obj的角度的词典数据210。这里，机器人300b还可以包括如参考图7所述的机械臂320和机械臂控制单元336，并且在可以保持对象obj的情况下，如在第一和第二实施例中那样，可以使用机械臂320来旋转对象obj。

注意，在上述第三实施例的示例中，尽管如第二实施例中由机器人300b实现关于词典数据210的生成和使用词典数据210估计对象obj的角度的全部功能，但是其他示例也是可能的。例如，根据第一实施例的系统10中的机器人300可以包括代替机械臂控制单元336的电机控制单元339，或者除了机械臂控制单元336之外，还包括电机控制单元339。

例如，在用于生成词典数据210的平台设备160(或机器人300)的大小和使用词典数据210估计对象obj的角度的机器人300的大小不同的情况下，可能存在这样的情况：尽管平台设备160(或机械臂320)可用于旋转对象obj以便生成词典数据210，但是在更新词典数据210时难以旋转对象obj。可能还有相反的情况。

此外，例如，如上所述，在机器人300除了机械臂控制单元336之外还包括电机控制单元339的情况下，电机控制单元339可以控制电机350以使相机310与对象obj一起移动。在这种情况下，机械臂控制单元336控制机械臂320以防止图像中的对象obj的角度改变。具体地，机械臂控制单元336保持机械臂320和相机310之间的位置关系以及由机械臂320保持的对象obj的角度，同时电机控制单元339控制电机350以移动机器人300。

以这种方式，相机310可以与对象obj一起移动，以改变例如当相机310捕获图像时的环境条件，而不改变图像中对象obj的角度。结果，例如，在某些环境条件下难以基于词典数据210以高可靠性估计对象obj的角度的情况下，可以通过改变环境条件来实现具有高可靠性的估计。此外，在生成词典数据210时，可以在词典数据210中包括将在不同环境条件下获取的多个图像与共同角度信息相关联的多个元素，从而提高角度估计的鲁棒性。

在该示例中，电机控制单元339首先控制电机350以在词典数据210的更新处理中将相机310与对象obj一起移动。在移动相机310和对象obj之后，图像获取单元331在对象obj的移动之后获取图像(第二图像)，并且对象识别/角度估计单元333重新估计移动之后的图像(第二图像)中的对象obj的角度。在估计中的匹配分数超过阈值的情况下，词典数据更新单元335基于与重新估计的对象obj的角度相对应的角度信息和在对象obj的移动之前由图像获取单元331获取的图像(第一图像)来更新词典数据。在该示例中，相机310与对象obj的移动是关于在对象obj的角度的重新估计中运行的对象obj的物理操作。此外，在该示例中，对象识别/角度估计单元333执行“第一角度估计功能”和“第二角度估计功能”两者。

(信息处理装置的硬件配置示例)

接下来，将参考图16描述根据本发明实施例的信息处理装置的硬件配置的示例。图16是示出根据本发明实施例的信息处理装置的硬件配置的示例的框图。

信息处理装置900包括处理器901、存储器903、输入装置905、输出装置907和总线909。信息处理装置900还可以包括存储设备(storage)911、驱动器913、连接端口915和通信装置917。

处理器901包括例如处理电路，诸如中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。处理器901用作操作处理装置和控制装置，并根据记录在存储器903、存储设备911或可移除记录介质919中的程序控制信息处理装置900的操作。

存储器903包括例如只读存储器(ROM)和随机存取存储器(RAM)。ROM存储例如用于处理器901的程序、操作参数等。RAM主要存储例如在运行处理器901时部署的程序、运行程序的参数等。

输入装置905例如是用户操作的装置，诸如鼠标、键盘、触摸板、按钮和各种开关。输入装置905可以不与信息处理装置900集成，并且可以是例如通过无线通信发送控制信号的遥控器。输入装置905包括输入控制电路，该输入控制电路基于用户输入的信息产生输入信号，并将输入信号输出到处理器901。

输出装置907包括可以使用诸如视觉、听觉和触摸的感官来向用户输出信息的装置。输出装置907可以包括，例如，显示装置(诸如液晶显示器(LCD)和有机电致发光(EL)显示器)、语音输出装置(诸如扬声器和耳机)，以及振动器。输出装置907以图像(诸如文本和图片)、声音(诸如语音和音频)或振动的形式输出在信息处理装置900的处理中获得的结果。

存储设备911包括例如诸如硬盘驱动器(HDD)的磁存储设备、半导体存储设备、光存储设备、磁光存储设备等。存储设备911存储例如用于处理器901的程序、在运行程序时读取的或通过运行程序生成的各种类型的数据、从外部获取的各种类型的数据等。

驱动器913是用于可移除记录介质919的读取器/写入器，诸如磁盘、光盘、磁光盘和半导体存储器。驱动器913读取记录在安装的可移除记录介质919中的信息，并将该信息输出到存储器903。驱动器913还将各种类型的数据写入安装的可移除记录介质919。

连接端口915是用于将外部连接设备921连接到信息处理装置900的端口。连接端口915可以包括例如USB端口、IEEE 1394端口、小型计算机系统接口(SCSI)端口等。连接端口915还可以包括RS-232C端口、光学音频端口、高清晰度多媒体接口(HDMI)(注册商标)端口等。外部连接设备921可以连接到连接端口915，以在信息处理装置900和外部连接设备921之间交换各种类型的数据。

通信装置917连接到网络923。注意，网络923可以是，例如，开放式通信网络(诸如因特网)，其中连接了大量未指定的装置，或者可以是，例如，封闭的通信网络，诸如蓝牙(注册商标)，其中连接有限的装置，诸如两个装置。通信装置917可以包括例如局域网(LAN)、蓝牙(注册商标)、Wi-Fi或用于无线USB的通信卡(WUSB)。通信装置917使用根据网络923的预定协议来向其他信息处理装置发送信号、数据等，以及从其他信息处理装置接收信号、数据等。

上面已经说明了信息处理装置900的硬件配置的示例。可以使用通用构件来提供每个构成元件，或者可以使用特定于每个构成元件的功能的硬件来提供构成元件。另外，本领域技术人员可以根据实现时的技术水平适当地改变信息处理装置900的配置。

本发明的实施例可以包括，例如，如上所述的系统、夹具和信息处理装置、由信息处理装置运行的信息处理方法、用于操作信息处理装置的程序、以及记录程序的非暂时性有形介质。

尽管以上参考附图详细描述了本发明的一些实施例，但是本发明不限于这些示例。显然，具有本发明领域的正常知识的人可以在权利要求中描述的技术概念内进行各种改变或修改，并且应当理解，这些改变和修改显然属于本发明的技术范围。

[参考符号列表]

10...系统，100...终端，110...图像获取单元，120...角度信息获取单元，130...词典数据生成单元，150...相机，160...平台设备，161...基部，162...支撑件，163...臂，164...销，165...保持器，167...控制单元，170...夹具，171...附接构件，172...连接构件，173...对象保持器，174...背景板，200...数据库，210...词典数据，300,300a，300b...机器人，310...相机，320...机械臂，330...控制单元，331...图像获取单元，332...词典数据获取单元，333...对象识别/角度估计单元，334...结果输出单元，335...词典数据更新单元，336...机械臂控制单元，337...角度信息获取/角度估计单元，339...电机控制单元，340...传感器，350...电机。

Claims

1.一种系统，包括：

一个或多个信息处理装置，其单独或协同地实现以下功能，包括：

获取对象的第一图像的第一图像获取功能，

获取指示所述第一图像中对象的角度的角度信息的角度信息获取功能，

基于所述第一图像和所述角度信息，生成词典数据的词典数据生成功能，

获取与所述第一图像不同的对象的第二图像的第二图像获取功能，以及

基于所述第二图像和所述词典数据，估计所述第二图像中的对象的角度的角度估计功能。

2.根据权利要求1所述的系统，其中，

所述词典数据包括基于所述对象的彼此不同的多个图像生成的元素以及所述多个图像共有的角度信息。

3.根据权利要求1或2所述的系统，还包括：

保持所述对象的保持部件，其中

在所述角度信息获取功能中，从所述保持部件获取指示由所述保持部件保持的对象的角度的所述角度信息。

4.根据权利要求3所述的系统，其中

所述保持部件包括：

平台设备，其包括

基部部分，其围绕垂直于捕获所述第一图像的成像装置的光轴的第一轴旋转，

一对支撑件，其固定在相对于所述基部部分上的所述第一轴对称的位置处，

一对臂，其分别连接到所述一对支撑件，以便在所述基部部分的相对侧上围绕垂直于所述第一轴的第二轴枢转，

保持器，在所述一对支撑件的相对侧上、固定在所述一对臂的边缘之间，以及

控制单元，设置所述基部部分围绕所述第一轴旋转的角度和所述一对臂围绕所述第二轴枢转的角度；以及

夹具，包括

附接构件，能够附接到所述平台设备的所述保持器，

对象保持器，用于附接所述对象，和

连接构件，其连接所述附接构件和所述对象保持器，并限定所述附接构件和所述对象保持器之间的位置关系，使得在所述附接构件附接到所述平台设备的保持器时，附接到所述对象保持器的对象位于所述第一轴和所述第二轴的交点附近，其中

在所述角度信息获取功能中，从所述平台设备的所述控制单元获取所述角度信息。

5.一种能够附接到平台设备的夹具，所述平台设备包括围绕第一轴旋转的基部部分，固定在相对于所述基部部分上的所述第一轴对称的位置处的一对支撑件，分别连接到所述一对支撑件、以便在所述基部部分的相对侧上围绕垂直于所述第一轴的第二轴枢转的一对臂，在所述一对支撑件的相对侧上、固定在所述一对臂的边缘之间的保持器，设置所述基部部分围绕所述第一轴旋转的角度和所述一对臂围绕所述第二轴枢转的角度的控制单元，所述夹具包括：

附接构件，能够附接到所述平台设备的所述保持器；

对象保持器，用于附接所述对象；和

连接构件，其连接所述附接构件和所述对象保持器，并限定所述附接构件和所述对象保持器之间的位置关系，使得在所述附接构件附接到所述平台设备的保持器时，附接到所述对象保持器的对象位于所述第一轴和所述第二轴的交点附近。

6.根据权利要求5所述的夹具，其中，

当所述附接构件附接到所述平台设备的所述保持器时，所述连接构件具有沿所述平台设备的所述一对臂延伸并且能够沿着所述一对臂的方向调节长度的结构。

7.根据权利要求5或6所述的夹具，还包括：

背景板，其提供附接在所述对象保持器上的对象的可交换背景。

8.一种信息处理装置，包括：

处理器，其实现以下功能：

获取彼此不同的、对象的多个图像的图像获取功能，

获取所述多个图像共有的角度信息的角度信息获取功能，所述角度信息指示所述对象的角度，以及

基于所述多个图像和所述多个图像共有的角度信息生成词典数据的词典数据生成功能。

9.根据权利要求8的信息处理装置，其中

所述多个图像包括在捕获所述多个图像的不同环境条件下的多个图像。

10.根据权利要求9的信息处理装置，其中

所述环境条件包括背景或光线的排列。

11.一种信息处理装置，包括：

处理器，其实现以下功能：

获取对象的第一图像和基于指示所述第一图像中的所述对象的角度的角度信息生成的词典数据的词典数据获取功能，

获取与所述第一图像不同的所述对象的第二图像的图像获取功能，以及

基于所述第二图像和所述词典数据估计所述第二图像中的所述对象的角度的角度估计功能。

12.根据权利要求11所述的信息处理装置，其中

所述角度估计功能包括：

基于所述第二图像修剪所述词典数据的功能，

将所述第二图像与所修剪的词典数据进行匹配的功能，以及

基于匹配结果估计角度的功能。

13.根据权利要求12所述的信息处理装置，其中：

所述修剪所述词典数据的功能包括：

从所述第二图像中提取多个特征部分的功能，以及

从匹配的目标中移除对应于其中所述多个特征部分之间的位置关系与所述第二图像不相同的、所述第一图像的所述词典数据中的元素的功能。

14.根据权利要求11至13中任一项所述的信息处理装置，其中，

所述处理器还基于所述第二图像与所述词典数据的匹配结果，实现识别所述对象的功能。

15.一种信息处理方法，包括：

获取彼此不同的、对象的多个图像的步骤；

获取所述多个图像共有的角度信息的步骤，所述角度信息指示所述对象的角度；以及

使用处理器基于所述多个图像和所述多个图像共有的所述角度信息，生成词典数据的步骤。

16.一种信息处理方法，包括：

获取基于对象的第一图像和指示所述第一图像中的所述对象的角度的角度信息生成的词典数据的步骤；

获取与所述第一图像不同的所述对象的第二图像的步骤；以及

使用处理器基于所述第二图像和所述词典数据估计所述第二图像中的所述对象的角度的步骤。

17.一种用于使处理器实现功能的程序，包括：

获取彼此不同的、对象的多个图像的图像获取功能；

获取所述多个图像共有的角度信息的角度信息获取功能，所述角度信息指示所述对象的角度；和

基于所述多个图像和所述多个图像共有的角度信息，生成词典数据的词典数据生成功能。

18.一种用于使处理器实现功能的程序，包括：

获取基于对象的第一图像和指示所述第一图像中的所述对象的角度的角度信息生成的词典数据的词典数据获取功能；

获取与所述第一图像不同的所述对象的第二图像的第二图像获取功能；和