CN111801710A

CN111801710A - 信息处理装置、信息处理方法及程序

Info

Publication number: CN111801710A
Application number: CN201980016074.5A
Authority: CN
Inventors: 成田岳
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-06
Filing date: 2019-02-20
Publication date: 2020-10-20
Also published as: US11393124B2; EP3764323A1; JP7207396B2; EP3764323A4; JPWO2019171944A1; WO2019171944A1; EP3764323B1; US20200410714A1

Abstract

本技术涉及一种能够容易地估计对象的取向的信息处理装置、信息处理方法和程序。根据本技术的一方面的信息处理装置基于在识别对应点时使用的已学习数据，将输入的场景中包括的模型上的与模型上的第一点对应的第二点识别为对应点并且估计场景中包括的模型的取向，所述已学习数据是通过使用作为要识别的对象的整体模型中的与另一部分对称的数据的规定部分进行学习而获得的。本技术可以应用于用于控制投影系统的装置，该投影系统用于通过投影映射来投影图像。

Description

信息处理装置、信息处理方法及程序

技术领域

本技术涉及信息处理装置、信息处理方法和程序，并且更特别地涉及能够容易地预测对象的姿势的信息处理装置、信息处理方法和程序。

背景技术

存在一种技术，该技术基于由摄像装置捕获的图像和表示由测距传感器测量的距离的点群数据来识别预先登记的对象并且预测对象的姿势。

例如，在具有进行互连以将图像投影到对象上的多个投影仪的PM(投影映射)系统中使用这样的用于姿势预测的技术。基于对象的预测姿势来执行用于改变投影的图像的内容和校正投影的图像的处理序列。

引用列表

专利文献

专利文献1：JP2016-207147A

发明内容

技术问题

通过在被预先登记的对象上指定与捕获图像中包括的对象上的某个点对应的点，并且使用这些对应点之间的关系作为基础，来预测对象的姿势。通过提取图像中包括的对象上的点的特征量并且在已提取的特征量与已学习的特征量之间进行匹配来指定用于预测姿势的对应点。

在要识别的对象具有对称性的情况下，存在多个点作为与包括在捕获图像中的对象上的某个点对应的对应点的候选，从而导致用于匹配的计算时间较长。用相同的特征量来表示在对象上的某个位置处的点和在该对象上的对称位置处的点，并且将特征量的数据交叠地存储在字典中。

本技术是鉴于上述情况而开发的，并且旨在容易地预测对象的姿势。

问题的解决方案

根据本技术的一方面的一种信息处理装置包括：对应点获取部，其基于在指定对应点时使用的已学习数据来指定所输入的场景中包括的模型上的与模型上的第一点对应的第二点作为对应点，该已学习数据是通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习而获得的；以及姿势预测部，其基于对应点来预测在场景中包括的模型的姿势。

根据本技术的另一方面的一种信息处理装置包括：生成器，其在要预测所输入的场景中包括的模型的姿势时，通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习来生成已学习数据，该已学习数据在将场景中包括的模型上的与模型上的第一点对应的第二点指定为对应点时被使用。

根据本技术的一方面，基于在指定对应点时使用的已学习数据来指定所输入的场景中包括的模型上的与模型上的第一点对应的第二点作为对应点，该已学习数据是通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分对称的预定部分的数据的学习而获得的；以及基于对应点来预测场景中包括的模型的姿势。

根据本技术的另一方面，在要预测场景中包括的模型的姿势时，通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习来生成已学习数据，该已学习数据在将场景中包括的模型上的与模型上的第一点对应的第二点指定为对应点时被使用。

本发明的有益效果

根据本技术，可以容易地预测对象的姿势。

本文中提及的优点不一定是限制性的，而是本说明书中提及的任何优点都可以适用。

附图说明

[图1]图1是示出根据本技术的实施方式的投影系统的配置示例的图。

[图2]图2是示出投影系统的配置示例的框图。

[图3]图3是示出预测模型的姿势的一般方法的流程的图。

[图4]图4是示出预测模型的姿势的另一种一般方法的流程的图。

[图5]图5是示出模型的示例的图。

[图6]图6是示出对应点之间的匹配的示例的图。

[图7]图7是示出捕获图像处理部的配置示例的框图。

[图8]图8是示出模型的坐标变换的示例的图。

[图9]图9是示出部分区域的计算的示例的图。

[图10]图10是示出部分区域的计算的示例的图。

[图11]图11是示出部分区域的计算的示例的图。

[图12]图12是示出对应点之间的匹配的示例的图。

[图13]图13是示出设立的值的计算的示例的图。

[图14]图14是示出设立的值的计算的示例的图。

[图15]图15是示出姿势假设的相似度的计算的示例的图。

[图16]图16是示出姿势假设的相似度的计算的示例的图。

[图17]图17是示出姿势假设的相似度的计算的示例的图。

[图18]图18是学习处理的流程图。

[图19]图19是预测处理的流程图。

[图20]图20是示出捕获图像处理部的另一配置示例的框图。

[图21]图21是学习处理的流程图。

[图22]图22是预测处理的流程图。

[图23]图23是示出计算机的配置示例的框图。

具体实施方式

下文中将描述用于实施本技术的模式。将按以下顺序给出描述：

1.关于投影系统

1-1.投影系统的配置

1-2.关于一般姿势预测

2.关于应用本技术的姿势预测

2-1.使用特征量的示例

2-2.使用机器学习的示例

3.修改例

<<1.关于投影系统>>

<1-1.投影系统的配置>

图1是示出根据本技术的实施方式的投影系统的配置示例的图。

图1所示的投影系统包括通过有线或无线通信连接至控制装置1的投影仪#0和#1。投影仪#0和#1以其朝向对象22的投影方向安装在投影空间上方。投影仪#0和#1可以安装在除了投影空间上方的位置之外的位置。

控制装置1被构造为诸如个人计算机、智能电话或平板终端的装置。控制装置1包括用于控制由投影仪#0和#1进行的图像投影的装置。

投影仪#0和#1在控制装置1的控制下发射表示预定图像的投影光。

在图1所示的投影系统中，使用投影仪#0和#1将图像投影到放置在地板21上的对象22上。从投影仪#0发射的投影光产生的图像主要被投影到对象22的左侧的位置上，而从投影仪#1发射的投影光产生的图像主要被投影到对象22右侧的位置上。

到对象22上，投影有被渲染成表示对象22的表面的纹理的纹理图像，例如，金属的纹理或木材的纹理。图像不仅可以被投影成表示纹理，还可以被投影成呈现各种信息并且产生三维效果。

此外，投影仪#0和#1投影各种图像，例如用于在地板21上的对象22周围的位置处显示字符的图像。

因此，图1所示的投影系统包括用于将图像投影到具有三维形状的对象22的表面上的PM(投影映射)系统。可以将图像投影到具有平面形状的对象上，而不是投影到具有三维形状的对象上。

图2是示出投影系统的配置示例的框图。

在图2所示的示例中，示出了除投影仪#0和#1之外的其他投影仪。因此可以包括两个或更多个投影仪。除了包括显示设备、透镜、光源等的投影单元之外，投影仪#0至#N中的每一个还包括具有摄像装置的图像捕获单元。

例如，投影仪#0的图像捕获单元#0-1捕获包括对象22的投影空间的状态的图像。由图像捕获单元#0-1捕获的图像被提供给控制装置1。

投影单元#0-2在控制装置1的控制下投影分配给投影仪#0的投影图像。

投影仪#1至#N中的图像捕获单元#1-1至#N-1中的每一个也捕获投影空间的状态的图像。投影单元#1-2至#N-2中的每一个还投影分配给其自己的投影仪的投影图像。

在图2所示的示例中，投影单元的数量和图像捕获单元的数量彼此相同。然而，数量可以彼此不同。替选地，图像捕获单元可以不被并入投影仪中，而是可以被安装在远程位置。控制装置1的配置可以被包括在投影仪中。

控制装置1包括捕获图像处理部31和投影图像处理部32。

拍摄图像处理部31基于由各个投影仪的图像捕获单元捕获的图像来预测对象22的姿势。已经为控制装置1准备了用于识别包括在捕获图像中的对象22并且预测姿势的信息。捕获图像处理部31将表示对象22的姿势的预测结果的信息输出至投影图像处理部32。

投影图像处理部32生成要从各个投影仪投影到作为投影目标的对象22上的投影图像。投影图像处理部32基于已经由捕获图像处理部31预测的对象22的姿势，适当地执行改变要投影的图像的内容并且校正要投影的图像的处理。

因此，控制装置1包括信息处理装置，该信息处理装置具有基于由摄像装置捕获的图像来识别预先登记的对象22并预测对象22的姿势的功能。对象的姿势不能基于由摄像装置捕获的图像来预测，但可以基于诸如表示由测距传感器测量的距离的点群数据的各种输入来预测。

下面在下文中将描述控制装置1的姿势预测功能。

在下文中根据需要将作为登记的识别目标的对象称为“模型”。被输入为登记的识别目标的模型的数据(例如，图像数据、表示距离的点群数据等)将被称为“场景”。场景表示具有特定姿势的模型。

模型与其场景中包括的模型的姿势之间的关系可以通过二维或三维刚性变换或全息变换来表示。

<1-2.关于一般姿势预测>

图3是示出识别场景中包括的模型并且预测模型的姿势的一般方法的流程的图。

首先，如由箭头A1的尖端所指向的，从整个模型中提取特征量。所提取的特征量的数据被存储为表示由箭头A2的尖端指向的字典的数据。

在图像被输入的情况下，例如，SIFT、SURF和ORB用作特征量。此外，在表示距离的点群被输入的情况下，将SHOT、FPFH和PPF用作特征量。分别在以下说明的文献[1]至[3]中描述了SIFT、SURF和ORB。分别在以下说明的文献[4]至[6]中描述了SHOT、FPFH和PPF。

[1]Lowe,David G.“Object recognition from local scale-invariantfeatures.”Computer vision,1999.The proceedings of the seventh IEEEinternational conference on.Vol.2.Ieee,1999.

[2]Bay,Herbert,Tinne Tuytelaars,and Luc Van Gool.“Surf:Speeded uprobust features.”Computer vision-ECCV 2006(2006):404-417.

[3]Rublee,Ethan,et al.“ORB:An efficient alternative to SIFT or SURF.”Computer Vison(ICCV),2011IEEE international conference on.IEEE,2011.

[4]Tombari,Federico,Samuele Salti,and Luigi Di Stefano.“Uniquesignatures of histograms for local surface description.”European conferenceon computer vision.Springer,Berlin,Heidelberg,2010.

[5]Rusu,Radu Bogdan,Nico Blodow and Michael Beetz.“Fast point featurehistograms(FPFH)for 3D registration.”Robotics and Automation,2009.ICRA’09.IEEE International Conference on.IEEE,2009.

[6]Drost,Bertram,et al.“Model globally,match locally:Efficient androbust 3D object recognition.”Computer Vision and Pattern Recognition(CVPR),2010IEEE Conference on.Ieee,2010.

在执行姿势预测时，如箭头A11的尖端所指向的，从场景中提取特征量。如箭头A12和A13的尖端所指向的，执行从场景提取的特征量与字典中存储的特征量之间的匹配，并且获取模型上的和场景中包括的模型上的对应点。例如，获取模型上的多个点以及场景中包括的模型上的与这些点对应的多个点。

如箭头A14的尖端所指向的，基于对应点之间的关系来计算场景中包括的模型的姿势假设，并且如箭头A15的尖端所指向的，输出与条件最匹配的姿势假设，作为姿势的预测结果。

图4是示出预测模型的姿势的另一种一般方法的流程的图。

图4所示的姿势预测是指使用机器学习进行的处理。

首先，如箭头A21的尖端所指向的，生成已经学习了对应点之间的关系的对应点预测器。此处，生成在输入场景时输出对应点的预测器作为对应点预测器。对应点预测器被配置为随机森林的预测器、随机蕨类的预测器或神经网络。

在执行姿势预测时，如箭头A22和A23的尖端所指向的，通过使用场景作为到对应点预测器的输入来获取模型上的和场景中包括的模型上的对应点。

如箭头A24的尖端所指向的，基于对应点之间的关系来计算场景中包括的模型的姿势假设，并且如箭头A25的尖端所指向的，输出与条件最匹配的姿势假设，作为姿势的预测结果。

图5是示出模型的示例的图。

在下文中，假设模型是如图5所示的平面对象，并且是具有以相等间隔设置的五个顶点的星形对象。在图5所示的示例中，模型的姿势和场景中包括的模型的姿势彼此不同。基于预先通过执行使用模型的数据的学习处理而生成的已学习数据来预测场景中包括的模型的姿势。

此处，图5所示的模型具有对称性。

因此，在使用图3所示的特征量的预测方法的情况下，将从模型上的不同位置计算的具有相同或基本相同的值的特征量的数据交叠地存储在字典中。例如，由于各个顶点附近的模型的部分的形状仅在形状方面是相同的，因此它们由相同的特征量表示。

因此，在执行姿势预测时，如图6所示，产生用于在场景中的点与模型上的多个点之间执行匹配的计算，从而导致较长的计算时间。此外，由于场景中的点与模型上的多个点相关联，因此姿势预测的最终结果变得不稳定。

另一方面，在使用图4所示的机器学习的预测方法的情况下，姿势预测器的学习变得不稳定。

例如，在以下文献[7]中描述了模型具有对称性的情况下的姿势预测：

[7]de Figueiredo,Rui Pimentel,Plinio Moreno,and Alexandre Bernardino.“Fast 3D object recognition of rotationally symmetric objects.”IberianConference on Pattern Recognition and Image Analysis.Springer,Berlin,Heidelberg,2013。

文献[7]中描述的技术使用从点群中提取的PPF(文献[6])执行对旋转体的三维对象识别。该技术仅适用于输入是点群并且将PPF用作特征量的情况。此外，该技术不适用于对除旋转体之外的具有任何对称性的对象的识别。

控制装置1能够预测除旋转体之外的具有任何对称性的对象的姿势。

<<2.关于应用本技术的姿势预测>>

<2-1.使用特征量的示例>

图7是示出捕获图像处理部31的配置示例的框图。

如图7所示，捕获图像处理部31包括学习部51和预测部52。

学习部51用作生成器，其执行基于模型的数据的学习并且生成在获取对应点时使用的字典。学习部51包括模型数据存储部61、特征量提取区域计算部62、特征量提取部63和字典存储部64。

模型数据存储部61存储模型的数据。由模型数据存储部61存储的模型的数据包括关于模型的纹理和形状的数据(纹理或形状中的至少任意一个)以及关于模型的对称性的数据。如虚线箭头的尖端所指向的，关于模型的对称性的数据在学习时被提供给特征量提取区域计算部62，并且还在姿势预测时被提供给预测部52的模型姿势预测部73。

此处，在对模型M执行坐标变换的情况下，模型的对称性被表示为坐标变换的集合{T_i}，使得已被变换的模型M与被变换之前的模型M一致。在已被执行坐标变换{T_i}的变换后的模型M与被变换之前的模型M在纹理和形状方面相同的情况下，模型M具有对称性。

如果假设模型的顶点分别由A至E指示，如图8所示，则{T_i}表示四个坐标变换的集合，其包括用于将顶点A转移至顶点B的坐标变换T₁、用于将顶点A转移至顶点C的坐标变换T₂、用于将顶点A转移至顶点D的坐标变换T₃和用于将顶点A转移至顶点E的坐标变换T₄。

{T_i}可以是有限集合或无限集合。关于模型的对称性的数据可以由控制装置1的用户输入，或者可以由控制装置1基于关于模型的纹理和形状的数据自动地预测。

特征量提取区域计算部62计算该模型的整个表面的部分区域，该部分区域表示作为特征量要被提取的目标的部分的区域。通过参考关于模型的对称性的数据来计算(设立)部分区域。

具体地，特征量提取区域计算部62设立满足根据以下式(1)的条件和根据以下式(2)的条件的部分区域S₀。

[数学式1]

[数学式2]

等式(1)表示用于请求以下的条件：无论对部分区域S₀执行什么坐标变换T_i，变换后的部分区域S₀都不应该与变换之前的部分区域S₀交叠。

等式(2)表示用于请求以下的条件：对部分区域S₀执行坐标变换T_i之后的变换后的区域的并集应当覆盖模型M的整个表面。S_M表示模型M的整个表面。在i＝1、2、3、4的情况下，等式(2)被表达为下面的等式(3)。

[数学式3]

T₁S₀∪T₂S₀∪T₃S₀∪T₄S₀∪S₀＝S_M…(3)

图9是示出部分区域S₀的计算的示例的图。

无论对图9的A中用斜线示出的部分区域S₀执行什么坐标变换T_i(i＝1、2、3、4)，变换后的部分区域都不与部分区域S₀本身交叠。因此，可以说部分区域S₀满足等式(1)的条件。

此外，部分区域S₀本身与通过坐标变换T_i(i＝1、2、3、4)生成的区域T₁S₀、T₂S₀、T₃S₀和T₄S₀的并集整体覆盖模型M。因此，可以说部分区域S₀满足等式(2)的条件。

在整个模型的数据中，如此计算的部分区域S₀的数据从特征量提取区域计算部62提供给特征量提取部63。

特征量提取部63提取部分区域S₀中的点的特征量。将部分区域S₀中的提取的特征量的数据提供给字典存储部64，并且在该字典存储部中存储为字典的数据。

在鉴于模型的对称性、借助于坐标变换将具有对称性的模型的区域移动到具有对称性的另一部分的位置并且该区域不与坐标变换之后生成的任何区域交叠的情况下，该区域被设立为部分区域S₀。以这种方式，可以防止相似特征量的数据被交叠地存储在字典中。

假设性地推测已经设立如图10的A所示那样成形的部分区域S₀。在这种情况下，如图10的B所示，部分区域S₀与通过坐标变换T₁变换的区域T₁S₀交叠，并且将在图10的C中用斜线示出的区域的特征量交叠地存储在字典中。通过设立满足等式(1)的条件的部分区域S₀，可以防止这样的交叠区域的特征量的数据被存储在字典中。

此外，为了正确地预测姿势，期望具有关于充当对应点的许多点的现成特征量。在鉴于模型的对称性、借助于坐标变换将具有对称性的模型的区域移动到具有对称性的另一部分的位置的情况下，通过设立与整个模型对应的部分区域S₀，可以使用许多对应点来预测姿势。

假设性地推测已经设立图11中用斜线示出的部分区域S₀。在这种情况下，尽管部分区域S₀满足等式(1)的条件，但是与如图9所示的那样设立部分区域S₀的情况相比，获得特征量的点的数量很少。通过设立部分区域S₀以满足等式(2)的条件，可以具有关于充当对应点的许多点的现成特征量。

通过设立部分区域S₀以满足等式(1)和等式(2)的条件，可以在考虑对称性的情况下提取必要和足够的特征量。

返回参照图7，预测部52参考从由学习部51执行的学习获得的字典，并且预测场景中包括的模型的姿势。预测部52包括特征量提取部71、对应点获取部72和模型姿势预测部73。

特征量提取部71提取整个场景的特征量，并且将提取的特征量输出至对应点获取部72。

对应点获取部72在字典中存储的部分区域S₀的特征量与整个场景的特征量之间执行匹配，并且获取场景中包括的模型上的与模型上的点对应的点，作为对应点。

图12是示出对应点的示例的图。

在学习时，由于已获得图12的左侧所示的部分区域S₀中的特征量，因此获取顶点a、顶点b、顶点c、顶点d和顶点e作为与模型上的顶点A对应的对应点，如图12所示。由于用于匹配的特征量很少，因此与参照图6描述的在整个模型的特征量之间执行匹配的情况相比，可以减少匹配所需的计算时间。

如此获取的对应点的信息被提供给模型姿势预测部73。

模型姿势预测部73基于由对应点获取部72获取的对应点，将姿势假设设立为场景中包括的模型的姿势的候选。例如，基于模型上的点与场景中包括的模型上的点之间的关系来设立姿势假设。例如，设立有多个姿势假设。

此外，模型姿势预测部73选择姿势假设之一作为最终姿势，并且输出所选择的姿势作为预测结果。模型姿势预测部73通过参考关于模型的对称性的数据来选择最终姿势。

根据鲁棒的预测(例如，RANSAC(随机采样共识)或姿势聚类)来选择最终姿势。鲁棒的预测是指用于在考虑到在给定观察值中可能包括异常值的可能性的情况下预测姿势的处理。

首先，下面将描述根据RANSAC的一般姿势预测。本文中描述的一般姿势预测是指在不考虑模型的对称性的情况下预测姿势。

RANSAC表示一种重复下述处理的方法：限定关于姿势假设h的可靠性s(h)并且从一组姿势假设中选择可靠性s(h)的值大的姿势假设h。可靠性s(h)例如由以下等式(4)来表示。等式(4)是用于根据内点(inlier)数量来限定可靠性的等式。

[数学式4]

此处，p_m指示模型上的点，并且p_s指示场景上的点(场景中包括的模型上的点)。p_m和p_s由对应点获取部72获取为对应点。d(p,q)表示用于限定点p与点q之间的距离的函数。例如，欧几里德距离用作点p与点q之间的距离。欧几里德距离由以下等式(5)表示。

[数学式5]

d(p，q)＝||p-q||₂…(5)

在等式(4)中，σ表示预定阈值。此外，1(·)表示在满足括号中的条件的情况下取值1并且在其他情况下取值0的函数。

根据等式(4)，在下述距离的最小值小于阈值σ的情况下，设立为1的值：将姿势假设h赋予模型上的点p_m时的场景上的点hp_m与和点p_m对应的场景上的点p_s之间的距离。此外，将针对所有点p_s设立这样的值时的设立的值的总和确定为可靠性s(h)。

图13是示出设立的值的计算的示例的图。

在如实线箭头所示的那样将姿势假设h赋予模型上的点p_m的情况下，将模型上的点p_m表示为场景上的点hp_m。将场景上的点hp_m与作为对应点的多个点p_s之间的距离的最小距离与阈值σ进行比较，由此提供设立的值。在图13所示的示例中，场景上指示的轮廓三角形表示作为对应点的各个点p_s。

接下来，下面将描述根据姿势聚类的一般姿势预测。

姿势聚类通过对一组姿势假设中的相似度高的姿势假设进行分组来计算模型的最终姿势。两个姿势假设h₁与h₂之间的相似度l(h₁，h₂)由以下等式(6)表示。等式(6)是用于用平移分量和旋转分量限定相似度的等式。

[数学式6]

此处，trans(h)表示姿势假设h的平移分量的大小，并且angle(h)表示姿势假设h的旋转分量的大小。σ_t和σ_r表示预定阈值。

在平移分量的值小于阈值σ_t并且旋转分量的值小于阈值σ_r的情况下，相似度l(h₁,h₂)取值为1。

预测部52的模型姿势预测部73在考虑模型的对称性的同时执行这样的RANSAC和姿势聚类。如上所述，模型的对称性由{T_i}表示。通过考虑模型的对称性{T_i}，虽然彼此基本相似的姿势假设的值不同，但它们被视为等同的姿势假设。

在RANSAC中考虑模型的对称性的情况下，将限定可靠性s(h)的以上等式(4)改变为以下等式(7)。

[数学式7]

在等式(7)中，使用模型的对称性{T_i}来计算将姿势假设h赋予模型上的点p_m时的场景上的点hp_m。在以下距离的最小值小于阈值σ的情况下，设立为1的值：使用模型的对称性{T_i}的场景上的点T_ihp_m与对应于点p_m的场景上的点p_s之间的距离。此外，将在针对所有点p_s设立这样的值时的设立的值的总和确定为可靠性s'(h)。

图14是示出设立的值的计算的示例的图。

在由实线箭头所示的那样考虑到模型的对称性{T_i}的同时将姿态假设h赋予模型上的点p_m的情况下，模型上的点p_m被表示为场景上的点T_ihp_m。将场景上的点T_ihp_m与作为对应点的多个点p_s之间的距离的最小距离与阈值σ进行比较，由此提供设立的值。

另一方面，在姿势聚类中考虑模型的对称性的情况下，将限定相似度l(h₁,h₂)的以上等式(6)改变为以下等式(8)。

[数学式8]

在等式(8)中，使用模型的对称性{T_i}来设立姿势假设h₁。使用模型的对称性{T_i}的姿态假设T_ih₁与姿态假设h₂之间的相似度最大值被计算为相似度l'(T_ih₁,h₂)。

图15是示出姿势假设的相似度的计算的示例的图。

例如，考虑获取在图15的左侧示出的姿势假设h₁和在图15的右侧示出的姿势假设h₂的情况。在这种情况下，由于模型M具有对称性，因此两个姿势假设都被认为彼此基本等同。姿势假设h₁与姿势假设h₂之间的相似度l(h₁,h₂)应该理想地确定为值1。

然而，根据以上等式(6)表示的相似度的计算，姿势假设h₁与姿势假设h₂之间的相似度l(h₁,h₂)被确定为值0。这是因为姿势假设h₁与姿势假设h₂的旋转分量的值彼此大不相同。

另一方面，根据考虑到模型的对称性{T_i}的以上等式(8)所表示的相似度的计算，姿势假设h₁与姿势假设h₂之间的相似度l'(h₁,h₂)被确定为值1。这是因为在对姿势假设h₁执行坐标变换T₁(用于将顶点A移动到顶点B的坐标变换)的情况下，姿势假设h₁的模型被转换成图16的左侧示出的姿势，并且转换后的姿势假设T₁h₁的值与姿势假设h₂的值彼此接近。在交叠地示出姿势假设T₁h₁与姿势假设h₂的情况下，如图17所示，两个姿势假设彼此相关。

因此，尽管基本上彼此相似的两个姿势假设h₁和h₂的值不同，但是可以将它们进行分组，使得可以增加最终姿势预测的鲁棒性。

根据考虑模型的对称性的RANSAC或姿势聚类，模型姿势预测部73选择一个姿势假设作为最终姿势，并且输出所选择的姿势假设作为预测结果。

-控制装置的操作

下面在本文中将描述具有上述配置的控制装置1的操作。

首先，下面将参照图18所示的流程图描述表示用于生成字典的处理的学习处理。

例如，当输入关于模型的纹理和形状的数据以及关于模型的对称性的数据时，开始图18所示的学习处理。

在步骤S1中，特征量提取区域计算部62参考关于模型的对称性的数据，并且计算部分区域S₀作为特征量要被提取的目标。此处，如上所述，设立满足等式(1)的条件和等式(2)的条件的部分区域S₀。

在步骤S2中，特征量提取部63提取部分区域S₀中的特征量。

在步骤S3中，字典存储部64将部分区域S₀的特征量的数据存储在字典中。然后，处理结束。

接下来，以下将参照图19所示的流程图来描述表示用于预测场景中包括的模型的姿势的处理的预测处理。

当输入场景的数据时，开始图19所示的预测处理。

在步骤S11中，特征量提取部71提取整个场景的特征量。

在步骤S12中，对应点获取部72参考存储在字典存储部64中的字典，并且在部分区域S₀的特征量与整个场景的特征量之间执行匹配，由此获取场景中包括的模型上的与模型上的点对应的点，作为对应点。

在步骤S13中，模型姿势预测部73执行考虑模型的对称性的RANSAC或姿势聚类，由此选择一个姿势假设作为最终姿势，并且输出最终姿势作为预测结果。

如上所述，基于由捕获图像处理部31预测的对象的姿势，由投影图像处理部32实施投影图像等的校正。

如上所述，通过将在学习时从中提取特征量的区域限制为部分区域S₀，可以加快用于获取对应点的计算。

此外，通过在考虑对象的对称性的同时预测姿势，可以将基本上相似的多个姿势假设作为等同的姿势假设来处理。因此，可以增加最终姿势预测的鲁棒性。

此外，由于作为要由控制装置1处理的目标的模型的对称性是可选的，因此不仅可以预测旋转体的姿态，而且还可以预测具有任何对称性的对象的姿态。

<2-2.使用机器学习的示例>

图20是示出捕获图像处理部31的另一配置示例的框图。

图20所示的捕获图像处理部31通过执行机器学习来生成姿势预测器。此外，使用由机器学习生成的姿势预测器来预测姿势。考虑到模型的对称性，实施姿势预测器的学习和使用姿势预测器的姿势预测。与以上描述相似的任何描述将在下面被适当地省略。

如图20所示，捕获图像处理部31包括学习部101和预测部102。

学习部101用作生成器，其执行基于模型的数据的机器学习并且生成用于获取对应点的预测器。学习部101包括模型数据存储部111、对应点预测区域计算部112和对应点预测器113。

模型数据存储部111存储模型的数据。由模型数据存储部111存储的模型的数据包括关于模型的纹理和形状的数据以及关于模型的对称性的数据。如由虚线箭头的尖端所指向的，关于模型的对称性的数据在学习时被提供给对应点预测区域计算部112，并且还在姿势预测时被提供给预测部102的模型姿势预测部122。

对应点预测区域计算部112与图7所示的特征量提取区域计算部62一样，计算表示模型的整个表面的一部分的区域的部分区域S₀。部分区域S₀用作对应点被预测的区域。对应点预测区域计算部112设立满足以上等式(1)的条件和以上等式(2)的条件的部分区域S₀。

对应点预测区域计算部112执行使用整个模型的部分区域S₀的数据的机器学习，由此生成对应点预测器113。也适当地使用关于对应点的信息来生成对应点预测器113。

通过使用部分区域S₀的数据的机器学习生成的对应点预测器113表示当场景被输入时输出对应点的预测器。例如，对应点预测器113被配置为随机森林的预测器、随机蕨类的预测器或神经网络。

预测部102使用从由学习部101执行的机器学习获得的对应点预测器113来获取对应点，并且预测场景中包括的模型的姿势。预测部102包括对应点获取部121和模型姿势预测部122。

对应点获取部121将场景输入至对应点预测器113，并且获取从对应点预测器113输出的对应点。使用对应点预测器113获取的对应点的信息被提供给模型姿势预测部122。

模型姿势预测部122与图7所示的模型姿势预测部73一样，基于由对应点获取部121获取的对应点，将姿势假设设立为场景中包括的模型的姿势的候选。

此外，根据考虑模型的对称性的RANSAC或姿势聚类，模型姿势预测部122选择姿势假设之一作为最终姿势，并且输出所选择的姿势假设作为预测结果。

-控制装置的操作

以下在本文中将描述具有图20所示的配置的控制装置1的操作。

首先，下面将参照图21所示的流程图来描述表示用于生成姿势预测器的处理的学习处理。

在步骤S51中，对应点预测区域计算部112参考关于模型的对称性的数据，并且计算部分区域S₀。此处，如上所述，设立满足等式(1)的条件和等式(2)的条件的部分区域S₀。

在步骤S52中，对应点预测区域计算部112执行使用整个模型的部分区域S₀的数据的机器学习，从而生成对应点预测器113。

接下来，以下将参照图22所示的流程图来描述表示用于预测场景中包括的模型的姿势的处理的预测处理。

在步骤S61中，对应点获取部121将场景输入至对应点预测器113，并且获取从对应点预测器113输出的对应点。

在步骤S62中，根据考虑模型的对称性的RANSAC或姿势聚类，模型姿势预测部122选择一个姿势假设作为最终姿势，并且输出所选择的姿势假设作为预测结果。

如上所述，通过将机器学习中使用的区域限制为部分区域S₀，可以加快预测器的计算。

<<3.修改例>>

在图7所示的示例中，用于字典的学习的学习部51和用于使用字典进行预测姿势的预测部52由一个装置来实现。然而，它们可以分别通过不同的装置来实现。在这种情况下，在具有学习部51的装置中生成的字典被提供给具有预测部52的装置，并且在预测姿势时被使用。

在图20所示的示例中，用于对姿势预测器进行机器学习的学习部101和用于使用姿势预测器进行预测姿势的预测部102由一个装置来实现。然而，它们可以分别通过不同的装置来实现。在这种情况下，在具有学习部101的装置中生成的姿势预测器被提供给具有预测部102的装置，并且在预测姿势时被使用。

控制装置1被准备为与投影仪分开的壳体中的装置。然而，控制装置1的以上功能可以被并入多个投影仪中的任意一个中。

多个投影仪中的每一个和控制装置1通过有线或无线通信连接。然而，它们可以通过因特网连接。

如上所述的具有对称性的对象的姿势的预测适用于除参照图1描述的投影系统之外的系统。例如，以上姿势预测的技术可以与增强现实(AR)和虚拟现实(VR)一起使用以基于预测的姿势显示内容，用机器人抓取对象等。

-计算机的配置示例

以上描述中描述的处理序列可以通过硬件或软件来实现。在通过软件实现处理序列的情况下，将软件的程序从程序记录介质安装到装配在专用硬件中的计算机、通用个人计算机等中。

图23是示出根据程序执行以上处理序列的计算机的硬件的配置示例的框图。

例如，控制装置1由具有图23所示的配置的计算机来实现。

CPU(中央处理单元)201、ROM(只读存储器)202和RAM(随机存取存储器)203通过总线204互连。

总线204还连接有输入/输出接口205。输入/输出接口205连接有包括键盘、鼠标等的输入单元206和包括显示器、扬声器等的输出单元207。输入/输出接口205还连接有包括硬盘、非易失性存储器等的存储单元208、包括网络接口等的通信单元209和用于驱动可移除介质211的驱动器210。

在如此配置的计算机中，CPU 201例如通过输入/输出接口205和总线204将存储在存储单元208中的程序加载到RAM 203中并且执行该程序，由此执行以上处理序列。

由CPU 201执行的程序被记录在例如可移除介质211中，或者通过诸如局域网、因特网或数字广播的有线或无线传输介质来提供，并且被安装在存储单元208中。

由计算机执行的程序可以是要根据本说明书中描述的序列按时间顺序处理的程序，或者是要同时或在诸如被调用时的必要定时处被处理的程序。

在本说明书中，系统是指多个部件(装置、模块(零件)等)的集合，并且所有部件是否都被容纳在一个壳体中并不重要。因此，容纳在单独的壳体中并且通过网络互连的多个装置以及具有容纳在单个壳体中的多个模块的单个装置都被称为系统。

本技术不限于上述实施方式，而是可以在不脱离本技术的范围的情况下进行许多改变和修改。

例如，本技术可以被配置为云计算系统，在该云计算系统中一个功能经由网络由多个装置共享并且与多个装置协作地处理。

以上流程图中描述的每个步骤可以由单个装置或彼此协作地操作的多个装置执行。

此外，在单个步骤包括多个处理序列的情况下，包括在单个步骤中的处理序列可以由单个装置或彼此协作地操作的多个装置执行。

以上描述中提及的优点不是限制性的，而仅是说明性的，并且不排除其他优点。

-布置的组合的示例

本技术可以具有以下描述的布置。

(1)

一种信息处理装置，包括：

对应点获取部，其基于在指定对应点时使用的已学习数据来指定所输入的场景中包括的模型上的与所述模型上的第一点对应的第二点作为所述对应点，所述已学习数据是通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习而获得的；以及

姿势预测部，其基于所述对应点来预测所述场景中包括的所述模型的姿势。

(2)

根据(1)所述的信息处理装置，其中，所述预定部分是如下部分，该部分被设立成使得在将所述预定部分移动到在纹理或形状中的至少任意一个方面具有对称性的多个所述其他部分的各个位置的情况下，所述预定部分不具有与多个所述其他部分中的任何一个交叠的区域。

(3)

根据(2)述的信息处理装置，其中，所述预定部分是如下部分，该部分被设立成使得在将所述预定部分移动到具有对称性的多个所述其他部分的各个位置的情况下，移动后的部分的并集对应于所述整个模型。

(4)

根据(3)所述的信息处理装置，还包括：

特征量提取部，其提取所述预定部分的特征量，

其中，所述对应点获取部基于包括所述预定部分的每个点处的所述特征量的数据的、作为所述已学习数据的字典指定所述对应点。

(5)

根据(4)所述的信息处理装置，还包括：

字典存储部，其存储所述字典。

(6)

根据(3)所述的信息处理装置，其中，所述对应点获取部基于通过执行使用所述预定部分的数据和关于所述对应点的信息的机器学习而获得的、作为所述已学习数据的预测器指定所述对应点。

(7)

根据(3)至(6)中任一项所述的信息处理装置，其中，所述姿势预测部通过使用RANSAC将基于所述第一点与所述第二点之间的关系指定的多个姿势假设中的预定姿势假设预测为所述场景中包括的所述模型的姿势。

(8)

根据(7)所述的信息处理装置，其中，所述姿势预测部基于所述姿势假设中的每一个的可靠性来预测所述场景中包括的所述模型的姿势，所述姿势假设中的每一个的可靠性是基于在对所述第一点执行了与用于将所述预定部分移动到具有对称性的多个所述其他部分中的每一个的位置的坐标变换对应的变换时的变换后的所述第一点与所述第二点之间的距离而计算的。

(9)

根据(8)所述的信息处理装置，其中，所述姿势预测部通过针对多个所述第二点，计算在对所述第一点执行了与多个所述坐标变换对应的变换时的多个变换后的所述第一点中的最接近所述第二点的变换后的所述第一点与所述第二点之间的距离，来计算所述可靠性。

(10)

根据(3)至(6)中任一项所述的信息处理装置，其中，所述姿势预测部通过使用所述姿势假设之间的相似度作为指标、执行基于所述第一点与所述第二点之间的关系指定的多个姿势假设的聚类，来预测所述场景中包括的所述模型的姿势。

(11)

根据(10)所述的信息处理装置，其中，所述姿势预测部对要确定其间的相似度的多个所述姿势假设中的预定姿势假设执行与用于将所述预定部分移动到具有对称性的多个所述其他部分中的每一个的位置的坐标变换对应的变换，并且计算变换后的姿势假设与其他姿势假设之间的相似度。

(12)

一种信息处理方法，其中，信息处理装置进行以下操作：

基于在指定对应点时使用的已学习数据来指定所输入的场景中包括的模型上的与所述模型上的第一点对应的第二点作为所述对应点，所述已学习数据是通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习而获得的；以及

基于所述对应点来预测所述场景中包括的所述模型的姿势。

(13)

一种用于使计算机执行以下处理序列的程序：

基于所述对应点来预测所述场景中包括的所述模型的姿势。

(14)

一种信息处理装置，包括：

生成器，其在要预测所输入的场景中包括的模型的姿势时，通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习来生成已学习数据，所述已学习数据在将所述场景中包括的所述模型上的与所述模型上的第一点对应的第二点指定为对应点时被使用。

(15)

根据(14)所述的信息处理装置，还包括：

区域计算部，其设立所述预定部分，以在将所述预定部分移动到在纹理或形状中的至少任意一个方面具有对称性的多个所述其他部分的各个位置的情况下不具有与所述其他部分中的任何一个交叠的区域。

(16)

根据(15)所述的信息处理装置，其中，所述区域计算部设立所述预定部分，使得在将所述预定部分移动到具有对称性的多个所述其他部分的各个位置的情况下，移动后的部分的并集对应于所述整个模型。

(17)

一种信息处理方法，其中，信息处理装置进行以下操作：

在要预测场景中包括的模型的姿势时，通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习来生成已学习数据，所述已学习数据在将所述场景中包括的所述模型上的与所述模型上的第一点对应的第二点指定为对应点时被使用。

(18)

一种用于使计算机执行以下处理序列的程序：在要预测场景中包括的模型的姿势时，通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习来生成已学习数据，所述已学习数据在将所述场景中包括的所述模型上的与所述模型上的第一点对应的第二点指定为对应点时被使用。

附图标记列表

1控制装置，31捕获图像处理部，32投影图像处理部，51学习部，52预测部，61模型数据存储部，62特征量提取区域计算部，63特征量提取部，64字典存储部，71特征量提取部，72对应点获取部，73模型姿势预测部，101学习部，102预测部，111模型数据存储部，112对应点预测区域计算部，113对应点预测器，121对应点获取部，122模型姿势预测部。

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，所述预定部分是如下部分，该部分被设立成使得在将所述预定部分移动到在纹理或形状中的至少任意一个方面具有对称性的多个所述其他部分的各个位置的情况下，所述预定部分不具有与多个所述其他部分中的任何一个交叠的区域。

3.根据权利要求2所述的信息处理装置，其中，所述预定部分是如下部分，该部分被设立成使得在将所述预定部分移动到具有对称性的多个所述其他部分的各个位置的情况下，移动后的部分的并集对应于所述整个模型。

4.根据权利要求3所述的信息处理装置，还包括：

特征量提取部，其提取所述预定部分的特征量，

5.根据权利要求4所述的信息处理装置，还包括：

字典存储部，其存储所述字典。

6.根据权利要求3所述的信息处理装置，其中，所述对应点获取部基于通过执行使用所述预定部分的数据和关于所述对应点的信息的机器学习而获得的、作为所述已学习数据的预测器指定所述对应点。

7.根据权利要求3所述的信息处理装置，其中，所述姿势预测部通过使用RANSAC将基于所述第一点与所述第二点之间的关系指定的多个姿势假设中的预定姿势假设预测为所述场景中包括的所述模型的姿势。

8.根据权利要求7所述的信息处理装置，其中，所述姿势预测部基于所述姿势假设中的每一个的可靠性来预测所述场景中包括的所述模型的姿势，所述姿势假设中的每一个的可靠性是基于在对所述第一点执行了与用于将所述预定部分移动到具有对称性的多个所述其他部分中的每一个的位置的坐标变换对应的变换时的变换后的所述第一点与所述第二点之间的距离而计算的。

9.根据权利要求8所述的信息处理装置，其中，所述姿势预测部通过针对多个所述第二点，计算在对所述第一点执行了与多个所述坐标变换对应的变换时的多个变换后的所述第一点中的最接近所述第二点的变换后的所述第一点与所述第二点之间的距离，来计算所述可靠性。

10.根据权利要求3所述的信息处理装置，其中，所述姿势预测部通过使用所述姿势假设之间的相似度作为指标、执行基于所述第一点与所述第二点之间的关系指定的多个姿势假设的聚类，来预测所述场景中包括的所述模型的姿势。

11.根据权利要求10所述的信息处理装置，其中，所述姿势预测部对要确定其间的相似度的多个所述姿势假设中的预定姿势假设执行与用于将所述预定部分移动到具有对称性的多个所述其他部分中的每一个的位置的坐标变换对应的变换，并且计算变换后的姿势假设与其他姿势假设之间的相似度。

12.一种信息处理方法，其中，信息处理装置进行以下操作：

基于所述对应点来预测所述场景中包括的所述模型的姿势。

13.一种用于使计算机执行以下处理序列的程序：

基于所述对应点来预测所述场景中包括的所述模型的姿势。

14.一种信息处理装置，包括：

15.根据权利要求14所述的信息处理装置，还包括：

16.根据权利要求15所述的信息处理装置，其中，所述区域计算部设立所述预定部分，使得在将所述预定部分移动到具有对称性的多个所述其他部分的各个位置的情况下，移动后的部分的并集对应于所述整个模型。

17.一种信息处理方法，其中，信息处理装置进行以下操作：

18.一种用于使计算机执行以下处理序列的程序：在要预测场景中包括的模型的姿势时，通过执行使用相对于表示作为识别目标的对象的整个模型的其他部分具有对称性的预定部分的数据的学习来生成已学习数据，所述已学习数据在将所述场景中包括的所述模型上的与所述模型上的第一点对应的第二点指定为对应点时被使用。