CN110291358B

CN110291358B - 形状估计装置

Info

Publication number: CN110291358B
Application number: CN201880006147.8A
Authority: CN
Inventors: 安藤丹一
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2017-02-20
Filing date: 2018-01-25
Publication date: 2022-04-05
Anticipated expiration: 2038-01-25
Also published as: JP2018136632A; US11036965B2; EP3583380A1; EP3583380B1; CN110291358A; WO2018150901A1; US20190384964A1; JP6987508B2

Abstract

为了根据二维图像估计对象的三维形状，形状估计装置包括获取单元和估计单元。获取单元被配置为获取二维图像。估计单元具有人工智能，并且被配置为向人工智能提供二维图像并使人工智能估计二维图像的对象的三维形状。将使用学习数据执行的机器学习的学习结果设置至人工智能，该学习数据包含表示样本对象的三维形状的监督者数据和通过捕获样本对象的三维形状的图像而获得的样本二维图像。

Description

形状估计装置

相关申请的交叉引用

本申请要求2017年2月20日提交的日本专利申请No.2017-029248的优先权，其全部内容通过引用并入本文。

技术领域

本发明涉及一种根据二维图像估计对象的三维形状的技术。

背景技术

对通过分析使用摄像头捕获的图像来识别预定类型的对象的技术进行了研究。例如，已知有通过分析使用安装在汽车中的摄像头捕获的汽车前方图像来识别预定类型的对象(例如路边、车道、前车、即将到来的车辆、道路上的行人等)的技术。

如果将这种识别技术与诸如激光雷达之类的测距装置结合使用，则可以获得例如指示在汽车前方10米处存在前车的信息。例如，这样的信息在自动驾驶领域中可能是有用的。

然而，根据上述用于识别预定类型的对象的技术，虽然可以获得例如指示在汽车前面存在前车的信息，但是无法获得关于前车的三维形状的信息。

如果不知道前方对象的三维形状，仅通过检测到对象的存在是无法执行适当的相应操作的。例如，如果有行李箱从即将到来的车辆的行李架中露出来，那么仅利用指示存在即将到来的车辆的信息是无法执行适当的相应操作的。

“Unsupervised Representation Learning with Deep ConvolutionalGenerative Adversarial Networks”<URL：https：//arxiv.org/abs/1511.06434>为背景技术的示例。

发明内容

本发明的一个目的是根据二维图像估计对象的三维形状。

在以下描述和权利要求中，“人工智能”是指用于通过机器本身的学习、利用机器学习机制、获得预定能力的机器学习装置，所述机器学习是诸如深度学习、由机器执行的学习方法、具有通过学习获得能力的装置以及实现该装置的方法等。在本申请中，机器学习不限于深度学习，而可以是任何学习方法，只要能够获得估计形状的能力即可。

本发明的第一方面涉及一种形状估计装置，该形状估计装置包括获取单元和估计单元。获取单元被配置为获取二维图像。估计单元包括人工智能，并且被配置为向人工智能提供所述二维图像并使人工智能估计二维图像的对象的三维形状。将利用学习数据执行的机器学习的学习结果设置至人工智能，其中所述学习数据包含表示样本对象的三维形状的监督者数据(supervisor data)和通过捕获所述样本对象的三维形状的图像而获得的样本二维图像。

本发明的第十二方面涉及一种形状估计方法。该方法包括：获取二维图像；向人工智能提供所述二维图像；以及使用所述人工智能来估计所述二维图像的对象的三维形状。利用学习数据执行的机器学习的学习结果被设置至所述人工智能，所述学习数据包含表示样本对象的三维形状的监督者数据和通过捕获样本对象的三维形状的图像而获得的样本二维图像。

因此，根据这些方面，可以根据二维图像估计对象的三维形状。

根据第二方面，估计单元使用人工智能来估计二维图像的对象的三维形状，从而获得描述三维形状的形状信息。因此，根据该方面，可以根据二维图像获得描述对象的三维形状的形状信息。

根据第三方面，对于将被施加至由基本模型表示的预定三维形状的表面的各个变形，形状信息包含分别规定了变形的位置和强度的位置信息和强度信息。因此，根据该方面，例如，与使用多边形的情况相比，形状信息可以以较小的数据量表示对象的至少基本三维形状(不考虑实际尺寸)。

根据第四方面，形状信息还包括尺寸信息，尺寸信息规定二维图像的对象的三维形状的实际尺寸。因此，根据该方面，例如，与使用多边形的情况相比，形状信息可以以较小的数据量表示包括的对象实际尺寸的三维形状。

根据第五方面，变形包括第一种变形，第一种变形将由位置信息指示的预定三维形状的表面上的作用点、沿着与从预定原点延伸至作用点的直线大致平行的作用方向、移位由强度信息指示的量。因此，根据该方面，可以以较小的数据量表示对象的基本三维形状中包括的凸起和凹陷。

根据第六方面，假设预定三维形状的表面由可伸展和可收缩的膜制成，第一种变形是，当作用点沿着所用方向移位由强度信息指示的量时，在预定三维形状的表面上出现的伸展或收缩。因此，根据该方面，形状信息可以以较小的数据量表示对象的基本三维形状中包括的凸起和凹陷。

根据第七方面，假设预定三维形状的表面由可伸展和可收缩的膜制成，则第一种变形是，在假设预定三维形状的表面是由可伸展和可收缩的膜制成的情况下，当通过从膜的内部或外部对着作用点按压曲面，作用点沿着作用方向移位由强度信息指示的量时，在预定三维形状的表面上出现的伸展或收缩。因此，根据该方面，形状信息可以以较小的数据量表示对象的基本三维形状中包括的圆角的凸起和凹陷。

根据第八方面，形状信息还包括规定了曲面的尺寸的尺寸信息。因此，根据该方面，形状信息可以以较小的数据量表示更复杂的三维形状。

根据第九方面，机器学习包括：向用于学习的人工智能提供样本二维图像，并使用用于学习的人工智能估计样本对象的三维形状；生成再现图像，再现图像是通过捕获基于样本对象的三维形状的估计结果而渲染的样本对象的估计三维形状的图像而获得的；以及更新用于学习的人工智能的学习参数，使得再现图像变成与样本二维图像类似。因此，根据该方面，可以使得用于学习的人工智能获得根据二维图像估计对象的三维形状的能力。

根据第十方面，估计单元估计对象的取向(orientation)，并且还生成指示与对象的参考取向的差异的取向信息。因此，根据该方面，不仅可以估计对象的三维形状，还可以根据二维图像估计对象的取向。

根据第十一方面，对象的三维形状关于参考平面大致平面对称，并且形状信息包含与将被施加至预定三维形状的表面上的参考平面的一面的变形有关的位置信息和强度信息，并且不包含与将被施加至预定三维形状的表面上的参考平面的另一面的变形有关的位置信息和强度信息。因此，根据该方面，可以减小数据量，因为形状信息不必包含与所有变形的约一半有关的位置信息和强度信息。

根据本发明，可以根据二维图像估计对象的三维形状。

附图说明

图1是示出根据第一实施方式的形状估计装置的示例的框图。

图2是示出机器学习系统的示例的框图，该机器学习系统用于获得将被设置到图1的深度神经网络中的学习参数。

图3是示出根据第二实施方式的空间识别系统的示例的框图。

图4是示出图3中的场景参数的数据配置的示例的图。

图5A是示出前车的取向的示例的图。

图5B是示出前车的取向的示例的图。

图5C是示出即将到来的车辆的取向的示例的图。

图5D是示出即将到来的车辆的取向的示例的图。

图6是示出通过捕获车辆前方的图像而获得的场景图像中可以包含的对象的示例的图。

图7是示出在一个示例中的环境模型的示例的图。

图8是该示例中的对象形状模型的说明图。

图9是该示例中的空间形状模型的说明图。

图10是示出根据第三实施方式的服务提供系统的示例的框图。

图11是示出图10中的用户终端装置的硬件配置的示例的框图。

图12是示出图10中的服务提供系统中所包括的服务器型装置所共同的硬件配置的示例的框图。

图13是示出图10中的学习服务提供装置的功能配置的示例的框图。

图14是示出图10中的学习数据生成系统的示例的框图。

图15是示出图10中的学习装置所共同的硬件配置的示例的框图。

图16是示出图10中的学习装置所共同的功能配置的示例的框图。

图17是示出图16中的神经网络的示例的框图。

图18是示出图10中的服务提供系统的操作的示例的流程图。

图19是示出图10中的学习装置所共同的操作的示例的流程图。

具体说明

在下文中，将参考附图描述本发明的实施方式。注意，与已经描述的那些构成元件相同或相似的构成元件由相同或相似的附图标记表示，并且基本上不会再重复其描述。

第一实施方式

如图1所示，根据第一实施方式的形状估计装置100包括获取单元101和估计单元102。形状估计装置100接收二维图像10，并根据二维图像10估计二维图像10的对象的三维形状。例如，估计结果可以作为形状信息11输出，这将在后面描述。

形状估计装置100可以具有学习功能，以用于获得估计形状的能力；或者可以从作为外部装置的学习装置获取机器学习的结果，以用于获得估计形状的能力。

获取单元101获取二维图像10。例如，获取单元101可以使用未示出的摄像头获取正在实时捕获的动态图像的帧数据作为二维图像10，或者可以获取先前捕获并存储在未示出的存储器中的二维图像10。获取单元101可以将二维图像10原样输出至估计单元102，或者可以识别包含在二维图像10中的一个或更多个对象区域，提取该对象区域，并将它们输出至估计单元102。

估计单元102从获取单元101接收二维图像10，并向深度神经网络103提供二维图像10，从而使深度神经网络103估计二维图像10的对象的三维形状。使用包含表示样本对象的三维形状的监督者数据和通过捕获样本对象的三维形状的图像而获得的样本二维图像的学习数据来进行机器学习(监督学习)，并将该机器学习(监督学习)的学习结果设置至深度神经网络103。深度神经网络103可以用除了深度神经网络之外的人工智能(具有通过机器学习获得的形状估计能力的装置)代替。估计单元102可以生成并输出形状信息11作为估计结果。

将通过机器学习(例如，深度学习)获得的学习结果(例如，诸如神经网络中的单元的偏差或单元之间边缘的权重这样的学习参数)设置至深度神经网络103，其中，该机器学习用于根据二维图像10获得估计二维图像10的对象的三维形状的能力。例如，可以如下所述的执行机器学习。

图2示出了通过机器学习训练深度神经网络210的机器学习系统的示例。在机器学习中使用的每条学习数据24包含作为输入数据的样本对象的二维图像21，以及作为监督者数据的样本对象的形状信息20。例如，可以通过使图像生成装置200基于形状信息20渲染样本对象的三维形状，并使用虚拟摄像头捕获三维形状的图像来生成二维图像21。注意，通过改变虚拟摄像头的设置，可以从一组形状信息20生成具有不同取向或位置的对象的大量的二维图像21。

图像生成装置200基于形状信息20渲染样本对象的三维形状。例如，图像生成装置200可以包括基于形状信息生成三维CG的程序，以及用于执行该程序的处理器。例如，该程序可以基于在诸如电影、电视节目和视频游戏这样的视频产品中使用的生成三维CG的技术。例如，图像生成装置200的功能可以通过将根据预定参数生成三维CG的现有程序与将形状信息转换为预定参数的程序进行组合来实现。可以通过使用实际对象和用于操纵摄像头的机器人，从各种位置和方向捕获目标图像来执行类似的图像生成。通过指定机器人的图像捕获条件，可以有效地生成大量图像。

深度神经网络210获取二维图像21作为输入数据，并估计二维图像21的对象的三维形状。深度神经网络210生成形状信息22作为估计结果。

学习装置220训练深度神经网络210(更新学习参数)，使得形状信息22接近作为监督者数据的形状信息20。

具体地，学习装置220可以训练深度神经网络210，以使形状信息20与形状信息22之间的差异最小，或者可以训练深度神经网络210，以使将形状信息22转换为二维图像而获得的二维图像23(也称为“再现图像”)与二维图像21之间的差异最小。例如，通过使图像生成装置200基于形状信息22渲染三维形状，并使用虚拟摄像头捕获三维形状的图像，可以将形状信息22转换为二维图像。

例如，对于使二维图像23和二维图像21之间的差异最小的学习，可以使用类似于DCGAN(深度卷积生成对抗网络)的算法。

通过使用大量图像执行学习，DCGAN使得能够获得生成看起来真实的图像(例如，与学习中使用的图像没有区别)的能力。在作为DCGAN基础的GAN中，生成器(Generator)和判别器(Discriminator)交替地重复学习(所谓的猫与老鼠游戏)。作为结果，生成器获得了生成判别器对于学习中使用的数据出现错误的数据的能力。

本发明中的神经网络学习方法不限于DCGAN。学习可以是任何学习过程，只要可以计算通过将预定的二维形状数据输入到神经网络中获得的输出与该二维形状数据所对应的三维形状之间的差异即可。通过执行学习，可以提升学习效果，从而减少差异。具体地，可以执行学习，以便减少神经网络输出的形状信息与形状信息的监督者数据之间的差异。或者，可以执行学习，以便减少通过使用预定函数将神经网络输出的形状信息转换为另一向量而获得的转换形状信息与转换形状信息的监督者数据之间的差异。此时，可以增加或减少向量的维数。

形状信息11(以及形状信息20和形状信息22)可以是能够表示对象的三维形状的任何信息。例如，对象的三维形状可以表示为使用多边形的CAD数据，该数据用于设计作为对象的产品的外形。在这种情况下，当输入预定的二维图像时，估计和输出与该二维图像对应的使用多边形的CAD数据，该学习结果被设置至形状估计装置100。在具有少量多边形的简单对象的情况下，学习过程在相对较短的时间内完成。如果神经网络中用于输出的各神经元可以输出构成多边形的参数的各个部分，则可以通过训练神经网络来获得估计多边形的形状的能力。

同时，例如，如果通过数百个多边形表示相对复杂的三维形状，那么形状信息11的数据量会变得非常大。因此，使用该形状信息11的机器学习需要大量的计算，因此，考虑到成本和所需时间，可能难以实现这种机器学习。因此，为了减小数据量，可以使用如下所述的形状信息11。还可以使用除了如下所述之外的形状信息11，只要该数据可以使用预定组数的数值数据描述三维形状即可。可以使用可与神经网络的输出相关联的参数构成的任何形状信息11。

具体地，例如，形状信息11可以被规定为包含诸如位置信息和强度信息这样的信息值的向量，以用于表示对象的基本三维形状，这将在后面描述。作为形状信息11的向量还可以包含尺寸信息的值，这将在后面描述。例如，与用于在传统视频游戏或电影中用于生成三维CG(计算机图形)的多边形相比，该形状信息11可以以极小的数据量表示三维形状。因此，通过使用该形状信息11，可以减少机器学习所需的计算量，如稍后将描述的那样。

具体地，估计单元102通过将给定变形施加至由基本模型表示的预定三维形状的表面，来表示估计的对象的基本三维形状。请注意，“基本”是指不确认实际大小。也就是说，基本三维形状可以是任何形状，只要其基本上类似于对象的真实三维形状即可，其尺寸不必是实际尺寸。例如，汽车的基本三维形状可以与玩具车的基本三维形状相同。此外，例如，预定三维形状可以是球体、立方体等，但是不限于此。

对于将被施加至预定三维形状的表面的各个给定变形，形状信息11可以包含分别规定了变形的位置和强度的位置信息和强度信息。

例如，给定变形可以包括第一种变形，该第一种变形用于将由位置信息所指示的在预定三维形状的表面上的作用点，沿着与从预定原点延伸到作用点的直线大致平行的作用方向，移位由强度信息指示的量。第一种变形在概念上对应于将预定三维形状的表面上的一个点(作用点)向三维形状的外侧拉，或者将该点向三维形状的内侧推。例如，原点被规定于预定三维形状的中心点处，但是不限于此。

通过第一种变形，在预定三维形状的表面上的作用点周围的部分也随着作用点而移位，并且作用点周围部分的形状也会改变。例如，假设预定三维形状的表面由可伸展和可收缩的膜(例如，橡胶)制成，当作用点沿着作用方向移位由强度信息指示的量时，第一种变形可以是(或由模拟的模型来表示)在三维形状的表面上出现伸展或收缩。

如果以这种方式表示三维形状，则当三维形状的一部分的数据稍微改变时，受其影响的周围部分也会稍微改变，但同时会保持表面的连续性。这种改变对于深度神经网络中通过减少差异而进行的学习是优选的。在这种表示方法中，不需要重新计算与学习期间变形的多边形相邻的多边形的位置，如与组合多边形的情况一样，因此计算处理可以更简单，并且可以减少计算量。结果是提高了学习效率。

例如，可以使用具有固定尺寸或可变尺寸的曲面来执行第一种变形。在这种情况下的尺寸不必是实际尺寸，例如，可以是参考尺寸(诸如预定三维形状的半径或一个侧边的长度)被视为“1”的任何单位的尺寸。也就是说，假设预定三维形状的表面由可伸展和可收缩的膜制成，当通过从膜的内部或外部对着作用点按压曲面，作用点沿着作用方向移位由强度信息表示的量时，第一种变形可以是(或由模拟的模型来表示)在三维形状表面上出现的伸展或收缩。

如果曲面的尺寸(例如，球面的半径)是可变的，则可以表示更复杂的三维形状。在这种情况下，对于将被施加至预定三维形状的表面的各个第一种变形，形状信息11必须包含规定了曲面尺寸的尺寸信息。例如，曲面的形状是球面的，但不限于此，例如，形状可以是有角的形状。

假设三维形状关于参考平面大致平面对称(例如，左右对称、上下对称或前后对称)的情况下，估计单元102可以执行估计。在这样的假设下，可以从形状信息11中省略与将被施加至预定三维形状的表面的变形的一半有关的信息。

具体地，形状信息11仅包含关于施加至预定三维形状表面上的参考平面的一面(例如，右面)的变形的位置信息和强度信息就足够了。通过适当地复制和转换关于将被施加至一面的变形的位置信息，可以获得将被施加至另一面(例如，左面)的变形。如果形状信息11的数据量减少，则可以进一步减少机器学习所需的计算量。同样在这样的假设下，例如，可以通过将表示仅作用于参考平面的一面或另一面的变形的信息添加至形状信息11来表示不对称的三维形状。

形状信息11还可以包含规定了对象的三维形状的实际尺寸的尺寸信息。例如，如果尺寸信息具有值“s”(例如，s是正的实际值)，则可以利用三维形状来规定包含了对象实际尺寸的三维形状估计结果，其中该三维形状是在预定三维形状是半径为s[m]的球体的情况下进行上述变形时获得的。

如上所述，根据第一实施方式的形状估计装置向人工智能提供二维图像，从而使得人工智能估计二维图像的对象的三维形状。将使用学习数据进行的机器学习的学习结果输入至人工智能，其中该学习数据包含表示样本对象的三维形状的监督者数据和通过获取样本对象的三维形状的图像而获得的样本二维图像。因此，可以根据二维图像估计对象的三维形状。

此外，例如，可以生成形状信息作为估计结果。对于将被施加至预定三维形状的表面的各个给定变形，可以将形状信息规定为向量，其中该向量包含分别规定了变形的位置和强度的位置信息和强度信息的值。如果使用这样的形状信息，例如，与使用多边形的情况相比，则可以以较小的数据量表示二维图像的对象的三维形状。此外，作为形状信息的向量还可以包含规定了对象三维形状的实际尺寸的尺寸信息的值。如果使用这样的形状信息，例如，与使用多边形的情况相比，则可以以较小的数据量表示包含了二维图像的对象的实际尺寸的三维形状。

注意，除了二维图像的对象的三维形状之外，根据第一实施方式的形状估计装置还可以估计对象的取向。例如，可以通过取向信息来表示取向，该取向信息指示与对象的参考取向(例如，之前对象取向的状态)的差异(旋转角度)。为了实现这样的附加功能，例如，除了形状信息之外，还可以使用取向信息作为监督者数据来执行上述机器学习。

表示三维形状的方法不限于上述那些方法。例如，可以通过堆叠预定数量的立方体(例如，100个立方体)并使用各个立方体的相对位置作为向量来表示三维形状。可以使用给定表达式(形状信息)来学习使用预定数量的参数表示三维形状的方法。

第二实施方式

第二实施方式涉及使用根据第一实施方式的形状估计装置的空间识别系统。该空间识别系统根据使用摄像头捕获的(二维)场景图像来识别(模型化)场景中的对象。具体地，空间识别系统根据场景图像生成表示场景中对象的场景参数。场景参数包含上述形状信息和取向信息。

如图3中的示例所示，根据第二实施方式的空间识别系统包括空间识别装置320。空间识别装置320根据场景图像32识别场景中的对象，并生成表示对象的场景参数33。

如图4中的示例所示，场景参数33包含形状信息、取向信息、位置信息、移动信息和纹理信息。场景参数33还可以包含图4中未示出的其他信息，或者可以不包含图4中所示的部分信息。例如，可以根据识别目标不包括纹理信息。

图4中的形状信息和取向信息可以与第一实施方式中描述的形状信息和取向信息相同或相似。也就是说，形状信息可以被规定为向量，其中该向量包含表示适当组数的变形的信息(例如，位置信息和强度信息)的值。形状信息可以被规定为向量，其中该向量包含尺寸信息的值。可以规定取向信息以指示与对象的参考取向(例如，之前对象取向的状态)的差异(旋转角度)。

位置信息指示对象所占据的位置，例如，位置信息被规定为附近空间中的坐标，这将在后面描述。可以使用直角坐标系或极坐标系来表示位置信息。移动信息表示对象的移动状态。因此，对于不是移动构件的对象的场景参数来说，移动信息不是必需的。移动状态通常是方向，但可以包含速度或加速度。

纹理信息被规定为表示对象的纹理(例如，颜色、图案、文本字符)的图像。注意，对于对象是三维图形的情况，也可以通过生成对象的外观展开图而将其纹理表示为二维图像。

空间识别装置320使用未示出的深度神经网络根据场景图像32识别场景中的对象，并生成场景参数33。例如，将通过下述机器学习将获得的学习参数设置至深度神经网络。

使用图3中的空间识别学习装置310来执行机器学习。机器学习中使用的学习数据包含作为输入数据的样本对象的场景图像31和作为监督者数据的样本对象的场景参数30。

例如，可以通过使图像生成装置300基于场景参数30渲染样本对象的三维形状，并使用虚拟摄像头捕获三维形状的图像，来生成场景图像31。

注意，基于场景参数30中包含的取向信息和位置信息来确定虚拟摄像头的布置。因此，即使在多条形状信息相同的情况下，如果取向信息或位置信息不同，则场景图像31中对象的外观是不同的。

图像生成装置300基于场景参数中包含的形状信息来渲染样本对象的三维形状。图像生成装置300可以与上述图像生成装置200相同或类似。如在第一实施方式中，虚拟摄像头可以由机器人等操纵的实际摄像头代替。

空间识别学习装置310中包括的用于学习的深度神经网络获取场景图像31作为输入数据，并识别场景图像31的对象。深度神经网络生成场景参数作为识别结果。

空间识别学习装置310训练深度神经网络，使得由用于学习的深度神经网络生成的场景参数接近作为监督者数据的场景参数30。

具体地，空间识别学习装置310可以训练深度神经网络，以使场景参数30与用于学习的深度神经网络生成的场景参数之间的差异最小。或者，空间识别学习装置310可以训练深度神经网络，以使通过将用于学习的深度神经网络生成的场景参数转换为二维图像而获得的二维图像(也称为“再现图像”)与场景图像31之间的差异最小。例如，通过使图像生成装置300基于场景参数包含的形状信息来渲染三维形状，并使用虚拟摄像头捕获三维形状的图像，可以将场景参数转换为二维图像。例如，可以将类似于DCGAN的算法用于使图像之间的差异最小的学习。

空间识别学习装置310在机器学习之后将学习结果(例如，诸如学习结束之后的深度神经网络中的单元的偏差或单元之间的边缘的权重等学习参数)发送至空间识别装置320。

空间识别装置320将从空间识别学习装置310接收的学习参数设置到其自己的深度神经网络，从而获得从场景图像32识别场景中的对象并生成场景参数33的能力。

还可以通过提供相对简单的场景来执行训练，然后通过逐渐添加构成要素来执行对应于复杂场景的训练。由此期望提高学习效率。

如上所述，根据第二实施方式的空间识别装置识别场景图像中的对象，并生成包含与第一实施方式中的形状信息相同或相似的形状信息的场景参数作为对象的识别结果。因此，如果使用这样的场景参数，则可以使深度神经网络获得以较小计算量(例如，与将多边形用作形状信息的情况相比)来识别场景图像中的对象的至少三维形状的能力。

示例

在下文中，将描述根据空间识别系统的实施方式的车辆的前视处理，但是空间识别系统的示例不限于此。

在车辆的前视处理中，车载摄像头捕获车辆前方的图像，并生成场景图像。该场景图像包含各种对象。例如，如图6所示，诸如前车、即将到来的车辆、车辆自身(图像捕获车辆)的一部分(例如，发动机罩)、道路、道路左侧的区域、道路右侧的区域、道路上方的区域(例如，天空)等的对象可以包含在场景图像中。空间识别装置320可以使用图4中例示的场景参数来对这些对象各自建模。

同时，图像生成装置300可以根据一个或多个对象的场景参数来再现期望的场景图像。例如，如果向图像生成装置300提供了道路、前车和即将到来的车辆的各个场景参数，则图像生成装置300可以再现道路上有前车和即将到来的车辆的场景图像。

由空间识别装置320生成的场景参数对于推断车辆周围的情况是有用的，如下所述。

例如，如图5A所示，从图像捕获车辆来看，道路上向右转弯的前车(公共汽车)可以出现在场景图像中。在图5A至图5D中，箭头表示车身前面的取向。在这种情况下，空间识别装置320可以根据场景图像识别前车的取向，并推断前车正在沿道路方向正确地行驶。另一方面，在同一道路上的前车可以出现在场景图像中，例如，如图5B所示。空间识别装置320可以根据场景图像识别前车的取向，并检测到前车的取向偏离道路方向。结果，空间识别装置320可以推断前车正在转向或已经停止从而阻塞道路。

例如，如图5C所示，从图像捕获车辆来看，道路上向右转弯(从即将到来的车辆来看向左转弯)的即将到来的车辆(公共汽车)可以出现在场景图像中。在这种情况下，空间识别装置320可以根据场景图像识别即将到来的车辆的取向，并推断即将到来的车辆正在沿道路方向正确地行驶。另一方面，在同一道路上的即将到来的车辆可能出现在场景图像中，例如，如图5D所示。空间识别装置320可以根据场景图像识别即将到来的车辆的取向，并且检测到即将到来的车辆的取向偏离了道路方向。结果，空间识别装置320可以推断即将到来的车辆可以进入图像捕获车辆的行车道。

因为可以早期发现与前车或即将到来的车辆发生碰撞的风险，所以基于参考图5A至图5D描述的取向信息推断前车或即将到来的车辆的情况是有效的。根据前车或即将到来的车辆的位置或距图像捕获车辆的距离可以在一定程度上对碰撞风险进行评估，但是如果使用取向信息，则可以在车辆靠近前车或即将到来的车辆之前发现异常的接近或碰撞的风险，并且可以实施必要的措施。即使在不进行这种推断的情况下，取向信息也可用于估计前车或即将到来的车辆的行进方向。

例如，当在驾驶车辆或在停车区域中停放车辆的同时要避开障碍物(诸如其他车辆、门或栅栏)时，由空间识别装置320识别的各个障碍物的形状信息是有用的。

此外，在场景图像中，对象可能被周围环境的影响所阻挡，但是可以从空间识别装置320所识别的对象的形状信息推断出该影响。例如，如果没有看到整个前车(例如，前车的形状信息的精度较低)，则空间识别装置320可以推断在图像捕获车辆和前车之间存在障碍物或其他车辆。

将在本示例中由空间识别装置320使用的环境模型在图7中作为示例示出。在图7中，附近空间被规定为具有以摄像头为中心的预定半径的圆柱。圆柱的底面被规定为地面环境，圆柱的上面被规定为上方环境。附近空间的外部被规定为远处环境。摄像头根据设定的图像捕获方向捕获附近空间和远处环境中的图像，从而生成场景图像。摄像头的图像捕获范围根据图像捕获方向而改变。

各个对象(例如，前车和即将到来的车辆)可以被规定为处于地面环境中的任何位置。在这种情况下，各个对象的位置信息可以表示为二维信息。远处环境中的对象不太可能引起诸如碰撞之类的物理影响。例如，图像捕获车辆不可能在几秒钟内碰撞远离其10km或更远的建筑物。因此，例如，可以对远处环境中的对象进行建模，以便将其投影在规定了附近空间的圆柱的圆周面的内侧上。

注意，规定了附近空间的三维图形不限于圆柱。例如，当车辆沿着几乎没有交叉路口的高速公路行驶时，并不需要考虑左侧和右侧的对象(车辆)，因此，例如，可以通过根据道路形状转弯的长方体而获得的三维图形来规定附近空间。

图7中的环境模型基于非零重力空间。然而，即使在零重力空间的情况下，也可以通过规定上下方向来使用该环境模型。例如，可以使用地球旋转平面或星系旋转平面作为参考来规定上下方向。

在该示例中，如图8的示例所示的对象形状模型可以用于表示诸如前车、即将到来的车辆、坠落物体等物体的三维形状。图8中的对象形状模型适于表示移动构件的三维形状，但也可用于表示附近空间中的结构的三维形状。

在图8中的示例中，将球体基本模型和立方体基本模型作为基本模型。球体基本模型是将球体设置为预定三维形状的模型，立方体基本模型是将立方体设置为预定三维形状的模型。此外，在基本模型和对象中，规定参考方向(取向)，并且该方向被视作前方(正面)。例如，如果对象是车辆，则可以将前进的行进方向作为前方。

注意，可以使用的基本模型的数量不限于两个，并且可以是一个或可以是三个或更多。例如，可以通过球体基本模型的变形来表示立方体，因此可以省略立方体基本模型。然而，在估计车辆的有角的三维形状等的情况下，与使用球体基本模型相比，使用立方体基本模型可以更多地减少关于变形的信息。对基本模型的三维形状没有特别限制，但是，假设对象的三维形状关于参考平面大致平面对称，那么优选地，基本模型的三维形状是以类似的方式平面对称。

在图8中的示例中，准备变形模型，以表示将被施加至由基本模型表示的预定三维形状的变形与对象的三维形状的实际尺寸。图8中的变形模型包括尺寸模型、推模型(pushmodel)和拉模型(pull model)。注意，可以使用的变形模型不限于图8中作为示例示出的变形模型。

推模型是表示将被施加至预定三维形状表面的变形的模型。具体地，假设预定三维形状的表面由可伸展和可收缩的膜制成，那么，推模型模拟当从膜内部对着作用点按压球面使作用点沿作用方向移位时，在三维形状表面上出现的伸展或收缩。在这种情况下，作用方向可以是基与从原点延伸到作用点的直线大致平行的方向，并且原点可以是预定三维形状的中心点。

也就是说，推模型包含指示作用点位置的位置信息、规定要对着作用点按压的球面半径的尺寸信息、以及表示作用点的移位量的强度信息。

例如，位置信息可以表示为使用前向作为基准的水平方向上的旋转角度和使用地面环境作为基准的竖直方向上的旋转角度的二维信息。注意，位置信息可以表示为使用直角坐标系或极坐标系的三维信息。尺寸信息可以是指示球面半径的数值。强度信息可以是指示作用点被按压的距离的数值。

拉模型是表示将被施加至预定三维形状表面的变形的模型。具体地，假设预定三维形状的表面由可伸展和可收缩的膜制成，拉模型模拟当从膜外部对着作用点按压球面使作用点沿作用方向移位时，在三维形状表面上出现的伸展或收缩。可以如推模型中那样规定作用方向。

也就是说，拉模型包含指示作用点位置的位置信息、规定要对着作用点按压的球面半径的尺寸信息、以及表示作用点的移位量的强度信息。可以如推模型中那样规定这些信息。

应当理解，推模型和拉模型可以被认为是模拟类似的变形，只是作用方向完全相反。因此，如果设计了推模型和拉模型的强度信息，则该推模型和拉模型可以被认为是相同的模型(推/拉模型)。例如，推/拉模型的强度信息可以是表示移位之后从作用点到原点的距离的数值。或者，推/拉模型的强度信息可以是带符号的数值，其中强度信息的符号表示方向是推方向还是拉方向，且强度信息的绝对值表示移位量。

注意，假设基本模型和对象的三维形状均关于参考平面大致平面对称，那么如果在形状信息11中包含将被施加至参考平面的一面(例如，右面)的推模型和拉模型，则可以在形状信息11中省略将被施加至参考平面的另一面(左面)的推模型和拉模型。在以下表示三维形状的示例中，将参考将被施加至参考平面的右面的推模型和拉模型，而不参考将被施加至参考平面的左面的推模型和拉模型。

尺寸模型是表示对象的三维形状的实际尺寸的模型，并且对应于第一实施方式中描述的尺寸信息。尺寸模型可以是表示对象的三维形状的实际尺寸的数值。例如，如果尺寸模型是“s”(例如，s是正的实际值)，则可以利用三维形状来规定包括对象的实际尺寸的三维形状估计结果，其中该三维形状是在由球体基本模型表示的预定三维形状是半径为s[m]的球体的情况下进行上述变形时获得的。

如果使用这样的变形模型，则可以如下面的示例所示表示各种三维形状。

-假设由球体基本模型表示的预定三维形状是半径为0.5mm的球体，其被半径为0.5mm的球面在与右面呈45度角的向前方向上水平地推动预定距离，并且被半径为0.5mm的球面在与左面呈45度角的向后方向上水平地进一步推动相同距离。结果，预定三维形状可以变形为板状三维形状，其中上表面和下表面基本上均是具有圆角的正方形形状，并且厚度为1mm。在这种情况下，形状信息包含尺寸信息，以及两组推动变形中的每一组推动变形的位置信息、尺寸信息和强度信息。

-假设由球体基本模型表示的预定三维形状是半径为0.5mm的球体，其被半径为0.5mm的球面在与右面呈30度角的向前方向上水平地推动预定距离，并且被半径为0.5mm的球面在与左面呈30度角的向后方向上水平地进一步推动相同距离。结果，预定三维形状可以变形为板状三维形状，其中上表面和底表面基本上均是具有圆角并且前后方向较左右方向更长的四边形的形状，并且厚度为1mm。在这种情况下，形状信息包含尺寸信息，以及两组推动变形中的每一组推动变形的位置信息、尺寸信息和强度信息。

-假设由球体基本模型表示的预定三维形状是半径为20cm的球体，并且被半径为20cm的球面向前右上方、前右下方、后左上方、后左下方各推动约3m。结果，预定三维形状可以变形为诸如小型货车车身的形状这样的三维形状。在这种情况下，形状信息包含尺寸信息，以及四组推动变形中的每一组推动变形的位置信息、尺寸信息和强度信息。如果执行更多数量的变形，则可以调整三维形状的细节。可以通过进一步施加拉动变形来表示轮舱(wheel well)。可以通过进一步施加推动变形来表示轮胎。

在该示例中，可以使用如图9中的示例所示的空间形状模型，来表示诸如隧道、障碍物、道路等(的入口)这样的结构的三维形状。图9中的空间形状模型适于表示结构的三维形状，但也可用于表示附近空间中的移动构件的三维形状。

在图9的示例中，准备拱形模型、障碍物模型和四边形平面模型作为基本模型。拱形模型可以基于这样的假设：例如，通过从外圆移除内圆并且将其余部分等分为两个部分而获得平面图形，或者将具有该图形作为底面的圆柱形构件设置为预定三维形状。障碍物模型可以基于这样的假设：例如，将立方体设置为预定三维形状。四边形平面模型可以基于这样的假设：例如，将等腰梯形或具有该图形作为底面的圆柱形构件设置为预定三维形状。四边形平面模型主要用于表示道路的三维形状。即使当捕获具有恒定宽度的道路的图像时，靠近图像捕获车辆的道路部分的宽度会看起来宽于远离图像捕获车辆的道路部分的宽度。因此，在图9的示例中，四边形平面模型表示其中上侧边和下侧边的长度不同的等腰梯形，但是可以表示其他四边形。

注意，可以使用的基本模型的数量不限于三个，而是可以为两个或更少，或者可以为四个或更多。对基本模型的三维形状没有特别限制，但是，假设对象的三维形状关于参考平面大致平面对称，那么优选地，基本模型的三维形状是以类似的方式平面对称。

在图9的示例中，准备变形模型，以表示将被施加至由基本模型表示的预定三维形状的变形与对象的三维形状的实际尺寸。图9中的变形模型包括尺寸模型、凸/凹模型和曲线模型。注意，可以使用的变形模型不限于图9中作为示例示出的变形模型。

凸/凹模型是表示将被施加至预定三维形状的表面的变形的模型。具体地，凸/凹模型模拟在预定三维形状表面上的给定位置(作用点)处以给定水平产生凸起和凹陷的变形。也就是说，凸/凹模型包含指示作用点位置的位置信息和表示在作用点处将产生的凸起和凹陷的水平的强度信息。

曲线模型是表示将被施加至预定三维形状的表面的变形的模型。具体地，曲线模型模拟弯曲预定三维形状的表面的变形。例如，可以通过弯曲四边形平面模型的三维形状来简单地表示弯曲道路的三维形状。

尺寸模型是表示对象的三维形状的实际尺寸的模型，并且对应于第一实施方式中描述的尺寸信息。尺寸模型可以是表示对象的三维形状的实际尺寸的数值。可以准备多个尺寸模型。例如，如果尺寸模型是“s1”和“s2”(例如，s1和s2均为正的实际值)，则可以利用三维形状来规定包括对象实际尺寸的三维形状估计结果，其中该三维形状是在由拱形模型表示预定的三维形状是拱形的情况下进行上述变形时获得的，所述拱形的外圆和内圆的半径分别为s1[m]和s2[m]。或者，可以利用三维形状来规定包括对象实际尺寸的三维形状估计结果，其中该三维模型是在由四边形表示的预定三维形状是等腰梯形的情况下执行上述变形时获得的，所述等腰梯形的上侧边和下侧边分别是s2[m]和s1[m]。

如果使用图8中的对象形状模型和如图9中的空间形状模型，则空间识别装置320可以根据通过捕获车辆前方的图像所获得的场景图像32生成表示诸如前车、即将到来的车辆、隧道入口、门柱、道路等对象的场景参数33。此外，可以进一步使用表示上方环境和远处环境的模型。如果需要，则可以通过根据场景参数33再现各个对象的三维形状、取向、位置、纹理等，并从给定角度使用虚拟摄像头捕获图像来再现场景图像32。

场景参数的数据结构可以具有灵活的设计。例如，可以允许施加极大组数的变形，或者同样允许表示精细的纹理。如果使用这样的场景参数，则甚至可以准确地表示对象的细节。另一方面，即使准确地表达了对象的细节，场景参数的数据量也会增加。场景参数的所需精度水平是根据空间识别系统的应用而变化的。例如，当捕获大型道具的图像并将其转换为3DCG以生成视频产品时，将需要高精度水平。另一方面，当估计即将到来的车辆的取向时，将即将到来的车辆的雨刷的形状以及纹理忽略掉是不成问题的。

例如，可以简化场景参数，如下所述。在这种情况下，为了方便起见，简化之前的场景参数被称为完整场景参数，而简化之后的场景参数被简称为场景参数。

机器学习中使用的学习数据包含输入数据和监督者数据。输入数据是基于样本对象的完整场景参数以高精度水平生成的看起来真实的场景图像。例如，监督者数据是通过从完整场景参数中省略纹理信息而获得的场景参数。

深度神经网络获取场景图像作为输入数据，并识别场景图像中的对象。深度神经网络生成场景参数作为识别结果。

空间识别学习装置训练深度神经网络，使得由该深度神经网络生成的场景参数接近作为监督者数据的场景参数。

具体地，空间识别学习装置可以训练深度神经网络，以使通过将深度神经生成的场景参数转换为二维图像而获得的二维图像(也称为“再现图像”)与通过将作为监督者数据的场景参数(不是完整场景参数)转换为二维图像而获得的二维图像之间的差异最小。注意，这些场景参数不包含纹理信息，但是为了便于转换成二维图像，可能要求场景参数具有与完整场景参数相同的数据格式。在这种情况下，例如，可以将与灰色对应的值设置为场景参数的伪纹理信息。例如，可以使用类似于DCGAN的算法使图像之间的差异最小的学习。

如果场景参数由多个参数构成，并且分别从神经元输出该多个参数以输出神经网络，则可以在学习期间计算与预期输出的差异。可以通过反复改变神经网络的参数使用深度神经网络进行学习，从而减少该差异。

此外，例如，在省略了形状信息中包含的与变形有关的部分信息而不是纹理信息(即，减少了所施加的变形的组数)的情况下，可以执行类似的机器学习。

在该示例中，描述了如果将根据第二实施方式的空间识别系统用于车辆的前视处理中，则对象(例如场景中的前车或即将到来的车辆)的三维形状、取向、位置等可以根据通过捕获车辆前方的图像而获得的场景图像来识别(建模)。该空间识别系统不仅可以用于车辆的前视处理中，还可以用于其他各种各样的应用中。

该空间识别系统可以用于机器人(无论其是否为人形)的计算机视觉。具体地，空间识别系统可以在机器人执行拣选操作或避免碰撞时有助于提高精度水平。

根据空间识别系统，机器人可以识别要拣选的物品的三维形状。因此，例如，可以根据物品的三维形状来控制机器人的手指或手臂的驱动，使得机器人可以在将手指或手臂放置在适于抓住物品的位置的同时执行精确的拣选操作。

此外，根据空间识别装置，机器人可以识别附近物体的三维形状。因此，例如，机器人可以移动的同时聪明地避免与附近物体进行碰撞。此外，机器人可以识别在车载摄像头或监测摄像头的图像中出现的障碍物，并且通过控制车辆将车辆驶入停车场或停放车辆，以便不碰撞障碍物。此外，当组装产品时，机器人可以根据部件的三维信息适当地改变部件的方向或者正确地识别部件的类型。

该空间识别系统还可用作安装在附带摄像头的信息处理装置(诸如智能手机)上的应用。例如，卖方可以通过提供产品的三维形状来从事具有更好视觉效果的销售活动。具体地，卖方使用智能手机作为空间识别装置来捕获产品的图像，并获得根据该图像生成的场景参数。卖方可以在向顾客展示根据场景参数再现的产品的三维形状的同时推荐产品。场景参数可以被发送到顾客的智能手机。在这种情况下，顾客可以通过操作他或她的智能手机来查看产品的三维图像。

该空间识别系统对于生成3D打印机的输入数据是有用的。具体地，可以根据从多个角度捕获的对象的多个场景图像生成目标为3D打印的对象的场景参数。此外，可以使用多个场景图像通过机器学习来精确地估计三维形状。例如，如果使用软件转换如此生成的场景参数以适于3D打印机的输入数据格式，则可以生成执行对象的3D打印的输入数据。

该空间识别系统可以应用于用于确认对象的目标确认装置。具体地，如在空间识别系统的情况下，目标确认装置可以根据对象的场景图像生成指示对象三维形状的形状信息和指示对象取向的取向信息。目标确认装置可以通过使用形状信息和取向信息，从而以高精度来确认对象。

例如，目标确认装置可以根据饮料盒的捕获图像来确认大体呈长方体形状的饮料盒的产品名称。首先，目标确认装置根据从给定角度捕获的饮料盒的场景图像识别饮料盒的三维形状和取向。如果大体呈长方体形状的对象的图像被捕获，则根据角度，会在图像中出现一至三个面。因此，目标确认装置可以通过将对象的场景图像粘贴到三维形状的一至三个面，以在识别的三维模型上再现对象的一部分纹理。然后，目标确认装置搜索存储了诸如饮品的正面或其他面的图像之类的目录数据或产品数据库，并指定与和该对象的正面或其他面的图像最为相似的图像相关联的饮品(及其制造商)。目标确认装置生成指示特定饮品的信息(例如，产品名称)作为对象确认信息。

注意，目标确认装置还可以确认具有不近似棱柱体(诸如长方体)的三维形状的对象。例如，目标确认装置可以根据捕获的车辆图像识别车辆的车辆型号。首先，目标确认装置根据从给定角度捕获的车辆场景图像识别车辆的三维形状和取向。然后，目标确认装置搜索存储了车辆形状信息和纹理信息的目录数据或产品数据库，并指定与和对象的形状信息相似的一条或更多条形状信息相关联的一个或更多个车辆模型(及其制造商)。目标确认装置执行映射，使得可以基于对象的取向信息，将分别与特定车辆型号相关联的纹理信息指示的部分纹理与场景图像进行比较。目标确认装置生成指示与场景图像最接近的纹理相关联的车辆型号的信息(例如，车辆型号名称)作为对象确认信息。

如上所述，空间识别系统可以应用于确认对象的目标确认装置，但是目标确认装置可以用于，例如，估计距对象的距离。具体地，目标确认装置根据对象的场景图像识别包括对象的实际尺寸和方向的三维形状，并且例如，通过该识别来确认该对象的车辆型号。例如，目标确认装置可以从目录数据或产品数据库中搜索所识别的车辆模型的实际尺寸，并且基于搜索到的实际尺寸、对象的三维形状和方向、以及场景图像，来估计从拍摄场景图像的位置到该对象的距离，即距对象的距离。注意，当粗略估计距离时，可以粗略地确认对象就足够了。例如，即使不在车辆型号级别执行所述确认，在车辆分类级别(小型车、中型车等)进行的确认也可能足以粗略估计对象的实际尺寸，因此，可以在某种程度上精确地估计距离。利用该应用示例，可以在不使用诸如激光雷达之类的测距装置的情况下根据二维图像估计距离。

第三实施方式

第三实施方式涉及允许用户使用在第二实施方式中描述的对象识别、空间识别和目标识别的功能的服务提供系统。该服务提供系统在图10中作为示例示出。

图10中的服务提供系统包括用户终端装置401、学习服务提供装置402、学习数据生成系统403、学习数据库装置404、对象识别学习装置405、移动空间识别学习装置406和目标识别学习装置407。

注意，图10中的服务提供系统的装置配置仅是一个示例。也就是说，图10中所示的一些或所有装置可以组合成一个装置，或者图10中所示的装置的任何功能可以被分为多个装置。

图18示出了图10中的服务提供系统的操作的示例。图18中的操作开始于当学习服务提供装置402从用户接收学习请求信息时，然后过程前进至步骤S1201。

在步骤S1201中，学习数据生成系统403基于学习请求信息生成适合于用户意图(intension)(对象识别、移动空间识别和目标识别中的一些或全部)的学习数据(例如，车辆的场景参数和场景图像)，并将其注册到学习数据库装置404。

对象识别学习装置405、移动空间识别学习装置406和目标识别学习装置407中的至少一个适合于用户意图的学习装置从学习数据库装置404获取在步骤S1201中生成的学习数据，并执行机器学习(步骤S1202)。

在步骤S1202中执行机器学习的学习装置将学习参数作为学习结果输出至用户终端装置401(步骤S1203)。注意，学习参数可以经由学习服务提供装置402或其他装置输出至用户终端装置401。

如果在步骤S1203结束之后还有另一要处理的学习请求，则过程返回到步骤S1201，如果没有，则图18中的操作结束。

注意，在图18中的操作示例中，根据来自用户的学习请求执行从生成学习数据到执行机器学习的处理，但是，如果已经生成了适合于用户意图的学习数据，则不需要再重新生成学习数据。此外，如果已经调整了适合于用户意图的学习参数，则不需要再重新执行机器学习。

用户终端装置401请求学习服务提供装置402提供适合于用户意图的学习服务。然后，用户终端装置401接收适合于用户意图的学习结果。用户终端装置401可以通过将接收的学习结果设置至用户终端装置401中包括的深度神经网络，来使用适合于用户意图的功能。如果通过形状估计更能满足用户的意图，那么若所接收的学习结果包含形状估计能力，则其可能更适合于该意图。例如，如果用户选择作为学习服务而提供的学习菜单，则可以调用用于执行学习的学习装置的学习程序，来执行第一实施方式或第二实施方式中的学习处理。

如果在学习请求时的菜单包含规定了形状信息的请求信息，例如允许的差异情况、多边形数量、或者诸如位置信息和强度信息之类的信息的值的类型和范围，也可以提供更适合用户意图的学习结果。

例如，用户终端装置401可以是数码摄像头、监测摄像头、汽车、智能手机、PC(个人计算机)、智能手表、可穿戴设备、家用电子装置、健康装置、医疗装置、商业终端、公共终端、音频终端、汽车控制台、平视显示器、远程信息处理终端等。

如图11中的示例所示，用户终端装置401包括计算机501、摄像头502、显示单元503、键盘504和鼠标505。

计算机501连接到网络，并且可以与图10中的另一装置交换数据。计算机501包括经由网络与另一装置交换数据的通信单元。

计算机501包括深度神经网络，将图10中的对象识别学习装置405、移动空间识别学习装置406或目标识别学习装置407获得的学习结果设置至该深度神经网络。

例如，深度神经网络由处理器实现，所述处理器诸如计算机501中包括的未示出的GPU(图形处理单元)或CPU(中央处理单元)，该GPU或CPU执行存储器中存储的程序。将适合于用户意图的学习结果设置至深度神经网络。例如，如果设置了学习结果，则深度神经网络可以获得对象识别、移动空间识别和目标识别的一些能力或全部能力。

摄像头502生成场景图像，该场景图像对应于计算机501中的深度神经网络的输入数据。

显示单元503显示使用摄像头502捕获的场景图像、以及基于由计算机501中的深度神经网络生成的场景参数的再现图像等。此外，显示单元503可以显示网络浏览器或其他应用画面。例如，显示单元503是液晶显示器、有机EL(电致发光)显示器、CRT(阴极射线管)显示器等。注意，显示单元503可以包括诸如触摸屏之类的输入设备的功能。

键盘504和鼠标505是用于接受用户输入的输入设备。注意，用户终端装置401可以包括除键盘504和鼠标505之外的输入设备，或者可以不包括键盘504和鼠标505中的一者或两者。

在图10中的服务提供系统中，学习服务提供装置402和学习数据生成系统403中包括的装置、以及学习数据库装置404可以被称为服务器型装置。服务器型装置共同的硬件配置在图12中作为示例示出。

图12中的服务器型装置包括CPU 601、ROM 602、RAM 603、存储装置604、输入/输出单元605和通信单元606。

CPU 601执行存储在ROM(只读存储器)602或RAM(随机存取存储器)603中的程序。ROM 602和RAM 603分别对应于非易失性和易失性存储器，并且存储要由CPU 601执行的程序或将由CPU 601使用的数据。

存储装置604也称为辅助存储装置，并且与存储器相比通常可以存储更多的程序或数据。例如，存储装置604是HDD(硬盘驱动器)、SSD(固态驱动器)等，但是不限于此。

输入/输出单元605接受用户输入，或者向用户提供应用处理结果。输入/输出单元605可以包括诸如键盘、鼠标和数字小键盘之类的输入设备，诸如显示器和打印机之类的输出设备，以及诸如触摸屏之类的输入/输出设备中的一些或全部。

通信单元606经由网络与不同于学习服务提供装置402的装置交换数据。通信单元606是能够执行无线通信和有线通信中的一者或两者的模块或设备。

学习服务提供装置402的功能配置在图13中作为示例示出。图13中的学习服务提供装置402包括用户接口单元701、学习请求信息获取单元702、学习程序启动单元704、外部程序启动单元705和通信单元706。

用户接口单元701接受用户输入，或者向用户提供应用处理结果。学习请求信息获取单元702获取来自用户的学习请求信息。使用学习请求信息的获取作为触发来执行适合于用户意图的机器学习。

学习程序启动单元704使用学习请求信息的获取作为触发，来启动用于执行适合于用户意图的机器学习的学习程序。外部程序启动单元705经由网络远程启动存储在与学习服务提供装置402不同的装置的存储器中的程序。

通信单元706经由网络与不同于学习服务提供装置402的装置交换数据。通信单元706可以执行无线通信和有线通信中的一者或两者。

如图14中的示例所示，学习数据生成系统403包括场景参数生成装置801、图像生成装置802、学习数据设置装置803、通信装置804和图像记录装置805。

场景参数生成装置801生成用于学习的样本对象的场景参数。图像生成装置802基于场景参数渲染样本对象的三维形状，从而生成样本对象的场景图像。场景图像被记录在图像记录装置805中。

学习数据设置装置803使用分别作为监督者数据和输入数据的场景参数和样本对象的场景图像来设置学习数据。注意，学习数据设置装置803可以在部分场景参数(例如，纹理信息、形状信息中包含与变形有关的部分信息等)被省略之后设置监督者数据，如上所述。学习数据设置装置803将设置的学习数据注册至学习数据库装置404。

通信装置804经由网络与不同于学习数据生成系统403的装置交换数据。通信装置804是能够执行无线通信和有线通信中的一个或两者的设备。

可以在获取了来自用户的学习请求信息之后由学习数据生成系统403生成学习数据，或者可以针对期望发布请求的样本对象预先生成学习数据。

在图10中的服务提供系统中，对象识别学习装置405、移动空间识别学习装置406和目标识别学习装置407的相同之处在于它们都是学习装置，尽管它们执行机器学习获得了不同的能力(对象识别能力、移动空间识别能力和目标识别能力)。学习装置共同的硬件配置在图15中作为示例示出，其共同的功能配置在图16中作为示例示出，其共同的操作在图19中作为示例示出。

图15中的学习装置包括GPU 901、CPU 902、ROM 903、RAM 904、存储装置905、输入/输出单元906和通信单元907。

GPU 901高速执行由图15中的学习装置实现的深度神经网络的计算(主要是矩阵乘积)。GPU 901也称为加速装置。

CPU 902执行存储在ROM 602或RAM 603中的程序。ROM 903和RAM 904分别对应于非易失性和易失性存储器，并且存储将由CPU 902执行的程序。或者CPU 902要使用的数据。

存储装置905也被称为辅助存储装置，并且与存储器相比通常可以存储更多的程序或数据。例如，存储装置905是HDD、SSD等，但是不限于此。

输入/输出单元906接受用户输入，或者向用户提供应用处理结果。输入/输出单元906可以包括诸如键盘、鼠标和数字小键盘之类的输入设备，诸如显示器和打印机之类的输出设备、以及诸如触摸屏之类的输入/输出设备中的一些或全部。

通信单元907经由网络与不同于图15中的学习装置的装置交换数据。通信单元907是能够执行无线通信和有线通信中的一个或两者的模块或设备。

图16中的学习装置包括通信单元1001、学习控制单元1002、神经网络1003、学习结果提取单元1004和学习结果输出单元1005。

通信单元907经由网络与不同于图16中的学习装置的装置交换数据。例如，通信单元907可以接收学习启动命令、访问学习数据库装置404并获取必要的学习数据，并将学习参数作为学习结果发送到用户终端装置401。

学习控制单元1002使用学习启动命令的接收作为触发来开始学习。学习控制单元1002经由通信单元1001向学习数据库装置404请求与由学习启动命令(即，适合于用户的意图)指定的目标相关的学习数据。学习控制单元1002将用于执行与由学习启动命令指定的目标相关的机器学习的模型设置到神经网络1003。

学习控制单元1002向神经网络1003提供从学习数据库装置404获取的学习数据，并训练神经网络1003。如果神经网络1003达到预定学习水平，则学习控制单元1002使得学习结果提取单元1004提取学习参数作为学习结果。学习控制单元1002使学习结果输出单元1005输出所提取的学习参数。注意，学习控制单元1002可以在预定条件下停止学习。

如图17中的示例所示，神经网络1003包括神经网络输入单元1101、深度神经网络1102和神经网络输出单元1103。

神经网络输入单元1101从学习控制单元1002接收场景图像作为输入数据，并将其发送到深度神经网络1102。深度神经网络1102基于输入的场景图像生成场景参数。神经网络输出单元1103将所生成的场景参数作为输出数据返回到学习控制单元1002。

学习结果提取单元1004根据来自学习控制单元1002的指令，提取在神经网络1003的学习结束之后已经设置到神经网络的学习参数，并将其发送到学习结果输出单元1005。

学习结果输出单元1005从学习结果提取单元1004接收学习参数，执行诸如分组等必要处理，并经由通信单元1001将处理结果输出至用户终端装置401或其他装置。

在下文中，将参考图19描述学习装置的操作。

首先，学习控制单元1002经由通信单元1001接收学习启动命令(步骤S1301)。学习控制单元1002经由通信单元1001向学习数据库装置404请求与由学习启动命令指定的目标有关的学习数据(步骤S1302)。此外，学习控制单元1002将用于执行与由学习启动命令指定的目标相关的机器学习的模型设置到神经网络1003(步骤S1303)。在步骤S1302和S1303中的处理结束之后，过程前进至步骤S1304。

在步骤S1304中，学习控制单元1002读取从学习数据库装置404获取的预定单位的学习数据，并通过机器学习训练神经网络1003。学习控制单元1002重复执行步骤S1304，直到满足预定学习停止条件(步骤S1305)或神经网络1003达到预定学习水平(步骤S1306)。如果神经网络1003达到预定学习水平，则学习结果提取单元1004提取学习参数作为学习结果，并且学习结果输出单元1005输出学习参数，然后图19中的操作结束9(步骤S1307)。

如上所述，根据第三实施方式的服务提供系统响应于来自用户的请求，执行机器学习，以获得基于二维图像执行估计、识别、确认等能力，并将学习结果设置至用户终端中包括的深度神经网络。因此，根据该服务提供系统，用户可以使用具有适合于用户意图的能力的深度神经网络，而无需通过机器学习来训练他或她的用户终端。

前述实施方式仅示出了帮助理解本发明的概念的具体示例，并非旨在限制本发明的范围。可以在不脱离其主旨的情况下，对本发明的组成元件进行各种添加、删除和修改。

可以通过使用电路来实现前述实施方式中描述的各种功能单元。这种电路可以是用于实现特定功能的专用电路，或者可以是诸如处理器的通用电路。

也可以通过使用通用计算机作为基础硬件来实现前述实施方式中的至少部分处理。用于实现上述处理的程序可以以存储在计算机可读存储介质中的形式提供。程序作为可安装文件或可执行文件存储在存储介质中。存储介质的示例包括磁盘、光盘(CD-ROM、CD-R、DVD等)、磁光盘(MO等)、半导体存储器等。对存储介质没有限制，只要它是可以存储程序的计算机可读存储介质即可。此外，用于实现上述处理的程序可以存储在连接到网络(诸如因特网)的计算机(服务器)中，并且经由网络下载到计算机(客户端)。

注意，前述实施方式的部分或全部可以在下面的附加说明以及权利要求中描述，但是不限于此。

附加说明1

一种形状估计装置，该形状估计装置包括：

存储器；和

连接到存储器的处理器，

其中，处理器配置为：

(a)获取二维图像；和

(b)向人工智能提供二维图像，并使用所述人工智能来估计所述二维图像的对象的三维形状，以及

将利用学习数据执行的机器学习的学习结果设置至人工智能，其中该学习数据包含表示样本对象的三维形状的监督者数据和通过捕获该样本对象的三维形状的图像而获得的样本二维图像。

附加说明2

一种形状估计方法，该形状估计方法包括以下步骤：

(a)由连接到存储器的处理器获取二维图像；

(b)由处理器向人工智能提供二维图像；和

(c)由处理器使用人工智能来估计二维图像的对象的三维形状，

利用学习数据执行的机器学习的学习结果被设置至人工智能，其中该学习数据包含表示样本对象的三维形状的监督者数据和通过捕获该样本对象的三维形状的图像而获得的样本二维图像。

Claims

1.一种形状估计装置，该形状估计装置包括：

获取单元，该获取单元被配置为获取二维图像；以及

估计单元，该估计单元包括人工智能，并且被配置为向所述人工智能提供所述二维图像，并使用所述人工智能来估计所述二维图像的对象的三维形状，

其中，利用学习数据执行的机器学习的学习结果被设置至所述人工智能，所述学习数据包含作为记述样本对象的三维形状的形状信息的监督者数据和通过捕获所述样本对象的三维形状的图像而获得的样本二维图像，

所述估计单元使用所述人工智能估计所述二维图像的对象的三维形状，从而获得描述所述三维形状的形状信息，并且

所述二维图像的对象的三维形状关于参考平面大致非平面对称，

所述形状信息仅包含与施加至由基本模型表示的预定三维形状的表面上的所述参考平面的一面或者另一面的变形有关的位置信息和强度信息。

2.根据权利要求1所述的形状估计装置，其中，所述形状信息还包括尺寸信息，所述尺寸信息规定所述二维图像的对象的三维形状的实际尺寸。

3.根据权利要求1所述的形状估计装置，其中，所述变形包括第一种变形，所述第一种变形将所述预定三维形状的表面上的由所述位置信息指示的作用点，沿着与从预定原点延伸至所述作用点的直线大致平行的作用方向，移位由所述强度信息指示的量。

4.根据权利要求3所述的形状估计装置，其中，假设所述预定三维形状的表面由可伸展和可收缩的膜制成，则所述第一种变形是，当所述作用点沿着所述作用方向移位由所述强度信息指示的量时，在所述预定三维形状的表面上出现的伸展或收缩。

5.根据权利要求4所述的形状估计装置，其中，假设所述预定三维形状的表面由可伸展和可收缩的膜制成，则所述第一种变形是，在假设所述预定三维形状的表面是由可伸展和可收缩的膜制成的情况下，当通过从所述膜的内部或外部对着所述作用点按压曲面，所述作用点沿着所述作用方向移位由所述强度信息指示的量时，在所述预定三维形状的表面上出现的伸展或收缩。

6.根据权利要求5所述的形状估计装置，其中，所述形状信息还包括规定了所述曲面的尺寸的尺寸信息。

7.根据权利要求1所述的形状估计装置，其中，所述机器学习包括：

向用于学习的人工智能提供所述样本二维图像，并使用所述用于学习的人工智能估计所述样本对象的三维形状；

生成再现图像，所述再现图像是通过捕获基于所述样本对象的三维形状的估计结果而渲染的所述样本对象的估计三维形状的图像而获得的；以及

更新所述用于学习的人工智能的学习参数，使得所述再现图像变成与所述样本二维图像类似。

8.根据权利要求1所述的形状估计装置，其中，所述估计单元估计所述二维图像的对象的取向，并且还生成指示与所述二维图像的对象的参考取向的差异的取向信息。

9.一种形状估计方法，该形状估计方法包括以下步骤：

由计算机获取二维图像；

由所述计算机向人工智能提供所述二维图像；以及

由所述计算机使用所述人工智能来估计所述二维图像的对象的三维形状，

所述方法还包括以下步骤：由所述计算机使用所述人工智能估计所述二维图像的对象的三维形状，从而获得描述所述三维形状的形状信息，并且