CN110060297A

CN110060297A - 信息处理装置、系统、信息处理方法和存储介质

Info

Publication number: CN110060297A
Application number: CN201910037242.0A
Authority: CN
Inventors: 铃木雅博; 小竹大辅; 小林一彦
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-01-15
Filing date: 2019-01-15
Publication date: 2019-07-26
Anticipated expiration: 2039-01-15
Also published as: CN110060297B; JP7133926B2; US11657319B2; JP2019124538A; US20190220775A1

Abstract

信息处理装置、系统、信息处理方法和存储介质。生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据。使用学习数据进行学习模型的学习处理。基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

Description

信息处理装置、系统、信息处理方法和存储介质

技术领域

本发明涉及信息处理装置、系统、信息处理方法和存储介质，特别地，涉及获得位置和/或姿势的技术。

背景技术

出于诸如机器人或机动车的自身位置/姿势估计，或者物理空间(physicalspace)与混合现实/增强现实中的虚拟物体之间的对准等的各种目的，使用基于图像信息对摄像设备的位置和/或姿势(在下文中，称作位置/姿势)的测量。

K.Tateno、F.Tombari、I.Laina和N.Navab，“CNN-SLAM：Real-time densemonocular SLAM with learned depth prediction”，IEEE国际计算机视觉与模式识别会议(CVPR)，2017公开了如下方法：使用提前学习到的学习模型从图像信息估计作为用于计算位置/姿势的指标的几何信息(深度信息)，并且基于所估计的几何信息计算位置/姿势信息。

K.Tateno、F.Tombari、I.Laina和N.Navab，“CNN-SLAM：Real-time densemonocular SLAM with learned depth prediction”，IEEE国际计算机视觉与模式识别会议(CVPR)，2017假定了用于生成学习模型的图像的场景的外观与包括在由摄像设备拍摄的输入图像中的场景的外观类似。因此，存在改善场景的外观不类似的情况下的位置/姿势计算精度的方案的需求。

发明内容

本发明提供一种精确地获得位置和/或姿势的技术。

根据本发明的第一方面，提供一种信息处理装置，信息处理装置包括：生成单元，其被构造为生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据；学习单元，其被构造为使用学习数据进行学习模型的学习处理；以及计算单元，其被构造为基于从输入了由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

根据本发明的第二方面，提供一种包括信息处理装置和控制单元的系统，所述信息处理装置包括：生成单元，其被构造为生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据；学习单元，其被构造为使用学习数据进行学习模型的学习处理；以及计算单元，其被构造为基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势，其中，计算单元基于摄像设备的位置和/或姿势计算包括信息处理装置的车辆的位置和/或姿势，并且所述控制单元被构造为基于几何信息以及由计算单元计算出的车辆的位置和/或姿势，进行车辆的驾驶控制。

根据本发明的第三方面，提供一种由信息处理装置进行的信息处理方法，所述信息处理方法包括：生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据；使用学习数据进行学习模型的学习处理；以及基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

根据本发明的第四方面，提供一种存储介质，其存储计算机程序，所述计算机程序被构造为使计算机用作：生成单元，其被构造为生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据；学习单元，其被构造为使用学习数据进行学习模型的学习处理；以及计算单元，其被构造为基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

通过以下(参照附图)对示例性实施例的描述，本发明的其他特征将变得明显。

附图说明

图1是示出系统的配置的示例的框图；

图2是示出信息处理装置10的功能配置的示例的框图；

图3是由系统进行的处理的流程图；

图4是示出GUI400的结构的示例的图；

图5是示出系统的功能配置的示例的框图；

图6是由信息处理装置20进行以生成模型数据的处理的流程图；

图7是示出系统的功能配置的示例的框图；

图8是由系统进行的处理的流程图；

图9是示出系统的功能配置的示例的框图；

图10是由系统进行的处理的流程图；

图11是示出系统的功能配置的示例的框图；

图12是由系统进行的处理的流程图；

图13是示出系统的功能配置的示例的框图；

图14是由系统进行的处理的流程图；和

图15是示出计算机装置的硬件配置的示例的框图。

具体实施方式

现在将参照附图描述本发明的实施例。注意，稍后将描述的实施例是本发明的详细实施的示例或所附权利要求书中描述的配置的详细实施例。

[第一实施例]

在本实施例中，将描述被构造为计算机动车的位置和/或姿势(在下文中，“位置和/或姿势”将称作位置/姿势)以进行机动车的自动驾驶的系统。将参照图1的框图描述根据本实施例的系统的配置的示例。

摄像单元11固定地附装到机动车1的挡风玻璃的背侧、朝向机动车1的前进方向(由箭头所示的方向)，并且拍摄前进方向上的环境(物理空间或场景)的移动图像(movie)。由摄像单元11拍摄的移动图像的各个帧的图像(拍摄图像)输出到信息处理装置10。摄像单元11是例如能够拍摄彩色移动图像的摄像机(RGB彩色摄像机)。注意，摄像单元11的附装位置不限于特定的附装位置，只要是能够拍摄机动车1的前进方向上的环境的位置即可。另外，提前校准机动车1与摄像单元11之间的相对位置/姿势关系，将该相对位置/姿势关系作为已知的信息(偏置信息(bias information))登记在信息处理装置10中。

显示单元12固定地附装在机动车1的仪表板附近并且包括触摸屏画面(touchpanel screen)。显示单元12可以显示从信息处理装置10或驾驶控制单元13输出的各种信息，由此向机动车1中的驾驶员或乘员提供各种信息。另外，机动车1中的驾驶员或乘员可以在触摸屏画面上进行诸如触摸操作和轻扫(swipe)操作等的各种操作输入，由此对信息处理装置10进行各种输入。注意，显示单元12无需始终包括触摸屏画面，并且可以包括：显示画面，其被构造为显示信息；和诸如按钮群等的用户界面，其用于接收来自机动车1中的驾驶员或乘员的操作输入。

信息处理装置10基于由摄像单元11拍摄的图像，估计机动车1行驶所在的场景的几何信息和机动车1的位置/姿势，并且将所估计的几何信息和机动车1的位置/姿势输出到驾驶控制单元13。信息处理装置10还进行对用于估计待使用的学习模型的学习处理。另外，信息处理装置10将待显示的各种信息输出到显示单元12。

驾驶控制单元13基于从信息处理装置10输出的几何信息和位置/姿势，决定机动车1的车轮的旋转扭矩和机动车1的前进方向，并且向致动器单元14通知所决定的旋转扭矩和前进方向。致动器单元14基于从驾驶控制单元13通知的车轮的旋转扭矩和前进方向，控制机动车1的车轮的驱动。注意，由驾驶控制单元13决定的信息不限于机动车1的车轮的旋转扭矩和机动车1的前进方向，并且可以是任何信息，只要与机动车1的驾驶控制有关即可。例如，可以是与机动车1的制动或闪光(blinker)有关的信息。致动器单元14基于来自驾驶控制单元13的信息，控制机动车1的车轮的驱动。

如上所述，机动车1是通过基于拍摄图像估计的几何信息和位置/姿势来决定机动车1的车轮的旋转扭矩和前进方向，并且基于旋转扭矩和前进方向控制机动车1的车轮的驱动，由此进行自动驾驶的机动车。

接下来，将参照图2的框图描述信息处理装置10的功能配置的示例。注意，图2所示的组件仅是能够实施将稍后描述的作为由信息处理装置10待进行的处理的各个处理的组件的示例。例如，数个功能单元可以集成在一个功能单元中，或者一个功能单元可以在功能基础上分割成多个功能单元。控制单元199控制整个信息处理装置10的操作。

保持单元101保持存在于机动车1行驶所在的环境中的在该机动车1周围的物体的模型数据。“存在于机动车1行驶所在的环境中的在该机动车1周围的物体”是例如存在于机动车1行驶所在的环境中的物理物体，诸如道路、标识、交通信号、建筑物、自然物、人、动物、机动车或自行车等。另外，例如，在物体表现为多边形的情况下，“物体的模型数据”包括多边形数据(各个多边形的法线向量、多边形的顶点的三维坐标、多边形的颜色和属性等)以及纹理数据。在物体表现为点群的情况下，“物体的模型数据”包括点群中的各个点的三维坐标。另外，各个点均可以具有颜色信息。如上所述，物体的模型数据可以是任何数据，只要是代表物体的几何形状的数据即可。

显示控制单元102控制显示单元12上的显示，并且获取机动车1中的驾驶员或乘员通过对显示单元12进行诸如触摸操作或轻扫操作等的操作而输入的参数(视点参数和环境参数)。

视点参数是与设定在由如下虚拟物体(模型)形成的虚拟空间中的视点(虚拟视点)有关的参数，并且包括例如配置参数、摄像参数和移动速度参数：基于通过保持单元101保持的模型数据而生成的虚拟物体。配置参数包括诸如各个虚拟视点在虚拟空间中的位置/姿势和虚拟视点的数量等的参数。摄像参数包括：虚拟视点的内部参数，诸如各个虚拟视点的焦距和主点等；以及诸如各个虚拟视点的曝光时间和焦点位置等的参数。移动速度参数是代表虚拟视点的移动速度的参数。

另一方面，环境参数是与由基于通过保持单元101保持的模型数据生成的虚拟物体(模型)所形成的虚拟空间有关的参数，并且包括例如照明参数、物体参数和地域参数。照明参数是用于限定基于时间、季节、天气状态等的改变而改变的照明条件的参数。物体参数是与配置在虚拟空间中的模型的类型、数量、位置、姿势、尺寸等有关的参数。地域参数是诸如机动车1行驶所在的国家、地点和地域的名称和位置，以及基于地域的法律和法令的规定(例如，道路的行车道是右还是左、高速公路的最大速度)等的参数。

显示控制单元102将机动车1中的驾驶员或乘员通过操作显示单元12输入的视点参数输出到输入单元103，并且将机动车1中的驾驶员或乘员通过操作显示单元12输入的环境参数输出到输入单元104。

输入单元103将从显示控制单元102接收到的视点参数输出到生成单元105，输入单元104将从显示控制单元102接收到的环境参数输出到生成单元105。注意，将视点参数和环境参数输入到生成单元105的方法不限于上述方法，例如，可以将提前登记在配设于信息处理装置10内的存储器中的视点参数和环境参数输入到生成单元105。

生成单元105生成代表由通过保持单元101保持的模型数据和从输入单元104输入的环境参数限定的虚拟空间的、从由输入自输入单元103的视点参数限定的虚拟视点观察时的图像(虚拟空间图像)。另外，生成单元105生成从虚拟视点观察时的虚拟空间的几何信息(深度图)。例如，生成单元105基于通过保持单元101保持的模型数据生成模型，并且按照由包括在环境参数中的物体参数限定的数量、位置、姿势、尺寸等将该模型配置在虚拟空间中，由此构建出虚拟空间。注意，按照例如由地域参数限定的规定来配置模型。例如，当配置机动车的模型时，按照由地域参数限定的各个地域的规定来决定是否将模型配置在右车道或左车道上。生成单元105生成代表在由包括在环境参数中的照明参数限定的照明条件下，所构建的虚拟空间的从由视点参数限定的虚拟视点观察时的图像，作为虚拟空间图像。注意，由生成单元105生成的虚拟空间图像优选与由摄像单元11拍摄的图像中的外观类似。如果视点参数和环境参数被适当地设定为符合机动车1的设计信息、驾驶状况和驾驶环境，则所生成的虚拟空间图像与由摄像单元11拍摄的图像的外观类似。因此，能够精确地进行位置/姿势计算。生成单元105还生成所构建的虚拟空间的从虚拟视点观察时的几何信息。注意，在本实施例中，虚拟空间图像和几何信息(深度图)是以相同或几乎相同的比例尺，即以预定范围内的比例尺生成的。更具体地，虚拟空间图像和几何信息(深度图)是通过以相同或几乎相同的视角，即以预定范围内的视角进行描绘(渲染)而生成的。然后，生成单元105将所生成的虚拟空间图像和几何信息的集合作为学习数据输出到生成单元106。注意，生成单元105改变从输入单元103输入的视点参数或从输入单元104输入的环境参数，由此生成不同的“视点参数和环境参数的集合”。例如，可以改变包括在环境参数中的照明参数，以生成与各种照明条件(时间、季节、天气状态等)对应的环境参数。可选地，可以改变包括在环境参数中的物体参数，以生成与如下各种模型配置状态对应的环境参数：添加待配置在虚拟空间中的模型或删除模型。另外，可以改变包括在环境参数中的地域参数，以生成与各种地域对应的环境参数。生成单元105生成与各个集合对应的学习数据，由此生成与各种视点参数或各种环境参数对应的学习数据。另外，当生成学习数据时，针对诸如标识或交通信号等的对于机动车1的自动驾驶而言重要的对象，可以提高图像的细节度(可以降低压缩率)。

针对从生成单元105接收到的各个学习数据，生成单元106获得从输入有包括在该学习数据中的虚拟空间图像的学习模型所输出的信息与包括在该学习数据中的几何信息(监督数据)之间的差异。然后，生成单元106更新学习模型，使得对于各个学习数据而言差异均是小的，由此进行学习模型的学习处理(诸如反向传播等的方法)。在本实施例中，将描述对学习模型应用CNN(Convolutional Neural Network，卷积神经网络)的情况。然而，可以使用任何学习模型，只要是被构造为当输入图像时输出相应的几何信息的学习模型即可。例如，可以使用机器学习的模型作为学习模型，学习模型不限于CNN。

通过生成与各种状况(状态)对应的学习数据并将学习数据用于学习模型的学习，可以生成较鲁棒的学习模型。生成单元106将所学习的学习模型存储在保持单元107中。

输入单元108获取从摄像单元11输出的各个帧的拍摄图像(图像信息)，并且将所获取的拍摄图像输出到后续阶段的估计单元109、计算单元110和生成/更新单元111。输入单元108由例如图像拍摄板形成。

估计单元109读出存储在保持单元107中的学习模型，并且将从输入单元108接收到的拍摄图像输入到所读出的学习模型，由此将从学习模型输出的几何信息输出到后续阶段的计算单元110和生成/更新单元111。

注意，在本实施例中，拍摄图像和从学习模型输出的几何信息具有相同或几乎相同的比例尺。即，拍摄图像和从学习模型输出的几何信息具有相同或几乎相同的视角。这能够通过对拍摄图像、由生成单元105生成的虚拟空间图像和几何信息设定相同或几乎相同视角来实现。如果拍摄图像的比例尺与从学习模型输出的几何信息的比例尺不同，则使从学习模型输出的几何信息乘以视角的比率，由此将比例尺调整为拍摄图像的比例尺。

计算单元110使用从输入单元108发出的拍摄图像和从估计单元109发出的几何信息获得摄像单元11的位置/姿势，并且使用上述偏置信息将所获得的位置/姿势转换为机动车1的位置/姿势。然后，计算单元110将转换后的机动车1的位置/姿势和从估计单元109输出的几何信息发到后续阶段的驾驶控制单元13和生成/更新单元111。

这里，将描述通过计算单元110计算摄像单元11的位置/姿势的方法的示例。更具体地，基于从输入有时间t之前的时间t’拍摄的拍摄图像(前一帧(preceding frame))的学习模型所输出的几何信息(前一几何信息)，使前一帧的各个像素射影到在时间t拍摄的拍摄图像(当前帧)。这里，“射影”是指计算前一帧的各个像素在当前帧中所在的位置。更具体地，使用前一帧中的关注像素的图像坐标(u_t-1，v_t-1)、摄像单元11的内部参数(f_x，f_y，c_x和c_y)以及该关注像素在前一几何信息中的深度值D，计算单元110计算

因而，计算单元110可以获得该关注像素在前一帧的摄像机坐标系上的三维坐标(X_t-1，Y_t-1，Z_t-1)。

这里，摄像机坐标系是例如原点位于摄像单元11的位置(例如，图像传感器的位置)处并使用在该原点处彼此正交的三个轴(包括在该原点处相对于摄像单元11的视轴方向彼此正交的两个轴和沿摄像单元11的视轴方向的一个轴总共三个轴)作为X轴、Y轴和Z轴的坐标系。

这里，令t_(t-1)→t是拍摄当前帧的摄像单元11的位置相对于拍摄前一帧的摄像单元11的位置的变换矩阵，令R_(t-1)→t是拍摄当前帧的摄像单元11的姿势相对于拍摄前一帧的摄像单元11的姿势的变换矩阵。此时，使用t_(t-1)→t和R_(t-1)→t，计算单元110计算

由此，获得该关注像素在当前帧的摄像机坐标系上的三维坐标(X_t，Y_t，Z_t)。

接下来，计算单元110计算

由此，将该关注像素在当前帧的摄像机坐标系上的三维坐标(X_t，Y_t，Z_t)转换为当前帧的图像坐标(u_t，v_t)。

在本实施例中，将根据上式(1)至(3)的处理称作射影。计算单元110使用诸如在前一帧中单独获得的角或边缘等的特征点作为关注像素进行该射影，或者使用所有像素作为关注像素进行该射影，由此获得当前帧中的相应图像坐标。然后，计算单元110计算t_(t-1)→t和R_(t-1)→t，使得前一帧中的在图像坐标(u_t-1，v_t-1)处的像素的亮度值与当前帧中的作为该像素的射影目的地的像素(图像坐标是(u_t，v_t))的亮度值之间的亮度差最小。

使用拍摄前一帧的摄像单元11在世界坐标系上的位置t_w→(t-1)和姿势R_w→(t-1)，计算单元110计算

因而，计算单元110计算拍摄当前帧的摄像单元11在世界坐标系上的位置t _w→t和姿势R_w→t。

这里，世界坐标系是在物理空间中的一个点处具有原点且使用在该原点处彼此正交的三个轴作为X轴、Y轴和Z轴的坐标系。注意，计算单元110可以使用除了来自估计单元109的几何信息以外的由生成/更新单元111生成/更新的三维地图，并且使用SLAM(同时定位和映射)技术，计算摄像单元11的位置/姿势。使用K.Tateno、F.Tombari、I.Laina和N.Navab，“CNN-SLAM：Real-time dense monocular SLAM with learned depthprediction”，IEEE国际计算机视觉与模式识别会议(CVPR)，2017的方法，或者使用Engel等人的方法(J.Engel、和D.Cremers.LSD-SLAM：Large-Scale Direct MonocularSLAM.欧洲计算机视觉国际会议(ECCV)，2014)，可以进行位置/姿势的计算。当使用SLAM技术生成/更新三维地图时，可以为一旦行驶的道路积累几何信息。

生成/更新单元111使用从输入单元108输入的拍摄图像、从估计单元109输入的几何信息和从计算单元110输入的位置/姿势，生成和更新机动车1行驶所在的环境中的三维地图。生成/更新单元111将所生成/更新的三维地图输出到计算单元110和驾驶控制单元13。

在本实施例中，当同时进行使用SLAM技术对机动车的位置/姿势的计算和环境的三维地图的生成时，使用三维地图。例如，三维地图可以是点群数据和颜色信息的组合，或者可以是具有深度图和颜色信息且与在环境中的位置/姿势相关联的关键帧信息的集合。

接下来，将参照图3的流程图描述通过根据本实施例的系统进行的处理。在步骤S101中，在控制单元199的控制下，在信息处理装置10中进行初始化处理。在初始化处理中，例如，生成单元105从保持单元101读出模型数据，计算单元110读出摄像单元11的内部参数。因而，在初始化处理中，各个功能单元均读出或设定由自身待使用以执行处理的数据。例如，开始初始化处理的时刻是当机动车1的驾驶员开始控制机动车1之时，或者是当模式从手动驾驶模式切换为自动驾驶模式时的时间。

在步骤S102中，显示控制单元102在显示单元12的显示画面上显示GUI(图形用户界面)，GUI被构造为供机动车1中的驾驶员或乘员设定视点参数和环境参数。图4示出了在步骤S102中的显示在显示单元12上的GUI400的结构的示例。

在GUI400中，区域41是配置有用于设定视点参数的操作单元的区域，区域42是配置有用于设定环境参数的操作单元的区域。

首先，将描述区域41。标签41a用于选择虚拟视点作为被设定配置参数的对象。例如，当用户在显示画面上指定标签41a时，可以在列表中显示能够设定配置参数的虚拟视点的名称，用户从显示在该列表中的名称当中指定用于设定配置参数的虚拟视点的名称。在图4中，指定了虚拟视点“摄像机1”。

区域41b是用于输入虚拟视点在虚拟空间中的位置的区域。例如，当用户在显示画面上指定区域41b时，会在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将位置(数值)输入到区域41b。输入到区域41b的位置是在基于作为基准的机动车1的坐标系上的位置，并且优选是与摄像单元11的位置几乎相同的位置(特别地，具有与摄像单元11几乎相同高度的位置)。

区域41c是用于输入虚拟视点在虚拟空间中的姿势的区域。例如，当用户在显示画面上指定区域41c时，会在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将姿势(数值)输入到区域41c。输入到区域41c的姿势是在基于作为基准的机动车1的坐标系上的姿势，并且优选是与摄像单元11的姿势几乎相同的姿势(特别地，摄像单元11的视轴方向与虚拟视点的姿势几乎相同的姿势)。可以通过标签41a以及区域41b和41c设定包括在视点参数中的配置参数。

标签41d用于选择虚拟视点作为被设定摄像参数的对象。例如，当用户在显示画面上指定标签41d时，可以在列表中显示能够设定摄像参数的虚拟视点的名称，用户从显示在该列表中的名称当中指定用于设定摄像参数的虚拟视点的名称。在图4中，指定了虚拟视点“摄像机1”。

区域41e是用于输入虚拟视点的焦距的区域。例如，当用户在显示画面上指定区域41e时，在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将焦距(数值)输入到区域41e。

区域41f是用于输入虚拟视点的曝光时间的区域。例如，当用户在显示画面上指定区域41f时，在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将曝光时间(数值)输入到区域41f。可以通过标签41b以及区域41e和41f设定包括在视点参数中的摄像参数。

区域41g是用于输入虚拟视点的移动速度的下限的区域。例如，当用户在显示画面上指定区域41g时，会在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将移动速度的下限(数值)输入到区域41g。

区域41h是用于输入虚拟视点的移动速度的上限的区域。例如，当用户在显示画面上指定区域41h时，在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将移动速度的上限(数值)输入到区域41h。

作为移动速度的上限/下限，可以输入机动车1的驾驶员通常驾驶的速度的范围的上限/下限，或者可以输入机动车1能够达到的最大速度作为移动速度的上限。作为包括在视点参数中的移动速度参数，设定在从移动速度的上限至下限的范围内的速度中的一个速度(例如，从移动速度的上限至下限的以10km/h的间隔的移动速度中的一个移动速度)。

接下来，将描述区域42。区域42a是用于输入时间的区域。例如，当用户在显示画面上指定区域42a时，在显示画面上显示用于输入数值的用户界面，用户使用该用户界面将时间(数值)输入到区域42a。可选地，可以将诸如早晨、白天、傍晚或夜晚等的时间带输入到区域42a，或者可以在区域42b处选择该时间带。

标签42b用于选择季节。例如，当用户在显示画面上指定标签42b时，在列表中显示四个季节，即春、夏、秋和冬，用户指定显示在该列表中的四个季节(春、夏、秋和冬)当中的一个季节。在图4中，指定了季节“春”。

标签42c用于选择天气状态。例如，当用户在显示画面上指定标签42c时，会显示诸如晴、阴、雨和雪等的天气状态的列表，用户从该列表中指定一种天气状态。在图4中，指定了天气状态“晴”。可以通过区域42a以及标签42b和42c设定包括在环境参数中的照明参数。

标签42d用于选择待配置在虚拟空间中的模型的类型。例如，当用户在显示画面上指定标签42d时，在列表中显示能够配置在虚拟空间中的模型的类型，用户从该列表中指定一种类型。在图4中，指定了类型“人”。

标签42e用于选择通过标签42d指定的模型的数量(待配置在虚拟空间中的模型的数量)。例如，当用户在显示画面上指定标签42e时，显示待配置的模型数量的列表，即多、中等、少等，用户从该列表中指定一个项目。在图4中，指定了项目“多”。

标签42f用于选择代表如何配置通过标签42d指定的模型的配置方法。例如，当用户在显示画面上指定标签42f时，在列表中显示模型配置方法，用户指定显示在列表中的配置方法当中的一种配置方法。在图4中，指定了位置“随机”。在图4的情况下，由于待配置的模型的类型是“人”，模型的数量是“多”，模型配置方法是“随机”，所以生成单元105会在虚拟空间中以随机的方式配置许多(以与“多”对应的数量)人的模型。可以通过标签42d、42e和42f设定包括在环境参数中的物体参数。

标签42g用于选择与所构建的虚拟空间对应的国家。例如，当用户在显示画面上指定标签42g时，显示国家的列表，用户从该列表中指定一个国家。在图4中，指定了国家“日本”。

标签42h用于选择通过标签42g指定的国家中的地域。例如，当用户在显示画面上指定标签42h时，显示地域的列表，用户从该列表中指定一个地域。在图4中，指定了地域“关东”。

在图4的情况下，由于与所构建的虚拟空间对应的国家是“日本”，地域是“关东”，所以生成单元105会按照与例如国家“日本”和地域“关东”对应的规定配置模型。可以通过标签42g和42h设定包括在环境参数中的地域参数。

注意，能够在图4所示的GUI400中设定的信息的设定方法不限于上述方法。例如，位置指定方法不限于数值的输入，并且例如，可以选择虚拟空间中的代表性位置当中的一个代表性位置。另外，例如，姿势指定方法不限于数值的输入，并且例如，可以选择虚拟空间中的代表性姿势当中的一个代表性姿势(例如，前、后、右和左)。另外，例如，模型的数量的指定方法不限于上述方法，可以输入具体的数量。此外，视点参数和环境参数的设定方法不限于特定的设定方法。另外，用户可以输入除了上述视点参数和环境参数以外的其他参数。

当完成使用上述GUI400进行视点参数和环境参数的设定时，用户在显示画面上指定按钮43。当指定了按钮43时，显示控制单元102将上述GUI400从显示画面移除，并且基于经由GUI400输入的信息设定视点参数和环境参数。例如，显示控制单元102将在标签41a以及区域41b和41c中设定的内容设定为包括在视点参数中的配置参数。另外，显示控制单元102将在标签41d以及区域41e和41f中设定的内容设定为包括在视点参数中的摄像参数。另外，显示控制单元102将在从输入到区域41h的上限至输入到区域41g的下限这一范围内的速度中的一个速度设定为包括在视点参数中的移动速度参数。另外，例如，显示控制单元102将在区域42a和标签42b和42c中设定的内容设定为包括在环境参数中的照明参数。另外，显示控制单元102将在标签42d、42e和42f中设定的内容设定为包括在环境参数中的物体参数。另外，显示控制单元102将在标签42g和42h中设定的内容设定为包括在环境参数中的地域参数。

显示控制单元102将视点参数输出到输入单元103并将环境参数输出到输入单元104。输入单元103将从显示控制单元102接收到的视点参数输出到生成单元105，输入单元104将从显示控制单元102接收到的环境参数输出到生成单元105。

在步骤S103中，生成单元105改变在GUI400上设定的包括在视点参数和环境参数中的各种参数当中的至少一种，以生成彼此不同的、多个“视点参数和环境参数”的集合。例如，当改变移动速度参数时，移动速度参数在从输入到区域41h的上限至输入到区域41g的下限这一范围内改变。因此，能够生成与在从输入到区域41h的上限至输入到区域41g的下限这一范围内的多个移动速度中的各个移动速度对应的移动速度参数，并且因此，能够生成与该多个移动速度中的各个移动速度对应的视点参数。

注意，可以通过多次使用GUI400重复进行上述参数设定，设定彼此不同的、多个“视点参数和环境参数”的集合。然后，生成单元105对各个集合生成虚拟空间图像和几何信息的集合作为学习数据。这里，在由具有较高移动速度的摄像机拍摄的图像中，会出现比由具有较低移动速度的摄像机拍摄的图像强的模糊。如上所述，由生成单元105生成的虚拟空间图像优选与在相同条件下由摄像单元11拍摄的图像中的外观类似。为此，与移动速度相对应的模糊优选也出现在虚拟空间图像中。因此，生成单元105与虚拟空间图像的对应移动速度相对应地进行模糊处理(使模糊涂抹)。因此，例如，在来自较高移动速度的虚拟视点的虚拟空间图像中，出现比来自较低移动速度的虚拟视点的虚拟空间图像中的模糊强的模糊，并且虚拟空间图像与在相同条件下由摄像单元11拍摄的图像中的外观类似。

在步骤S104中，生成单元106使用由生成单元105生成的学习数据进行学习模型的学习处理。在步骤S105中，生成单元106将在步骤S104中所学习的学习模型存储在保持单元107中。

在步骤S106中，摄像单元11将拍摄图像输出到后续阶段的输入单元108。在步骤S107中，输入单元108获取从摄像单元11输出的拍摄图像，并且将所获取的拍摄图像输出到后续阶段的估计单元109、计算单元110和生成/更新单元111。

在步骤S108中，估计单元109根据从输入单元108接收到的拍摄图像估计几何信息。在该估计处理中，估计单元109读出存储在保持单元107中的学习模型，并且获取从输入有从输入单元108接收到的拍摄图像的所读出的学习模型所输出的几何信息作为估计结果。估计单元109将该几何信息输出到后续阶段的计算单元110和生成/更新单元111。

在步骤S109中，计算单元110使用从输入单元108发出的拍摄图像和从估计单元109发出的几何信息，获得摄像单元11的位置/姿势，并且使用上述偏置信息将所获得的位置/姿势转换为机动车1的位置/姿势。然后，计算单元110将转换后的机动车1的位置/姿势和从估计单元109输出的几何信息发到后续阶段的驾驶控制单元13和生成/更新单元111。

步骤S110的处理是仅在完成使用SLAM技术的设定时进行的处理。如果使用SLAM技术的设定未完成，则在步骤S109之后，处理跳过步骤S110并进入到步骤S111。

在步骤S110中，生成/更新单元111使用从输入单元108输入的拍摄图像、从估计单元109输入的几何信息和从计算单元110输入的位置/姿势，生成并更新机动车1行驶所在的环境中的三维地图。然后，生成/更新单元111将所生成/更新的三维地图输出到计算单元110和驾驶控制单元13。生成/更新单元111在各个处理中或在预定时刻(例如，数次中的一次)对三维地图进行优化处理，使三维地图逐渐变为精确的地图。

注意，当完成使用SLAM技术的设定时，除了来自估计单元109的几何信息以外，计算单元110还可以使用由生成/更新单元111生成/更新的三维地图、使用SLAM技术，计算摄像单元11的位置/姿势。

在步骤S111中，驾驶控制单元13基于从计算单元110输出的几何信息或从生成/更新单元111输出的三维地图、以及从计算单元110输出的位置/姿势，决定机动车1的车轮的旋转扭矩和机动车1的前进方向。首先，驾驶控制单元13识别机动车1在如下空间中的位置(从计算单元110输出的位置)的周围环境：具有由从计算单元110输出的几何信息或从生成/更新单元111输出的三维地图所代表的几何形状的空间。识别机动车1的位置的周围环境是指例如识别在距机动车1多远的距离处在什么方向上存在哪种物体。此外，可以接收通过周围环境识别单元(未示出)识别位于机动车1外围的物体(例如，存在于机动车1行驶所在的环境中的物体，诸如道路、标识、交通信号、建筑物、自然物、人、动物、机动车、自行车等)的类型、数量和位置/姿势的结果，作为周围环境。

然后，驾驶控制单元13从机动车1的位置/姿势和机动车1的周围环境获得驾驶控制信息，以在避开诸如车辆和人等的障碍物的同时遵照交通信息(标识和交通信号)在道路上自动或半自动驾驶，并且驾驶控制单元13输出驾驶控制信息。驾驶控制信息是包括机动车1的车轮的旋转扭矩和前进方向的信息。驾驶控制信息还可以包括制动、转弯的方向等。如上所述，驾驶控制信息是用于控制机动车1以实现机动车1的自动驾驶或半自动驾驶的信息，包括在驾驶控制信息中的信息不限于特定的信息。

驾驶控制单元13将所获得的驾驶控制信息发到显示单元12和致动器单元14。因而，机动车1的驾驶控制信息作为文字或图像显示在显示单元12的显示画面上。

在步骤S112中，致动器单元14遵照来自驾驶控制单元13的驾驶控制信息，控制机动车1的车轮的驱动。注意，存储在地图信息存储单元(未示出)中的地图信息可以用于机动车1的驾驶控制。

在步骤S113中，控制单元199确定是否满足根据图3的流程图的处理的结束条件。例如，如果机动车1到达目的地，或者机动车1中的驾驶员或乘员在显示单元12的显示画面上指示系统停止，则控制单元199确定满足结束条件。作为确定的结果，如果满足结束条件，则结束根据图3的流程图的处理。如果不满足结束条件，则处理返回到步骤S106。

注意，在图3中，在步骤S110与步骤S113之间执行步骤S111和S112的处理。然而，步骤S111和S112的处理可以与根据图3的流程图的处理并行地执行。如上所述，在包括本实施例的以下实施例和变型例中，流程图中示出的各个处理步骤的处理无需始终以流程图中示出的顺序执行，并且执行顺序可以依据处理步骤而改变。另外，一些处理步骤可以与其他处理步骤并行地执行。

如上所述，在本实施例中，适当地设定视点参数和环境参数，并且使在学习模型的学习中使用的虚拟空间图像中的场景的外观与通过摄像单元获得的拍摄图像中所包括的场景的外观类似。当使用通过使用“场景的外观与通过摄像单元获得的拍摄图像中的场景的外观类似的虚拟空间图像”所学习的学习模型时，能够更精确地估计与由摄像单元实际拍摄的拍摄图像对应的几何信息。

<第一变型例>

在第一实施例中，使用深度图作为几何信息。然而，几何信息可以是任何信息，只要是代表从虚拟视点可视的虚拟空间的几何形状的信息即可。

另外，在第一实施例中，使用机动车1作为车辆的示例。然而，即使使用除了机动车1以外的车辆代替机动车1，第一实施例也同样适用。

另外，在第一实施例中，用户经由GUI400输入视点参数和环境参数。然而，本发明不限于此。例如，输入单元103和104可以分别获取提前创建并登记在配设于信息处理装置10内部或外部的设备(存储器、服务器等)中的视点参数和环境参数，并且将视点参数和环境参数输出到生成单元105。

<第二变型例>

摄像单元11不限于RGB彩色摄像机，并且可以是灰度摄像机或红外摄像机。另外，配置摄像单元11的位置不限于挡风玻璃的背侧，并且可以是机动车1的上部外侧、前部外侧或内侧，或者可以是机动车1的侧镜部。可以在机动车1中配设和配置多个摄像单元11，以不仅拍摄相对于机动车1的前进方向的前方，而且还拍摄斜前方、横向、斜后方和后方。

<第三变型例>

如上所述，显示单元12无需始终包括触摸屏画面，并且可以是例如配设在机动车1的挡风玻璃或仪表板上的HUD(Head-Up Display，平视显示器)。

<第四变型例>

如上所述，各种数据能够应用于模型数据。例如，使用三维测量单元或摄像单元获得的实际环境中的颜色信息和距离数据(点群数据)的组合可以用作模型数据。可选地，包括使用三维测量单元或摄像单元获得的颜色信息和深度图且与在环境中的位置/姿势相关联的的关键帧信息可以用作模型数据。

<第五变型例>

如上所述，将视点参数和环境参数输入到信息处理装置10的方法不限于特定的输入方法。例如，包括在视点参数中的配置参数和摄像参数可以基于机动车1或摄像单元11的制造商、型号或配置信息提前设定在信息处理装置10中，或者可以从摄像单元11获取并设定在信息处理装置10中。可选地，作为GUI400的相应部分中的初始值，可以显示提前设定在信息处理装置10中或从摄像单元11获取的参数。

另外，可以使用由摄像单元11拍摄的图像或者搭载于摄像单元11或机动车1的重力方向传感器，获取摄像单元11距路面的高度(垂直方向上的距离)，可以将所获取的高度设定为在虚拟空间中虚拟视点距路面的高度。

另外，可以基于由摄像单元11拍摄的图像、由估计单元109估计的几何信息和由生成/更新单元111生成的三维地图，通过识别存在于场景中的物体，获得包括在环境参数中的照明参数和物体参数。为了识别物体，可以使用由机器学习或CNN代表的深度学习。另外，可以在所有组合中提前设定照明参数和物体参数。此外，地域参数可以基于使用GPS信息测量的当前位置设定，或者可以由机动车经销商的负责人设定。

另外，在第一实施例中，学习数据是基于视点参数和环境参数生成的。然而，可以使用除了视点参数和环境参数以外的参数生成学习数据。作为除了视点参数和环境参数以外的参数，可以使用与机动车1的驾驶员有关的参数。例如，可以由机动车1中的驾驶员或乘员经由诸如GUI400等的用户界面输入通常驾驶机动车1的时间、地点、速度等。可选地，可以在存储介质中保持机动车1的驾驶状况，并且可以从该存储介质读出该驾驶状况。如果已知诸如机动车1的驾驶员通常驾驶的时间、地点和速度等的用户参数，则生成单元105可以使用该参数生成与该用户相适应的学习数据，并且因此，改善了位置/姿势的估计精度。这也应用于其他实施例和变型例，并且除了视点参数和环境参数以外还可以使用其他参数。

<第六变型例>

由信息处理装置10估计的摄像单元11的位置/姿势的使用目的不限于机动车的自动驾驶。即，信息处理装置10可以应用于需要基于通过摄像单元11获得拍摄图像，较精确地获取摄像单元11或包括摄像单元11的装置的周围环境或位置/姿势的领域。

例如，所计算的位置/姿势、所估计的几何信息和所生成的三维地图可以应用于例如机动车的驾驶辅助(半自动驾驶)或对由人驾驶的机动车的状况的显示。所计算的位置/姿势、所估计的几何信息和所生成的三维地图可以用于对按照工序在工厂或物流仓库中行驶的诸如搬运车辆(AGV(自动引导车辆))等的移动体的移动控制。可选地，所计算的位置/姿势、所估计的几何信息和所生成的三维地图可以用于对在家中自主行动的服务机器人的移动控制，或者可以用于使物理空间与混合现实/增强现实中的虚拟物体之间的对准。

<第七变型例>

学习模型不限于CNN，并且可以是例如机器学习的模型或可以是强化学习的模型。注意，使用与待使用的学习模型的学习处理对应的数据(例如，图像和几何信息的集合)，作为学习数据。

[第二实施例]

在包括本实施例的以下实施例和变型例中，将描述与第一实施例的区别。除非另有具体说明，假定其余部分与第一实施例中的相同。在本实施例中，通过与包括信息处理装置10的机动车1不同的机动车2测量/拍摄物理空间，以生成物理空间的模型数据，并且将该模型数据登记在信息处理装置10的保持单元101中。

将参照图5的框图描述根据本实施例的系统的功能配置的示例。注意，图5中的信息处理装置10的功能配置与第一实施例(图2)中的相同，并且未图示出除了保持单元101以外的组件。

参照图5，上述机动车2中搭载有测量单元21、摄像单元22和信息处理装置20。这里，机动车2的摄像单元22的配置位置/姿势与机动车1的摄像单元11的配置位置/姿势不同。另外，机动车2在与机动车1不同的日期或在与机动车1不同的时刻行驶经过与机动车1相同的地点，并且进行稍后描述的测量和摄像。假定行驶经过的场景的状况略微不同。另外，机动车1和2的使用者可以不同。

测量单元21是附装到机动车2的上部且被构造为测量(三维测量)由代表机动车2外围(整个外围)的几何形状的点群形成的距离信息的传感器。测量单元21对机动车2行驶所在的环境中的场景进行三维测量，并且将该三维测量的结果作为距离信息输出到信息处理装置20。测量单元21是例如由Lidar(激光雷达)代表的有源范围传感器。注意，提前校准机动车2与测量单元21之间的相对位置/姿势关系，并且将该相对位置/姿势关系作为已知信息(偏置信息)登记在信息处理装置20中。

摄像单元22是被构造为对机动车2行驶所在的环境中的场景的移动图像进行拍摄的摄像设备，并且是例如RGB彩色摄像机。由摄像单元22拍摄的移动图像的各个帧的图像(拍摄图像)输出到信息处理装置20。多个摄像单元22放射状地附装到机动车2的上部，进而拍摄机动车2的外围(整个外围)的图像。注意，提前校准机动车2与摄像单元22之间的相对位置/姿势关系，并且将该相对位置/姿势关系作为已知信息(偏置信息)登记在信息处理装置20中。另外，提前校准测量单元21与摄像单元22之间的相对位置/姿势关系，并且将该相对位置/姿势关系作为已知信息(偏置信息)登记在信息处理装置20中。

接下来，将描述信息处理装置20。控制单元299控制整个信息处理装置20的操作。输入单元201获取从测量单元21输出的距离信息，并且将所获取的距离信息输出到后续阶段的生成单元203。输入单元202获取从摄像单元22(多个摄像单元22中的各个摄像单元22)输出的拍摄图像，并且将所获取的拍摄图像输出到后续阶段的生成单元203。

生成单元203使用从输入单元201输出的距离信息和从输入单元202输出的拍摄图像，生成机动车2行驶所在的环境的模型数据。在由生成单元203生成的模型数据中，由距离信息代表的点群中的各个点被相关联地赋予拍摄图像中的对应像素的颜色信息。由于测量单元21与摄像单元22之间的相对位置/姿势关系是已知的，所以能够使由距离信息代表的点群中的各个点和拍摄图像中的与该点对应的颜色信息相关联。

通过保持单元101保持由生成单元203生成的模型数据。作为将由生成单元203生成的模型数据存储在保持单元101中的方法，可以考虑各种方法。

例如，信息处理装置10和信息处理装置20可以经由有线/无线网络(因特网或Wi-Fi通信网络)连接，生成单元203可以经由网络将所生成的模型数据发送到信息处理装置10。在这种情况下，信息处理装置10的控制单元199将从信息处理装置20发送出的模型数据存储在保持单元101中。

另外，由生成单元203生成的模型数据可以不输出到信息处理装置10，而输出到诸如USB存储器等的存储设备。在这种情况下，当用户将存储器设备连接到信息处理装置10并进行将模型数据传送到保持单元101的操作输入时，控制单元199从存储器设备读出该模型数据并将该模型数据存储在保持单元101。

接下来，将参照图6描述由信息处理装置20进行的生成模型数据的处理，图6示出了该处理的流程图。注意，根据图6的流程图的处理是在根据图3的流程图的处理开始之前进行的处理。

在步骤S201中，控制单元299进行初始化处理，例如加载测量单元21的参数(传感器参数)、摄像单元22的参数(摄像机参数)、在以下各个处理的各个功能单元中待使用的数据等。开始初始化处理的时刻是例如用户开始控制机动车2之时。

在步骤S202中，测量单元21三维地测量机动车2的外围(整个外围)的场景以生成距离信息，并且将所生成的距离信息输出到信息处理装置20。

在步骤S203中，摄像单元22(各个摄像单元22)对机动车2的外围(整个外围)进行摄像，并且将通过该摄像获得的拍摄图像输出到信息处理装置20。

在步骤S204中，输入单元201获取从测量单元21输出的距离信息，并且将所获取的距离信息输出到生成单元203。在步骤S205中，输入单元202获取从摄像单元22输出的拍摄图像，并且将所获取的拍摄图像输出到生成单元203。

在步骤S206中，生成单元203使用从输入单元201输出的距离信息和从输入单元202输出的拍摄图像，生成机动车2行驶所在的环境的模型数据。

在步骤S207中，控制单元299确定是否满足系统的结束条件。例如，如果用户指示停止机动车2的系统，则控制单元299确定满足结束条件。作为确定的结果，如果满足结束条件，则结束根据图6的流程图的处理。另一方面，如果不满足结束条件，则处理返回到步骤S202。

当在机动车2的行驶期间重复进行步骤S202至S206的处理时，通过合成在步骤S206中生成的模型数据，能够生成机动车2行驶所在的整个场景的模型数据。通过在使距离信息(点群)彼此相关联的同时在相同坐标系上合成模型数据，进行模型数据的合成。

如上所述，根据本实施例，即使在包括信息处理装置10的系统(例如，机动车1)和包括信息处理装置20的系统(例如，机动车2)使用不同的视点参数和环境参数的情况下，也能够适当地设定参数。于是，用于生成学习模型的图像的场景的外观与包括在由摄像单元拍摄的输入图像中的场景的外观是类似的。结果，可以精确地计算待应用于机动车的自动驾驶等的位置/姿势。

<第一变型例>

在根据本实施例的模型数据中，由距离信息代表的点群中的各个点被相关联地赋予拍摄图像中的对应像素的颜色信息。然而，本发明不限于此。例如，在模型数据中，由距离信息代表的点群中的各个点可以被赋予提前创建的纹理中的对应像素的颜色信息。可选地，例如，在模型数据中，可以使提前生成的物体的多边形或点群与拍摄图像中的对应像素的颜色信息相关联。

<第二变型例>

在根据本实施例的模型数据中，由距离信息代表的点群中的各个点被相关联地赋予拍摄图像中的对应像素的颜色信息。然而，本发明不限于此。例如，模型数据可以是关键帧信息，该关键帧信息包括基于使用测量单元21或摄像单元22获得的颜色信息和距离信息而生成的深度图、包括颜色信息并与在环境中的位置/姿势相关联。可以使用例如GPS获得在环境中的位置/姿势。

<第三变型例>

在本实施例中，获取通过用多个摄像单元22拍摄机动车2的外围(整个外围)而获得的多张拍摄图像。然而，如果使用能够进行全景摄像的摄像机作为摄像单元22，则可以获取通过用该摄像单元22进行的全景摄像而获得的拍摄图像。另外，机动车2中可以搭载有能够进行全景摄像的多台摄像机，或者该摄像机可以与进行正常摄像的摄像机组合地搭载。

<第四变型例>

第一实施例中描述的模型数据可以存储在保持单元101中，并且可以用于生成虚拟空间图像和几何信息，随后可以用由信息处理装置20生成的模型数据替换保持单元101中的模型数据。“用由信息处理装置20生成的模型数据替换保持单元101中的模型数据”的时刻是例如“当通过信息处理装置20生成预定范围内的模型数据时”。这提高了位置/姿势估计的精确性。

[第三实施例]

在本实施例中，针对各个状况生成学习模型。当从拍摄图像估计几何信息时，使用与估计时的状况对应的学习模型进行该估计。将参照图7的框图描述根据本实施例的系统的功能配置的示例。

测量单元31是被构造为测量在机动车1行驶时与机动车1的视点(摄像单元11)有关的参数、测量与环境有关的参数或测量其他参数作为测量参数的传感器。

与机动车1的视点有关的参数包括例如配置参数、摄像参数和移动速度参数。配置参数包括诸如摄像单元11在基于作为基准的机动车1的坐标系上的位置/姿势(或摄像单元11距附装位置的高度)的参数和摄像单元11的数量等的参数。摄像参数包括诸如摄像单元11的焦距和主点等的摄像单元11的内部参数，以及诸如摄像单元11的曝光时间和焦点位置等的参数。移动速度参数是代表摄像单元11(机动车1)的移动速度的参数。

另一方面，环境参数是与机动车1行驶所在的环境有关的参数，并且包括例如照明参数、物体参数和地域参数。照明参数是用于限定基于时间、季节、天气状态等的改变而改变的照明条件的参数。物体参数是与机动车1行驶所在的环境中的物体(例如，存在于机动车1行驶所在的环境中的物体，诸如道路、标识、交通信号、建筑物、自然物、人、动物、机动车、自行车等)的类型、数量、位置、姿势、尺寸等有关的参数。地域参数是诸如机动车1行驶所在的国家、地点、地域的名称和位置等的参数。

生成单元305在以下方面与生成单元105不同。即，与生成单元105相似，生成单元305生成多个学习数据，但是生成单元305针对各个预定状况生成多个学习数据的集合。例如，假定输入到区域41h的上限是“150km/h”，输入到区域41g的下限是“0km/h”。此时，与生成单元105相似，生成单元305使用针对具有包括在“0km/h至49km/h”的速度范围中的移动速度参数的各个视点参数的该视点参数、环境参数和模型数据，生成学习数据。此时，当其他参数也改变时，能够生成与各种参数的组合对应的学习数据。以相同的方式，与生成单元105相似，生成单元305使用针对具有包括在“100km/h至150km/h”的速度范围中的移动速度参数的各个视点参数的该视点参数、环境参数和模型数据，生成学习数据。因而，生成单元305能够针对各个状况生成多个学习数据的集合。

针对各个状况，与生成单元106相似，生成单元306使用由生成单元305针对该状况生成的多个学习数据的集合，进行学习模型的学习，由此针对各个预定状况生成学习模型。在上述示例中，生成诸如如下的多个学习模型：与“0km/h至49km/h”的速度范围对应的学习模型、与“50km/h至99km/h”的速度范围对应的学习模型以及与“100km/h至150km/h”的速度范围对应的学习模型。生成单元306将针对各个预定状况生成的学习模型存储在保持单元307中。

输入单元308获取从测量单元31输出的测量参数，并且将所获取的测量参数输出到选择单元309。选择单元309选择由保持单元307保持的学习模型中的与从输入单元308输出的测量参数对应的学习模型作为所选择的学习模型，并且将该所选择的学习模型输出到估计单元109。估计单元109使用从选择单元309输出的学习模型，估计与来自摄像单元11的拍摄图像对应的几何信息。

例如，假定包括在测量参数中的移动速度参数是“30km/h”。此时，选择单元309选择与“0km/h至49km/h”、“50km/h至99km/h”和“100km/h至150km/h”对应的学习模型中的、与“0km/h至49km/h”(包括“30km/h”)对应的学习模型。然后，选择单元309将与“0km/h至49km/h”对应的学习模型输出到估计单元109，估计单元109使用该与“0km/h至49km/h”对应的学习模型，估计与来自摄像单元11的拍摄图像对应的几何信息。

随着机动车1的移动速度的增加，在通过摄像单元11获得的拍摄图像中出现强度与移动速度对应的模糊。准备与移动速度对应的多个学习模型是指生成包括与各个移动速度对应的模糊的学习数据，并且生成能够应对各种模糊的学习模型。因此，当选择出与机动车1的实际移动速度相适应的学习模型时，能够精确地计算位置/姿势。

注意，在上述示例中，是基于移动速度参数选择学习模型的。然而，可以基于其他参数选择学习模型。例如，当针对各个照明条件生成学习模型时，可以选择与如下照明条件对应的学习模型：该照明条件与由测量参数代表的照明条件类似。另外，例如，当针对多个照明条件中的各个照明条件生成学习模型时，可以以如下方式选择学习模型。显示控制单元102在显示单元12的显示画面上显示该多个照明条件中的与由测量参数代表的照明条件类似的多个照明条件的列表，并且提示机动车1中的驾驶员或乘员从该列表中选择一个照明条件。选择单元309选择与机动车1中的驾驶员或乘员从该列表中选择的那个照明条件对应的学习模型。

接下来，将参照图8描述由根据本实施例的系统进行的处理，图8示出了该处理的流程图。注意，在图8中与图3相同的步骤编号表示相同的处理步骤，并且将省略其描述。

在步骤S303中，生成单元305针对各个预定状况生成多个学习数据的集合。在步骤S304中，针对各个预定状况，生成单元306使用由生成单元305针对该状况生成的多个学习数据，进行学习模型的学习，由此生成针对各个预定状况的学习模型。在步骤S305中，生成单元306将与在步骤S304中所学习的各个状况对应的学习模型保持在保持单元307中。

在步骤S306中，测量单元31测量在机动车1行驶时与机动车1的视点(摄像单元11)有关的参数、测量与环境有关的参数或测量其他参数作为测量参数，并且将该测量参数输出到输入单元308。

在步骤S307中，输入单元308获取从测量单元31输出的测量参数，并且将所获取的测量参数输出到选择单元309。在步骤S308中，选择单元309选择由保持单元307保持的学习模型中的与从输入单元308输出的测量参数对应的学习模型作为所选择的学习模型，并且将所选择的学习模型输出到估计单元109。

在根据本实施例的步骤S108中，作为估计结果，估计单元109获取当从输入单元108接收到的拍摄图像输入到从选择单元309输出的所选择的学习模型时，从该学习模型输出的几何信息。估计单元109将该几何信息输出到后续阶段的计算单元110和生成/更新单元111。

如上所述，根据本实施例，由于使用与当前状况相对应地选择的学习模型来估计几何信息，所以该几何信息与拍摄图像相适应。结果，可以精确地计算待应用于机动车的自动驾驶等的位置/姿势。

<第一变型例>

例如，针对诸如配置参数、摄像参数、时间、季节、天气状态、存在于外围的物体和地域等的项目中的至少一个所关注的项目，可以生成多个学习模型，并且可以选择与包括在测量参数中的该关注项目的值对应的学习模型。

[第四实施例]

在本实施例中，将描述通过学习处理生成接收虚拟空间图像、视点参数和环境参数且输出几何信息的学习模型，并且通过将拍摄图像和测量参数输入到该学习模型获取相应的几何信息的系统。

首先，将参照图9的框图描述根据本实施例的系统的功能配置的示例。图9中示出的配置在以下方面与第三实施例的配置不同。

如第三实施例那样，生成单元305针对各个状况生成并输出多个学习数据。然而，生成单元305输出如下学习数据：该学习数据附有用于生成该学习数据的视点参数和环境参数。

生成单元406使用从生成单元305输出的各个学习数据，进行一个学习模型的学习处理。此时，生成单元406使用包括在各个学习数据中的“虚拟空间图像以及用于生成该虚拟空间图像的视点参数和环境参数”作为对学习模型的输入，并且使用包括在各个学习数据中的“几何信息”作为监督数据。通过该学习处理获得的学习模型学习“虚拟空间图像以及用于生成该虚拟空间图像的视点参数和环境参数”的集合与对应于该集合的“几何信息”之间的对应关系。然后，生成单元406将所学习的学习模型存储在保持单元407中。

输入单元308将测量参数从测量单元31发到估计单元409。估计单元409从保持单元407读出学习模型，并且当来自输入单元108的拍摄图像和来自输入单元208的测量参数输入到所读出的学习模型时，估计单元409输出从该学习模型输出的几何信息。

例如，随着机动车1的移动速度的增加，在通过摄像单元11获得的拍摄图像中出现强度与移动速度对应的模糊。如果可以通过在形式上与移动速度相对应的学习模型估计几何信息，则该学习模型能够应对各种模糊。当估计出与机动车1的实际移动速度相对应的几何信息时，能够精确地计算位置/姿势。

接下来，将参照图10描述由根据本实施例的系统进行的处理，图10示出了该处理的流程图。注意，在图10中与图8相同的步骤编号表示相同的处理步骤，并且将省略其描述。

注意，步骤S303与上述步骤S303的区别在于，生成单元305输出如下学习数据：该学习数据附有用于生成其的视点参数和环境参数。

在步骤S404中，生成单元406使用从生成单元305输出的各个学习数据，进行一个学习模型的学习处理。在步骤S405中，生成单元406将所学习的学习模型存储在保持单元407中。

步骤S307与上述步骤S307的区别在于，输入单元308将测量参数从测量单元31输出到估计单元409。在步骤S408中，估计单元409从保持单元407读出学习模型，并且估计单元409输出从输入有来自输入单元108的拍摄图像和来自输入单元308的测量参数的所读出的学习模型所输出的几何信息。

如上所述，根据本实施例，由于使用通过利用基于各种状况的学习数据而学习到的学习模型来估计与拍摄图像和测量状况对应的几何信息，所以该几何信息与拍摄图像和当前状况相适应。结果，可以精确地计算待应用于机动车的自动驾驶等的位置/姿势。

[第五实施例]

在本实施例中，使用新拍摄图像和使用学习模型从该拍摄图像估计出的几何信息，更新所保持的模型数据。将参照图11的框图描述根据本实施例的系统的功能配置的示例。

模型数据提前存储在保持单元501中。该模型数据可以是上述各种模型数据中的任意一种。在本实施例中，更新单元502基于输入单元108从摄像单元11获取的拍摄图像和由估计单元109从该拍摄图像估计出的几何信息，更新通过保持单元501保持的模型数据。

例如，假定如下情况：使用多边形数据和纹理数据作为模型数据。此时，更新单元502将来自估计单元109的几何信息转换为多边形数据，并且将该多边形数据添加到模型数据，或者在模型数据中基于该多边形数据校正与该多边形数据对应的多边形的位置或姿势。另外，更新单元502将拍摄图像作为纹理数据添加到模型数据，或者使该拍摄图像中的像素的像素值与模型数据中的纹理数据的像素的像素值α混合。

另外，例如，假定如下情况：使用点群数据和颜色信息作为模型数据。此时，更新单元502将来自估计单元109的几何信息转换为点群数据，并且将该点群数据添加到模型数据，或者在模型数据中基于该点群数据校正与该点群数据对应的点群的位置。另外，更新单元502将拍摄图像中的像素的像素值作为颜色信息添加到模型数据，或者将拍摄图像中的像素的像素值与模型数据中的颜色信息α混合。

另外，例如，假定如下情况：使用包括深度图和颜色信息的关键帧信息的集合作为模型数据。此时，更新单元502将包括来自估计单元109的几何信息和基于来自输入单元308的拍摄图像的颜色信息在内的关键帧信息添加到模型数据。注意，更新单元502可以使用由生成/更新单元111生成的三维地图，更新通过保持单元501保持的模型数据。

接下来，将参照图12描述由根据本实施例的系统进行的处理，图12示出了该处理的流程图。注意，在图12中与图3相同的步骤编号表示相同的处理步骤，并且将省略其描述。

在步骤S501中，如上所述，更新单元502更新通过保持单元501保持的模型数据。当下次启动系统时，可以在步骤S101中加载并使用所更新的模型数据。可选地，每次更新模型数据时，可以进行步骤S101至S105的处理，以始终使用最新的模型数据。

如上所述，根据本实施例，基于机动车1实际行驶所在的场景的几何信息和拍摄图像，更新模型数据。因此，用于生成学习模型的图像的场景的外观与包括在由摄像单元拍摄的输入图像中的场景的外观类似。结果，可以精确地计算待应用于机动车的自动驾驶等的位置/姿势。

[第六实施例]

在本实施例中，使用拍摄图像和从输入有该拍摄图像的学习模型所输出的几何信息，进行学习模型的额外学习。将参照图13的框图描述根据本实施例的系统的功能配置的示例。

生成单元606进行学习模型的额外学习处理，该学习模型通过进行与生成单元106相同的学习处理而生成。在额外学习处理中，生成单元606使用来自输入单元108的拍摄图像和来自估计单元109的几何信息的集合作为新的学习数据，并且使用包括该新的学习数据和由生成单元105生成的学习数据的学习数据，进行学习模型的学习处理。通过该额外学习处理，更新存储在保持单元107中的学习模型。注意，在额外学习处理中，生成单元606可以使用来自输入单元108的拍摄图像和来自估计单元109的几何信息的集合作为新的学习数据来进行学习模型的学习处理。

接下来，将参照图14描述由根据本实施例的系统进行的处理，图14示出了该处理的流程图。注意，在图14中与图3相同的步骤编号表示相同的处理步骤，并且将省略其描述。

在步骤S601中，生成单元606使用来自输入单元108的拍摄图像和来自估计单元109的几何信息的集合作为新的学习数据，并且使用包括该新的学习数据和由生成单元105生成的学习数据的多个学习数据，进行学习模型的学习处理。

当下次启动系统时，可以在步骤S101中加载并使用通过额外学习处理获得的学习模型。可选地，每次进行额外学习处理时，该学习模型可以用于步骤S108中的估计几何信息。

如上所述，根据本实施例，基于机动车1实际行驶所在的场景的几何信息和拍摄图像，进行学习模型的额外学习处理。因此，用于生成学习模型的图像的场景的外观与包括在由摄像单元拍摄的输入图像中的场景的外观类似。结果，可以精确地计算待应用于机动车的自动驾驶等的位置/姿势。

[第七实施例]

可以适当地组合以上实施例和变型例中描述的一些组件或所有组件。另外，可以选择性地使用以上实施例和变型例中描述的一些组件或所有组件。此外，上述参数的类型和数值仅是用于作出详细描述的示例，并且可以适当地改变。

例如，在上述实施例中，驾驶控制单元13是信息处理装置的外部设备，但是驾驶控制单元13可以与信息处理装置一体化。这也应用于上述摄像单元、显示单元和测量单元。与信息处理装置待一体化的设备不限于特定的示例。

另外，例如，在第一实施例等中，基于通过保持单元101保持的模型数据生成学习数据。然而，例如，可以使用由测量单元21测量的距离信息和通过摄像单元22获得的拍摄图像的集合直接(或在适当处理之后)作为学习数据。

另外，例如，在第一实施例等中，学习数据的生成可以不基于与视点有关的参数和与环境有关的参数进行，而仅基于与视点有关的参数进行。例如，在使用通过利用三维测量单元或摄像单元获得的实际环境中的颜色信息和距离数据(点群数据)的组合作为模型数据的情况下，或者在使用包括通过利用三维测量单元或摄像单元获得的颜色信息和深度图且与在环境中的位置/姿势相关联的关键帧信息作为模型数据的情况下，对于学习数据的生成而言，与环境有关的参数有时是非必需的。

另外，例如，在第一实施例等中，学习数据的生成可以不基于与视点有关的参数和与环境有关的参数进行，而仅基于与环境有关的参数进行。例如，在机动车1和机动车2相同且与视点有关的参数共用的情况下，对于学习数据的生成而言，与视点有关的参数有时是非必需的。

此外，例如，在第一实施例等中，作为与视点有关的参数和与环境有关的参数，描述了多个示例。然而，对于学习数据的生成而言，并非所有参数都是必需的，并且至少一种参数就足够了(或者如上所述，参数的数量可以为零)。

[第八实施例]

图2、图5、图7、图9、图11或图13中示出的信息处理装置的各个功能单元可以由硬件(例如，嵌入式硬件)实现，或者一些功能单元可以由软件(计算机程序)实现。在后一种情况下，例如，可以通过存储器实现被解释为保持单元的功能单元，可以通过软件实现其余功能单元。在这种情况下，以上各实施例和变型例中描述的信息处理装置可以应用包括该存储器和能够执行该软件的处理器的计算机装置。将参照图15的框图描述计算机装置的硬件配置的示例。

CPU1501使用存储在RAM1502或ROM1503中的计算机程序或数据执行各种处理。因而，CPU1501控制整个计算机装置的操作，并且执行或控制作为通过上述各信息处理装置待进行的处理的上述各个处理。CPU1501用作例如上述控制单元199。

RAM1502具有存储从ROM1503或外部存储设备1505加载的计算机程序和数据，或者经由I/F(接口)1506从外部接收到的数据的区。RAM1502还具有供CPU1501使用以执行各种处理的工作区。以这种方式，RAM1502可以适当地提供各种区。ROM1503存储不需要重写的计算机程序和数据。

操作单元1504由诸如键盘、鼠标或触摸屏画面等的用户界面形成，并且用户可以通过对操作单元1504进行操作来对CPU1501输入各种指令。例如，用户可以通过对操作单元1504进行操作来进行对图4所示的GUI的操作输入。

外部存储设备1505是由硬盘驱动器代表的海量信息存储设备。外部存储设备1505保存有OS(Operating System，操作系统)以及被构造为使CPU1501执行或控制作为通过上述各信息处理装置待进行的处理的上述各种处理的计算机程序和数据。保存在外部存储设备1505中的计算机程序包括被构造为使CPU1501实现除了图2、图5、图7、图9、图11和图13中示出的功能单元中的保持单元以外的各个功能单元的功能的计算机程序。保存在外部存储设备1505中的计算机程序还包括与图4中示出的GUI有关的计算机程序。另外，保存在外部存储设备1505中的数据包括在以上解释中被描述为已知信息的数据、被描述为通过保持单元保持的数据以及与图4中示出的GUI有关的数据。保存在外部存储设备1505中的计算机程序和数据在CPU1501的控制下适当地加载在RAM1502中并由CPU1501处理。

I/F1506用作被构造为与外部设备进行数据通信的用户接口，并且例如，上述摄像单元、显示单元、测量单元、驾驶控制单元、信息处理装置20等连接到I/F1506。

CPU1501、RAM1502、ROM1503、操作单元1504、外部存储设备1505和I/F1506均连接到总线1507。注意，图15中示出的组件仅是可应用于上述信息处理装置的组件的示例。另外，图15中示出的组件也可应用于信息处理装置20。

其他实施例

另外，可以通过读出并执行记录在存储介质(也可更完整地称为“非临时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制所述一个或更多个电路执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。所述计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)，微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存设备以及存储卡等中的一个或更多个。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构和功能。

Claims

1.一种信息处理装置，所述信息处理装置包括：

生成单元，其被构造为生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据；

学习单元，其被构造为使用学习数据进行学习模型的学习处理；以及

计算单元，其被构造为基于从输入了由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

2.根据权利要求1所述的信息处理装置，其中，生成单元使用代表虚拟空间的几何形状的模型数据和如下两个参数中的至少一个参数，生成图像和几何信息，所述两个参数是：与跟为生成虚拟空间的图像而进行拍摄的摄像设备的视点不同的、虚拟空间中的视点有关的参数，以及与虚拟空间的环境有关的参数。

3.根据权利要求2所述的信息处理装置，其中，与视点有关的参数包括视点的位置和/或姿势、视点的数量、视点的移动速度以及视点的焦距、主点、曝光时间和焦点位置中的至少一者。

4.根据权利要求2所述的信息处理装置，其中，与环境有关的参数包括限定虚拟空间中的照明条件的参数、配置在虚拟空间中的模型的类型、该模型的数量以及该模型的位置、姿势和尺寸中的至少一者。

5.根据权利要求2所述的信息处理装置，所述信息处理装置还包括，被构造为设定与视点有关的参数和与环境有关的参数的单元。

6.根据权利要求2所述的信息处理装置，其中，模型数据是由与所述信息处理装置不同的装置，基于通过三维地测量物理空间而获得的信息来生成的数据。

7.根据权利要求2所述的信息处理装置，所述信息处理装置还包括，被构造为基于拍摄图像和从输入有该拍摄图像的学习模型所输出的几何信息，更新模型数据的单元。

8.根据权利要求1所述的信息处理装置，其中，学习单元基于拍摄图像和从输入有该拍摄图像的学习模型所输出的几何信息，进行该学习模型的额外学习。

9.根据权利要求1所述的信息处理装置，其中，

生成单元针对各个预定状况生成学习数据，

学习单元针对各个预定状况，使用由生成单元针对该预定状况生成的学习数据，进行学习模型的学习处理，并且

计算单元从学习单元针对各个预定状况生成的学习模型中选择与测量状况对应的学习模型，并且基于从输入有拍摄图像的所选择的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

10.根据权利要求1所述的信息处理装置，其中，生成单元针对各个预定状况生成学习数据，

学习单元使用学习数据和与学习数据对应的状况，进行学习模型的学习处理，

计算单元基于从输入有拍摄图像和测量状况的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

11.根据权利要求1所述的信息处理装置，其中，几何信息是虚拟空间的深度图。

12.根据权利要求1所述的信息处理装置，其中，生成单元以预定范围内的比例尺生成虚拟空间的图像和该虚拟空间的几何信息。

13.根据权利要求1所述的信息处理装置，其中，拍摄图像和从学习模型输出的几何信息具有在预定范围内的比例尺。

14.根据权利要求1所述的信息处理装置，所述信息处理装置还包括，被构造为基于拍摄图像、几何信息以及摄像设备的位置和/或姿势，生成/更新物理空间的三维地图的单元，

其中，计算单元基于几何信息和三维地图，计算摄像设备的位置和/或姿势。

15.根据权利要求1所述的信息处理装置，其中，计算单元基于摄像设备的位置和/或姿势，计算包括信息处理装置的车辆的位置和/或姿势。

16.一种包括信息处理装置和控制单元的系统，

所述信息处理装置包括：

计算单元，其被构造为基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势，

其中，计算单元基于摄像设备的位置和/或姿势，计算包括信息处理装置的车辆的位置和/或姿势，并且

所述控制单元被构造为基于几何信息以及由计算单元计算出的车辆的位置和/或姿势，进行车辆的驾驶控制。

17.根据权利要求16所述的系统，其中，所述系统包括显示设备。

18.根据权利要求16所述的系统，其中，所述控制单元包括：

被构造为基于几何信息以及由计算单元计算出的车辆的位置和/或姿势生成用于驾驶控制的信息的单元；和

致动器单元，其被构造为基于用于驾驶控制的信息进行车辆的驾驶控制。

19.一种由信息处理装置进行的信息处理方法，所述信息处理方法包括：

生成与物理空间对应的虚拟空间的图像和该虚拟空间的几何信息，作为学习数据；

使用学习数据进行学习模型的学习处理；以及

基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。

20.一种存储介质，其存储计算机程序，所述计算机程序被构造为使计算机用作：

计算单元，其被构造为基于从输入有由摄像设备拍摄的物理空间的拍摄图像的学习模型所输出的几何信息，计算摄像设备的位置和/或姿势。