CN110998659B

CN110998659B - 图像处理系统、图像处理方法、及程序

Info

Publication number: CN110998659B
Application number: CN201780093930.8A
Authority: CN
Inventors: 武笠知幸
Original assignee: Lotte Group Co ltd
Current assignee: Lotte Group Co ltd
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2023-12-05
Anticipated expiration: 2037-08-14
Also published as: US11494915B2; EP3644277B1; EP3644277A4; WO2019035155A1; JP6560480B2; EP3644277A1; US20200184651A1; JPWO2019035155A1; CN110998659A; CN117115256A

Abstract

本发明的目的在于简化用来提高观测空间的信息量的构成。图像处理系统(10)的摄影图像获取机构(101)获取在现实空间能够移动的摄影机构(18)所拍摄的摄影图像。观测空间信息获取机构(102)基于摄影图像中的特征点群的位置变化，获取包含观测空间中的特征点群的三维坐标的观测空间信息。机械学习机构(103)基于与物体特征相关的机械学习数据，获取与摄影图像所示的摄影物的特征相关的附加信息。整合机构(104)将观测空间信息与附加信息整合。

Description

图像处理系统、图像处理方法、及程序

技术领域

本发明涉及一种图像处理系统、图像处理方法、及程序。

背景技术

近年来，正在研究对由照相机拍摄的摄影图像进行解析，并将现实空间的情况在观测空间中再现的技术。例如，在非专利文献1中，记载了被称为SLAM(SimultaneousLocalization And Mapping，同时定位与地图构建)的技术，基于不包含深度照相机的RGB照相机(所谓单反相机)的摄影图像中的特征点群的位置变化，产生包含观测空间中的特征点群的三维坐标的3D图。另外，例如，在非专利文献2中，记载了基于包含RGB照相机与深度照相机的RGB-D照相机的摄影图像产生3D图的技术。

现有技术文献

非专利文献

非专利文献1：Andrew J.Davison,"Real-Time Simultaneous Localization andMapping with a Single Camera",Proceedings of the 9th IEEE InternationalConference on Computer Vision Volume 2,2003,pp.1403-1410

非专利文献2：Real-time 3D visual SLAM with a hand-held camera(N.Engelhard,F.Endres,J.Hess,J.Sturm,W.Burgard),In Proc.of the RG B-DWorkshop on 3D Perception in Robotics at the European Robotics Forum,2011

发明内容

[发明要解决的问题]

然而，在非专利文献1的技术中，仅将从摄影图像抽出的特征点群的三维坐标表示在3D图，无法充分提高观测空间的信息量。在该方面，在非专利文献2的技术中，利用深度照相功能够测量摄影物的表面的深度，能够表现摄影物的三维形状，所以能够提高观测空间的信息量，但需要准备深度照相机，导致构成复杂化。

本发明是鉴于所述问题而完成的，目的在于简化用来提高观测空间的信息量的构成。

[解决问题的技术手段]

为了解决所述问题，本发明的图像处理系统的特征在于包含：摄影图像获取机构，获取在现实空间能够移动的摄影机构所拍摄的摄影图像；观测空间信息获取机构，基于所述摄影图像中的特征点群的位置变化，获取包含观测空间中的所述特征点群的三维坐标的观测空间信息；机械学习机构，基于与物体特征相关的机械学习数据，获取与所述摄影图像所示的摄影物的特征相关的附加信息；以及整合机构，将所述观测空间信息与所述附加信息整合。

本发明的图像处理方法的特征在于包含如下步骤：摄影图像获取步骤，获取在现实空间能够移动的摄影机构所拍摄的摄影图像；观测空间信息获取步骤，基于所述摄影图像中的特征点群的位置变化，获取包含观测空间中的所述特征点群的三维坐标的观测空间信息；机械学习步骤，基于与物体特征相关的机械学习数据，获取与所述摄影图像所示的摄影物的特征相关的附加信息；以及整合步骤，将所述观测空间信息与所述附加信息整合。

本发明的程序使计算机作为如下机构发挥功能：摄影图像获取机构，获取在现实空间能够移动的摄影机构所拍摄的摄影图像；观测空间信息获取机构，基于所述摄影图像中的特征点群的位置变化，获取包含观测空间中的所述特征点群的三维坐标的观测空间信息；机械学习机构，基于与物体特征相关的机械学习数据，获取与所述摄影图像所示的摄影物的特征相关的附加信息；以及整合机构，将所述观测空间信息与所述附加信息整合。

在本发明的一态样中，其特征在于：所述附加信息是将所述摄影图像中的所述摄影物的位置及与所述摄影物相关的特征量建立关联所得的二维特征量信息，所述观测空间信息获取机构基于所述特征点群的位置变化推定所述摄影机构的位置，基于该推定结果在所述观测空间设定观测视点，所述整合机构基于表示从所述观测视点观察所述观测空间的情况的二维观测信息与所述二维特征量信息的比较结果来执行处理。

在本发明的一态样中，其特征在于：所述特征量是基于所述机械学习数据推定的所述摄影物的深度，在所述二维观测信息，将二维空间中的所述特征点群的位置与所述观测空间中的所述特征点群的深度建立关联，所述整合机构基于所述二维特征量信息，在所述观测空间设定所述摄影物的网格，基于所述二维观测信息与所述二维特征量信息的比较结果，改变所述网格的尺度。

在本发明的一态样中，其特征在于：所述整合机构基于所述二维观测信息与所述二维特征量信息的比较结果，改变所述网格的尺度之后，局部地改变所述网格。

在本发明的一态样中，其特征在于：所述附加信息是基于所述机械学习数据推定的所述摄影物的三维形状所相关的信息。

在本发明的一态样中，其特征在于：所述附加信息是与所述摄影物的网格相关的信息。

在本发明的一态样中，其特征在于：所述整合机构基于所述附加信息在所述观测空间设定所述网格，基于所述观测空间信息改变该网格。

在本发明的一态样中，其特征在于：所述整合机构在将所述网格中与所述观测空间信息所示的所述特征点群的三维坐标对应的网格部分改变之后，改变该网格部分的周围的网格部分。

在本发明的一态样中，其特征在于：所述观测空间信息获取机构基于所述特征点群的位置变化推定所述摄影机构的位置，基于该推定结果在所述观测空间设定观测视点，所述整合机构基于相对于所述观测视点的各网格部分的方向，改变该网格部分。

在本发明的一态样中，其特征在于：所述附加信息是与所述摄影物的法线相关的信息。

在本发明的一态样中，其特征在于：所述附加信息是与所述摄影物的分类相关的信息。

在本发明的一态样中，其特征在于：所述摄影机构基于规定的帧频，对所述现实空间进行拍摄，所述观测空间信息获取机构与所述机械学习机构基于以相互相同的帧拍摄的所述摄影图像执行处理。

[发明的效果]

根据本发明，能够简化用来提高观测空间的信息量的构成。

附图说明

图1是表示图像处理装置的硬件构成的图。

图2是表示摄影部对现实空间进行拍摄的情况的图。

图3是表示摄影图像的一例的图。

图4是表示特征点群的三维坐标的一例的图。

图5是表示深度图像的一例的图。

图6是表示自摄影图像产生的法线图像的一例的图。

图7是表示整合的观测空间的一例的图。

图8是表示在图像处理装置中实现的功能的一例的功能框图。

图9是表示观测空间图像的一例的图。

图10是表示整合部执行的处理的一例的图。

图11是将ARAP手法扩展而改变网格的处理的说明图。

图12是将ARAP手法扩展而改变网格的处理的说明图。

图13是表示在图像处理装置中执行的处理的一例的流程图。

图14是表示映射处理的一例的流程图。

图15是表示解密处理的一例的流程图。

图16是表示整合处理的一例的流程图。

图17是表示各处理的执行间隔的一例的图。

图18是表示分类图像的一例的图。

图19是表示整合部所执行的处理的一例的图。

图20是表示变化例中的图像处理系统的一例的图。

具体实施方式

[1.图像处理系统的硬件构成]

以下，对与本发明相关的图像处理系统的实施方式的例进行说明。在本实施方式中，对图像处理系统由1台计算机实现的情况进行了说明，但像下述变化例一样，图像处理系统也可以由多台计算机实现。

图1是表示图像处理装置的硬件构成的图。图像处理装置10是执行图像处理的计算机，例如，是手机(包含智能手机)、行动信息终端(包含平板型计算机)、个人计算机、或服务器计算机等。如图1所示，图像处理装置10包含控制部11、存储部12、通信部13、操作部14、显示部15、输入输出部16、读取部17、及摄影部18。

控制部11例如包含至少1个微处理器。控制部11根据存储在存储部12的程序或数据执行处理。存储部12包含主存储部及辅助存储部。例如，主存储部是RAM(Random AccessMemory，随机存取存储器)等易失性存储器，辅助存储部是硬盘或闪速存储器等非易失性存储器。通信部13是有线通信或无线通信用的通信接口，且经由网络进行数据通信。操作部14是用户用来进行操作的输入设备，例如，包含触摸面板或鼠标等定位设备(pointingdevice)或键盘等。操作部14将用户的操作内容传递至控制部11。

显示部15例如是液晶显示部或有机EL(Electroluminescence，电致发光)显示部等。显示部15根据控制部11的指示显示画面。输入输出部16是输入输出接口，例如，包含USB(Universal Serial Bus，通用串行总线)端口。输入输出部16是为了与外部设备进行数据通信而使用。读取部17读取计算机能够读取的信息存储介质，例如，包含光盘驱动器或存储卡插槽。摄影部18包含对静态图像或动态图像进行拍摄的至少1个照相机，例如，包含CMOS(complementary metal oxide semiconductor，互补金属氧化物半导体)图像传感器或CCD(charge-coupled device，电荷耦合元件)图像传感器等摄像元件。摄影部18能够连续地对现实空间进行拍摄。例如，摄影部18既可以利用规定的帧频进行拍摄，也可以不特别规定帧频地不定期地进行拍摄。

此外，作为存储在存储部12进行说明的程序及数据既可经由网络从其它的计算机供给，也可以经由输入输出部16或读取部17从计算机能够读取的信息存储介质(例如，USB存储器、SD卡、或光盘)供给。另外，显示部15及摄影部18并非组装至图像处理装置10的内部，处于图像处理装置10的外部，也可以经由输入输出部16连接。另外，图像处理装置10的硬件构成并不限定于所述例子，可应用各种硬件。

[2.图像处理装置所执行的处理的概要]

图像处理装置10基于摄影部18拍摄的摄影图像，产生再现现实空间的情况的观测空间。现实空间是摄影部18所拍摄的物理空间。观测空间是虚拟的三维空间，且是在图像处理装置10内部定义的空间。观测空间包含表示摄影物的点群。摄影物是摄影图像中出现的现实空间的物体，也被称为被摄体。换个说法，摄影物是摄影图像中出现的现实空间的一部分。

观测空间的点群是用来在观测空间表现摄影物的三维形状的信息，是构成网格的顶点群。网格是也被称为多边形(polygon)的信息，是表示摄影物的三维目标(3D模型)的构成要素。摄影部18能够对任意的场所进行拍摄，但在本实施方式中，对摄影部18对室内的情况进行拍摄的情况进行说明。

图2是表示摄影部18对现实空间进行拍摄的情况的图。如图2所示，在本实施方式中，摄影部18对由多个面(地板、墙壁、及天花板等)包围的房间的内部进行拍摄。在图2的例中，在现实空间RS配置着床与绘画。用户一边手持图像处理装置10移动一边对任意的场所进行拍摄。例如，摄影部18基于规定的帧频，连续地对现实空间RS进行拍摄而产生摄影图像。

图3是表示摄影图像的一例的图。如图3所示，在摄影图像G1中，将处于摄影部18的摄影范围内的墙壁、地板、床、及绘画作为摄影物而拍摄。此外，在本实施方式中，以摄影图像G1的左上为原点Os，设定屏幕坐标轴(Xs轴-Ys轴)，摄影图像G1内的位置由屏幕坐标系统的二维坐标表示。

例如，图像处理装置10从摄影图像G1抽出特征点群，利用SLAM技术计算观测空间中的特征点群的三维坐标。特征点是表示图像内的特征性的部分的点，例如，表示摄影物的轮廓的一部分，或者表示摄影物的颜色变化的部分。特征点群是多个特征点的集合。

图4是表示特征点群的三维坐标的一例的图。图4所示的是从摄影图像G1抽出的特征点。以下，在无须将特征点/>特别加以区别时，将这些特征点统一记载为特征点群P。此外，在本实施方式中，以观测空间OS内的规定位置为原点Ow，设定世界坐标轴(Xw轴-Yw轴-Zw轴)，观测空间OS内的位置由世界坐标系统的三维坐标表示。

在本实施方式中，图像处理装置10不仅利用SLAM技术计算特征点群P的三维坐标，而且也推定现实空间RS中的摄影部18的位置与方向。图像处理装置10将特征点群P的三维坐标设定在观测空间OS，以与摄影部18的位置及方向对应的方式，将观测视点OV设定在观测空间OS。观测视点OV也被称为虚拟照相机，是观测空间OS中的视点。

由于特征点群P只不过为表示摄影物的轮廓等一部分的特征点的集合，所以如图4所示，特征点群P的密度不足以表现出摄影物的表面。也就是说，设定有特征点群P的三维坐标的观测空间OS是稀疏的点群数据，例如，不会成为能够详细地表现摄影物的表面的程度的信息量。

因此，本实施方式的图像处理装置10利用机械学习(深度学习(Deep learning))来推定摄影物的三维形状，并将所推定的三维形状与特征点群P的三维坐标整合，增加观测空间OS的信息量。具体来说，图像处理装置10利用机械学习粗略地推定摄影物的三维形状，以与作为实测值的特征点群P的三维坐标一致的方式，修正所推定的三维形状。例如，图像处理装置10获取深度图像与法线图像2个图像作为摄影物的三维形状的推定结果。此外，该推定结果只要表现为二维的信息即可，不是必须表现为图像形式。例如，推定结果也可以是表示二维坐标及与深度或法线相关的信息的组合的数据，例如，也可以是表形式或表格形式的数据。

图5是表示深度图像的一例的图。深度图像G2是与摄影图像G1相同的尺寸(纵横的像素数相同)，表示摄影物的深度的图像。深度是摄影物的深度，是摄影部18与摄影物的距离。深度图像G2的各像素的像素值表示该像素的深度。也就是说，深度图像G2的各像素的像素值表示该像素中出现的摄影物与摄影部18的距离。此外，像素值是分配至各像素的数值，是也被称为颜色、亮度、或明度的信息。

深度图像G2既可以是彩色图像，也可以是灰度图像。在图5的例子中，将深度图像G2的像素值示意性地由半色调点的浓度表示，表示半色调点越浓则深度越低(距离越短)，半色调点越淡则深度越深(距离越长)。也就是说，从摄影部18观察半色调点较浓的像素所示的摄影物时，该摄影物处于近前侧，从摄影部18观察半色调点较淡的像素所示的摄影物时，该摄影物处于纵深侧。例如，接近摄影部18的床等部分的半色调点较浓，远离摄影部18的墙壁等部分的半色调点较淡。

图6是表示从摄影图像G1产生的法线图像的一例的图。法线图像G3是与摄影图像G1相同的尺寸(纵横的像素数相同)，表示摄影物的法线的图像。法线是与摄影物的表面垂直地交叉的直线。法线图像G3的各像素的像素值表示该像素的法线的方向(矢量信息)。也就是说，法线图像G3的各像素的像素值表示对该像素拍摄的摄影物的法线的方向。

法线图像G3既可以是彩色图像，也可以是灰度图像。在图6的例中，将法线图像G3的像素值示意性地由半色调点的浓度表示，表示半色调点越浓则法线越朝向垂直方向(Zw轴方向)，表示半色调点越淡则法线越朝向水平方向(Xw轴方向或Yw轴方向)。也就是说，半色调点较浓的像素所示的摄影物为该摄影物的表面朝向垂直方向，半色调点较淡的像素所示的摄影物为该摄影物的表面朝向水平方向。

例如，像地板或床的上表面一样表面朝向垂直方向的部分的半色调点较浓，像墙壁或床的侧面一样表面朝向水平方向的部分的半色调点较淡。此外，在图6中，Xw轴方向与Yw轴方向相比更浓地表示半色调点。因此，例如，从摄影部18观察处于右侧的墙壁的表面(法线为Xw轴方向)与处于左侧的墙壁的表面(法线为Yw轴方向)更浓地表示半色调点。

深度图像G2与法线图像G3均是表示摄影物的三维形状的信息，图像处理装置10能够基于这些图像，推定摄影物的网格。但是，深度图像G2与法线图像G3是由机械学习所得的信息，虽然具有某程度的精度，但由于并非图像处理装置10现场测量的实测值，所以精度并不那么高。

因此，即便将根据深度图像G2与法线图像G3推定的网格直接设定在观测空间OS增加信息量，也存在尺度不一致、或网格的细节不同的情况，无法提高观测空间OS的精度。因此，图像处理装置10通过将作为实测值的特征点群P的三维坐标与深度图像G2及法线图像G3整合，来提高三维形状的精度，增加观测空间OS的信息量。

图7是表示所整合的观测空间OS的一例的图。在图7中，由实线示意性地表示观测空间OS中的点群的集合。如图7所示，通过利用机械学习能够提高观测空间OS的点群的密度，点群的密度高至能够表现摄影物的表面的程度。也就是说，所整合的观测空间OS是紧密的点群数据，例如，成为能够详细地表现摄影物的表面的信息量。

此外，由于能够在观测空间OS再现的只不过是摄影部18的摄影范围内，所以摄影范围外(例如，摄影部18的后方等死角)的情况无法再现。因此，为了使室内整体再现，用户一边手持图像处理装置10移动，一边对室内到处进行拍摄，图像处理装置10重复所述说明的处理会将房间整体再现。

如上所述，本实施方式的图像处理装置10通过将作为实测值的特征点群P的三维坐标与利用机械学习获取的深度图像G2及法线图像G3整合，即便不使用深度照相机等构成，也能够提高观测空间OS的信息量。以下，对图像处理装置10的详细情况进行说明。

[3.在图像处理装置中实现的功能]

图8是表示在图像处理装置10中实现的功能的一例的功能框图。如图8所示，在本实施方式中，对实现数据存储部100、摄影图像获取部101、观测空间信息获取部102、机械学习部103、及整合部104的情况进行说明。

[3-1.数据存储部]

数据存储部100主要由存储部12实现。数据存储部100为了产生使现实空间RS的情况再现的观测空间OS而存储需要的数据。

例如，数据存储部100存储机械学习中所利用的机械学习数据。机械学习数据是与各种物体特征相关的数据。例如，机械学习数据是表示物体的外观特征的数据，也可以表示物体的三维形状、轮廓、尺寸、颜色、或花纹等各种特征。此外，此处的三维形状是指表面的凹凸或方向。

在机械学习数据中，针对每个物体储存与该物体特征相关的特征信息。另外，因为即便是相同的物体，三维形状、尺寸、轮廓、颜色、或花纹等特征也不同，所以也可以用包罗各种特征的方式准备机械学习数据。

如果作为物体的一例对床进行说明，那么床架有管床或两级床等各种类型，床的三维形状或轮廓有多种。另外，床有单人床尺寸或双人床尺寸等各种类型，床的尺寸也有多种。同样，床的颜色或花纹也有各种类型，所以在机械学习数据中以包罗公知的床的方式储存特征信息。

进而，即便是相同的床，由于角度不同而观察方法不同，所以将从各种角度观察床的情况下的特征信息储存在机械学习数据中。此处以床为例，但床以外的物体(例如，家具、家电、衣服、交通工具、杂货等)也同样，将从各种角度观察各种类型的物体的情况下的特征信息储存在机械学习数据中。

在本实施方式中，由于通过机械学习获取了深度图像G2与法线图像G3，所以作为特征信息，储存物体的深度与法线。因此，作为机械学习数据的一例，对与物体的深度相关的深度学习数据及与物体的法线相关的法线学习数据进行说明。

例如，深度学习数据与法线学习数据通过利用RGB-D照相机对物体进行拍摄而产生。RGB-D照相机由于能够测量配置在现实空间RS的物体的深度，所以基于作为实测值的深度信息，产生深度学习数据。另外，物体的深度由于是能够对三维形状(物体表面的凹凸)进行特定的信息，所以基于RGB-D照相机所测量的深度信息，也能够获取物体表面的法线方向。因此，基于作为实测值的法线方向，也产生法线学习数据。

此外，机械学习数据及机械学习的算法本身可利用公知的数据及算法，例如，也可以使用“Predicting Depth,Surface Normals and Semantic Labels with a CommonMulti-Scale Convolutional Architecture”(http://www.cs.nyu.edu/^～deigen/dnl/,https://arxiv.org/pdf/1411.4734v4.pdf)中所记载的所谓CNN(Convolutional NeuralNetwork，卷积神经网络)中的数据及算法。另外，储存在机械学习数据中的特征信息只要表示物体特征即可，并不限定于深度与法线。例如，特征信息也可以表示物体的轮廓、尺寸、颜色、或花纹。

另外，例如，数据存储部100存储表示观测空间OS的情况的观测空间信息。例如，在观测空间信息中，储存与摄影物相关的信息、及与观测视点OV相关的观测视点参数。与摄影物相关的信息是与摄影物对应的点群，例如，包含特征点群P的三维坐标及网格(表示摄影物的三维目标)的顶点坐标。观测视点参数例如是观测视点OV的位置、方向、及视角等。此外，观测视点OV的方向既可以由注视点的三维坐标表示，也可以由表示视线方向的矢量信息表示。

此外，数据存储部100所存储的数据并不限定于所述例子。例如，数据存储部100也可以按时间序列存储摄影图像G1。另外，例如，数据存储部100也可以按时间序列存储从摄影图像G1抽出的特征点群P的二维坐标，也可以按时间序列存储表示特征点群P的位置变化的矢量信息。另外，例如，在对用户提供扩展现实的情况下，数据存储部100也可以存储与表示成为合成对象的物体的三维目标相关的信息。所谓成为合成对象的物体，是指与摄影图像G1一起显示的虚构的物体，例如，虚构的动物(包含模仿人的角色)、家具、家电、衣服、交通工具、玩具、或杂货等。成为合成对象的物体既可以在观测空间OS中移动，也可以不特别移动而在现场静止。

[3-2.摄影图像获取部]

摄影图像获取部101主要由控制部11实现。摄影图像获取部101获取能够在现实空间移动的摄影部18所拍摄的摄影图像G1。

所谓能够在现实空间RS移动，是指能够改变摄影部18的位置与方向，例如，是指能够使包含摄影部18的壳体移动，或改变该壳体的姿势，或使该壳体旋转。换个说法，是指能够改变摄影部18的摄影范围(视野)。此外，摄影部18并非必须始终持续移动，也可以暂时地停留在目前的场所，不改变位置与方向。

在本实施方式中，由于摄影部18基于规定的帧频，对现实空间RS进行拍摄，所以摄影图像获取部101获取摄影部18以规定的帧频拍摄的摄影图像G1。

帧频是每单位时间的处理次数，是动态图像中的每单位时间的静止图像数(慧差数)。帧频既可以是固定值，也能够由用户指定。例如，如果将帧频设为Nfps(N：自然数，fps：Frames Per Second(每秒帧数))，那么各帧的长度为1/N秒，摄影部18针对作为处理单位的帧对现实空间RS进行拍摄产生摄影图像G1，摄影图像获取部101连续地获取摄影部18所产生的摄影图像G1。

在本实施方式中，摄影图像获取部101实时地获取由摄影部18拍摄的摄影图像G1。也就是说，摄影图像获取部101是摄影部18产生摄影图像G1后马上获取该摄影图像G1。摄影图像获取部101从摄影部18产生摄影图像G1的时间点起在规定时间以内，获取该摄影图像G1。

此外，也可以不特别实时地获取摄影图像G1，在该情况下，摄影图像获取部101也可以获取存储在数据存储部100中的图像数据(也就是说，拍摄完毕的静态图像数据或动态图像数据)。另外，当在图像处理装置10以外的计算机或信息存储介质中存储着图像数据的情况下，摄影图像获取部101也可以从该计算机或信息存储介质获取图像数据。

另外，也可以不特别将帧频设定在摄影部18，在不定期地进行拍摄的情况下，摄影图像获取部101只要每当摄影部18进行拍摄时获取摄影图像G1即可。例如，用户也可以从操作部14手动地进行拍摄指示，在该情况下，摄影部18每当用户进行拍摄指示时产生摄影图像G1，摄影图像获取部101也可以获取每当用户进行拍摄指示时所产生的摄影图像G1。

[3-3.观测空间信息获取部]

观测空间信息获取部102主要由控制部11实现。观测空间信息获取部102基于摄影图像G1中的特征点群P的位置变化，获取包含观测空间OS中的特征点群P的三维坐标的观测空间信息。

所谓特征点群P的位置变化，是指图像上的位置变化，是二维坐标的变化。特征点群P的位置变化由屏幕坐标系的矢量信息(二维矢量信息)表示。也就是说，观测空间信息获取部102针对特征点群P中所包含的各个特征点，获取表示该特征点的位置变化的矢量信息。

观测空间信息获取部102所获取的观测空间信息是表示观测空间OS中的特征点群P的分布的信息，是所谓特征点群P的3D图。该阶段的观测空间信息如参照图4所说明，仅储存着特征点群P的三维坐标，成为无法表现摄影物的表面形状的稀疏的点群数据。

观测空间信息获取部102从摄影图像G1抽出特征点群P，并追踪所抽出的特征点群P。此外，特征点只要是表示摄影图像G1所拍摄的摄影物的特征的点即可，例如，既可以是表示摄影物的轮廓的一部分的点，也可以是摄影物内部的点(例如，中心点)。特征点的抽出方法本身可基于公知的特征点抽出算法来执行，例如，既可将由轮廓抽出处理检测出的摄影物的轮廓上的点设为特征点，也可以将轮廓线彼此以规定角度以上交叉的点设为特征点，也可以将图像内的边缘部分设为特征点。

另外，例如，观测空间信息获取部102也可以基于被称为SIFT(Scale-InvariantFeature Transform:https://en.wikipedia.org/wiki/Scale-invariant_feature_transform)的算法抽出特征点，也可以基于被称为ORB(Oriented fast and RotatedBrief:http://www.willowgarage.com/sites/default/files/orb_fina1.pdf)的算法抽出特征点。根据这些算法，存在将摄影物的角或边缘以外的部分作为特征点抽出的情况。

特征点群P的位置变化与三维坐标的关系作为数式形式、表格形式、或程序码的一部分，预先存储在数据存储部100中。特征点群P的位置变化由于是二维的信息，所以该关系也可以称为用来将二维的信息转换为三维的信息的转换规则。观测空间信息获取部102获取与特征点群P的位置变化建立关联的三维坐标。

在本实施方式中，观测空间信息获取部102利用SLAM技术获取观测空间信息。特征点在图像上，向在现实空间RS中摄影部18相对于摄影物移动的方向的相反方向移动。进而，越为处于远处的摄影物则图像上的特征点的移动量越小。在SLAM技术中，基于这些倾向利用三角测量的原理，计算特征点群P的三维坐标。也就是说，观测空间信息获取部102追踪特征点群P，基于利用三角测量的原理的SLAM技术，计算特征点群P的三维坐标。

另外，观测空间信息获取部102基于特征点群P的位置变化推定摄影部18的位置，基于该推定结果在观测空间OS设定观测视点OV。例如，观测空间信息获取部102推定摄影部18的目前的位置与方向，使推定结果反映在观测视点OV的位置与方向。

特征点群P的位置变化与摄影部18的位置及方向的关系作为数式形式、表格形式、或程序码的一部分，预先存储在数据存储部100中。该关系也可以示出表示特征点群P的变化的二维矢量信息与表示观测视点OV的位置的三维坐标及方向的三维矢量信息的关系。观测空间信息获取部102获取与特征点群P的位置变化建立关联的三维坐标及三维矢量信息。

通过观测空间信息获取部102设定观测视点OV，在现实空间RS中摄影部18移动的情况下，观测视点OV以与摄影部18相同的方式在观测空间OS中移动。也就是说，观测空间OS中的观测视点OV的位置与方向以与现实空间RS中的摄影部18的位置与方向相同的方式变化。摄影部18的位置与方向的推定方法本身能够应用公知的视点推定方法，例如，也可以利用SLAM技术。

[3-4.机械学习部]

机械学习部103主要由控制部11实现。机械学习部103基于与物体特征相关的机械学习数据，获取与摄影图像G1所示的摄影物的特征相关的附加信息。

附加信息表示摄影物的外观的特征，例如，也可以是摄影物的三维形状、分类(种类)、颜色、或花纹等信息。在本实施方式中，作为附加信息的一例，说明基于机械学习数据推定的摄影物的三维形状所相关的信息。与摄影物的三维形状相关的信息只要是能够对摄影物的表面的凹凸或方向三维地进行特定的信息即可，例如，是与摄影物的网格相关的信息、或与摄影物的法线相关的信息。换个说法，与摄影物的三维形状相关的信息是表示摄影物的表面的面信息。

与摄影物的网格相关的信息只要是能够在观测空间OS表现网格的信息即可，例如，既可以是紧密的点群数据，也可以是构成网格的顶点坐标本身，也可以是能够对该顶点坐标进行特定的深度。此外，所谓此处的“紧密”，是指具有能够表现摄影物的表面形状的程度的密度(固定值以上的密度)，例如，具有与计算机图形技术中的一般的网格的顶点相同程度的密度。深度是从观测视点OV观察的情况下的网格的深度，是观测视点OV与网格的各顶点的距离。另一方面，与摄影物的法线相关的信息只要是能够对摄影物的表面的法线进行特定的信息即可，例如，既可以是法线的矢量信息，也可以是观测空间OS内的规定平面(例如，Xw-Yw平面)与法线的交叉角。

附加信息可以是任意的数据形式，但在本实施方式中，对摄影图像G1中的摄影物的位置(屏幕坐标系统中的二维坐标)及与摄影物相关的特征量建立关联所得的二维特征量信息的情况进行说明。进而，作为二维特征量信息的一例，对与摄影物相关的特征量与各像素建立关联的特征量图像进行说明。特征量图像的各像素的特征量是表示该像素的特征的数值，例如，是基于机械学习数据推定的摄影物的深度。也就是说，深度图像G2是特征量图像的一例。此外，特征量并不限定于深度。例如，特征量图像的特征量也可以是基于机械学习数据推定的摄影物的法线。也就是说，法线图像G3也是特征量图像的一例。

机械学习部103从机械学习数据所示的物体之中，对与摄影物类似的物体进行特定。所谓类似，是指外观类似，例如，既可以指形状的类似，也可以指形状与颜色两者的类似。机械学习部103计算机械学习数据所示的物体与摄影物的类似度，在类似度是阈值以上的情况下，判定为物体与摄影物类似。类似度只要基于形状的差异或颜色的差异算出即可。

在机械学习数据中，由于物体与特征信息建立关联，所以机械学习部103基于与跟摄影物类似的物体建立关联的特征信息，获取附加信息。例如，机械学习部103在从摄影图像G1之中对类似的物体特定多个的情况下，获取包含分别与这些多个物体对应的多个特征信息的附加信息。

例如，机械学习部103从深度学习数据所示的物体之中，对与摄影物类似的物体进行特定。然后，机械学习部103对摄影图像G1中的该摄影物的像素，设定表示与该特定的物体建立关联的深度的像素值，由此产生深度图像G2。也就是说，机械学习部103针对在摄影图像G1中摄影物出现的每个区域，设定与跟该摄影物类似的物体建立关联的深度。

另外，例如，机械学习部103从法线学习数据所示的物体之中，对与摄影物类似的物体进行特定。然后，机械学习部103对摄影图像G1中的该摄影物的像素，设定表示与该特定的物体建立关联的法线的矢量信息的像素值，由此产生法线图像G3。也就是说，机械学习部103针对在摄影图像G1中摄影物出现的每个区域，设定与跟该摄影物类似的物体建立关联的矢量信息。

此外，观测空间信息获取部102与机械学习部103也可以基于以互不相同的帧拍摄的摄影图像G1执行处理，但在本实施方式中，对基于以相互相同的帧拍摄的摄影图像G1执行处理的情况进行说明。也就是说，为了观测空间信息获取部102获取观测空间信息而参照的摄影图像G1与为了机械学习部103获取附加信息而参照的摄影图像G1相同，以相同的视点(摄影部18的位置与方向)拍摄。

[3-5.整合部]

整合部104主要由控制部11实现。整合部104将观测空间信息与附加信息整合。所谓整合，是指基于观测空间信息与附加信息来增加观测空间OS的信息量。例如，如下相当于整合：与表示特征点群P的三维坐标的观测空间OS相比，进一步增加点群的数量，对特征点群P的三维坐标附加三维坐标以外的信息(例如，法线信息)，或使这些组合而增加点群且附加信息。

整合部104既可以基于观测空间信息与附加信息产生新的信息，也可以不产生新的信息，而对观测空间信息追加附加信息。例如，整合部104使观测空间信息所示的点群的数量增加而成为紧密的点群数据，或者对观测空间信息所示的特征点群P的三维坐标附加法线信息等信息，或者使这些组合而观测空间信息成为紧密的点群数据且附加法线信息等信息。在本实施方式中，对以下情况进行说明：由于附加信息表示摄影物的三维形状，所以整合部104对表示特征点群P的三维坐标的观测空间信息(稀疏的点群数据)追加基于附加信息的三维形状相关的信息。

另外，在本实施方式中，由于使用二维特征量信息作为附加信息，所以整合部104基于表示从观测视点OV观察观测空间OS的情况的二维观测信息与二维特征量信息的比较结果来执行处理。二维观测信息是将作为三维空间的观测空间OS投影至二维空间的信息，是将三维地表现的信息转换为二维的信息。例如，在二维观测信息中，二维空间中的特征点群的位置(二维坐标)与观测空间OS中的特征点群的深度建立关联。此外，特征点群的二维坐标只要由实数值表示即可。也就是说，特征点群的二维坐标不必仅由整数表示，也可以由包含小数的数值表示。

进而，在本实施方式中，对以下情况进行说明：由于使用特征量图像(例如，深度图像G2与法线图像G3)作为二维特征量信息，所以例如整合部104基于表示从观测视点OV观察观测空间OS的情况的观测空间图像与特征量图像的比较结果来执行处理。也就是说，作为三维的信息的观测空间信息与作为二维的信息的特征量图像由于维度不同，所以整合部104使这些维度一致后执行处理。此外，整合部104不使观测空间信息为二维的信息，而像下述变化例一样，也可以将特征量图像投影至观测空间OS设为三维的信息之后执行处理。

图9是表示观测空间图像的一例的图。在图9中，表示了从观测视点OV观察图4的状态的观测空间OS的情况，且将观测空间图像G4中出现的特征点群P示意性地由固定的大小的圆表示，实际上，各个特征点也可以仅由1个或数个左右的像素表现。另外，如上所述，特征点的位置并不由表示像素的位置的整数值表现，也可以由能够表现小数点以下的float值来表现。

整合部104通过将特征点群P的三维坐标转换为屏幕坐标系统的二维坐标，产生观测空间图像G4。因此，观测空间图像G4可以说是将作为三维的信息的观测空间OS投影至二维的信息的2D投影图。该转换处理本身能够应用公知的坐标转换处理(几何形状处理)。

例如，观测空间图像G4表示观测空间OS中的特征点群P的深度。也就是说，观测空间图像G4的像素值与深度图像G2同样地表示深度。此外，关于观测空间图像G4中未出现特征点群P的部分，既可不特别设定像素值，也可设定表示未出现特征点群P的规定值。

观测空间图像G4是与摄影图像G1相同的尺寸(纵横的像素数相同)，既可以是彩色图像，也可以是灰度图像。在图9的例中，将观测空间图像G4的像素值示意性地由半色调点的浓度表示，表示半色调点越浓则深度越低(距离越短)，表示半色调点越淡则深度越高(距离越长)。例如，表示接近观测视点OV的特征点的像素的半色调点较浓，表示不那么远离观测视点OV的特征点/>的像素的半色调点为中等程度的浓度，远离观测视点OV的特征点/>P14的半色调点较淡。

整合部104对在观测空间图像G4中特征点群P出现的像素进行特定，基于特征量图像(例如，深度图像G2与法线图像G3)的该像素的像素值执行处理。如果是图9的例，那么整合部104对在观测空间图像G4中特征点出现的像素的二维坐标进行特定，基于特征量图像的该二维坐标的像素的像素值执行处理。

图10是表示整合部104执行的处理的一例的图。如图10所示，首先，整合部104基于深度图像G2，对观测空间OS设定网格M。例如，整合部104将深度图像G2所示的各像素的深度投影至观测空间OS，以从观测视点OV离开仅该深度的场所成为顶点坐标的方式，设定暂时的网格M(作为初始值的网格M)。也就是说，整合部104将深度图像G2的各像素的深度转换为三维坐标，将该三维坐标设为网格M的顶点坐标。

此外，基于深度信息对三维空间设定点群转换为网格的方法本身能够应用公知的各种手法。换个说法，将作为所谓2.5维的信息的深度信息转换为三维的点群数据的方法本身能够应用公知的各种手法。例如，也可以利用“On Fast Surface ReconstructionMethods for Large and Noisy Point Clouds”(http://ias.informatik.tu-muenchen.de/_media/spezial/bib/marton09icra.pdf)中所记载的手法，对观测空间OS设定网格M。

如图10所示，从深度图像G2设定的网格M由于不具有尺度，所以不限定为作为实测值的特征点群P与网格M的位置一致。因此，整合部104基于观测空间图像G4与深度图像G2的比较结果，改变网格M的尺度。也就是说，整合部104从网格M之中对与特征点群P对应的部分进行特定，以该特定的部分接近特征点群P的方式，改变网格M的尺度。

尺度是影响网格M的位置或尺寸的参数，如果改变尺度，那么构成网格M的点群的间隔变化，或者网格M与观测视点OV的距离变化。例如，如果使尺度变大，那么点群的间隔整体地扩大而网格M变大，或者网格M与观测视点OV的距离变长。另外，例如，如果使尺度变小，那么点群的间隔整体地缩小而网格M变小，网格M与观测视点OV的距离变短。

例如，整合部104以表示特征点群P与网格M的偏移情况的指标值小于阈值的方式，计算尺度。该指标值基于特征点群P与网格M的距离算出。例如，指标值只要利用将各特征点与网格M的距离设为引数的数式来计算即可，例如，既可以是特征点群P与网格M的距离的合计值，也可以是该距离的平均值。

例如，整合部104一边使尺度变化一边计算指标值，并判定指标值是否小于阈值。整合部104在指标值是阈值以上的情况下使尺度再次变化而重新进行判定处理。另一方面，整合部104在指标值小于阈值的情况下决定为目前的尺度。整合部104通过这样决定尺度，以特征点群P与网格M的整体的偏移情况变小的方式，改变网格M。

另外，如图10所示，整合部104改变尺度而整体地改变网格M之后，也可以基于改变后的网格M与特征点群P，将网格M局部地改变。例如，整合部104针对每个特征点，判定该特征点与网格M的距离是否为阈值以上。如果距离为阈值以上，那么整合部104使与该特征点对应的网格M以接近该特征点的方式改变。网格M的局部的改变通过改变一部分的顶点(成为对象的特征点附近的顶点)的三维坐标来执行。

此外，整合部104所执行的处理并不限定于所述例。例如，整合部104也可以在基于深度图像G2改变网格M之后，基于法线图像G3，再次改变网格M。在该情况下，整合部104获取基于深度图像G2改变的网格M的法线信息，并与法线图像G3所示的法线信息进行比较。然后，整合部104以两者的差变小的方式，局部地改变网格M。此外，整合部104利用与深度图像G2相同的处理，将观测空间图像G4与法线图像G3进行比较，由此，只要对网格M与法线图像G3所示的法线信息的对应关系进行特定即可。

如上所述，本实施方式的整合部104基于二维特征量信息，在观测空间OS设定摄影物的网格M，基于二维观测信息与二维特征量信息的比较结果，改变网格M的尺度。例如，整合部104基于附加信息在观测空间OS设定网格，基于观测空间信息改变该网格。

例如，整合部104基于二维观测信息与二维特征量信息的比较结果，改变网格M的尺度之后，局部地改变网格M。另外，例如，整合部104基于深度图像G2，在观测空间OS设定摄影物的网格M，基于观测空间图像G4与深度图像G2的比较结果，改变网格M的尺度。进而，整合部104基于观测空间图像与特征量图像(例如，深度图像G2与法线图像G3)的比较结果，改变网格M的尺度之后，局部地改变网格M。

此外，整合部104也可以在改变网格M中与观测空间信息所示的特征点群的三维坐标对应的网格部分之后，改变该网格部分的周围的网格部分。所谓周围，是指规定距离以内的部分。例如，整合部104在改变以与特征点群的三维坐标一致的方式暂时设定的网格M之后，以位于各特征点之间的网格部分平滑的方式，改变该网格部分。所谓平滑，例如是指凹凸的变化不过度急剧，位置变化小于阈值。例如，整合部104以网格M的凹凸的变化小于阈值的方式，改变网格部分。

此外，网格部分的改变方法本身也可以利用公知的技术，例如，也可以使用“As-Rigid-As-Possible Surface Modeling”(http://igl.ethz.ch/projects/ARAP/arap_web.pdf)中所记载的被称为ARAP的手法。通过改变与特征点群一致的网格部分的周围的网格部分，能够使各网格部分与周围的条理一致，能够更平滑地设定自然的网格。

也可以直接利用ARAP手法，但在本实施方式中，对将ARAP手法扩展而基于网格推定的可靠性改变网格M的情况进行说明。

例如，由于网格M是利用机械学习推定的，所以在网格M中既存在网格推定的可靠性高的部分，也存在可靠性低的部分。因此，整合部104也可以在不进行较大改变的情况下保持可靠性高的部分的形状，且在某种程度上改变可靠性低的部分的形状。此外，所谓可靠性，是指形状的推定精度的高度，与被摄体的表面形状何种程度相似。

例如，在被摄体朝向摄影部18侧的情况下，它的表面清楚地影印在摄影图像G1，所以较多的情况是网格M的推定精度高。另一方面，在被摄体相对于摄影部18朝向旁边的情况下，它的表面不怎么影印在摄影图像G1，所以存在网格M的推定精度低的情况。因此，在本实施方式中，设为网格M中朝向观测视点OV的部分可靠性高，不朝向观测视点OV的部分(相对于观测视点OV朝向旁边的部分)可靠性低。

图11及图12所将ARAP手法扩展而改变网格M的处理的说明图。如图11所示，在本实施方式中，设为网格M的顶点的法线矢量n与将观测视点OV及该顶点连接的矢量d所成的角度θ越接近180°则可靠性越高，角度θ越接近90°则可靠性越低。此外，在本实施方式中，设为不存在网格M朝向观测视点OV的相反方向的情况，原则上，设为不存在角度θ小于90°的情况。

例如，整合部104基于网格部分相对于观测视点OV的方向(角度θ)，改变该网格部分。也就是说，整合部104基于网格部分相对于观测视点OV的方向，决定该网格部分的改变量。所谓网格部分的改变量，是指形状如何变形，是顶点的三维坐标的改变量(移动量)。

此外，相对于观测视点OV的方向与网格部分的改变量的关系预先存储在数据存储部100。该关系既可作为数式形式或表格形式的数据存储，也可以作为程序码的一部分记述。整合部104基于将网格M的各网格部分与该网格部分相对于观测视点OV的方向建立关联的改变量而改变。

例如，整合部104为网格部分越朝向观测视点OV(角度θ越接近180°)则越使该网格部分的改变量变小，网格部分越不朝向观测视点OV(角度θ越接近90°)则越使该网格部分的改变量变大。换个说法，整合部104为网格部分越朝向观测视点OV则越使该网格部分的刚性变高，网格部分越不朝向观测视点OV则越使该网格部分的刚性变低。此外，所谓网格部分不朝向观测视点OV，是指网格部分相对于观测视点OV朝向旁边。

假设如上所述不根据网格M的各部分的可靠性改变刚性，那么如图12所示，存在网格M以被特征点P拉伸的方式不自然地变形的情况。对于这一点，通过在保持可靠性高的部分(朝向观测视点OV的部分)的刚性的状态下变形，维持可靠性高的部分的形状，能够防止如上所述的不自然的变形，形成为更自然的网格M。

此外，在以下的说明中，将与特征点P对应的网格M的顶点记载为v_i。例如，顶点v_i是最接近将观测视点OV及特征点P连接的直线(图11的矢量d的点线)与网格M的交点的顶点。例如，整合部104也可以基于下述数式1-7，改变网格M。例如，数式1-7(尤其数式3-4)是所述说明的相对于观测视点OV的方向与网格部分的改变量的关系的一例。

首先，整合部104针对每个顶点v_i计算下述数式1的左边所示的能量函数的值。

[数1]

在数式1中，将与顶点v_i对应的近邻记载为C_i，将该近邻的各顶点记载为v_j。此外，所谓近邻，是指顶点v_i的周围的顶点，此处，设为邻接顶点(one-ring neighborhood)，但2个以上离开的顶点也可以相当于近邻。另外，将改变后的顶点记载v'_i，将改变后的近邻记载为C'_i，将改变后的邻接顶点记载为v'_j。

数式1的右边的N(v_i)是顶点v_i的近邻C_i中所包含的邻接顶点v_j的集合。数式1的右边的R_i是3×3的旋转行列。如数式1所示，能量函数E(C'_i)是相对于顶点v_i的邻接顶点v_j的相对性的位置变化乘以加权系数ω_ij所得的值的合计值。即便相对于顶点v_i而邻接顶点v_j大幅度移动，只要加权系数ω_ij较小，则能量函数E(C'_i)的值变小。相反，即便相对于顶点v_i而邻接顶点v_j不怎么移动，只要加权系数ω_ij较大，则能量函数E(C'_i)的值变大。

加权系数ω_ij利用顶点v_i与邻接顶点v_j的组合来决定值。例如，整合部104基于下述数式2，计算加权系数ω_ij。数式2的右边的α_ij、β_ij是网格M的边缘(i、j)的相反侧的角度。

[数2]

例如，整合部104基于下述数式3，计算针对每个顶点v_i计算的能量函数E(C'_i)的合计值。

[数3]

在数式3中，将改变后的网格M记载为M'。如数式3的右边所示，整合部104针对每个顶点v_i，计算能量函数E(C'_i)的值乘以加权系数ω_i所得的值，计算它的合计值。加权系数ω_i例如只要利用S型函数等来决定即可。例如，整合部104基于下述数式4计算加权系数ω_i。

[数4]

数式4的右边的a与b是系数，为固定值。例如，角度θ越接近180°则加权系数ω_i越大，网格部分的改变对能量函数的合计值(数式3的左边)带来的影响越大。因此，通过使网格部分仅稍微改变而能量函数的合计值大幅度增加。另一方面，角度θ越接近90°则加权系数ω_i越小，网格部分的改变对能量函数的合计值带来的影响越小。因此，即便使网格部分大幅度改变而能量函数的合计值也不那么增加。通过这样设定加权系数ω_i，能够根据网格M的可靠性使刚性变化。

此外，整合部104也可以用利用数式3计算的能量函数E(C'_i)的合计值变小的方式改变网格M，但整合部104也可以进而考虑弯曲系数。弯曲系数为表示网格M表面以何种程度弯曲(变形)的数值，例如，像“Z.Levi and C.Gotsman.Smooth rotation enhanced as-rigid-as-possible mesh animation.IEEE Transactions on Visualization andComputer Graphics,21:264-2 77,2015.”中所记载的一样，基于下述数式5计算。

[数5]

B_ij＝αA||R_i-R_j||

数式5的右边的α是加权因数，A是指即便改变尺度而它的特征也不变化的表面。数式1的右边的R_i、R_j是3×3的旋转行列。例如，整合部104针对顶点v_i与邻接顶点v_j的每个组合计算弯曲系数B_ij，也可以基于下述数式6，反映于能量函数E(C'_i)的合计值。

[数6]

此外，由于摄影图像G1根据规定帧频重复获取，整合部104重复执行所述说明的处理，所以整合部104也可以考虑过去计算的尺度，基于下述数式7，计算时刻t的观测空间OS的绝对的尺度s^w _t。此外，数式7的右边的s^c _t是对网格M设定的尺度。

[数7]

[4.在本实施方式中执行的处理]

图13是表示在图像处理装置10中执行的处理的一例的流程图。图13所示的处理通过控制部11根据存储在存储部12中的程序动作来执行。图13所示的处理是利用图8所示的功能块执行的处理的一例，且针对摄影部18拍摄的每帧执行。

此外，在执行图13所示的处理时，下述映射处理的初始化已经完成，观测空间OS(特征点群P的3D图)已经产生。也就是说，控制部11追踪从摄影图像G1抽出的特征点群P，利用SLAM技术将特征点群P的三维坐标与观测视点OV已经设定在观测空间OS。

如图13所示，首先，控制部11执行摄影图像获取处理(S1)。在S1中，控制部11获取摄影部18以目前的帧产生的摄影图像G1。此外，控制部11也可以按时间序列将摄影图像G1记录在存储部12中。也就是说，控制部11也可以将摄影图像G1的历程记录在存储部12中。

控制部11基于S1中所获取的摄影图像G1，执行2D追踪处理(S2)。2D追踪处理是用来追踪特征点群P的图像上的位置变化的处理。在S2中，首先，控制部11从S1中所获取的摄影图像G1获取特征点群P。然后，控制部11对该特征点群P与以最近的帧(前一帧)获取的摄影图像G1的特征点群P的对应关系进行特定，获取表示特征点群P的二维坐标的差的矢量信息。此外，控制部11将S2中所抽出的特征点群P的二维坐标与摄影图像G1建立关联而记录在存储部12中。另外，控制部11也可以按时间序列将特征点群P的矢量信息记录在存储部12中。

控制部11判定是否开始映射处理(S3)。映射处理是用来更新观测空间信息(特征点群P的三维坐标)的处理。映射处理既可每帧执行，也可以多帧执行1次。在映射处理多帧执行1次的情况下，映射处理的执行间隔既可以是固定值，也可以是可变值。

此外，此处，对以上次的映射处理结束的下一帧再次开始映射处理的情况进行说明。因此，在S3中，判定上次的映射处理是否结束，如果上次的映射处理结束那么判定为开始映射处理，如果上次的映射处理未结束那么不判定为开始映射处理。

在判定为开始映射处理的情况下(S3；Y)，控制部11基于S1中所获取的摄影图像G1，开始映射处理(S4)。S4中开始的映射处理与图13所示的主常式处理并列地(或后台(background))执行。

图14是表示映射处理的一例的流程图。如图14所示，控制部11基于S2中执行的2D追踪处理的执行结果，计算特征点群P的三维坐标(S41)。在S41中，控制部11计算自上次的映射处理的特征点群P的移动量的累积，利用SLAM技术计算特征点群P的三维坐标。

控制部11基于S2中执行的2D追踪处理的执行结果，推定摄影部18的位置(S42)。在S42中，控制部11计算自上次的映射处理的特征点群P的移动量的累积，利用SLAM技术计算摄影部18的位置与方向。

控制部11基于S41与S42的计算结果，更新观测空间信息(S43)。在S43中，控制部11基于S41中计算出的特征点群P的三维坐标与S42中计算出的位置与方向，更新特征点群P的三维坐标与观测视点参数。

返回至图13，在未判定为开始映射处理的情况下(S3；N)，或者在S4中开始映射处理的情况下，控制部11判定是否开始解密处理(S5)。解密处理是利用机械学习推定摄影物的三维形状的处理，在本实施方式中，是获取深度图像G2与法线图像G3的处理。解密处理既可每帧执行，也可以多帧执行1次。在解密处理多帧执行1次的情况下，解密处理的执行间隔既可以是固定值，也可以是可变值。

此外，解密处理由于比映射处理计算量多(负载高)，所以在该情况下，解密处理的执行间隔也可以比映射处理长。例如，也可以将映射处理2帧执行1次，将解密处理3帧执行1次。

另外，此处，对以上次的解密处理结束的下一帧再次开始解密处理的情况进行说明。因此，在S5中，判定上次的解密处理是否结束，如果上次的解密处理结束那么判定为开始解密处理，如果上次的解密处理未结束那么不判定为开始解密处理。

在判定为开始解密处理的情况下(S5；Y)，控制部11基于与执行中的映射处理相同的摄影图像G1，开始解密处理(S6)。S6中开始的解密处理与图13所示的主常式处理并列地(或后台)执行。

图15是表示解密处理的一例的流程图。如图15所示，控制部11基于摄影图像G1与深度学习数据，获取深度图像G2(S61)。在S61中，控制部11从摄影图像G1之中对与深度学习数据所示的物体类似的部分进行特定。然后，控制部11通过设定深度学习数据所示的该物体的深度作为该部分的各像素的像素值，产生深度图像G2。

控制部11基于摄影图像G1与法线学习数据，获取法线图像G3(S62)。在S62中，控制部11从摄影图像G1之中对与法线学习数据所示的物体类似的部分进行特定。然后，控制部11通过设定法线学习数据所示的该物体的法线的矢量信息作为该部分的各像素的像素值，产生法线图像G3。

返回至图13，在未判定为开始解密处理的情况下(S5；N)，或在S6中开始解密处理的情况下，控制部11判定是否开始整合处理(S7)。整合处理是在观测空间OS设定摄影物的网格的处理。整合处理既可每帧执行，也可以多帧执行1次。在整合处理多帧执行1次的情况下，整合处理的执行间隔既可以是固定值，也可以是可变值。

此外，此处，对在映射处理与解密处理两者均完成的情况下开始整合处理的情况进行说明。因此，在S7中，判定执行中的映射处理与解密处理是否结束，如果两者均结束那么判定为开始整合处理，如果任一者未结束那么不判定为开始整合处理。

在判定为开始整合处理的情况下(S7；Y)，控制部11开始整合处理(S8)。S8中开始的整合处理与图13所示的主常式处理并列地(或后台)执行。

图16是表示整合处理的一例的流程图。如图16所示，控制部11产生表示从观测视点OV观察观测空间OS内的特征点群P的情况的观测空间图像G4(S81)。观测空间图像G4是与深度图像G2相同的图像，各像素表示特征点群P的深度。在S81中，控制部11通过计算观测视点OV与特征点群P的距离，产生观测空间图像G4。

控制部11基于S81中所产生的观测空间图像G4，修正深度图像G2所示的网格(S82)。在S82中，控制部11基于观测空间图像G4与深度图像G2，对与特征点群P对应的网格的位置进行特定，以这些深度的差变小的方式，修正网格的尺度。进而，控制部11对于特征点与网格的距离为阈值以上的部分，以该距离小于阈值的方式，局部地修正网格。另外，控制部11以与特征点群P一致的网格部分的周围的网格部分平滑的方式进行修正。进而，控制部11也可以基于相对于观测视点OV的网格部分的方向，改变该网格部分。

控制部11基于法线图像G3，再次修正S82中所修正的网格(S83)。在S83中，控制部11基于观测空间图像G4与深度图像G2，对与特征点群P对应的法线方向进行特定，以S82中所修正的网格的法线(网格中与特征点群P对应的部分的法线)与法线图像G3所示的法线的差变小的方式，修正网格。

控制部11基于S83中所修正的网格，更新观测空间OS(S84)。在S84中，控制部11将S83中所修正的网格的顶点坐标储存在观测空间信息中。由此，在映射处理中为稀疏的点群数据的观测空间信息利用整合处理成为紧密的点群数据。

返回至图13，在未判定为开始整合处理的情况下(S7；N)，或在S8中开始整合处理的情况下，控制部11结束本处理。以下，每当访问帧时，再次执行图13的处理。

此外，在实时地提供扩展现实的情况下，在结束本处理之前，控制部11也可以将表示虚构的物体的三维目标配置在观测空间OS，产生表示从观测视点OV观察观测空间OS的情况的虚拟图像，与摄影图像G1合成后显示在显示部15。作为此时合成的摄影图像G1，既可以是本帧的S1中获取的图像，也可以是映射处理与解密处理中所参照的摄影图像G1。进而，在扩展现实中，也可以合成表示球或交通工具等移动体的目标。在该情况下，也可以执行观测空间OS的网格与表示移动体的目标的命中判定，移动体弹回，或者爬上墙壁。

另外，如上所述，映射处理与解密处理无须每帧执行，也可以多帧执行1次。进而，解密处理由于比映射处理计算量更多，所以解密处理的执行间隔也可以比映射处理的执行间隔更长。

图17是表示各处理的执行间隔的一例的图。在图17所示的例中，摄影图像获取处理(S1)与2D追踪处理(S2)每帧执行。另一方面，映射处理(图14)n(n是2以上的整数)帧执行1次，解密处理m(m是2以上的整数，m>n)帧执行1次。整合处理在解密处理完成之后执行。如图17所示，映射处理与解密处理中所参照的摄影图像G1成为以相同的帧获取的摄影图像G1，基于从相同的视点获得的摄影图像G1执行映射处理与解密处理。

根据以上所说明的图像处理装置10，通过将摄影部18所拍摄的摄影图像G1与利用机械学习获得的附加信息整合，能够简化用来提高观测空间OS的信息量的构成。例如，即便不利用深度照相机等特殊的传感器，也能够对观测空间OS附加特征点群P的三维坐标以外的信息。因此，即便是不搭载特殊的传感器的智能手机等终端，也能够产生精度高的观测空间OS。

另外，图像处理装置10在利用特征量图像(例如，深度图像G2或法线图像G3)作为附加信息的情况下，通过将观测空间图像G4与特征量图像进行比较，能够将从相同的视点观察的图像彼此进行比较。也就是说，在以往技术中，使用2个照相机并列地排列的RGB-D照相机，利用视点位置的差异在观测空间OS产生误差，但图像处理装置10由于使用相同的视点，所以能够防止误差的产生，提高观测空间OS的再现度。

另外，图像处理装置10通过基于观测空间图像G4与深度图像G2的比较结果改变网格的尺度，能够使机械学习中所得的网格整体地接近实测值，所以能够利用简易的处理提高观测空间OS的再现度。例如，由于不将网格的顶点一个一个地个别地改变，而利用尺度的改变使网格整体地接近实测值，所以能够实现处理的简化(计算量的降低)，减轻图像处理装置10的处理负载，且谋求处理速度的提高。

另外，由于在改变网格的尺度之后，局部地调整网格，所以能够更有效地提高观测空间OS的再现度。在该情况下，关于所有特征点群P并非个别地改变网格部分，而仅将差异大的部分设为对象，由此能够实现用来提高观测空间OS的再现度的处理的简化，所以能够更有效地减轻图像处理装置10的处理负载，谋求处理速度的提高。

另外，通过使用摄影物的三维形状作为附加信息，能够将现实空间RS的三维形状在观测空间OS再现，从而能够简化用来将现实空间RS的三维形状在观测空间OS详细地再现的构成。

另外，通过使用与摄影物的网格相关的信息作为附加信息，能够在观测空间OS配置表示摄影物的网格，从而能够简化用来将表示现实空间RS的物体的网格配置在观测空间OS的构成。另外，观测空间OS由于基于观测数据，所以稀疏且正确性高，附加信息由于是使用机械学习的预测值，所以存在正解性低的情况，但是通过将稀疏且正确的观测空间OS的特征点群与紧密且正确率低的附加信息的网格整合，能够确保正确性，且获取紧密的数据。

另外，在使用与摄影物的网格相关的信息作为附加信息的情况下，通过基于作为实测值的观测空间信息改变该网格，能够有效地提高观测空间OS的再现度。

另外，通过在改变与特征点群的三维坐标对应的网格部分之后，改变该网格部分的周围的网格部分，能够使网格的表现形状平滑。也就是说，能够谋求作为保管特征点间的数据的数据精度的提高，能够有效地提高观测空间OS的再现度。

另外，通过基于相对于观测视点OV的各网格部分的方向，改变该网格部分，而可靠度高的网格部分能够尽量保持它的形状整合，可靠度低的网格部分改变它的形状之后整合，所以能够有效地提高观测空间OS的再现度。

另外，通过使用与摄影物的法线相关的信息作为附加信息，能够在观测空间OS设定法线，表示摄影物的三维形状，从而能够简化用来将现实空间RS的物体的表面的方向在观测空间OS再现的构成。

另外，通过从相同的帧的摄影图像G1产生观测空间信息与附加信息，能够在相同的视点的图像对相互的对应关系进行特定，从而能够防止由如上所述视点位置的差异所致的误差的产生，更有效地提高观测空间OS的精度。

[5.变化例]

此外，本发明并不限定于以上所说明的实施方式。在不脱离本发明的主旨的范围内，能够适当改变。

(1)例如，在实施方式中，作为附加信息的一例，对摄影物的深度或法线进行了说明，但附加信息也可以是与摄影物的分类相关的信息。也就是说，附加信息也可以是将摄影图像G1的各像素针对每个摄影物分组的信息。在本变化例中，与实施方式相同，对使用特征量图像的情况进行说明，将使摄影图像G1的各像素分类的分类图像作为特征量图像的一例进行说明。

图18是表示分类图像的一例的图。如图18所示，分类图像G5是与摄影图像G1相同的尺寸(纵横的像素数相同)，且针对每个摄影物将图像内的区域分组的图像。分类图像G5针对每个摄影物分配像素值。也就是说，分类图像G5是对各像素赋予识别摄影物的信息的标签图像。像素值相同像素表示相同的摄影物。

分类图像G5既可以是彩色图像，也可以是灰度图像。在图18的例中，将分类图像G5的像素值示意性地由半色调点的浓度表示，半色调点的浓度相同的像素表示相同的物体。因此，表示床的像素是第1像素值。同样地，表示墙壁的像素是第2像素值，表示地板的像素是第3像素值，表示绘画的像素是第4像素值。

例如，整合部104基于分类图像G5，将观测空间信息所示的特征点群P分组。例如，整合部104与实施方式中所说明的方法相同地，产生观测空间图像G4，对与特征点群P对应的分类图像G5内的像素进行特定。然后，整合部104对分类图像G5中的各像素的像素值进行特定，将表示相同的值的特征点彼此作为相同的组分类。也就是说，整合部104对特征点群P的三维坐标，赋予识别组的信息。

根据变化例(1)，通过使用与摄影物的分类相关的信息作为附加信息，能够将观测空间OS的点群分组。

(2)另外，例如，在实施方式中，对为了对基于深度图像G2改变的网格M进行微调整而使用法线图像G3的情况进行了说明，但法线图像G3的利用方法并不限定于所述例。例如，整合部104也可对特征点群P的三维坐标附加法线信息。

图19是表示整合部104所执行的处理的一例的图。如图19所示，整合部104对各特征点，附加与该特征点对应的法线信息。像实施方式中所说明的一样，整合部104只要通过将观测空间图像G4与法线图像G3进行比较，对特征点与法线信息的对应关系进行特定即可。例如，整合部104也可以通过将处于将观测视点OV与特征点连接的直线上的法线信息(也就是说，图像上处于相同的像素的法线信息)映射于该特征点，来增加观测空间OS的信息量。

在该情况下，观测空间OS的点群的数量不增加，但追加法线信息，所以整合部104能够产生表示摄影物的表面形状的网格。进而，与实施方式中所说明的方法组合，整合部104也可将观测空间OS成为紧密的点群数据，且对特征点群P附加法线信息。通过这样，能够进而增加观测空间OS的信息量。

另外，例如，对深度图像G2的像素值越高则深度越高的情况进行了说明，但像素值与深度的关系也可以相反，也可以表示像素值越低则深度越高。同样地，只要法线图像G3的像素值与法线基于固定的法则且这些之间存在相关关系即可。

另外，例如，在实施方式中，对将作为三维的信息的观测空间信息转换为作为二维的信息的观测空间图像G4之后与作为二维的信息的深度图像G2及法线图像G3进行比较的情况进行了说明，但也可以将深度图像G2及法线图像G3转换为三维的信息之后，与观测空间信息进行比较。也就是说，整合部104只要使观测空间信息与附加信息的维一致之后，对相互的对应关系进行特定，执行将这些整合的处理即可。

另外，例如，对附加信息为图像形式的信息的情况进行了说明，但附加信息只要是任意的数据形式即可，既可以是不取图像形式的数值群数据，也可以是表形式数据，也可以是各种数据形式。在利用图像形式以外的信息作为附加信息的情况下，可不执行特别将图像彼此进行比较的处理。进而，也可以使机械学习数据学习网格的顶点坐标，将附加信息设为三维的信息，而不是像图像一样的二维的信息。在该情况下，也可以不执行使与观测空间信息的维一致的处理。

另外，例如，对在室内配置着家具等的情况进行了说明，但也可以不特别在室内配置家具等。另外，例如，作为现实空间RS的一例对室内进行了说明，但现实空间RS也可以是室外，例如，也可以是路上、停车场、事件会场等。另外，例如，对将图像处理装置10再现的观测空间OS利用于扩展现实的情况进行了说明，但能够在任意的场面利用观测空间OS，也可以用于机器人的移动控制。

(3)另外，例如，对图像处理系统由1台图像处理装置10实现的情况进行了说明，但图像处理系统也可以包含多台计算机。

图20是表示变化例中的图像处理系统的一例的图。如图20所示，变化例的图像处理系统S包含图像处理装置10及服务器20。图像处理装置10与服务器20连接于因特网等网络。

服务器20为服务器计算机，例如，包含控制部21、存储部22、及通信部23。控制部21、存储部22、及通信部23的硬件构成由于分别与控制部11、存储部12、及通信部13相同，所以省略说明。

实施方式及所述变化例(1)-(2)中所说明的处理也可以由图像处理装置10与服务器20分担。例如，也可以在图像处理装置10中，实现摄影图像获取部101及观测空间信息获取部102，在服务器20中，实现数据存储部100、机械学习部103、及整合部104。在该情况下，数据存储部100主要由存储部22实现，机械学习部103及整合部104主要由控制部21实现。服务器20从图像处理装置10接收摄影图像G1。而且，与实施方式中所说明的方法相同地，机械学习部103获取附加信息，整合部104执行整合处理。而且，图像处理装置10只要从服务器20接收由整合部104进行的整合处理的结果即可。

另外，例如，也可以在图像处理装置10中，实现摄影图像获取部101、观测空间信息获取部102、及机械学习部103，在服务器20中实现整合部104。另外，例如，也可以在图像处理装置10中，实现摄影图像获取部101、观测空间信息获取部102、及整合部104，在服务器20中实现机械学习部103。另外，例如，也可以在图像处理装置10中，实现摄影图像获取部101，在服务器20中，实现观测空间信息获取部102、机械学习部103、及整合部104。

另外，例如，也可以在服务器20中，实现数据存储部100、摄影图像获取部101、观测空间信息获取部102、机械学习部103、及整合部104的所有功能。在该情况下，服务器20也可以对图像处理装置10发送观测空间信息。

此外，在图20中，对图像处理装置10与服务器20各表示1台，且图像处理系统S包含2台计算机的情况进行了说明，但图像处理系统S也可以包含3台以上的计算机。在该情况下，也可以由3台以上的计算机分担各处理。另外，例如，也可以不需要在图像处理装置10中包含摄影部18，摄影图像获取部101获取利用不包含在图像处理装置10中的摄影部18拍摄的摄影图像G1。进而，数据存储部100也可以由处于图像处理系统的外部的服务器计算机等实现。

Claims

1.一种图像处理系统，其特征在于包含：

摄影图像获取机构，获取在现实空间能够移动的摄影机构所拍摄的摄影图像；

观测空间信息获取机构，基于所述摄影图像中的特征点群的位置变化，获取包含观测空间中的所述特征点群的三维坐标的观测空间信息；

机械学习机构，基于与物体特征相关的机械学习数据，获取与所述摄影图像所示的摄影物的特征相关的附加信息；以及

整合机构，将所述观测空间信息与所述附加信息整合；且

所述附加信息是将所述摄影图像中的所述摄影物的位置及与所述摄影物相关的特征量建立关联所得的二维特征量信息，

所述观测空间信息获取机构基于所述特征点群的位置变化推定所述摄影机构的位置，基于该推定结果在所述观测空间设定观测视点，

所述整合机构基于表示从所述观测视点观察所述观测空间的情况的二维观测信息与所述二维特征量信息的比较结果来执行处理。

2.根据权利要求1所述的图像处理系统，其特征在于：

所述特征量是基于所述机械学习数据推定的所述摄影物的深度，

在所述二维观测信息，将二维空间中的所述特征点群的位置与所述观测空间中的所述特征点群的深度建立关联，

所述整合机构基于所述二维特征量信息，在所述观测空间设定所述摄影物的网格，基于所述二维观测信息与所述二维特征量信息的比较结果，改变所述网格的尺度。

3.根据权利要求2所述的图像处理系统，其特征在于：

所述整合机构基于所述二维观测信息与所述二维特征量信息的比较结果，改变所述网格的尺度之后，局部地改变所述网格。

4.根据权利要求1至3中任一项所述的图像处理系统，其特征在于：

所述附加信息是基于所述机械学习数据推定的所述摄影物的三维形状所相关的信息。

5.根据权利要求4所述的图像处理系统，其特征在于：

所述附加信息是与所述摄影物的网格相关的信息。

6.根据权利要求5所述的图像处理系统，其特征在于：

所述整合机构基于所述附加信息在所述观测空间设定所述网格，基于所述观测空间信息改变该网格。

7.根据权利要求6所述的图像处理系统，其特征在于：

所述整合机构在将所述网格中与所述观测空间信息所示的所述特征点群的三维坐标对应的网格部分改变之后，改变该网格部分的周围的网格部分。

8.根据权利要求6所述的图像处理系统，其特征在于：

所述整合机构基于相对于所述观测视点的各网格部分的方向，改变该网格部分。

9.根据权利要求4所述的图像处理系统，其特征在于：

所述附加信息是与所述摄影物的法线相关的信息。

10.根据权利要求4所述的图像处理系统，其特征在于：

所述附加信息是与所述摄影物的分类相关的信息。

11.根据权利要求1至3中任一项所述的图像处理系统，其特征在于：

所述摄影机构基于规定的帧频，对所述现实空间进行拍摄，

所述观测空间信息获取机构与所述机械学习机构基于以相互相同的帧拍摄的所述摄影图像执行处理。

12.一种图像处理方法，其特征在于包含如下步骤：

摄影图像获取步骤，获取在现实空间能够移动的摄影机构所拍摄的摄影图像；

观测空间信息获取步骤，基于所述摄影图像中的特征点群的位置变化，获取包含观测空间中的所述特征点群的三维坐标的观测空间信息；

机械学习步骤，基于与物体特征相关的机械学习数据，获取与所述摄影图像所示的摄影物的特征相关的附加信息；以及

整合步骤，将所述观测空间信息与所述附加信息整合；且

所述观测空间信息获取步骤基于所述特征点群的位置变化推定所述摄影机构的位置，基于该推定结果在所述观测空间设定观测视点，

所述整合步骤基于表示从所述观测视点观察所述观测空间的情况的二维观测信息与所述二维特征量信息的比较结果来执行处理。

13.一种存储程序的信息存储介质，用来使计算机作为如下机构发挥功能：

整合机构，将所述观测空间信息与所述附加信息整合；且