CN107274450B

CN107274450B - 信息处理装置及其控制方法

Info

Publication number: CN107274450B
Application number: CN201710173885.9A
Authority: CN
Inventors: 牧田孝嗣; 山崎将由
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-04-01
Filing date: 2017-03-22
Publication date: 2021-02-09
Anticipated expiration: 2037-03-22
Also published as: EP3236424A2; CN107274450A; JP2017187861A; KR20170113122A; JP6744747B2; US10419673B2; US20170289453A1; KR102169309B1; EP3236424B1; EP3236424A3; EP3236424B8

Abstract

本发明涉及信息处理装置及其控制方法。所述信息处理装置获取由摄像装置拍摄的图像，与图像相关地检测影响位置和姿势估计的因素的发生，基于检测到的因素确定是否对获取的图像进行登记，并且使用确定要登记的图像组，依据由所述获取单元获取的图像来构建用于估计所述摄像装置的位置和姿势的图像数据库。

Description

信息处理装置及其控制方法

技术领域

本发明涉及一种依据拍摄图像来生成用于估计摄像装置的位置和姿势的图像数据库的信息处理装置及信息处理装置的控制方法。

背景技术

近些年，活跃着如下混合现实(在下文中被称为“MR”)技术的研究，其中，现实空间和虚拟空间被毫无违和感地融合并呈现。然而，在MR技术当中，将虚拟空间覆盖在现实空间上并呈现的增强现实(在下文中被称为“AR”)技术备受关注。MR技术和AR技术中的一个重要问题在于如何实时地在现实空间与虚拟空间之间精确地进行对准，并且已经在该问题上投入了大量的努力。MR和AR中的对准问题是以视频透视方法获得摄像装置在场景内(具体而言，在场景内定义的基准坐标系中)的位置和姿势的问题。

作为实现视频透视方法中的对准的方法的代表性示例，存在如下的方法：在场景中布置形状信息的已知的人造指示符，由摄像装置对该指示符进行拍摄并识别，从而获得摄像装置在基准坐标系中的位置和姿势。根据摄像装置拍摄的图像内的指示符的投影位置(图像坐标)与作为已知信息的指示符在基准坐标系中的三维坐标之间的对应关系，来获得摄像装置在基准坐标系中的位置和姿势。

此外，作为实现视频透视方法中的对准的方法，使用场景内原始存在的特性(在下文中被称为“自然特征”)而不使用人造指示符的对准正被积极地研究。在T.Drummond andR.Cipolla:“Real-time visual tracking of complex structures”,IEEE Trans.onPattern Analysis and Machine Intelligence,vol.24,no.7,pp.932-946,2002.(在下文中被称为“D1”)以及A.I.Comport,E.Marchand,and F.Chaumette:“A real-time trackerfor markerless augmented reality”,Proc.The Second Int'l Symp.on Mixed andAugmented Reality(ISMAR03),pp.36-45,2003.(在下文中被称为“D2”)中公开了如下方法：基于图像内的边缘与观察对象的三维模型之间的对应关系来获得摄像装置的位置和姿势。当在与三维模型相对应的边缘(对应点)的检测中出现错误检测时，摄像装置的位置和姿势的精确度降低，并且MR和AR的对准的精确度降低。因此，使用作为一种鲁棒估计方法的M估计器，并且通过对D1和D2中的加权误差进行最小化来消除错误检测的影响。

同时，在G.Simon,A.W.Fitzgibbon,and A.Zisserman:“Markerless trackingusing planar structures in the scene”,Proc.Int'l Symp.on Augmented Reality2000(ISAR2000),pp.120-128,2000.(在下文中被称为“D3”)以及I.Gordon and D.G.Lowe:“Scene modelling,recognition and tracking with invariant features”,Proc.TheThird Int'l Symp.on Mixed and Augmented Reality(ISMAR04),pp.110-119,2004.(在下文中被称为“D4”)中公开了如下方法：使用由Harris算子、Moravec算子等检测到的点特征而不是图像上的边缘，以获得摄像装置的位置和姿势。与使用边缘的情况类似，即使在使用点特征的情况下，也会出现错误检测的问题。因此，通过D3和D4中的RANSAC(RANdomSAmple Concensus，随机采样一致)算法来消除错误检测到的点特征。在使用RANSAC的错误检测消除中，通过使用随机选择的对应点来估计摄像装置的位置和姿势，并且将未包括在与估计值匹配的对应点的数量为最大的情况下的对应点的集合中的对应点，作为错误检测排除。

在D1至D4中引用的照相机位置和姿势估计方法是，利用以在照相机图像中未拍摄运动物体的环境(在下文中被称为“静态环境”)为前提的方法。在D1至D3中，由于通过帧之间的对应点跟踪来进行照相机位置和姿势估计，因此在被跟踪的点在实际环境内移动的情况下，估计精确度降低。此外，估计精确度随着能够被跟踪的点的数量减少、以及随着跟踪的错误对应的增加而降低，其中，能够被跟踪的点的数量减少是由于被跟踪的点逐渐被位置和姿势随时间改变而改变的物体(在下文中被称为“运动物体”)遮蔽而导致的。

此外，在D4中，从整个拍摄的图像组中选择的部分图像组被登记在图像数据库中，并且通过从图像数据库进行选择并且使用相对于当前图像的相对位置和姿势的估计误差最小的图像，来进行对照相机位置和姿势的估计。这里，考虑在人群或车辆通过、水流动等的环境中构建的数据库的情况。在这样的情况下，由于拍摄有运动物体的图像被登记到数据库中，因此无法在图像数据库中登记的图像与当前帧之间，正确地关联环境中的物体。由于这个原因，难以在图像中拍摄运动物体的动态环境中，进行参照图像数据库的照相机位置和姿势估计。

同时，传统上，正在发展通过使用图像处理技术和安装到照相机的加速度传感器等来估计图像中拍摄的运动物体的区域的技术。然而，传统上，无法使用图像中拍摄的运动物体的区域来确定是否将照相机图像登记到数据库中。此外，在存在用于测量运动物体的位置和姿势的功能的情况下，通过使用该测量功能的测量结果能够估计图像中的运动物体的区域。然而，传统上，出现运动物体的区域的信息尚未被用来确定是否将照相机图像登记到数据库中。

发明内容

通过本发明的实施例，提供了如下信息处理装置及其控制方法，该信息处理装置通过防止在估计摄像装置的位置和姿势时参照不适当的图像，来提高摄像装置的位置和姿势的估计的稳定性。

根据本发明的一方面，提供一种信息处理装置，其包括：获取单元，被构造为获取由摄像装置拍摄的图像；检测单元，被构造为与由所述获取单元获取的图像相关地检测影响位置和姿势估计的因素的发生；确定单元，被构造为基于由所述检测单元检测到的因素，来确定是否对图像进行登记；以及构建单元，被构造为使用由所述确定单元确定要登记的图像组，依据由所述获取单元获取的图像来构建用于估计所述摄像装置的位置和姿势的图像数据库。

根据本发明的另一方面，提供一种信息处理装置，其包括：获取单元，被构造为获取由摄像装置拍摄的照相机图像；检测单元，被构造为在照相机图像中检测对位置和姿势估计产生不利影响的区域；构建单元，被构造为使用由所述获取单元获取的照相机图像组，来依据照相机图像构建用于估计所述摄像装置的位置和姿势的图像数据库，其中所述构建单元使用在所述图像数据库中登记的照相机图像组中的、除了由所述检测单元检测到的区域的部分，来重建实际环境的三维结构，并且将照相机图像组中的各个照相机图像与基于所述三维结构的三维信息相关联地存储。

根据本发明的另一方面，提供一种信息处理装置的控制方法，该控制方法包括：获取由摄像装置拍摄的图像；与获取的图像相关地检测影响位置和姿势估计的因素的发生；基于检测到的因素来确定是否对图像进行登记；以及使用确定要登记的图像组，依据获取的图像来构建用于估计所述摄像装置的位置和姿势的图像数据库。

根据本发明的另一方面，提供一种信息处理装置的控制方法，该控制方法包括：获取由摄像装置拍摄的照相机图像；在照相机图像中检测对位置和姿势估计产生不利影响的区域；使用获取的照相机图像组，来依据照相机图像构建用于估计所述摄像装置的位置和姿势的图像数据库，其中，在所述图像数据库的构建中，使用在所述图像数据库中登记的照相机图像组中的、除了对位置和姿势估计产生不利影响的区域的部分，来重建实际环境的三维结构，并且将照相机图像组中的各个照相机图像与基于所述三维结构的三维信息相关联地存储。

通过下面对示例性实施例的描述(参照附图)，本发明的其他特征将变得清楚。

附图说明

图1是例示根据第一实施例的信息处理装置100的构造的示例的框图。

图2A至图2B是描述根据第一实施例的登记确定的图。

图3是例示根据第一实施例的位置和姿势测量方法的处理过程的流程图。

图4是例示根据第二实施例的位置和姿势测量方法的处理过程的流程图。

图5A至图5D是描述根据第二实施例的登记确定的图。

图6A至图6B是描述根据变型例的登记确定的图。

图7A至图7B是描述根据变型例的登记确定的图。

图8是例示信息处理装置100的硬件构造的示例的框图。

具体实施方式

下面参照附图详细给出关于本发明的优选实施例的一些描述。

<第一实施例>

图1是例示根据第一实施例的信息处理装置100的构造的示例的框图。信息处理装置100具有图像获取单元101、检测单元102、图像登记单元103、图像数据库104、重建单元105、位置和姿势估计单元106以及MR图像生成单元107。观察者保持摄像单元180并且实际环境出现在由摄像单元180获取的图像(照相机图像)上。

第一实施例的信息处理装置100使用由摄像单元180(照相机)拍摄的图像(照相机图像)，以生成用于估计摄像单元180的位置和姿势的图像数据库104。首先，在图像数据库104的生成中，检测单元102对由图像获取单元101获取的图像(照相机图像)，检测影响位置和姿势估计的因素的出现。本实施例的检测单元102检测在获取的图像中存在的预定的运动物体的区域(例如人的手部区域)，作为上述因素。图像登记单元103基于检测单元102的因素检测结果，来确定是否在图像数据库104中登记输入的照相机图像。由此，避免对不适于位置和姿势估计的照相机图像进行登记，并且利用适于位置和姿势估计的照相机图像生成图像数据库104。此外，在MR图像的生成中，位置和姿势估计单元106通过参照图像数据库104，根据依次输入的照相机图像，来估计摄像单元180相对于实际环境的位置和姿势。MR图像生成单元107基于照相机图像和由位置和姿势估计单元106估计的摄像单元180的位置和姿势，来生成MR图像。

注意，在第一实施例中，假设使用如下对准方法，该对准方法使用通过立体图像处理估计的亮度梯度的三维分布的投影。此外，在第一实施例中，检测人的手部作为上面描述的预定的运动物体。具体地，检测单元102在从观察者保持的摄像单元180获取的照相机图像中检测被拍摄为运动物体的(观察者的)手部。注意，尽管在第一实施例中将观察者的手部用作运动物体，但是不限于此。例如，也可以检测人的腿部或脚部、电子设备线缆、周边出现的其他人等作为预定的运动物体。作为选择，除了或代替检测事先决定的物体作为运动物体，也可以从依次输入的照相机图像中检测实际运动的物体作为运动物体，并可以使用该物体作为运动物体。

通过例如视频采集板、IEEE 1394接口板、USB端口等来实现图像获取单元101，并且图像获取单元101从摄像单元180来获取照相机图像。在图像获取单元101中，第一图像获取单元101a获取用于初始化图像数据库104的照相机图像，第二图像获取单元101b从摄像单元180获取用于MR应用的照相机图像。注意，用于初始化的照相机图像是拍摄图像的摄像单元180的位置和姿势为已知的拍摄图像，并且可以从摄像单元180获取拍摄图像，或者可以从存储这种拍摄图像的存储装置(未示出)获取拍摄图像。此外，尽管从功能构造的角度将第一图像获取单元101a和第二图像获取单元101b分开例示为两个块，但是并非必须使用分开的硬件来实现这些功能。

检测单元102从图像获取单元101获取的照相机图像中检测运动物体，并且将检测结果提供给图像登记单元103。第一检测单元102a在第一图像获取单元101a获取的照相机图像中检测运动物体的区域(在下文中被称为“运动物体区域”)，并且第二检测单元102b在第二图像获取单元101b获取的照相机图像中检测运动物体区域。此外，尽管从功能构造的角度将第一检测单元102a和第二检测单元102b分开例示为两个块，但是并非必须使用分开的硬件来实现这些功能。

图像登记单元103包括图像选择单元121和登记确定单元122。图像选择单元121基于第一检测单元102a的运动物体区域检测结果，来从第一图像获取单元101a获取的照相机图像中选择(选择确定)用于初始化的照相机图像。被选择的用于初始化的照相机图像被登记到图像数据库104中。登记确定单元122基于第二检测单元102b的运动物体区域检测结果，来确定(登记确定)是否在执行MR应用的同时将从图像获取单元101连续输入的照相机图像登记到图像数据库104中。将确定登记的照相机图像登记到图像数据库104中。此外，从功能构造的角度将图像选择单元121和登记确定单元122分开例示为两个块，但是并非必须使用分开的硬件来实现这些功能。摄像单元180连接到第一图像获取单元101a和第二图像获取单元101b。显示单元190连接到MR图像生成单元107。

给出关于上述构造的更详细的描述。观察者保持摄像单元180，从摄像单元180获取的照相机图像中拍摄有实际环境，并且在某些情况下拍摄观察者的手部。由第一图像获取单元101a和第二图像获取单元101b获取的照相机图像被分别输入到第一检测单元102a和第二检测单元102b。第一检测单元102a和第二检测单元102b从输入的照相机图像中检测运动物体区域。

第一检测单元102a和第二检测单元102b检测照相机图像中拍摄的、能够移动的特定物体的区域，作为运动物体区域。在本实施例中，检测“手部”作为特定物体。假设观察者的手部在实际环境的物体的前面。注意，在本实施例中，假设基于预先在存储单元(未示出)中设置的手部颜色的定义来检测手部区域。例如，能够预先拍摄观察者的手部，设置代表手部颜色的颜色区域，然后通过对照相机图像中的像素进行阈值处理来估计手部区域。当然，获取手部区域的方法不限于此，并且可以使用任何公知方法，例如通过基于附装到手腕或手指的位置传感器的信息的椭圆拟合来进行估计。

图像选择单元121基于第一检测单元102a从由第一图像获取单元101a获取的初始照相机图像组中检测到的运动物体区域，来选择(选择确定)用于初始化的照相机图像以登记到图像数据库104中。注意，在本实施例中，运动物体区域是拍摄的(观察者的)手部的区域。被选择的用于初始化的照相机图像可以是一个图像或者可以是多个图像。在本实施例中，假设选择一个用于初始化的照相机图像(在第二实施例中描述选择多个用于初始化的照相机图像的示例)。登记确定单元122基于第二检测单元102b在登记用于初始化的照相机图像之后检测到的运动物体区域，来确定(登记确定)是否将第二图像获取单元101b依次获取的照相机图像登记到图像数据库104中。

注意，在本实施例中，从照相机图像中检测到的运动物体区域的大小被视为用于图像选择单元121的选择确定和登记确定单元122的登记确定的确定条件。此外，照相机图像中的亮度梯度也被用作选择确定和登记确定的确定条件。因此，本实施例的第一检测单元102a和第二检测单元102b也从照相机图像中检测亮度梯度。

重建单元105整合图像数据库104中保持的照相机图像组，估计实际环境的三维结构并通过重建生成三维结构数据。三维结构数据是保持点的坐标位置和点的颜色的点组的数据。这里，点的坐标位置是实际环境中的特定位置和姿势被定义为坐标系的基准的三维坐标值。例如，通过对图像数据库104中保持的照相机图像进行整合和处理以构建单个三维模型的方法(诸如SfM(Structure from Motion运动恢复结构))，来实现对三维结构的估计。与由重建单元105生成的三维信息(三维结构数据)相关联的照相机图像组，被作为登记图像组存储在图像数据库104中。以这种方式，摄像单元180的位置和姿势信息(也被称为“摄像位置和姿势”)与图像数据库104中的登记图像组的各个照相机图像相关联。

位置和姿势估计单元106将由第二图像获取单元101b获取的照相机图像与在图像数据库104中存储的登记图像组进行比较，并且估计摄像单元180的摄像位置和姿势。通过基于具有最高相似度的图像的位置/姿势信息在图像之间进行匹配，来进行摄像位置和姿势的估计。

MR图像生成单元107通过基于由位置和姿势估计单元106获取的摄像单元180的摄像位置和姿势的估计值，在由第二图像获取单元101b依次获取的照相机图像上绘制虚拟物体数据，来生成MR图像。生成的MR图像被发送到显示单元190并被显示。显示单元190由头戴式显示器、平视显示器和移动显示器等构成，并向观察者呈现MR生成单元107生成的MR图像。

接下来，描述第一实施例中的MR图像生成处理。图2A和2B是用于描述图像登记单元103进行的初始图像的选择和和照相机图像的登记的图。图3是例示第一实施例中的MR图像生成处理过程的流程图。步骤S300至步骤S303是主要由图像选择单元121进行的初始化操作。步骤S304至步骤S309是在MR应用的操作期间执行的用于照相机图像的登记(更新图像数据库104)和MR图像的生成的处理。对从摄像单元180依次输入的照相机图像(视频)反复执行步骤S304至步骤S309的处理。在下文中，使用图1、图2A和图2B以及图3给出关于第一实施例中的MR图像生成的处理过程的描述。

在步骤S300中，第一图像获取单元101a获取用于初始化的照相机图像组。接下来，在步骤S301中，第一检测单元102a对在步骤S300中获取的照相机图像组中的各个照相机图像进行运动物体区域和亮度梯度的检测。因为第一实施例中的运动物体是观察者的手部，所以第一检测单元102a从用于初始化的照相机图像组中的各个图像中检测观察者的手部区域作为运动物体区域。在步骤S302中，图像选择单元121基于在步骤S301中检测到的运动物体区域和亮度梯度，从在步骤S300中获取的用于初始化的照相机图像组中选择单个图像登记到图像数据库104中，作为用于初始化的照相机图像。在本实施例中，图像选择单元121选择在图像中不存在(观察者的)手部区域并且亮度梯度数量大于或等于固定数量的一个图像。

图2A是本实施例中的、选择在初始化时要被登记到数据库中的单个图像的情形的示例。未将照相机图像200和照相机图像201选为单个图像是因为确定在这两个照相机图像中拍摄有手部(存在运动物体区域)。照相机图像202未被选择为单个图像是由于即使在该图像中未检测到手部区域，检测到的亮度梯度的数量也较小。照相机图像203被选为单个图像是因为其中不存在观察者的手部区域并且其中包括的亮度梯度的数量大于或等于固定数量。以这种方式，当对单个图像的选择结束时，处理前进到步骤S303。在步骤S303中，图像登记单元103通过使用在步骤S302中选择的单个图像来生成图像数据库104。更具体地，图像登记单元103将单个图像登记到图像数据库中，并将登记的单个图像的摄像位置和姿势登记为基准位置和姿势。

如上所述，当步骤S300至步骤S303的初始化处理结束时，处理前进到步骤S304。在步骤S304至步骤S309中，通过使用从摄像单元180中依次获取的照相机图像(在本实施例中为运动图像的各个帧)来更新图像数据库104，获取关于获取的各个照相机图像的摄像单元180的位置和姿势，并且生成MR图像。

首先，在步骤S304中，第二图像获取单元101b从摄像单元180获取照相机图像。接下来，在步骤S305中，第二检测单元102b对在步骤S304中获取的各个照相机图像进行运动物体区域(在本实施例中为手部区域)检测和亮度梯度检测。此外，在步骤S306中，登记确定单元122确定是否将在步骤S304中获取的照相机图像登记到图像数据库104中。在确定登记图像的情况下处理前进到步骤S307，并且在确定不登记图像的情况下，处理前进到步骤S308。

在步骤S305中未检测到手部区域并且其中包括的亮度梯度的数量大于或等于固定数量的情况下，在步骤S306的登记确定中，确定将照相机图像登记到图像数据库104中。当然，用于登记确定的条件不限于此。例如，可以采用如下的构造：使得将在照相机图像中估计的手部区域的大小相对于整个图像的百分比小于固定值、并且其中包括的亮度梯度的数量大于或等于固定数量的图像，登记到图像数据库104中。注意，在登记包括手部区域的照相机图像的情况下，添加表示照相机图像的各个像素是否在手部区域中的信息。此外，可以采用如下的构造：使得将各个像素在手部区域中的概率的信息添加到照相机图像中。

此外，在登记与初始化时登记的图像(步骤S302中选择的图像)具有高相似度的图像时，数据库的图像数量很大。因此，可以采用如下构造：使得不登记具有非常高的相似度的图像(超过预定阈值的相似度的图像)。

图2B是用于描述本实施例中的关于是否将照相机图像登记到图像数据库104中的登记确定的示例的图。不登记照相机图像210是因为检测到的手部区域大。登记照相机图像211时因为手部区域小并且亮度梯度的数量大于或等于固定数量。不登记照相机图像212是因为尽管手部区域小，但是亮度梯度的数量小于固定数量。不登记照相机图像213是因为与初始化时登记的照相机图像203(图2A)的相似度大于或等于阈值。登记照相机图像214是因为不存在手部区域并且亮度梯度的数量大于或等于固定数量。以这种方式，用于图像选择单元121的选择确定的确定条件和用于登记确定单元122的登记确定的确定条件彼此不同，并且对适合作为用于初始化的照相机图像和适合更新照相机数据库的图像进行选择和登记。

在步骤S307中，图像登记单元103将在步骤S304中获取的照相机图像登记到图像数据库104中，并且通过使用重建单元105来更新图像数据库104。在图像数据库104的更新中，首先，重建单元105使通过初始化处理登记的图像(在步骤S303中登记的图像)的摄像位置和姿势作为基准，并对图像数据库104中的其他登记图像的摄像位置和姿势进行估计。接下来，对其他登记图像进行各个图像的摄像位置和姿势的登记。例如在估计其他登记图像的摄像位置和姿势的方法中，通过SfM方法对数据库内的图像组中的图像进行摄像位置和姿势优化计算，并且估计其他登记图像的摄像位置和姿势。

接下来，在步骤S308中，位置和姿势估计单元106通过在步骤S304中获取的照相机图像估计照相机位置和姿势。例如，估计照相机位置和姿势的方法如下。首先，位置和姿势估计单元106从图像数据库104的登记图像组中选择与当前帧的照相机图像具有最高相似度的一个图像。接下来，位置和姿势估计单元106在当前帧的照相机图像和从图像数据库104中选择的登记图像(与当前帧具有最高相似度的登记图像)这两个图像之间进行图像特征的关联，并且估计这两个图像之间的相对位置和姿势改变量。此外，位置和姿势估计单元106基于估计的相对位置和姿势的改变量、以及针对选择的图像登记的摄像位置和姿势，来估计摄像单元180的位置和姿势(照相机位置和姿势)。

然而，当从运动物体区域提取出的图像特征在当前帧与选择的图像之间的图像特征的关联中被关联时，估计误差变大。由于这个原因，使用除运动物体区域以外的区域进行图像特征的关联。在本实施例中，因为运动物体是观察者的手部，所以通过在除手部区域以外的图像区域中提取的图像特征之间的关联性，来估计当前帧与选择的图像之间的相对位置和姿势的改变量。注意，在添加各个像素在手部区域中的概率信息的情况下，将概率信息引入相似度计算，并且通过使用概率的加权计算来进行图像特征的关联性估计。以这种方式，设置表示登记到数据库中的图像的各像素是运动物体的概率的值，并且通过使用这种方式能够提高对准的稳定性。

在步骤S309中，MR图像生成单元107基于在步骤S308中获取的照相机位置和姿势的估计值，通过组合虚拟物体与照相机图像(当前帧)来生成MR图像。

如上所述，在第一实施例中，检测在图像上存在运动物体的区域并且基于运动物体区域覆盖的图像的百分比来对是否登记图像进行确定。由此，即使运动物体存在于由摄像单元180获取的照相机图像中，也能够生成高精确度的图像数据库并对照相机位置和姿势进行高精确度的和稳定的估计。具体地，通过第一实施例，能够生成高精确度的图像数据库，并且通过基于图像处理结果进行关于是否登记图像的确定，能够对照相机位置和姿势进行高精确度的和稳定的估计。

注意，在上面描述的实施例中，尽管使用了运动物体区域和亮度梯度，但是代替亮度梯度或除了亮度梯度以外还能够使用照相机图像中包括的大量特征。例如，检测单元102还可以从照相机图像中进行特征点检测，而且图像登记单元103可以使用检测到的特征点的数量大于或等于阈值的事实，作为选择确定或登记确定的确定条件之一。注意，在特征点的检测中，尽管使用诸如Harris算子的图像滤波器，但特征点的检测方法不限于此。例如，可以是任何公知的方法，例如基于颜色信息检测在环境中人工定位的标记(例如彩色球等)的方法。此外，对登记到图像数据库104中的照相机图像与确定对象的照相机图像之间的特征点进行关联，并且可以将获取到大于或等于固定数量的成对的对应点，作为用于登记确定的条件。

第二实施例

在第二实施例中，给出关于以下情况的描述：采用使用事先已知形状的物体(已知形状物体)作为用于初始化的物体的图像数据库的初始化，并且采用使用通过立体图像处理估计的亮度梯度的三维分布的投影的对准方法。在第二实施例中，类似于第一实施例，在从观察者保持的摄像单元180获取的照相机图像中拍摄有观察者的手部的情况下，给出关于用于获得照相机在实际环境中的位置和姿势的位置和姿势测量方法的描述。

由于本实施例的信息处理装置100的构造与第一实施例(图1)中的构造类似，因此再次使用图1的框图来对其进行描述。在下文中，主要给出关于第二实施例与第一实施例不同部分的描述。

观察者保持摄像单元180并且第一图像获取单元101a从摄像单元180获取用于初始化的照相机图像组。照相机图像组中包括拍摄有观察者的手部作为运动物体的图像和拍摄有已知形状物体的图像。在信息处理装置100中，第一检测单元102a在第一图像获取单元101a获取的用于初始化的照相机图像组中的各照相机图像中，检测运动物体区域(手部区域)和已知形状物体区域。获取手部区域的方法与第一实施例中的方法相同。此外，在本实施例中，已知形状物体是二维平面标记，并且基于在存储单元(未示出)中预先设置的形状的定义来检测该已知形状物体。例如，通过使用传统的标记检测方法(例如，KatoHirokazu:“ARToolKit:Library for Vision-based Augmented Reality”,TechnologyResearch Report of the Institute of Electronics,Information and CommunicationEngineers,Japan,Institute of Electronics,Information and CommunicationEngineers,February 14,2002,Issue 101,Number 652,p.79-86(在下文中被称为“D5”)中引用的方法)，检测单元102能够从用于初始化的照相机图像组中的各个照相机图像中估计已知形状物体的区域。

图像选择单元121基于第一检测单元102a的检测结果来选择用于初始化的照相机图像以登记到图像数据库104中。具体地，图像选择单元121基于运动物体区域(拍摄有手部的区域)和已知形状物体的区域的分布，从多个照相机图像中选择一个或多个照相机图像以登记到图像数据库104中。注意，在本实施例中，假设观察者的手部是实际环境中的物体并且位于已知形状物体前面。

在MR应用中，第二检测单元102b从第二图像获取单元101b获取的照相机图像中，检测照相机图像内的运动物体区域和亮度梯度。登记确定单元122基于第二检测单元102b对运动物体区域和亮度梯度的检测结果，对是否将照相机图像登记到图像数据库104中进行确定(登记确定)。如上所述，在图像选择单元121中，基于运动物体区域(拍摄有手部的区域)和已知形状物体区域的分布，来确定是否选择照相机图像作为图像数据库104的初始图像。例如，在图像选择单元121中，在选择确定的确定条件中包括如下条件：运动物体区域的大小小于或等于预定值并且已知形状物体的区域大于或等于预定值。同时，在登记确定单元122中，尽管在登记确定的确定条件中包括运动物体区域，但是确定条件中不包括已知形状物体的区域的大小。

接下来，描述根据第二实施例的MR图像生成处理过程。图4是例示根据第二实施例的MR图像生成处理过程的流程图。步骤S400至步骤S403是主要由图像选择单元121进行的初始化操作。步骤S404至步骤S409是在MR应用的操作期间执行的用于照相机图像的登记(更新图像数据库104)和MR图像的生成的处理。对从摄像单元180依次输入的照相机图像(视频)反复地执行步骤S404至步骤S409的处理。此外，图5A至图5D是用于描述根据第二实施例的图像选择单元121的选择确定和登记确定单元122的登记确定的图。

在步骤S400中，第一图像获取单元101a获取用于初始化的照相机图像组。接下来，在步骤S401中，第一检测单元102a在照相机图像中进行已知形状物体区域和运动物体区域的检测。因为本实施例中的运动物体是观察者的手部，所以第一检测单元102a在由第一图像获取单元101a获取的、用于初始化的照相机图像组中的各个图像中，检测观察者的手部区域。

在步骤S402中，图像选择单元121从用于初始化的照相机图像组中选择登记到图像数据库104中的、用于初始化的照相机图像。这里，基于已知形状物体区域和运动物体区域的检测结果来设置选择确定的基准。例如，使运动物体区域小于或等于固定大小、以及已知形状物体区域与运动物体区域的重叠面积小于或等于固定值，作为选择确定的条件。注意，在S402中，选择一个或多个照相机图像作为用于初始化的照相机图像。

图5A、图5B和图5C是用于描述第二实施例中的对用于初始化的照相机图像的选择进行确定的图。图5A中例示的照相机图像500、501、502和503是由第一图像获取单元101a获取的用于初始化的图像组。图5B是从图5A中例示的照相机图像500、501、502和503中检测运动物体区域(手部区域)和已知形状物体区域的结果。在图中的示例中，在照相机图像501、502和503中检测到手部区域551和已知形状物体区域552。图5C是进行关于图5A中例示的照相机图像500、501、502和503的选择确定的结果。在本示例中，未将照相机图像500选择为用于初始化的照相机图像是因为未检测到已知形状物体。未将照相机图像501选择为用于初始化的照相机图像是因为在已知形状物体区域与手部区域之间的重叠面积大于或等于固定值。照相机图像502和照相机图像503被选择为用于初始化的照相机图像。当对要登记到图像数据库104中的、用于初始化的照相机图像的选择结束时，处理前进到步骤S403。

在步骤S403中，图像登记单元103通过使用图像选择单元121在步骤S402中选择的用于初始化的照相机图像来生成图像数据库104。具体地，图像登记单元103将在步骤S402中选择的用于初始化的照相机图像登记到图像数据库104，并将登记的用于初始化的照相机图像的摄像位置和姿势，登记为基准位置和姿势。这里，在存在一个登记的用于初始化的照相机图像的情况下，将图像的摄像位置和姿势登记为基准位置和姿势。此外，在存在两个或更多个登记的用于初始化的照相机图像的情况下，从这些图像中选择一个图像并将其登记为基准位置和姿势。作为从多个登记的用于初始化的照相机图像中选择一个照相机图像的方法，例如有如下方法：选择已知形状物体表现为最大的图像。当然，可以使用在步骤S402中未使用的诸如亮度梯度等的条件。当生成图像数据库104时，处理前进到步骤S404。

在步骤S404中，第二图像获取单元101b从摄像单元180获取照相机图像。接下来，在步骤S405中，第二检测单元102b从第二图像获取单元101b获取的照相机图像中检测运动物体区域(在本实施例中为手部区域)。此外，在步骤S406中，登记确定单元122确定是否将从步骤S404中获取的照相机图像登记到图像数据库104中。例如，基于第二检测单元102b的运动物体区域和亮度梯度检测结果，来进行登记确定。例如，可以给出运动物体区域小于或等于固定量并且亮度梯度的数量大于或等于固定值，作为登记确定的确定条件。图5D是例示第二实施例中的登记确定的示例的图。在本示例中，因为运动物体区域大于固定量，所以不登记照相机图像510。因为运动物体区域小于或等于固定量并且亮度梯度的数量大于或等于固定值，所以登记照相机图像511。因为运动物体区域小于或等于固定量并且亮度梯度的数量小于固定值，所以不登记照相机图像512。因为运动物体区域小于或等于固定量并且亮度梯度的数量大于或等于固定值，所以登记照相机图像513。在本示例的情况下，登记确定的确定条件中不包括是否存在已知形状物体。

如上所述，在第二实施例中，通过检测用于初始化的已知形状物体和在图像上存在运动物体的区域，并基于这些检测结果进行图像登记确定，能够生成高精确度的图像数据库。此外，由此能够进行高精确度的和稳定的照相机位置和姿势估计。

如上所述，通过第一实施例和第二实施例，通过计算运动物体区域在照相机图像中的百分比并进行照相机图像登记确定，防止了运动物体大的拍摄的照相机图像的数据库登记，并且，提高了照相机位置和姿势估计的稳定性。此外，能够提高照相机图像之间的相对位置和姿势的计算的精确度并缩短计算时间。此外，在测量运动物体的位置和姿势的构造(附装到手腕或手指的位置传感器)的情况下，能够通过使用从该构造获取的信息防止将运动物体大的拍摄的照相机图像登记到图像数据库104中。结果，能够提高照相机位置和姿势的估计的稳定性。

<第一变型例>

在第一实施例和第二实施例中，图像登记单元103中的选择确定和登记确定的确定条件考虑了运动物体区域(拍摄有运动物体的区域)。然而，考虑到对图像数据库104的构建有不利影响的因素，确定条件不限于此，并且存在其他有用的标准。

例如，可以采用如下构造：使得如图6A和图6B中所例示，基于对图像模糊量估计的结果(模糊量估计)来进行图像登记确定。通过该构造，即使在例如初始化时和在操作MR应用时在照相机图像中发生模糊的情况下，也能够适当地构建图像数据库并使照相机位置和姿势估计稳定/提高精确度。在这种情况下，例如可以包括作为模糊量估计的结果而获取的模糊量的大小小于或等于阈值，作为选择确定和登记确定的一个条件。注意，可以使用已知方法用于模糊量估计，例如在Hashimoto Shoichi,Saito Hideo:Restoration of ShiftVariant Blurred Image Estimating the Parameter Distribution of PSF"Instituteof Electronics,Information and Communication Engineers Academic Journal DVol.J77-D2No.4pp.719-728,1994，(在下文中称为“D6”)中引用的方法。此外，例如可以采用在检测单元102中进行模糊量的估计的构造。

注意，作为通过照相机图像的图像处理而检测到的模糊的类型，存在由于照相机的移动而产生的运动模糊、通过照相机的焦点移位而产生的离焦模糊等。此外，可以想象照相机的物理移动速度与模糊量成比例，并且能够使用基于加速度传感器或角速度传感器的信号的模糊量估计。

图6A是用于描述在照相机选择单元121中进行的对用于初始化的照相机图像的选择确定的图。此外，图6B是用于描述在登记确定单元122中进行的照相机图像的登记确定的图。在图6A中，照相机图像600、601和602未被选择为用于初始化的照相机图像是因为估计的模糊量大于或等于固定值或运动物体区域大于或等于固定量。照相机图像603被选择为用于初始化的照相机图像并被登记到图像数据库104中是因为估计的模糊量小于固定值并且未检测到运动物体区域。图6B是在运动物体区域(手部区域)小于或等于固定量、模糊量小于固定值、以及亮度梯度的数量大于或等于固定值被作为标准的情况下的登记确定的示例。只有满足全部这些条件的照相机图像611才被登记到图像数据库104中，并且照相机图像610、612、613和614未被登记。

此外，当不能正确地拍摄实际环境时(例如在由于下雨等原因使镜头附着有液体的情况下)，当将这样的照相机图像登记到图像数据库104中时，在位置和姿势估计中产生负面效果。通过在考虑液体附着在镜头上的情况下进行选择确定和登记确定(如图7A和7B中例示)，即使在初始化时和操作app期间液体附着在镜头上，也能够提高照相机位置和姿势估计的稳定性和精确度。在这种情况下，例如估计液体附着到镜头的区域的分布，并且将作为估计结果的、有液体附着的区域的大小小于或等于阈值作为选择确定或登记确定的确定条件之一。例如可以使用已知的技术，例如在Miyahara Takayuki,Tamatsu Yukimasa,Kurihata Hiroyuki,Takahashi Tomokazu,Mekada Yoshito,Ide Ichiro,MuraseHiroshi:"Rainfall Recognition for Various Conditions Using an In-vehicleCamera Image for Driver Assistance",DENSO Technical Review,Vol.12,No.1,pp.50-57,2007(在下文中被称为“D7”)中引用的方法，来估计有液体附着在镜头上的区域的分布。注意，通过检测单元102来对液体附着在镜头上的区域的分布进行估计。

图7A例示了在图像选择单元121中进行的选择确定的状态，图7B例示了在登记确定单元122中进行的登记确定的状态。在图7A中，照相机图像700、701和702没有被选为用于初始化的照相机图像并且没有被登记到图像数据库104中是因为有液体附着的估计区域大于或等于固定值。同时，照相机图像703被登记到图像数据库104中是因为有液体附着的区域小于固定值。此外，在图7B中，照相机图像710、712、713和714未被登记到图像数据库104中是因为有液体附着的估计区域大于或等于固定值。同时，照相机图像711被登记到图像数据库104中是因为有液体附着的区域小于固定值。

此外，当照相机位置和姿势不同时，存在如下情况：即使拍摄相同的物体，镜面反射物体也对图像数据库104的构建产生不利影响，这是因为存在外观不匹配的特性。因此，通过进行考虑照相机图像内的镜面反射物体区域的选择确定或登记确定，即使在存在镜子或玻璃表面的环境中，也能够提高照相机位置和姿势估计的稳定性和精确度。在这种情况下，例如将镜面反射物体的区域大小小于或等于阈值作为选择确定和登记确定的确定条件之一，来进行照相机图像的登记。例如，在显示四边形的情况下，通过附加预先确定的颜色的带子来包围外周，并从照相机图像检测矩形，来实现对镜面反射物体的区域的检测。能够使用诸如矩形检测法的已知技术，作为用于从照相机图像检测矩形的方法。

如上所述，通过第一变型例，即使在发生图像模糊的环境中也能提高照相机位置和姿势估计的稳定性。此外，即使在有液体附着在照相机镜头的环境中，也能够提高照相机位置和姿势估计的稳定性。此外，即使在存在镜面反射物体的环境中，也能够提高照相机位置和姿势估计的稳定性。注意，不言而喻，可以适当的组合上述模糊量或有液体附着在镜头上的区域作为选择确定或登记确定的标准。

<第二变型例>

尽管在第一实施例和第二实施例中，当向图像数据库104登记照相机图像时，通过提供某种确定标准来进行对是否登记各个图像的确定(选择确定和登记确定)，但是不限于此。例如，可以采用如下的构造：使得在图像数据库104中登记每个照相机图像，并确定在位置和姿势估计处理中是否使用登记的照相机图像的各个像素。例如，在第一实施例中将包括运动物体区域的照相机图像登记到图像数据库104的情况下，将被确定为运动物体区域的像素排除在数据库更新处理(图3的步骤S307)和照相机位置和姿势估计处理(步骤S308)的计算目标之外。由此，能够缩短初始化处理的时间，而且还能够优化数据库更新操作。

如上所述，通过第二变型例，能够加快当进行照相机位置和姿势估计时的初始化处理，并且还能够缩短用于获取登记在数据库中的图像的时间。

<第三实施例>

可以通过硬件或软件来实现构成第一实施例和第二实施例中的信息处理装置100(图1)的各个单元的某些功能或全部功能。例如，通过使计算机执行作为硬件实现的预定软件，计算机实现上述实施例中描述的信息处理装置100的各个部分并进行上述的操作。图8是例示信息处理装置100的硬件构造的示例的框图。

CPU 801使用在RAM 802或ROM 803中存储的程序或数据来对整个计算机进行控制，并执行被描述为信息处理装置100在上述各实施例中进行的各个处理。RAM 802具有用于临时存储从外部存储装置807或存储介质驱动器808加载的程序和数据的区域。此外，RAM802具有用于临时存储从外部装置经由I/F(接口)809接收到的数据的区域。外部装置例如是摄像单元180。

此外，RAM 802还具有当CPU 801执行各个处理时使用的工作区域。具体地，RAM802能够适当地提供各种区域。计算机的设置数据、引导程序等被存储在ROM 803中。键盘804和鼠标805是操作输入装置的示例并根据用户对CPU 801的操作来输入各种指令。显示装置806由显示器构成，并能够以图像、字符等来显示CPU 801的处理结果。显示装置806可以用作显示单元190。

外部存储装置807是以硬盘驱动器设备为代表的大容量信息存储设备。OS(操作系统)、数据以及用于使CPU 801执行以上被描述为信息处理装置进行的各个处理的程序，被存储在外部存储装置807中。在相应的程序中，包括分别对应于信息处理装置的构造的程序。此外，在该数据中，包括在前面描述中被描述为已知信息的数据。保存到外部存储装置807中的程序和数据根据CPU 801的控制被适当地加载到RAM 802中。CPU 801通过使用加载的程序和数据以执行处理，来执行以上被描述为信息处理装置进行的各个处理。

存储介质驱动器808读取在诸如CD-ROM或DVD-ROM等的存储介质中存储的数据和程序，并将数据和程序写入相应的存储介质中。注意，可以将被描述为存储在外部存储装置807中的程序和数据的一些或全部存储在存储介质中。存储介质驱动器808从存储介质中读取的程序和数据被输出到外部存储装置807或RAM 802中。

I/F 809由用于连接到摄像单元180的模拟视频端口或数字输入/输出端口(例如IEEE 1394)、用于将组合图像输出到显示装置806的DVI端口等构成。经由I/F 809接收到的数据被输入到RAM 802或外部存储装置807中。注意，图1中例示的图像获取单元101的一些功能通过I/F 809实现。附图标记810是连接上述各个部件的总线。

如上所述，通过上述实施例，防止在摄像装置的位置和姿势估计中参照不适合的图像，并且提高了摄像装置的位置和姿势估计的稳定性。

还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)、微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存装置以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

虽然已经参照示例性实施例对本发明进行了描述，但是应该理解，本发明不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构及功能。

Claims

1.一种信息处理装置，所述信息处理装置包括：

获取单元，被构造为获取由摄像装置拍摄的图像；

检测单元，被构造为与由所述获取单元获取的图像相关地检测影响位置和姿势估计的因素的发生；

确定单元，被构造为基于由所述检测单元检测到的因素，来确定是否在用于从所述获取单元获取的图像估计所述摄像装置的位置和姿势的图像数据库中对图像进行登记；以及

构建单元，被构造为使用由所述确定单元确定要登记的图像组，来构建所述图像数据库。

2.根据权利要求1所述的信息处理装置，其中，所述检测单元检测在由所述获取单元获取的图像中存在的预定运动物体的区域作为所述因素。

3.根据权利要求2所述的信息处理装置，其中，所述检测单元检测人的手部、人的腿部或脚部、线缆以及人中的至少一者，作为所述预定运动物体。

4.根据权利要求1至3中的任一项所述的信息处理装置，其中，所述检测单元检测图像的模糊量作为所述因素。

5.根据权利要求4所述的信息处理装置，其中，所述检测单元基于由所述获取单元获取的图像来检测所述模糊量。

6.根据权利要求5所述的信息处理装置，其中，所述模糊量是运动模糊量或离焦模糊量。

7.根据权利要求4所述的信息处理装置，所述模糊量是基于配设在所述摄像装置上的加速度传感器或角速度传感器的信号而检测到的运动模糊量。

8.根据权利要求1至3中的任一项所述的信息处理装置，其中，所述检测单元根据由所述获取单元获取的图像来估计液体对镜头的附着，并基于估计结果来检测所述因素。

9.根据权利要求1至3中的任一项所述的信息处理装置，其中，所述检测单元基于对由所述获取单元获取的图像中的镜面反射物体的检测结果，来检测所述因素。

10.根据权利要求1至3中的任一项所述的信息处理装置，其中，所述确定单元使用于在所述图像数据库中登记用于初始化的图像的确定条件，与用于在登记用于初始化的图像之后登记由所述获取单元依次获取的图像的确定条件不同。

11.根据权利要求1至3中的任一项所述的信息处理装置，其中，所述确定单元还使用于登记图像的一个确定条件是：在由所述获取单元获取的图像中，事先已知形状的已知形状物体的区域的大小，大于或等于预定值。

12.根据权利要求11所述的信息处理装置，其中，所述已知形状物体是二维平面标记。

13.根据权利要求1至3中的任一项所述的信息处理装置，其中，所述构建单元：

使用由所述确定单元确定要登记的图像组，来重建实际环境的三维结构，并且

将图像组中的各个图像与基于重建的三维结构的三维信息相关联地存储在所述图像数据库中。

14.根据权利要求1至3中的任一项所述的信息处理装置，所述信息处理装置还包括：

估计单元，被构造为基于由所述获取单元获取的图像和在所述图像数据库中登记的图像组，来估计所述摄像装置的位置和姿势；以及

生成单元，被构造为基于获取的图像以及由所述估计单元估计的位置和姿势来生成混合现实图像。

15.一种信息处理装置，所述信息处理装置包括：

获取单元，被构造为获取由摄像装置拍摄的照相机图像；

检测单元，被构造为在照相机图像中检测对位置和姿势估计产生不利影响的区域；

构建单元，被构造为使用由所述获取单元获取的照相机图像组，来依据照相机图像构建用于估计所述摄像装置的位置和姿势的图像数据库，其中

所述构建单元使用在所述图像数据库中登记的照相机图像组中的、除了由所述检测单元检测到的区域的部分，来重建实际环境的三维结构，并且将照相机图像组中的各个照相机图像与基于所述三维结构的三维信息相关联地存储。

16.根据权利要求15所述的信息处理装置，其中，所述检测单元检测在由所述获取单元获取的图像中存在的预定运动物体的区域。

17.根据权利要求16所述的信息处理装置，其中，所述检测单元检测人的手部、人的脚部、线缆以及人中的至少一者，作为所述预定运动物体。

18.一种信息处理装置的控制方法，所述控制方法包括：

获取由摄像装置拍摄的图像；

与获取的图像相关地检测影响位置和姿势估计的因素的发生；

基于检测到的因素来确定是否在用于从获取的图像估计所述摄像装置的位置和姿势的图像数据库中对图像进行登记；以及

使用确定要登记的图像组，来构建所述图像数据库。

19.一种信息处理装置的控制方法，所述控制方法包括：

获取由摄像装置拍摄的照相机图像；

在照相机图像中检测对位置和姿势估计产生不利影响的区域；

使用获取的照相机图像组，来依据照相机图像构建用于估计所述摄像装置的位置和姿势的图像数据库，

其中，

在所述图像数据库的构建中，使用在所述图像数据库中登记的照相机图像组中的、除了对位置和姿势估计产生不利影响的区域的部分，来重建实际环境的三维结构，并且将照相机图像组中的各个照相机图像与基于所述三维结构的三维信息相关联地存储。