CN101162524A

CN101162524A - 图像处理设备及方法

Info

Publication number: CN101162524A
Application number: CNA200710140886XA
Authority: CN
Inventors: 小竹大辅; 中泽寿弘; 铃木雅博; 武本利果; 佐藤清秀; 岩濑好彦
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-08-11
Filing date: 2007-08-10
Publication date: 2008-04-16
Anticipated expiration: 2027-08-10
Also published as: JP2008046750A; US20080284864A1; US8144238B2; EP1887523A2; EP1887523A3; EP1887523B1; CN101162524B; JP4789745B2

Abstract

本发明提供了一种图像处理设备及方法。在基于自然特征的位置和姿态测量中，当观察目标对象被另一对象遮蔽时防止自然特征的错误检测，并且提高了配准稳定性。为此，定义了可以遮蔽观察目标对象的遮蔽对象，并且在输入的拍摄图像中检测遮蔽对象遮蔽了观察目标对象的遮蔽区域。在除了检测到的遮蔽区域之外的拍摄图像的区域中检测观察目标对象的图像特征。因此，计算出拍摄了拍摄图像的图像拾取设备的位置或姿态、或者拍摄图像中的观察目标对象的位置或姿态。

Description

图像处理设备及方法

技术领域

本发明涉及用于基于在拍摄的图像上检测到的图像特征，计算图像拾取设备或者观察目标对象的位置和姿态中至少一个的技术。

背景技术

近来，已积极进行了用于提供现实和虚拟空间的无缝融合的混合现实(MR)技术的研究。在这些MR技术中，特别是在现实空间上叠加虚拟空间的增强现实(AR)技术已受到观注。

采用AR技术的图像提供设备主要由视频透视或者光学透视的头戴式显示器(HMD)来实现。

在视频透视的HMD中，把依据诸如HMD中的摄像机之类的图像拾取设备的位置和姿态而产生的虚拟空间图像(例如，由计算机图形描绘的虚拟对象或者文本信息)叠加在图像拾取设备拍摄的现实空间图像上，并且把所得的合成图像显示给用户。在光学透视的HMD中，把依据HMD的位置和姿态而产生的虚拟空间图像显示在透射型显示器上，以允许在用户的视网膜上形成现实和虚拟空间的合成图像。

关于AR技术的最严重的问题之一是现实和虚拟空间之间的精确配准(registration)，为处理这个问题，已进行了许多尝试。在视频透视的HMD中，AR中的配准问题包括场景中(就是说，在场景中定义的基准坐标系中)图像拾取设备的位置与姿态的精确确定。在光学透视HMD中，配准问题包括场景中HMD的位置与姿态的精确确定。

为了解决前一问题，通常在场景中放置人工标记并且利用这些标记在基准坐标系中确定图像拾取设备的位置与姿态。从图像拾取设备所拍摄的图像中的标记的检测位置与已知信息之间的对应关系中确定基准坐标系中的图像拾取设备的位置与姿态，该已知信息即为标记在基准坐标系中的三维位置。

为了解决后一问题，通常把图像拾取设备连附在HMD上并以类似于上述方式的方式来确定图像拾取设备的位置与姿态，从而以所确定的图像拾取设备的位置与姿态为基础，来确定HMD的位置与姿态。

在摄影测量和计算机视觉的领域中，用于基于图像坐标与三维坐标之间的对应关系来确定图像拾取设备的位置与姿态的方法已被提出了很久。

在R.M.Haralick、C.Lee、K.Ottenberg、以及M.Nolle所著的“Review and Analysis of Solutions of the Three Point PerspectivePose Estimation Problem”，International Journal of Computer Vision，vol.13，No.3，PP.331-356，1994(在下文中称为“文献1”)中公开了用于通过基于三个点的对应关系求解非线性方程组来确定图像拾取设备的位置与姿态的方法。

在D.G.Lowe所著的“Fitting Parameterized Three-DimensionalModels to Images”，IEEE Transactions Pattern Analysis and MachineIntelligence，vol.13，No.5，PP.441-450，1991(在下文中称为“文献2”)中公开了用于基于多个点的图像坐标与三维坐标之间的对应关系，通过迭代计算使图像拾取设备的大致位置与姿态最优化来确定图像拾取设备的位置与姿态的方法。

AR技术中的除配准以外的另一严重问题是需要确定现实与虚拟空间之间的在前/在后关系的遮蔽(occlusion)问题。例如，当虚拟对象位于被诸如手之类的现实对象隐藏或遮蔽的位置上时，必须在虚拟对象前面描绘现实对象。如果不考虑遮蔽效应，总是使虚拟对象描绘在现实对象前面，则观看所得的图像的观察者会感觉不自然。在日本专利特开No.2003-296759(在下文中称为“专利文献”)中，通过预先指定遮蔽的现实对象的颜色(例如，手的颜色)以便不使虚拟对象被描绘在与遮蔽的现实对象具有相同颜色的拍摄图像的区域中，从而来克服遮蔽问题。

在N.Yokoya、H.Takemura、T.Okuma、以及M.Kanbara所著的“Stereo Vision based video see-through mixed reality”，in(Y.Ohta&H.Tamura，eds.)Mixed Reality-Merging Real and Virtual Worlds，Chapter 7，Ohmsha-Springer Verlag，1999(在下文中称为“文献11”)中，通过使用由HMD的两个内置摄影机拍摄到的图像进行立体匹配来获得现实空间深度信息，从而克服遮蔽问题。

通过近来计算设备的高速性能，已积极地进行对于利用出现在场景中的特征(在下文中称为“自然特征”)而不是人工标记进行配准的研究。

在T.Drummond和R.Cipolla所著的“Real-time visual trackingof complex structures”，IEEE Transaction Pattern Analysis andMachine Intelligence，vol.24，No.7，PP.932-946，2002(在下文中称为“文献3”)、和A.I.Comport，E.Marchand，以及F.Chaumette所著的“A real-time tracker for markerless augmented reality”，Proceedingsof the Second IEEE and ACM International Symposium on Mixedand Augmented Reality(ISMAR03)，PP.36-45，2003(在下文中称为“文献4”)中公开了用于基于观察对象的图像边缘和三维模型之间的对应关系来确定图像拾取设备的位置与姿态的方法。

在这些方法中，首先，(1)利用图像拾取设备的大致位置和大致姿态把三维模型投影在拍摄的图像上。图像拾取设备的大致位置和大致姿态例如是在前一帧中计算出的位置和姿态。然后，(2)包括投影的模型的线段在图像上被分成等间隔，并且，对于每一分割点，搜索在垂直于投影的线段的方向上强度梯度局部最大的点(边缘)作为对应点。此外，(3)确定图像拾取设备的位置与姿态的校正值，以便为单个分割点找到的对应点与对应的投影线段之间的距离在图像上变得最小，并且对图像拾取设备的位置与姿态进行更新。利用更新后的图像拾取设备的位置与姿态，再次把三维模型投影在拍摄的图像上，并且迭代步骤(3)，直到距离的和已收敛于最佳值。由此，获得图像拾取设备的最终位置与姿态。

在上述的步骤(2)中，如果图像拾取设备的大致位置和大致姿态的精确度低，则可能出现错误检测。也就是说，错误的点被检测为对应点。如果发生这种错误检测，则在步骤(3)中迭代计算可能不收敛，或者所获得的图像拾取设备的位置和姿态的精度可能为低，从而导致低精度的AR配准。

因此，在文献3和4中，M估计(M-estimator)，作为一种强健的估算方法，被用来通过给在对应点和线段之间具有大距离的数据分配小权重、并且给具有小距离的数据分配大权重而使加权的错误的和最小。因此，消除了错误检测的任何影响。

在L.Vacchetti，V.Lepetit，以及P.Fua所著的“Combining edgeand texture information for real-time accurate 3D camera tracking”，Proceedings of the Third IEEE and ACM International Symposiumon Mixed and Augmented Reality(ISMAR04)，PP.48-57，2004(在下文中称为“文献5”)中，在搜索步骤(2)中提取并存储多个候选点，并且每当重复步骤(3)时，从所述多个候选点中选择最接近于投影的线段的点。因此，消除了错误检测的任何影响。

在H.Wuest，F.Vial，以及D.Stricker所著的“Adaptive LineTracking with Multiple Hypotheses for Augmented Reality”，Proceedings of the Fourth IEEE and ACM International SymposiumMixed and Augmented Reality(ISMAR05)，PP.62-69，2005(在下文中称为“文献6”)中，保持图像上关于接近于线段的边缘的视觉特性的信息，以消除视点变化或照明变化所导致的错误检测的影响。

在G.Simon，A.W.Fitzgibbon，以及A.Zisserman所著的“Markerless Tracking using Planar Structures in the Scene”，Proc.Int’l Symp.on Augmented Reality 2000(ISAR2000)，PP.120-128，2000(在下文中称为“文献7”)、和I.Skrypnyk与D.G.Lowe所著的“Scene Modelling，Recognition and Tracking with Invariant Imagefeatures”，Proc.The Third Int’l Symp.on Mixed and AugmentedReality(ISMAR04)，PP.110-119，2004(在下文中称为“文献8”)中公开了利用在图像上的点特征而不是边缘来确定图像拾取设备的位置与姿态的方法。

点特征是根据图像上的位置(图像坐标)和周围的图像信息表示的特征。例如，利用Harris算子、Moravec算子等等来检测点特征。

在文献7中，以连续帧的方式追踪三维空间中同一平面上的点特征，并且基于平面上这些点的位置与对应的点特征的图像坐标之间的关系来计算图像拾取设备的位置和姿态。

在文献8中，基于点特征的图像坐标和三维坐标之间的对应关系，利用具有相对于图像上的缩放变化和旋转变化而不变的特征信息的点特征，来确定图像拾取设备的位置和姿态。在文献8中，不以连续帧的方式追踪点特征。相反，在预定的点特征数据库与在当前帧中检测到的点特征之间执行匹配，以识别每一帧中的点特征。

如同基于边缘的方法一样，基于点特征的方法也具有错误检测的问题。在文献7和8中，利用随机采样一致性(RANSAC)算法移除被检测为异常值(outlier)的点特征。在基于RANSAC的异常值移除方案中，随机地选择对应点，并且计算图像拾取设备的位置和姿态。当满足计算出的值的对应点的数量为最大时，未被包括在对应点的集合中的对应点作为异常值被移除。

背景技术中有一种利用人工标记的方法，其中，利用色度抠像(chroma keying)来防止标记的错误检测。ProSet和SmartSet系统，也就是Orad Hi-Tec系统有限公司的虚拟工作室系统，利用传统的蓝色或绿色屏幕色度抠像技术从背景中分离出人的图形。

在背景上，放置用于配准的人工图案，其具有与背景颜色相类似的颜色，并且在拍摄的图像上利用检测到的图案来估计摄影机的位置和姿态。因为利用色度抠像从人的图形中把配准图案作为背景分离，因此在人的图像上就不会错误地检测到配准图案。因此，可以实现照相机的位置和姿态的稳定估计。此外，因为利用色度抠像把配准图案作为背景移除，在背景上描绘了计算机图形(CG)图像的合成图像上就观察不到配准图案。

由Orad Hi-Tec系统有限公司所提议的避免标记的错误检测的上述技术，是用于虚拟工作室应用中的技术。在虚拟工作室中，从背景中提取人的图形，并且把CG图像描绘在背景部分上，以便与人的图形相结合。因此，蓝色屏幕可以被用作背景，并且可以利用色度抠像提取背景。

然而，在AR系统中，把CG图像叠加在真实的背景图像上。因此，难以通过执行诸如色度抠像之类的简单处理来提取背景，并且还难以采用Orad Hi-Tec系统有限公司提议的技术来避免背景图像上自然特征的错误检测。

在背景技术中，分离地执行用于检测配准的自然特征的处理和用于确定虚拟对象与诸如手之类的真实遮蔽对象之间的在前/在后关系的处理。在遮蔽对象位于虚拟对象前面的图像区域中，不得检测用于配准的自然特征。因此可以预期，可以通过使用关于图像特征检测的在前/在后关系的信息来防止错误检测。然而，在背景技术中，不把关于在前/在后关系的信息用于自然特征检测。

被布置为测量遮蔽对象的位置与姿态的测量装置允许利用测量装置的测量结果来确定观察目标对象与遮蔽对象之间的在前/在后关系。然而，在背景技术中，不把关于测量出的遮蔽对象的位置和姿态的信息用于自然特征检测。

发明内容

本发明提供这样一种技术，其中，当观察目标对象被遮蔽对象所遮蔽时，可以防止图像特征的错误检测，并且可以改善配准稳定性。

本发明进一步提供利用被布置为测量遮蔽对象的位置和姿态的测量装置的技术，其中，当观察目标对象被遮蔽对象所遮蔽时，可以利用从测量装置中获得的信息来防止图像特征的错误检测，并且可以改善配准稳定性。

本发明提供了一种图像处理设备，该图像处理设备包括：对象定义单元，其被配置为定义能够遮蔽要被观察的目标对象的特定对象；图像获得单元，其被配置为获得图像拾取设备拍摄的拍摄图像；区域检测器，其被配置为从获得的拍摄图像中检测包括该特定对象的区域；图像特征检测器，其被配置为从拍摄图像中检测目标对象的图像特征；以及计算单元，其被配置为基于图像特征检测器检测到的图像特征，计算拍摄了拍摄图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态，其中，图像处理设备被配置为在确定拍摄了图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态时，不考虑来自检测到的区域的特征。

本发明进一步提供一种图像处理方法，该方法包括：保持步骤，保持对能够遮蔽要被观察的目标对象的特定对象进行定义的定义信息；图像获得步骤，获得图像拾取设备拍摄的拍摄图像；区域检测步骤，从获得的拍摄图像中检测包括该特定对象的区域；图像特征检测步骤，从拍摄图像中检测目标对象的图像特征；以及计算步骤，基于图像特征检测步骤中检测到的图像特征，计算拍摄了拍摄图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态，其中，该方法在确定拍摄了图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态时，不考虑来自检测到的区域的特征。

从下面参考附图对示例性实施例的描述中，本发明的更多特征将变得明显。

附图说明

图1是示出了依据本发明第一实施例的位置和姿态测量设备的示例结构的图。

图2是示出了应用了依据第一实施例的位置和姿态测量设备的示例典型情况的图。

图3是示出了依据第一实施例的位置和姿态测量设备的处理操作的流程图。

图4A、4B、4C、以及4D是示出了用于对依据第一实施例的三维模型进行定义的方法的图。

图5A和5B是示出了把三维模型投影到图像上的图。

图6是示出了在三维模型的图像上标绘的分割点的图。

图7是示出了依据第一实施例的图像特征检测处理的过程的流程图。

图8A和8B是示出了依据第一实施例的用于检测图像特征的图。

图9是示出了用于利用线段信息来计算图像拾取设备的位置和姿态的方法的图。

图10A和10B是示出了依据第一实施例的检测遮蔽区域的图。

图11A和11B是示出了依据第一实施例的计算机图形叠加(合成)方法的图。

图12是示出了依据第一实施例的改进示例检测遮蔽区域的图。

图13是示出了依据本发明第二实施例的位置和姿态测量设备的示例结构的图。

图14是示出应用了依据第二实施例的位置和姿态测量设备的示例典型情况的图。

图15是示出了依据第二实施例的处理过程的流程图。

图16是示出了依据第二实施例的遮蔽对象的模型的定义方法的图。

图17A和17B是示出了依据第二实施例的检测遮蔽区域的图。

图18A和18B是示出了邻近遮蔽区域的区域的图。

具体实施方式

将参考附图对本发明的实施例进行详细描述。

第一实施例

将关于利用在图像上检测到的边缘的配准方法对本发明的第一实施例进行描述。更具体地，将描述这样的位置和姿态测量设备以及位置和姿态测量方法，其用于当观察对象被观察者的手遮蔽时，确定观察者相对于观察者所观察的观察目标对象的位置和姿态。

图1示出了依据第一实施例的位置和姿态测量设备1的示例结构。如图1所示，位置和姿态测量设备1包括遮蔽对象定义单元110、图像输入单元120、遮蔽区域检测器130、图像特征检测器140、以及位置/姿态计算单元150。图像拾取设备100连接到图像输入单元120。

图2是示出了应用了依据第一实施例的位置和姿态测量设备1的典型情况的图。观察者佩戴着图像拾取设备100，并且作为真实对象的观察目标对象10部分地被观察者的手20所遮蔽。依据第一实施例的位置和姿态测量设备1被配置为确定图像拾取设备100相对于观察目标对象10的位置和姿态。

在第一实施例中，观察目标对象位于遮蔽对象即观察者的手之后。

遮蔽对象定义单元110在位置和姿态测量之前预先对遮蔽对象进行定义，并且把对遮蔽对象的定义存储在存储单元(未示出)中。在第一实施例中，遮蔽对象定义单元110定义了手的颜色。在图像上，与具有和手相同颜色的区域相对应的像素可以表示被手遮蔽的对象。在对手的颜色的定义中，例如，可以通过红(R)、绿(G)、以及蓝(B)三个分量来表示手的颜色的代表值，并且可以指定每一分量可用的值的范围。也可以定义把RGB分量用作三个正交轴的RGB空间中的椭球区域。作为替换方案，可以代替RGB分量，定义把U和V分量用作两个正交轴的UV平面中的椭球区域，其中U和V分量是YUV颜色空间中的颜色分量。用于对手的颜色进行定义的方法不限于上述的这些，并且可以使用用于表示颜色或颜色区域的任何其他定义方法。

图像输入单元120接收图像拾取设备100拍摄的图像。如果图像拾取设备100的输出与诸如NTSC(国家电视系统委员会)之类的模拟输出格式相兼容，则通过视频捕捉板来实现图像输入单元120。如果图像拾取设备100的输出与诸如IEEE(电气和电子工程师协会)1394之类的数字输出格式相兼容，则通过例如IEEE 1394接口板来实现图像输入单元120。

遮蔽区域检测器130检测从图像输入单元120输入的拍摄图像的遮蔽区域，在该遮蔽区域中观察目标对象被遮蔽对象定义单元110定义的遮蔽对象所遮蔽。检测到的遮蔽区域被输出到图像特征检测器140。

图像特征检测器140检测从图像输入单元120输入的图像上的图像特征。仅在除了遮蔽区域检测器130检测到的遮蔽区域之外的区域中检测图像特征。检测到的图像特征被输出到位置/姿态计算单元150。

位置/姿态计算单元150基于关于图像特征检测器140检测到的图像特征的信息，计算图像拾取设备100相对于观察目标对象10的位置和姿态。

现在将对依据第一实施例的位置和姿态测量设备1的处理操作进行描述。

图3是示出了依据第一实施例的位置和姿态测量设备1的处理操作的流程图。

首先，在步骤S1010，执行初始化。在步骤S1010的初始化处理中，对遮蔽对象进行定义，并且大致确定图像拾取设备100相对于观察目标对象的位置和姿态。第一实施例中的遮蔽对象是观察者的手，并且指定表示手的颜色的颜色区域。在颜色区域的指定处理中，例如，预先拍摄包括作为遮蔽对象的手的图像，并且利用鼠标在图像中规定手区域。手区域的颜色被映射到UV平面上，并且指定UV平面上包括映射的手区域的椭圆区作为表示手的颜色的颜色区域。

下面描述的依据第一实施例的位置和姿态测量方法是利用关于图像特征的信息对图像拾取设备100的大致位置和姿态进行更新的方法。因此，在位置和姿态测量之前，需要预先大致确定图像拾取设备100的位置和姿态。例如，可以指定预定的位置和姿态，并且可以把图像拾取设备100移动到指定的位置和姿态。

作为替换方案，如在H.Kato和M.Billinghurst所著的“MarkerTracking and HMD Calibration for a Video-Based AugmentedReality Conferencing System”，Proc.The 2^nd IEEE InternationalWorkshop on Augmented Reality(IWAR’99)，pp.85-94，1999中所公开的，可以使用一旦在图像中被检测到就可识别的人工标记。在这种情况下，测量标记的顶点的三维位置，并且从人工标记的顶点的图像坐标和三维位置之间的对应关系中确定图像拾取设备100的位置和姿态。确定的位置和姿态可以被指定为图像拾取设备100的大致位置和姿态。

作为替换方案，可以把具有6个自由度的磁、光学、或者超声波位置和姿态传感器连附在图像拾取设备100上，并且从传感器获得的图像拾取设备100的位置和姿态可以被指定为图像拾取设备100的大致位置和姿态。可以利用人工标记与上述具有6个自由度的位置和姿态传感器或者具有3个自由度的姿态传感器及具有3个自由度的位置传感器的组合来测量图像拾取设备100的位置和姿态，并且所确定的位置和姿态可以被指定为图像拾取设备100的大致位置和姿态。在执行了初始化之后，处理前进至步骤S1020。

在步骤S1020中，经由图像输入单元120把图像拾取设备100拍摄的图像加载到位置和姿态测量设备1中。步骤S1020中加载的图像被传送到遮蔽区域检测器130和图像特征检测器140。

然后，在步骤S1030中，检测遮蔽区域。从图像中检测与在步骤S1010中指定的表示手的颜色的颜色区域相对应的像素，并对其进行标注以产生连结区域。扩展每一连结区域以移除噪声。剩余的连通区域被输出到图像特征检测器140作为遮蔽区域。

图10A和10B是示出了依据第一实施例的检测遮蔽区域的图。图10A示出了图像拾取设备100拍摄的图像，其中，观察目标对象被手遮蔽。利用各自与一个像素相关联并且指示对应的像素是否被遮蔽的标志Fi(i＝1，2，......，n)来确定拍摄的图像中哪个像素被手遮蔽，其中，n表示拍摄的图像中像素的数目。起初，所有的标志Fi均被设为值“0”。然后，与对应于遮蔽区域的像素相关联的标志Fi被设为值“1”。把标志Fi输出到图像特征检测器140作为指示遮蔽区域的数据。

图10B示出了以白色和黑色表示的屏蔽图像，该图像是利用标志Fi产生的。仅在屏蔽图像的白色部分中检测图像特征。

然后，在步骤S1040中，执行模型投影。具体地，基于图像拾取设备100的大致位置和姿态，把观察目标对象的三维模型投影到图像上。利用已知的诸如焦距和主点之类的照相机内部参数来执行模型投影。在第一实施例中，照相机内部参数被预先测量并且因而是已知的。

图4A、4B、4C、以及4D是示出了用于对依据第一实施例的三维模型进行定义的方法的图。用一组点、关于通过连接这些点所定义的表面的信息、以及关于限制这些表面的线段的信息对三维模型进行定义。

如图4A的左部所示，第一实施例中的三维模型具有长方体形状，该长方体带有8个点P1到P8，并且用在从点P1到点P4的方向上延伸的X轴、在从点P5到点P1的方向上延伸的Y轴、以及在从点P1到点P2的方向上延伸的Z轴来对长方体模型的坐标系进行定义。原点被设在点P5上。如图4A的中部和右部所示，用表面F1到F6对长方体模型进行定义。

还用线段L1到L12对长方体模型进行定义。如图4B所示，用三维坐标值来表示点P1到P8中的每一个。如图4C所示，用定义表面的点的ID和连接这些点的顺序来表示表面F1到F6中的每一个。如图4D所示，用其两个端点的ID表示线段L1到L12中的每一个。

图5A和5B是示出了在步骤S1040中把三维模型投影到图像上的图。图5A示出了拍摄的图像，而图5B示出了把三维模型投影到拍摄的图像上的图像。

当连续帧中在图像拾取设备100和观察目标对象10之间出现移动时，如图5B所示，在实际拍摄的图像和用粗线指示的三维模型的投影图像之间出现偏离。在图5B中，虚线指示不能从位置和姿态上观察到的隐藏的线段。

然后，在步骤S1050中，检测图像特征。如下检测图像特征。

首先，设置分割点，以便定义了投影的三维模型的线段在图像上可以被分成等间隔。图6是示出了在三维模型的图像上的分割点的图。分割点的总数是N，并且每一个分割点用DPi(i＝1，2，......，N)来表示。可以通过改变图像上分割点之间的间隔来控制分割点的数目N。可以在每一帧中改变图像上的分割点之间的间隔，使得分割点的数目可以是恒定的。

现在将参考图7示出的流程图对在步骤S1050中执行的图像特征检测处理进行描述。

首先，在步骤S1110中，变量“i”被设为1。然后，在步骤S1120中，确定给定的分割点DPi是否可见。具体地，如果分割点DPi被三维模型的另一表面所遮蔽，即，如果分割点DPi落在图6示出的虚线上，则分割点DPi不可见。可以通过例如文献8所公开的那样来执行关于分割点DPi是否可见的确定，即在利用图形硬件描绘了三维模型之后描绘分割点DPi，并确定在图形硬件中是否已对深度缓存进行了更新。如果分割点DPi不可见，则处理前进至步骤S1150。如果分割点DPi可见，则处理前进至步骤S1130。

在步骤S1130中，确定分割点DPi是否被步骤S1010中指定的遮蔽对象所遮蔽。具体地，如果与分割点DPi的图像坐标相关联的遮蔽区域标志Fj的值是1，则确定分割点DPi被遮蔽对象所遮蔽。如果标志Fj的值是0，则确定分割点DPi未被遮蔽。如果确定分割点DPi被遮蔽，则处理前进至步骤S1150。如果确定分割点DPi未被遮蔽，则处理前进至步骤S1140，并且检测图像特征。

在步骤S1140中，检测与分割点DPi相对应的图像特征。在第一实施例中，图像特征是边缘。图8A和8B是示出了用于依据第一实施例检测图像特征的方法的图。如图8A所示，对于每一分割点，沿着与投影的线段的法线平行并且通过该分割点的线段(在下文中称为“搜索线”)对边缘进行一维搜索。注意，如果与搜索线上像素的图像坐标相关联的遮蔽区域标志Fj的值是1，则不在搜索线上的像素上执行边缘检测。此外，存在搜索线上像素的图像坐标可以具有非整数值的可能性。在这种情况下，例如，对4个邻近的点，通过利用遮蔽区域标志Fj的值的双线性内插来确定遮蔽区域标志的平均值。如果该平均值大于0.5，则确定对应的像素被遮蔽，并且不执行边缘检测。边缘出现于强度梯度具有极值的位置处的搜索线上(见图8B)。在第一实施例中，如果多个边缘出现于搜索线上，则最接近于分割点的边缘被指定为对应点，并且存储对应点的图像坐标和分割点的三维坐标。虽然在第一实施例中，最接近于分割点的边缘被指定为对应点，但是对应点不限于该边缘，并且表现出强度梯度的极值的最大绝对值的边缘可以被指定为对应点。作为替换方案，如文献7所公开的，在本发明的范围内可以把多个点而不是一个点存储为候选的对应点。

在步骤S1150中，变量“i”增加1，并且处理前进至步骤S1160。如果已对所有分割点DPi完成处理，则处理结束；否则，处理返回步骤S1120。

如果已对所有分割点DPi完成处理，则在图3示出的步骤S1060中，确定图像拾取设备100的位置和姿态。从分割点DPi之中在步骤S1140已确定了其对应点的分割点的数目用Nc表示。通过迭代计算对图像拾取设备100的大致位置和姿态进行校正来确定图像拾取设备100的位置和姿态。图9是示出了用于利用线段信息计算图像拾取设备100的位置和姿态的方法的图。在图9中，分别在图像的水平和垂直方向上对x轴和y轴标绘。给定的分割点的坐标用(u，v)来表示，并且图像上给定的分割点所属的线段L相对于x轴以倾角θ倾斜。线段L的法向矢量用(sinθ，-cosθ)来表示。分割点的对应点的坐标用(u’，v’)来表示。线段L上的点(x，y)满足等式(1)：

xsinθ-ycosθ＝r ......等式(1)

其中r＝usinθ-vcosθ(常数)。与线L平行并通过对应点的直线(用图9示出的虚线表示)上的点(x，y)满足等式(2)：

xsinθ-ycosθ＝d ......等式(2)

其中d＝u’sinθ-v’cosθ(常数)。分割点的图像坐标是图像拾取设备100的位置和姿态的函数。图像拾取设备100的位置和姿态具有6个自由度。假定表示图像拾取设备100的位置和姿态的参数用p表示。参数p是六维矢量，其具有表示图像拾取设备100的位置的三个元素和表示图像拾取设备100的姿态的三个元素。表示姿态的三个元素中的每一个例如用欧拉(Euler)角，或者方向和幅度分别表示旋转轴和旋转角的三维矢量等等来表示。通过对(x，y)进行近似，作为分割点的图像坐标，在(u，v)附近利用一维泰勒展开，获得下述表达式：

x \approx u + Σ_{i = 1}^{6} \frac{&PartialD; x}{&PartialD; p_{i}} Δ p_{i},

y \approx v + Σ_{i = 1}^{6} \frac{&PartialD; y}{&PartialD; p_{i}} Δ p_{i}

......等式(3)

其中，

表示被称为图像雅可比行列式(Jacobian)的偏微分系数，并且利用已知方法而被导出，在例如K.Satoh，S.Uchiyama，H.Yamamoto，以及H.Tamura所著的“Robust Vision-BasedRegistration Utilizing Bird’s-Eye View with User’s View”，Proceedings of the Second IEEE and ACM International Symposiumon Mixed and Augmented Reality(ISMAR03)，PP.46-55，2003(在下文中称为“文献9”)中公开了这种已知方法。省略对其的详细描述。

计算图像拾取设备100的位置和姿态参数p的校正值Δp，以便用等式(3)表示的点(x，y)出现于用等式(2)表示的直线上。把等式(3)代入等式(2)，产生等式(4)：

(u + Σ_{i = 1}^{6} \frac{&PartialD; x}{&PartialD; p_{i}} Δ p_{i}) \sin θ - (v + Σ_{i = 1}^{6} \frac{&PartialD; y}{&PartialD; p_{i}} Δ p_{i}) \cos θ = d

......等式(4)

重新整理等式(4)来产生等式(5)：

\sin θ Σ_{i = 1}^{6} \frac{&PartialD; x}{&PartialD; p_{i}} Δ p_{i} - \cos θ Σ_{i = 1}^{6} \frac{&PartialD; y}{&PartialD; p_{i}} Δ p_{i} = d - r

......等式(5)

因为为Nc个分割点建立等式(5)，建立校正值Δp的线性方程组，如等式(6)：

......等式(6)

等式(6)被简化为等式(7)：

JΔp＝E ......等式(7)

根据等式(7)，利用矩阵J的广义逆矩阵(J^T·J)^-1确定校正值Δp。

然而，可能经常错误地检测边缘，并且使用下述的强健的估算方法。通常，与错误地检测到的边缘相对应的分割点具有大的误差d-r。因此，对于用等式(6)和(7)表示的联立方程组的贡献很大，导致校正值Δp的低精确度。为了处理这个问题，给具有大误差d-r的分割点分配小权重，并且给具有小误差d-r的分割点分配大权重。利用例如由等式(8)给出的Tukey函数来计算权重：

w (x) = \{\begin{matrix} {(1 - {(x / c)}^{2})}^{2} & | x | \leq c \\ 0 & | x | > c \end{matrix}

......等式(8)

加权函数不限于Tukey函数，并且可以使用给具有大误差d-r的分割点分配小权重并且给具有小误差d-r的分割点分配大权重的任何其他函数，诸如由下述等式给出的Huber函数：

w (x) = \{\begin{matrix} 1 & | x | \leq k \\ k / | x | & | x | > k \end{matrix}

令分配给分割点DPi的权重用w_i来表示。加权矩阵W用等式(9)来定义：

......等式(9)

加权矩阵W是Nc×Nc方阵，其包含除了对角元素之外的0和作为对角元素的权重w_i。加权矩阵W用来把等式(7)更改为等式(10)：

WJΔp＝WE ......等式(10)

通过利用下面的等式(11)求解等式(10)，确定校正值Δp：

Δp＝(J^TWJ)^-1J^TWE ......等式(11)

获得的校正值Δp用来对图像拾取设备100的大致位置和姿态进行更新。以这种方式，在步骤S1060中确定图像拾取设备100的位置和姿态。

然后，在步骤S1070中，确定图像拾取设备100的位置和姿态的计算是否已收敛。如果在步骤S1060中确定的校正值足够小，或者误差r-d的总和足够小，或者误差r-d的总和不变，则确定图像拾取设备100的位置和姿态的计算已收敛，并且处理前进至步骤S1080。如果确定计算尚未收敛，则把在步骤S1060中更新的图像拾取设备100的位置和姿态指定为图像拾取设备100的新的大致位置和姿态。然后，处理返回步骤S1060，并且重新计算值θ、r、以及d，以再次确定校正值Δp。

在步骤S1080中，确定是否已接收到完成位置和姿态计算处理的指示。如果已接收到指示，则处理结束，否则，处理返回至步骤S1020。

利用图像拾取设备100的位置和姿态把虚拟空间图像叠加到拍摄的图像上，图像拾取设备100的位置和姿态是通过参考图3示出的流程图描述的位置和姿态测量方法而获得的。

图11A和11B是示出了依据第一实施例的计算机图形叠加(合成)方法的图。图11A示出了不考虑现实对象(例如手)和虚拟对象(例如虚拟圆柱)之间的遮蔽关系而产生的图像，其中，把基于图像拾取设备100的位置和姿态而产生的虚拟对象的图像叠加到拍摄的图像上。如果虚拟对象位于手的后面，如图11B所示，则需要将虚拟对象描绘在手的后面。在第一实施例中被检测为遮蔽区域的区域是手区域，并且在与检测到的遮蔽区域相对应的像素中不描绘虚拟对象的图像，以产生如图11B所示的自然的AR图像。

因此，在第一实施例中，检测其中遮蔽对象遮蔽了图像上观察目标对象的图像的遮蔽区域，并且在遮蔽区域中不检测图像特征。因此，可以以高精度稳定地计算观察者相对于观察目标对象的位置和姿态。

第一实施例的改进示例

在第一实施例中，遮蔽观察目标对象的对象是手，但是不限于此，而可以是具有二维图像特征的任何其他对象，诸如脸。

例如，如图12所示，预先确定脸图像的数据库，并且将拍摄的图像与数据库中的脸图像进行匹配。确定与脸图像相匹配的图像的区域被脸遮蔽，并且在该区域中不检测图像特征。通过这种方法，可以实现稳定的高精度位置和姿态计算。

在第一实施例中，基于手的颜色来检测遮蔽区域。如果遮蔽对象具有独特的颜色，则可以基于这种独特的颜色检测遮蔽区域。例如，当用户在他/她的手上戴着橘色手套时，可以把拍摄的图像上的橘色区域检测为遮蔽区域。

作为替换方案，可以基于遮蔽对象的外形图案而不是颜色来检测遮蔽区域。例如，当用户在他/她的手上戴着圆点图案的手套时，拍摄的图像中圆点图案的区域可以被检测为遮蔽区域。

第二实施例

在第一实施例中，在拍摄的图像上检测手区域并且把其指定为遮蔽区域。不在遮蔽区域中检测图像特征，从而实现观察者相对于观察目标对象的位置和姿态的稳定的高精度计算。

在本发明的第二实施例中，不以第一实施例中描述的方式使用二维图像的特征来检测遮蔽区域，而是使用遮蔽对象的模型和遮蔽对象与图像拾取设备的大致位置和姿态来从拍摄的图像中检测遮蔽区域。

图13示出了依据第二实施例的位置和姿态测量设备2的示例结构。如图13所示，图像拾取设备100连接到位置和姿态测量设备2。位置和姿态测量设备2包括遮蔽对象定义单元210、图像输入单元120、遮蔽区域检测器230、图像特征检测器140、位置/姿态计算单元150、第一大致位置/姿态输入单元260、以及第二大致位置/姿态输入单元270。用相同的附图标记表示与图1示出的位置和姿态测量设备1功能类似的位置和姿态测量设备2的部件。

图14是示出了应用了依据第二实施例的位置和姿态测量设备2的典型情况的图。

在观察者所观察的空间中，存在观察目标对象30和第二观察者40。第二观察者40可以遮蔽观察目标对象30。假定两个观察者均戴着HMD并且享受他们的AR经历。在图14中，第二观察者40戴着HMD 50。依据第二实施例的位置和姿态测量设备2被配置为确定图像拾取设备100相对于观察目标对象30的位置和姿态。

遮蔽对象定义单元210定义遮蔽对象模型。例如，遮蔽对象定义单元210基于HMD 50的坐标系定义包含人体对象的长方体模型，并且把模型的定义存储在存储单元(未示出)中。图像输入单元120、图像特征检测器140、以及位置/姿态计算单元150的操作与第一实施例中的类似，因而省略对其的描述。

第一大致位置/姿态输入单元260输入图像拾取设备100的大致位置和姿态。第二大致位置/姿态输入单元270输入第二观察者40的大致位置和姿态，即，HMD 50的大致位置和姿态。遮蔽区域检测器230基于从第一大致位置/姿态输入单元260和第二大致位置/姿态输入单元270中获得的位置和姿态信息、以及遮蔽对象定义单元210所定义的遮蔽对象模型，检测观察目标对象30在拍摄的图像中被遮蔽的遮蔽区域。检测到的遮蔽区域被输出到图像特征检测器140。

图15是示出了依据第二实施例的处理过程的流程图。

首先，在步骤S2010中，执行初始化。在步骤S2010的初始化处理中，定义遮蔽对象，并且大致确定图像拾取设备100相对于观察目标对象30的位置和姿态。第二实施例中的遮蔽对象是第二观察者40，并且，如图16所示，指定包含第二观察者40的长方体对象60。参考图16，预先大致测量第二观察者40的高度、水平宽度、以及垂直宽度，并且确定包含第二观察者40的长方体对象60。也基于HMD 50的坐标系确定长方体对象60的位置和姿态。此外，以第一实施例中描述的方式来大致确定图像拾取设备100的位置和姿态。在执行了初始化之后，处理前进至步骤S1020。

在步骤S1020中，经由图像输入单元120把图像拾取设备100拍摄的图像加载到位置和姿态测量设备2中。在步骤S1020中加载的图像被传送到遮蔽区域检测器230和图像特征检测器140。

然后，在步骤S2090中，第一大致位置/姿态输入单元260输入图像拾取设备100的大致位置和姿态。第二大致位置/姿态输入单元270输入第二观察者40所佩戴的HMD 50的大致位置和姿态。图像拾取设备100的大致位置和姿态例如是在前一帧中计算的位置和姿态。HMD 50的大致位置和姿态是利用由观察者40所操作的位置和姿态测量设备2计算的最新的位置和姿态。

两个位置和姿态测量设备可以运行在同一计算机上，并且可以经由进程内(inter-process)通信来交换计算出的位置和姿态结果。两个位置和姿态测量设备可以运行在不同的计算机上，并且可以经由网络交换计算出的位置和姿态结果。可以为HMD 50提供具有6个自由度的磁的、光学的、或者超声波的位置和姿态测量传感器，并且可以从传感器的输出值中获得大致位置和姿态。作为替换方案，可以为HMD 50提供具有三个自由度的姿态传感器和位置传感器，并且可以从标记的投影图像和三个自由度的传感器的测量值中获得位置和姿态，其中该标记的投影图像位于HMD 50的内部图像拾取设备所拍摄的图像上。也就是说，可以使用能够提供大致位置和姿态确定的任何方法。可以以类似于用于HMD 50的方式获得图像拾取设备100的大致位置和姿态。

然后，在步骤S2030中，检测遮蔽区域。首先，如图17A所示，基于步骤S2090中获得的图像拾取设备100和HMD 50的大致位置和姿态，在图像拾取设备100拍摄的图像上描绘长方体对象60。然后，在描绘有长方体对象60的图像上，描绘了长方体对象60的部分被输出到图像特征检测器140作为遮蔽区域。图17B是用白色和黑色表示的屏蔽图像，利用标志Fi产生该屏蔽图像。仅在屏蔽图像的白色部分中检测图像特征。

步骤S1040、S1050、S1060、S1070、以及S1080的处理类似于第一实施例中的处理，因而省略对其的描述。

因此，在第二实施例中，使用遮蔽对象的模型和遮蔽对象与图像拾取设备的大致位置和姿态来检测拍摄的图像的遮蔽区域。不在遮蔽区域中检测图像特征。因此，可以实现观察者相对于观察目标对象的位置和姿态的稳定的高精度计算。

改进示例

在第一和第二实施例中，不在被检测为遮蔽区域的区域中检测图像特征。

例如，在图10示出的情况下，虽然具有与手的颜色相同颜色的区域被检测为遮蔽区域，但是手区域与非手区域之间的边界未必具有与手相同的颜色。因此，在手区域和非手区域之间的边界上可能会错误地检测图像特征。

为了避免这种错误检测，可以把检测到的遮蔽区域及其边界包括在遮蔽区域中。例如，把遮蔽区域向外延伸一个像素，以便可以把其边界包括在遮蔽区域中。除图18A示出的边界之外，邻近遮蔽区域的区域，如图18B所示，可以被包括在遮蔽区域中。在这种情况下，把遮蔽区域延伸若干像素而不是一个像素。在第二实施例中，可以增加长方体对象60的大小以实现类似的优点。

其他实施例

在上述的实施例中，在图像特征检测之前检测遮蔽区域，并且在除了遮蔽区域之外的区域中检测图像特征。

然而，图像特征检测器可以被配置为不考虑遮蔽区域来检测图像特征，并且位置/姿态计算单元可以被配置为确定检测到的图像特征是否被包括在遮蔽区域中，并且只利用未被包括在遮蔽区域中的图像特征来计算图像拾取设备的位置和姿态。在这种情况下，只需要在位置和姿态计算之前执行图像特征的检测和遮蔽区域的检测。例如，可以在计算机中并行执行图像特征的检测和遮蔽区域的检测。

在上述的实施例中，把边缘用作图像特征。然而，图像特征不限于边缘，而可以是点特征。通常把点特征称为特征点、兴趣点等等，并且主要检测诸如在图像上表现出强度极值的点或角点(顶点)之类的点。可以利用Harris角检测器来检测点特征，在例如C.Harris以及M.Stephens所著的“A Combined Corner and Edge Detector”，Proc.4^th Alvey Vision Conf.，PP.147-151，1998(在下文中称为“文献10”)中公开了这种Harris角检测器。在文献8中，使用被称为尺度不变(Scale Invariant)特征变换(SIFT)的方法来检测点特征。

以类似于边缘检测中的方式，在除了第一和第二实施例中检测到的遮蔽区域之外的区域中检测点特征，以避免错误检测。因此，可以实现图像拾取设备的位置和姿态的稳定的高精度计算。

虽然在上述的实施例中，确定观察者相对于观察目标对象的位置和姿态，但是也可以确定观察目标对象相对于观察者的位置和姿态。作为替换方案，可以使用能够提供对观察者或观察目标对象的位置或姿态的确定的任何其他方法来确定观察者或者观察目标对象的位置或姿态。例如，可以通过连附在观察目标对象或者观察者身体上的陀螺仪传感器来测量观察者或者观察目标对象的姿态。

也可以通过给连接到各种装置的设备或系统的计算机(或者中央处理单元(CPU)或者微处理单元(MPU))提供实现上述实施例功能的软件的程序代码以便对各种装置进行操作来实现上述实施例的功能，并且使系统或设备的计算机依据程序代码对各种装置进行操作，来实现上述实施例的功能。

在这种情况下，可以通过软件的程序代码来实现上述实施例的功能，并且程序代码和存储有程序代码的存储介质均构成了本发明的实施例。

存储有程序代码的存储介质的示例可以包括软盘、硬盘、光盘、磁光盘、紧凑盘只读光盘存储器(CD-ROM)、磁带、非易失性存储卡、以及ROM。

可以通过由计算机执行读出的程序代码实现上述实施例的功能，并且也可以通过与运行在计算机上的操作系统(OS)、其他软件应用程序、等等相结合使用程序代码实现上述实施例的功能。这都落入本发明的范围内。

此外，可以把提供的程序代码存储在放置在计算机中的功能扩展板或者连接到计算机的功能扩展单元的存储器中，其后，功能扩展板或者功能扩展单元的CPU等可以依据程序代码的指示，执行部分或全部的实际处理，以实现上述实施例的功能。这也落在本发明的范围内。

虽然已参考示例性实施例对本发明进行了描述，但是应当理解，本发明不限于公开的示例性实施例。下列权利要求的范围应被给予最宽的解释，以便涵盖所有改进、等同结构和功能。

Claims

1.一种图像处理设备，其包括：

对象定义单元，其被配置为定义能够遮蔽要被观察的目标对象的特定对象；

图像获得单元，其被配置为获得图像拾取设备所拍摄到的拍摄图像；

区域检测器，其被配置为从获得的拍摄图像中检测包括该特定对象的区域；

图像特征检测器，其被配置为从拍摄图像中检测目标对象的图像特征；以及

计算单元，其被配置为基于图像特征检测器检测到的图像特征，计算拍摄了拍摄图像的图像拾取设备的位置或姿态、或者拍摄图像中的目标对象的位置或姿态，

其中，图像处理设备被配置为在确定拍摄了图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态时，不考虑来自检测到的区域的特征。

2.根据权利要求1所述的图像处理设备，其中，区域检测器被配置为检测包括特定对象遮蔽了目标对象的区域的区域，或者检测特定对象遮蔽了目标对象的区域及其相邻区域。

3.根据权利要求1所述的图像处理设备，其中，图像特征检测器被配置为基于检测到的区域，通过在除了检测到的区域之外的拍摄图像的区域中进行检测，从而检测图像特征。

4.根据权利要求1所述的图像处理设备，其中，计算单元被配置为基于检测到的区域，根据在除了检测到的区域之外的拍摄图像的区域中检测到的图像特征，计算拍摄了拍摄图像的图像拾取设备的位置和/或姿态、或者在拍摄图像中的目标对象的位置和/或姿态。

5.根据权利要求1所述的图像处理设备，其中，对象定义单元被配置为在图像特征信息方面对特定对象进行定义，以及

区域检测器被配置为基于定义的图像特征信息，从拍摄图像中检测所述区域。

6.根据权利要求5所述的图像处理设备，其中，定义了特定对象的图像特征信息包括颜色或图案。

7.根据权利要求6所述的图像处理设备，其中，特定对象包括人的皮肤，并且颜色包括皮肤的颜色。

8.根据权利要求5所述的图像处理设备，其中，定义了特定对象的图像特征信息包括表示图像上人脸区域的特征。

9.根据权利要求1所述的图像处理设备，其中，对象定义单元被配置为定义特定对象的三维形状，

所述图像处理设备进一步包括：

第一大致位置和姿态获得单元，其被配置为获得图像拾取设备的大致位置和大致姿态；以及

第二大致位置和姿态获得单元，其被配置为获得特定对象的大致位置或者特定对象的大致位置和大致姿态，以及

该区域检测器基于第一大致位置和姿态获得单元获得的图像拾取设备的大致位置和大致姿态、第二大致位置和姿态获得单元获得的特定对象的大致位置或者特定对象的大致位置和大致姿态、以及特定对象的三维形状，从拍摄图像中检测包括了特定对象的区域。

10.根据权利要求1所述的图像处理设备，进一步包括：

虚拟空间图像发生器，其被配置为基于计算单元的计算结果，产生虚拟空间图像；以及

图像合成单元，其被配置为把拍摄图像与虚拟空间的图像进行合成，

其中，向用户呈现合成了拍摄图像与虚拟空间图像的图像。

11.根据权利要求10所述的图像处理设备，其中，不把虚拟空间图像与区域检测器检测到的区域进行合成。

12.根据权利要求1所述的图像处理设备，其中，图像特征包括线特征或点特征。

13.一种图像处理方法，其包括：

保持步骤，保持对能够遮蔽要被观察的目标对象的特定对象进行定义的定义信息；

图像获得步骤，获得图像拾取设备拍摄的拍摄图像；

区域检测步骤，从获得的拍摄图像中检测包括该特定对象的区域；

图像特征检测步骤，从拍摄图像中检测目标对象的图像特征；以及

计算步骤，基于图像特征检测步骤中检测到的图像特征，计算拍摄了拍摄图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态，

其中，该方法在确定拍摄了图像的图像拾取设备的位置和/或姿态、或者拍摄图像中的目标对象的位置和/或姿态时，不考虑来自检测到的区域的特征。

14.一种计算机程序，用于通过使用计算机来实现根据权利要求13所述的图像处理方法。