CN102016910A

CN102016910A - 三维物体识别用图像数据库的制作方法、处理装置以及处理用程序

Info

Publication number: CN102016910A
Application number: CN2009801155420A
Authority: CN
Inventors: 井上胜文; 三宅弘志; 黄濑浩一
Original assignee: Osaka Prefecture University PUC
Current assignee: Osaka Prefecture University PUC
Priority date: 2008-04-30
Filing date: 2009-04-27
Publication date: 2011-04-13
Anticipated expiration: 2029-04-27
Also published as: EP2284791A4; KR20100135878A; US8306315B2; CN102016910B; US20110058733A1; WO2009133855A1; EP2284791A1; JPWO2009133855A1; JP5278881B2; EP2284791B1; KR101257999B1

Abstract

本发明提供图像数据库的制作方法、用于执行该方法的处理程序以及进行该处理的处理装置，该图像数据库生成能够进行高精确度的物体识别的低容量模型，并使用该模型。本发明涉及一种三维物体识别用图像数据库的制作方法、用于执行该方法的处理程序以及进行该处理的处理装置，该方法具备以下工序：提取工序，在从不同的视点观察三维物体而得到的多个图像中提取作为局部描述符的矢量；模型制作工序，评价各局部描述符对上述三维物体的识别的贡献度，使用满足基准的各矢量来制作进行系统化以能够执行近似最邻近搜索的三维物体模型；以及登记工序，对所制作出的物体模型附加物体标识符来登记于图像数据库，其中，上述模型制作工序以下面的方式评价各矢量的贡献：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献，在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献。

Description

三维物体识别用图像数据库的制作方法、处理装置以及处理用程序

技术领域

本发明涉及一种三维物体识别用图像数据库的制作方法、处理装置以及处理用程序。更详细地说，本发明涉及如下一种图像数据库的制作方法、处理装置以及处理程序：构建将从视点观察三维物体得到的多个图像登记于物体的模型的图像数据库，并从该图像数据库中检索与由作为检索问题(Query：查询对象)的、图像示出的物体一致的模型，并将该模型所涉及的物体输出为识别结果。

背景技术

近年来，随着数字照相机的普及、高性能化，数字照相机以及使用该数字照相机的设备作为新的信息设备而广受瞩目。另外，由于硬盘的大容量化，个人逐渐能够持有大量的图像数据。与此相伴地，对大量的数字图像、运动图像进行处理的研究开始盛行。作为其中的一个领域，存在一种对存在于图像中的三维物体进行识别的研究。

关于从图像中识别三维物体的方法，可以分为大致识别物体的类别的方法和识别实例的方法。前者作为结果返回椅子、机动车等物体的类别，而与此相对地，后者对例如机动车的特定模型等实例进行识别。在本发明中，聚焦于后者的实例识别来开展讨论。其中，特别着眼于使用SIFI(Scale-Invariant FeatureTransform：尺度不变特征转换)等局部描述符的三维物体识别(例如，参照非专利文献1)。在现有方法中，除了根据从各种角度拍摄的物体的图像、通过局部描述符的对照来构建物体的三维表面模型以用于识别的方法(例如，参照非专利文献2、3)以外，还有不使用三维模型而以从图像中提取出的局部描述符而作成模型来与未知的图像进行对照的方法(例如，参照非专利文献4、5)等。本发明与后者的研究(approach)有关。

在这种研究的方法中，最为单纯的一种是从在多种条件下拍摄到的物体图像中提取多个局部描述符、将它们全部登记于模型的方法。该单纯的研究的优点在于能够容易地实现高精确度的识别，但是由于所得到的局部描述符的数量庞大，因此存在局部描述符的匹配处理会耗费极长的时间的问题、以及进行识别时所需的存储器容量极大而难以进行大规模的物体识别的问题。

对于前者的问题，必须提高局部描述符的最邻近搜索的效率。因此作为解决该问题的一个方法，有一种使用局部描述符的近似最邻近搜索的方法。通过在物体识别中引进该方法，能够高速且高精确度地识别物体，这一点已由野口等人进行了报告(例如，参照非专利文献6、专利文献1)。

另一方面，对于后者的问题，识别所需的存储器容量中的模型容量(模型所需的存储器容量)是支配性的，因此削减模型容量成为了主要问题

另外，使用局部描述符的三维物体识别法中，不进行物体的三维模型构建的方法具有如下优点：只要存在拍摄物体而得到的图像就能够通过提取局部描述符来简单地构建模型。在这种简单的方法中，为了得到三维物体识别的精确度，需要将各种条件下拍摄的很多图像用于模型构建。一般来说，从一张图像中可提取数十乃至数千个局部描述符，因此，一个物体的模型化会受到极多的局部描述符的干预，对这些局部描述符的处理成为中心问题。

现有方法多使用将局部描述符矢量量化以置换为被称为“visual word”的代表矢量的方法。在对未知的图像进行识别的情况下，也将从该未知图像中得到的局部描述符置换为visualword来进行对照。已知在进行物体实例的识别的情况下，如果visual word(视觉词)的数量增加，则识别率也会相应地提高，虽然这与识别对象是什么有关。例如，Nister等人对使用1600万个visual word的例子进行了报告(参照非专利文献4)。在使用大量的visual word的情况下，无法忽视局部描述符与visual word的对照所需的计算时间，从而需要使用树型结构等各种数据结构来提速(参照非专利文献4、5)。

这种使用大量的visual word的方法中最为极端的一种是不进行矢量量化而全部使用局部描述符的“事例”的方法。在该研究中，虽然能够期待高识别率，但是会产生记录模型所需的存储器容量变得庞大的问题。

另外，识别方法中最为单纯的一种应该是对成为上述的事例的多个局部描述符附加物体的标签，通过与从未知图像中得到的局部描述符进行对照来投票给物体的标签。通常利用最邻近搜索来进行对照。在这种过程中，只要对从未知图像中得到的局部描述符分配正确的标签即可，因此不需事先记录所有的局部描述符。在此，“投票”在信息处理的领域中是用于局部统计证据的处理，即指如下的处理：根据所得到的证据对选择项中的某一个加分，从而选择在统计了所有证据后最终得到最高分数的选择项。一般来说，各证据持有不同分数的票。

作为一种在保证与记录所有局部描述符的情况的效果完全(或几乎)相同但同时删除不需要的局部描述符的方法，提出了一种被叫做“condensing”的方法。例如，和田等人提出了一种在高维空间中也能够有效应用的方法(例如，参照非专利文献7)。

专利文献1：国际公开第2008/026414号文件

非专利文献1：D.Lowe：″Distinctive Image Features fromScale-Invariant Keypoints″，International Journal of ComputerVision，Vol.60，No.2，pp.91-110(2004)

非专利文献2：F.Rothganger，S.Lazebnik，C.schmid andJ.Ponce：″3D Object Modeling and Recognition fromPhotographs and Image Sequences″，Ponce et al.，Eds.，TowardCategory-Level Object Recognition，LNCS4170，Springer，pp.105-126(2006)

非专利文献3：D.Lowe：″Local Feature View Clustering for3D Object Recognition″，Proc.CVPR2001，Springer，pp.682-688(2001)

非专利文献4：D.Nister and H.Stewenius：″ScalableRecognition with a Vocabulary Tree″，Proc.CVPR2006，pp.775-781(2006)

非专利文献5：S.Obdrzalek and J.Matas：″Sub-LinearIndexing for Large Scale Object Recognition″，British MachineVision Conference(BMVC)，pp.1-10(2005)

非专利文献6：野口和人、黄瀬浩一、岩村雅一：″近似最近傍探索の多段階化による物体の高速認識″、画像の認識·理解シンポジウム(MIRU2007)論文集、OS-B2-02，pp.111-118(2007)

非专利文献7：加藤丈和、和田俊和：″近接性グラフに基づく効率的condensingのアルゴリズムと評価″、信学技報PRMU、Vol.103，No.96，pp.19-24(2003)

发明内容

发明要解决的问题

在野口等人的方法(参照非专利文献6)等的近似最邻近搜索中，通过多数表决来识别物体。考虑到这种情况时可知并非所有的投票都正确也是可以的。虽然是二维平面物体的情况，但是已知得到97％以上的识别率所需的对照的精确度充其量为15％左右(参照非专利文献6)。着眼于这一点，考虑能够以比利用condensing得到的局部描述符还要少的局部描述符来构建物体模型。

换言之，作为削减模型容量的方法，考虑对登记于模型的局部描述符进行取舍选择来削减模型容量。此时，需要在确保物体的识别率的同时削减登记于模型的局部描述符的数量。

总之，如果将局部描述符全部登记于模型，则能够高精确度地识别三维物体，但是局部描述符的数量庞大，因此存在模型所需的存储器容量变得极大的问题。

用于解决问题的方案

基于以上的观点，本发明对降低识别率的可能性较低的局部描述符进行取舍选择，来制作能够进行高精确度的物体识别的低容量模型。并且，提供一种使用该模型的图像数据库的制作方法、处理装置以及处理程序。

本发明提供了一种三维物体识别用图像数据库的制作方法，该方法具备以下工序：提取工序，从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图像的各处的局部特征的矢量作为多个局部描述符；模型制作工序，评价各矢量对上述三维物体的识别的贡献度，选择具有正面贡献的矢量，使用所选择的各矢量来制作进行系统化以能够执行近似最邻近搜索的上述三维物体的模型；以及登记工序，对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标识符来登记于上述图像数据库，各工序是由计算机执行的，上述登记工序登记上述物体模型和与其对应的物体标识符使得能够进行以下动作：在多个物体模型被登记于上述图像数据库、并提供了表示所关注的三维物体的一个图像作为查询对象时，计算机以与上述提取工序同样的过程从上述查询对象中提取多个查询对象局部描述符，使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量，获取附加于该邻近矢量的物体标识符，将由该物体标识符指定的三维物体决定为候补，根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体，上述模型制作工序以下面的方式评价各矢量的贡献：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献，在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献。

另外，在其它观点下，本发明提供了一种三维物体识别用图像数据库的处理装置，该处理装置具备：提取部，其从表示从不同的视点看到的一个三维物体的多个图像中提取分别表现各图像的各处的局部特征的矢量作为多个局部描述符；模型制作部，其评价各矢量对上述三维物体的识别的贡献度，选择具有正面贡献的矢量，使用所选择的各矢量来制作进行系统化以能够执行近似最邻近搜索的上述三维物体的模型；登记部，其对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标识符来登记于上述图像数据库；以及检索部，其在多个物体模型被登记于上述图像数据库、而提供了表示所关注的三维物体的一个图像作为查询对象时，计算机以与上述提取工序同样的过程从上述查询对象中提取多个查询对象局部描述符，使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量，获取附加于该邻近矢量的物体标识符，将由该物体标识符指定的三维物体决定为候补，根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体，其中，上述模型制作部以下面的方式评价各矢量的贡献：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献，在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献。

并且，从不同的观点来看，本发明提供了一种三维物体识别用图像数据库的处理程序，该处理程序使计算机作为以下各部而发挥功能：提取部，其从表示从不同的视点看到的一个三维物体的多个图像中提取分别表现各图像的各处的局部特征的矢量作为多个局部描述符；模型制作部，其评价各矢量对上述三维物体的识别的贡献度，选择具有正面贡献的矢量，使用所选择的各矢量来制作进行系统化以能够执行近似最邻近搜索的上述三维物体的模型；登记部，其对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标识符来登记于上述图像数据库；以及检索部，其在多个物体模型被登记于上述图像数据库、而提供了表示所关注的三维物体的一个图像作为查询对象时，计算机以与上述提取工序同样的过程从上述查询对象中提取多个查询对象局部描述符，使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量，获取附加于该邻近矢量的物体标识符，将由该物体标识符指定的三维物体决定为候补，根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体，其中，上述模型制作部以下面的方式评价各矢量的贡献：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献，在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献。

本发明的特征的一个侧面在于，通过使用大量图像的物体识别仿真，求出各局部描述符对物体识别的贡献度(正面干预性)以及造成障碍的程度(负面干预性)，据此对局部描述符进行取舍选择。

发明的效果

在本发明的三维物体识别用图像数据库的制作方法中，上述模型制作工序以下面的方式评价各矢量的贡献来选择用于模型的局部描述符：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献，在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献，因此，能够对降低识别率的可能性较低的局部描述符进行取舍选择，从而制作实现高精确度的物体识别的低容量模型。

在本发明中，局部描述符以矢量表现图像的局部特征。其具体的方式例如是SIFT。在后述的实施方式中，应用了PCA-SIFT作为局部描述符的一例。

另外，对物体的识别进行贡献指的是该局部描述符有助于提高识别率。在局部描述符中，存在在表示要识别的物体的多个图像中对很多图像都有助于其物体识别的局部描述符。认为在将这种局部描述符在模型中登记的情况下，相同张数的图像的识别所需的局部描述符的数量较少即可。将这种局部描述符认作对制作物体的模型有效的局部描述符，给予高评价。

并且，将各局部描述符系统化为能够进行邻近搜索指的是从要登记到图像数据库的物体的图像中提取局部描述符、将这些局部描述符与上述物体相对应地登记于数据库。在提供了某个局部描述符时，从登记于上述数据库的局部描述符之中决定邻近的局部描述符的处理即是邻近搜索。评价是否邻近的方法的一例是，计算两个矢量的距离，将最短距离的认作邻近。在此，通过上述邻近搜索而决定的局部描述符，检索结果的局部描述符并非一定最邻近检索问题的局部描述符，但是需要邻近(类似于)该检索问题的局部描述符。例如，在后述的实施方式中，应用了近似最邻近(通过近似处理找到的好像是最邻近的邻近，不保证是真正的最邻近)作为邻近搜索。在此不应用最邻近搜索而应用近似最邻近搜索的理由主要是为了缩短搜索所需的处理时间。

另外，根据与检索问题的各局部描述符的相似度或差异度从候补中指定一个物体指的是利用规定的方法测量检索问题的各局部描述符与各候补之间的相似度或差异度、从而指定与检索问题最类似的一个物体。其具体的一例为以下的方法：从被登记于模型的各局部描述符中搜索检索问题的各局部描述符的邻近的局部描述符，对搜索结果的局部描述符所涉及的物体进行投票，将得到最多票数的物体指定为与检索问题最类似的物体。

下面，对本发明的较佳方式进行说明。

另外，上述模型制作工序也可以在从不同的视点观察与要进行评价的对象矢量所涉及的三维物体相同的物体而得到的图像以及不同的三维物体所涉及的图像中检索并指定与上述对象矢量近似最邻近的矢量，在从与对象矢量所涉及的三维物体相同的物体中得到各近似最近邻的矢量的情况下加分，根据所计算出的分数对构成上述物体模型的矢量进行取舍选择。这样，在提供了要登记于数据库的物体所涉及的来自多个视点的图像时，能够对某个物体的来自某个视点的图像所涉及的各局部描述符进行评价，从而选择是否用于该物体的模型。

或者，上述模型制作工序也可以在从不同的视点观察与要进行评价的对象矢量所涉及的三维物体相同的物体而得到的图像以及不同的三维物体所涉及的图像中检索并指定与上述对象矢量近似最邻近的矢量，在从与对象矢量所涉及的三维物体相同的物体中得到各近似最近邻的矢量的情况下加分，在从不同的三维物体所涉及的图像中得到各近似最近邻的矢量的情况下减分，根据所计算出的分数对构成上述物体模型的矢量进行取舍选择。

另外，上述模型制作工序也可以对在从不同的视点观察要进行登记的三维物体而得到的各图像中提取的各矢量的分数进行计算。这样，对各物体的来自各视点的图像所涉及的各局部描述符进行评价，从而能够决定用于各物体模型的局部描述符。

并且，上述模型制作工序也可以对在从不同的视点观察同一物体而得到的各图像中提取出的矢量进行取舍选择，使得在物体模型中使用大致均等数量的该矢量。这样，各模型中包含大致均等的各视点所涉及的局部描述符，因此不管检索问题是哪个视点所涉及的图像，都能够稳定地得到邻近搜索的结果，从而实现高识别率。

上述模型制作工序也可以评价各矢量对三维物体的实例识别的贡献。在不仅以物体的类别识别为目的、而也以物体的实例识别为目的的用途中，期望一种高精确度、高速且存储器效率高的方法。visual word本质上是伴随着分组的，因此存在即使对类别标签的识别有效也与实例标签的识别相矛盾的侧面。，本发明的方法被认作是特别有效于实例标签的识别的。但是，并非排除了对于类别标签的识别以及使用visual word的方法的应用。

也能够将多个在此所示的各种较佳方式进行组合。

附图说明

图1是表示本发明所涉及的模型登记处理的流程的说明图。

图2是表示本发明所涉及的正面干预性的局部描述符(成为多个局部描述符的最邻近的局部描述符)的特性的说明图。

图3是表示本实施方式所涉及的Greedy的特征点的选择方法的一例的说明图。

图4是表示本实施方式中实验例所涉及的帧图像张数以及每1帧图像的局部描述符的平均提取数量的说明图。

图5是表示本实施方式中的实验例中使用的图像数据库COIL-100的帧图像的例的图。

图6是表示本实施方式中的第一实验结果的图表(图4的11个物体的识别结果的图表)。

图7是表示本实施方式中的第二实验结果的图表(COIL-100的识别结果的图表)。

图8是表示向本实施方式所涉及的三维物体识别用图像数据库登记图像的登记过程的流程图。

图9是表示以通过图8的过程登记图像而得到的图像数据库为对象进行识别(检索)时的过程的流程图。

图10是表示本发明的三维物体识别用图像数据库的处理装置的功能性结构的框图。

附图标记说明

1：处理装置；11：提取部；13：模型制作部；15：登记部；17：检索部；21：要登记的物体所涉及的帧图像；23：检索问题的图像；25：图像数据库；27：识别结果。

具体实施方式

下面，使用附图来进一步详细叙述本发明。此外，在以下的说明中，所有点都是例示的，而不应被理解为是对本发明的限定。

《实施方式》

1.概要

图1中示出了本发明所涉及的模型登记处理的流程。当登记于模型时，在局部描述符中存在使物体识别的识别率提高的局部描述符和使识别率降低的局部描述符。在本发明中，为了调查局部描述符使识别率怎样变化，使用模型构建用的图像进行物体识别仿真。在本发明中，在进行物体识别仿真时，将局部描述符以提高物体识别的识别率的方式进行干预的情况称为“正面干预性”，将局部描述符以降低识别率的方式进行干预的情况称为“负面干预性”。

在局部描述符中，存在能够正面干预很多图像的识别的局部描述符。认为在将这种局部描述符登记于模型的情况下，相同张数的图像的识别所需的局部描述符的数量较少即可。因此，在本发明中，认为这种局部描述符是用于实现如下目的的有效的局部描述符，该目的为：制作实现高精确度的物体识别的低容量模型。此时，这种局部描述符中也存在对一部分图像进行负面干预的局部描述符。具有负面干预性的局部描述符在物体识别仿真中会引起错误对应。因此，认为当将这种局部描述符登记于模型时，在对未知图像进行识别时，这种局部描述符进行负面干预的可能性较高。因此，在本发明中，认为负面干预的图像越少的局部描述符引起错误投票的可能性越低，而且是越有效的局部描述符。

基于以上的想法，本发明根据物体识别仿真的结果来调查局部描述符的干预性及其性质，从而尽可能地删除具有负面干预性的局部描述符，而寻找对达到目的有效的、具有正面干预性的局部描述符的组合。但是寻找该组合的问题即是大规模的组合最优化问题，因此求出最优解是较为困难的。因此，在本发明中，提出了一种将对达到目的有效的局部描述符Greedy地(或许不是最优解但是能够达到目的地)在模型中登记的方法。

在本发明中，将使识别对象物体旋转来进行拍摄而得到的图像称为帧图像，将其用作模型构建用图像。另外，在本发明中，使用PCA-SIFT作为局部描述符的提取方法。对于PCA-SIFT，例如在Y.Ke and R.Sukthankar：″PCA-SIFT：A moredistinctive representation for local image descriptors″，Proc.ofCVPR2004，Vol.2，pp.506-513(2004)中进行了公开。下面，具体说明在模型被制作出之前进行的各处理。

2.物体识别仿真

在本发明中，使用帧图像进行物体识别仿真，求出各局部描述符与哪个图像的局部描述符相对应，调查怎样干预了物体识别率。在本节中，对该物体识别仿真进行说明。

在本实施方式中，在物体识别仿真中使用野口等人的方法(参照非专利文献6、专利文献1)。在本方法中，首先，为了进行局部描述符的近似邻近搜索而构建模型，将数据登记在哈希表上。接着，从未知的图像中求出局部描述符，将该局部描述符作为查询对象，通过近似邻近搜索在哈希表中求出所对应的局部描述符。然后，对相对应的局部描述符的物体进行投票。对从未知的图像中得到的所有局部描述符进行以上动作，将得票数最多的物体认作识别结果。在物体识别仿真中，将从某个帧图像中得到的局部描述符作为查询对象，将从剩余的帧图像中得到的局部描述符全部登记于模型来进行该物体识别仿真。

此时，在成为查询对象的邻近的局部描述符是从与查询对象相同的物体中得到的局部描述符的情况下，该局部描述符能够对查询对象进行正确的投票，从而能够以提高物体识别的识别率的方式进行干预。因此，在本实施方式中，将这种局部描述符认作具有正面干预性的局部描述符。另外，在成为查询对象的邻近的局部描述符是从与查询对象不同的物体中得到的局部描述符的情况下，该局部描述符以降低物体识别的识别率的方式进行干预。因此，在本实施方式中，将这种局部描述符认作具有负面干预性的局部描述符。在物体识别仿真中，对所有帧图像进行该处理，调查所有局部描述符的干预性。

3.局部描述符对物体识别的干预性及其性质

3.1.正面干预性及其性质

对具有正面干预性的局部描述符的性质进行说明。根据物体识别仿真的结果，在具有正面干预性的局部描述符中，如图2所示，存在在特征空间内成为多个局部描述符的最邻近的局部描述符。这样，认为在局部描述符中，在将能够正面干预更多图像的识别的局部描述符登记于模型的情况下，相同张数的图像的识别所需的局部描述符的数量较少即可。

即，与将仅能够正面干预一张图像的n个局部描述符登记于模型的情况相比，在登记对n张图像正面干预的1个局部描述符情况下的为了识别n张图像所登记的局部描述符的数量较少。基于这种想法，在本实施方式中，在物体识别仿真中，认为越是能够对更多图像的识别进行正面干预的局部描述符对达到目的越有效。因此，在本发明中，作为判断有正面干预性的局部描述符的有效性的基准，以能够对多少张图像进行正面干预为判断基准，将该张数设为评价值E₁。即，可以说E ₁越大的局部描述符，在物体识别仿真中对越多的图像具有正面干预性，因此对制作低容量模型越有效。

3.2.负面干预性及其性质

对具有负面干预性的局部描述符的性质进行说明。负面干预性意味着在进行负面干预的局部描述符的邻近存在从其它物体中得到的局部描述符。因此，认为当将这种局部描述符登记于模型时，在对未知的图像进行识别时，进行负面干预的可能性较高。基于这种想法，在本实施方式中，认为进行负面干预的局部描述符对达到目的不怎么有效。

但是，在具有负面干预性的局部描述符中，也存在对某个图像示出正面干预性的局部描述符。因此，不能说表示负面干预性的局部描述符对达到目的完全无效。例如假设某个局部描述符对n张图像进行正面干预，而对一张图像进行负面干预。此时，与将仅能够正面干预一张图像的n个局部描述符登记于模型的情况相比，在将该对一张图像进行负面干预的局部描述符和对被该局部描述符负面干预的图像进行正面干预的局部描述符这两个局部描述符登记于模型的情况下的为了识别n张图像所需的局部描述符的数量较少。因此，在本发明中，为了在具有负面干预性的局部描述符中寻找有效的局部描述符，以对多少张图像进行负面干预为基准来求出局部描述符的有效性。将该张数设为评价值E₂。即，意味着评价值E₂越小的局部描述符，在局部描述符的邻近越少存在从其它物体中得到的局部描述符。认为这种局部描述符引起错误识别的可能性较低，因此可以说对达到目的有效。

4.向模型进行登记

为了制作实现高精确度的物体识别的低容量模型，需要尽可能地删除具有负面干预性的局部描述符，而寻找对达到目的有效的具有正面干预性的局部描述符的组合。因此，在本节中，详细说明根据基于物体识别仿真的结果而得到的局部描述符的干预性和有效性来求出达到目的的局部描述符的组合的方法。其中，本实施方式假定下面所示的前提条件成立来制作模型。在物体识别仿真中得到的E₁、E₂是将从除查询对象图像以外的帧图像中得到的局部描述符全部登记于模型时的值。但是，在某个局部描述符没有被登记于模型的情况下，对该局部描述符进行正面或负面干预的局部描述符会对其它局部描述符进行正面或负面干预，而存在E ₁、E₂的值发生变化的可能性。在本实施方式中，作为前提条件，假定该影响较小，而认为E₁、E₂的值不发生变化。

4.1.用于登记的评价基准1

在本节中，叙述用于根据基于物体识别仿真的结果而得到的局部描述符的干预性和有效性来登记于模型的具体评价基准。

通过物体识别仿真，求出了表示具有正面干预性的局部描述符的有效性的评价值E₁和表示示出负面干预性的局部描述符的有效性的评价值E₂。此时，E₁的值越大而E₂的值越小的局部描述符对达到目的越有效。因此在本实施方式中，以E₁-E₂的值为用于在模型中进行登记的评价基准，按该值从大到小的顺序将局部描述符登记于模型。

4.2.用于登记的评价基准2

在本实施方式中，在以E₁-E₂的值为评价基准将局部描述符登记于模型时，有时会存在E₁-E₂的值相等的局部描述符。在本节中，对在这种情况下决定将局部描述符登记于模型的顺序的评价基准进行说明。

在本实施方式中，在进行物体识别仿真时，计算并保存与成为各局部描述符的邻近的局部描述符之间的距离。认为通过该距离计算，如果在特征空间内成为查询对象的局部描述符与具有正确的物体ID的局部描述符之间的距离较近，则该局部描述符进行正确投票的可能性变高。另外，认为如果在特征空间内成为查询对象的局部描述符与具有错误的物体ID的局部描述符之间的距离较远，则进行错误投票的可能性变低。因此，在本实施方式中，使用该距离信息来决定将局部描述符登记于模型的顺序。下面具体地进行说明。

在本实施方式中，在物体仿真中，在成为查询对象的局部描述符的物体ID与成为该局部描述符的最邻近的局部描述符的物体ID相等时，将该局部描述符之间的距离设为D ₁。意味着，即使在E₁-E₂相等的局部描述符中，该D ₁的值越小，在成为查询对象的局部描述符的邻近越存在具有相同物体ID的局部描述符。因此，从拍摄其它物体得到的未知的图像中得到的局部描述符成为查询对象的最邻近局部描述符的可能性低于所找到的成为最邻近的局部描述符。另外，在具有与成为查询对象的局部描述符不同的物体ID的局部描述符中，将查询对象和与该查询对象距离最近的局部描述符之间的距离设为D₂。意味着，该D₂的值越大，在成为查询对象的局部描述符的邻近越少存在具有其它物体ID的局部描述符。因此，从拍摄相同的物体而得到的未知的图像中得到的局部描述符成为查询对象的最邻近局部描述符的可能性高于具有其它物体ID的局部描述符。因此，在本实施方式中，使用该D₁和D₂。

将[式1]

E₃＝D₂/D₁

设定为局部描述符的登记评价基准，在E₁-E₂的值相等时，按E₃的值从大到小的顺序登记于模型。其中，在求出E₃的值时需要考虑以下三点。

第一点，由于使用哈希表近似地求出成为查询对象的局部描述符的邻近点，因此有时在邻近并不存在具有其它物体ID的局部描述符。认为这种局部描述符即使登记于模型引起错误识别的可能性也较低。因此在这种情况下，将D₂的值设为∞。第二点，存在成为查询对象的局部描述符与成为最邻近的局部描述符的物体ID不同的情况。认为当将这种局部描述符登记于模型时引起错误识别的可能性较高。因此，在这种情况下，使E₃＝0。第三点，存在完全无法求出位于成为查询对象的局部描述符的邻近的局部描述符的情况。这意味着这种局部描述符对大量存在的帧图像的哪个图像的识别都不进行干预。因此，这种局部描述符对识别率产生影响的可能性较低。因此，在这种情况下，使E₃＝0。

4.3.向模型进行的登记方法

在本实施方式中使用的物体识别系统中，调查从查询对象图像中得到的各局部描述符与被登记于模型的局部描述符之间的对应，对相对应的局部描述符的物体进行投票，将得票数最多的物体作为识别结果。即，即使比其它物体多得一票的物体也成为识别结果。因此，需要在尽可能少的局部描述符中寻找不管将哪个图像作为查询对象、正确物体的得票数都最多的局部描述符的组合。在本发明中，提出了一种使用上述的登记于模型的登记评价基准来利用Greedy的方法求出局部描述符的组合的方法。下面说明具体的处理。

认为为了不管将哪个图像作为查询对象图像都正确地进行识别，需要至少能够完全正确识别帧图像。在物体识别仿真中求出对各帧图像进行正面干预的局部描述符。根据该信息，在本实施方式中以能够完全正确识别帧图像的方式构建模型。因此，对每个物体设定图像表

[式2]

X＝(X₁，......，X_N)

以获知通过将某个局部描述符登记于模型、能够识别出哪个帧图像。在此，N是构建某个物体的模型时所使用的图像的张数，图像表X表示在将ID是I_j的图像设为查询对象时、当前所登记的模型能够获得多少票的正确票。此时，在每次将某个局部描述符登记于模型时，都在物体识别仿真中对每个该局部描述符所正面干预的帧图像投一票。另外，在所登记的局部描述符也具有负面干预性的情况下，从在进行物体识别仿真时错误地进行票的物体的图像的图像表中减去一票。这意味着如果某个图像被减去一票，则为了正确识别该图像，需要将局部描述符登记于模型以使该图像能够得到两票以上的正确识别的票数。因此，在本实施方式中，将图像表的最低得票数s设定为s＝1，将在每次将局部描述符登记于模型时、剩余的局部描述符所能够正面干预的图像中的、在该时刻图像表的值不足s的图像的张数作为新的评价值E’₁的值，按E’₁-E₂的值从大到小的顺序将局部描述符Greedy地在模型中进行登记。

图3示出了具体例。设从物体A中提取出的局部描述符f是在进行物体识别仿真时对物体A的图像ID1、2、4、5进行正面干预、对物体B的图像ID为1、3的图像进行负面干预的局部描述符。当将该f登记于模型时，如图3的(a)所示，对物体A的图像表X^A进行投票，而减去物体B的图像表X^B的票数。接着，设从物体A中提取出的局部描述符g是在进行物体识别仿真时对物体A的图像ID1、2、3进行正面干预、对物体B的图像ID1的图像进行负面干预的局部描述符。在此，在g所能够正面干预的图像ID中，在当前时刻制作出的模型中未能正面干预的图像ID仅是物体A的图像ID3。因而，g的新评价值E’₁为E’₁＝1。在此，假如想要将g登记于模型，则图像表为图3的(b)。

在本实施方式中，将登记于模型的局部描述符的总数设为阈值t，在图像表的值全部为s以上时，如果被登记于模型的局部描述符的数量不足t个，则为了能够更稳定地识别物体，使图像表的最低得票数s的数量一个一个地增加，并按E’₁-E₂的值从大到小的顺序登记局部描述符，使得所有图像表的值变为s以上。重复以上的处理，直到登记于模型的局部描述符的登记数量达到t个。

《流程图和框图》

图8是表示将图像登记在本实施方式所涉及的三维物体识别用图像数据库的登记过程的流程图。如图8所示，当输入从多个视点观察要登记的物体而得到的各帧图像时，进行处理的计算机首先从该物体所涉及的各帧图像中提取局部描述符(步骤S11)。接着，以某个帧图像的各局部描述符为查询对象，将从剩余的帧图像中得到的局部描述符登记于所有模型来进行物体识别仿真。作为物体识别仿真的结果，得到与该局部描述符的正面干预性有关的分数。得到同一帧图像的各局部描述符的分数(步骤S13)。接着，判断要登记的物体的所有帧图像是否都得到了分数(步骤S15)。如果存在未处理的帧图像(步骤S15：否)，则以下一个帧图像或其它物体的帧图像为对象(步骤S17)，重复上述步骤S13的物体识别仿真。

如果对各帧图像的物体识别仿真已结束(步骤S15：是)，则选择对对象物体的各帧图像的识别正面干预性较高的局部描述符(步骤S19)。选择局部描述符的顺序的具体例如图3所涉及的说明。重复对对象的物体的局部描述符的选择，直到选择出规定数量(在图3的说明中为t个)的局部描述符(步骤S21)。然后，将所选择出的各局部描述符作为对象的物体所涉及的模型登记于图像数据库(步骤S23)。接着，调查是否剩余有要登记的物体(步骤S25)，在剩余有要登记的其它物体的情况下(步骤S25：否)，例程返回到步骤S11，重复处理。如果所有物体所涉及的模型的登记都已结束(步骤S25：是)，则结束向图像数据库进行登记的登记处理。

图9是表示以通过图8的过程登记了图像的图像数据库作为对象进行识别(检索)时的过程的流程图。如图9所示，当输入检索问题的图像时，进行处理的计算机首先从检索问题中提取局部描述符(步骤S31)。接着，在图像数据库内所登记的局部描述符中决定最邻近所提取出的局部描述符的局部描述符。然后，对模型中包含所决定的局部描述符的物体投一票(步骤S33)。接着，对于检索问题的各局部描述符，判断是否已对进行了最邻近搜索的结果所涉及的物体进行了投票(步骤S35)。

对于检索问题的各局部描述符，进行上述步骤S33的投票处理。如果已结束对所有局部描述符的投票(步骤S35：是)，则将得到最多得票数的物体输出为识别结果(步骤S37)。

接着，对本发明的三维物体识别用图像数据库的处理装置的结构进行说明。

图10是表示本发明的三维物体识别用图像数据库的处理装置的功能性结构的框图。在图10中，在将三维物体的模型登记于图像数据库25时，提供表示要登记的物体的多个帧图像21作为处理装置1的输入。而作为输出将对象物体所涉及的模型登记于图像数据库25。另一方面，在对登记于图像数据库25的模型所涉及的物体进行检索时，提供检索问题23作为处理装置1的输入。处理装置1参照图像数据库25，输出用于指定登记于图像数据库25的物体的信息。

提取部11从作为输入而提供的帧图像21或检索问题23中提取特征矢量。模型制作部13进行物体识别仿真来在从各帧图像中提取出的局部描述符中选择对图像识别有效的局部描述符，将所选择出的局部描述符系统化为能够进行最邻近搜索，来制作对象物体所涉及的模型。登记部15将制作出的模型登记于图像数据库。在输入了检索问题23时，检索部17通过最邻近搜索处理在登记于图像数据库25的局部描述符中决定最邻近从该检索问题23中提取出的局部描述符的局部描述符。然后，对包含所决定的局部描述符的图像进行投票，根据检索问题的各局部描述符所涉及的投票的结果从登记于图像数据库25的物体中指定一个物体。将所指定的物体27的识别信息输出为识别结果。

实现图10的提取部11、模型制作部13、登记部15、检索部17的功能的硬件主要是计算机和存储器。即，计算机通过执行规定的物体识别用图像数据库的处理程序来实现各部的功能。

《实验例》

使用图4所示的11个物体和COIL-100来进行本实验。

首先，说明在对11个物体进行的实验中所使用的数据集。在本实验中，使用从使三维物体旋转一圈而由高清晰度摄像机(索尼股份公司制产品型号HDC-HCl，分辨率：740480)拍摄的运动图像中得到的全部帧图像作为用于模型构建的图像。全部帧图像为13086张，所得到的局部描述符数量约为250万个，整个模型容量为191.3MB。图4示出使用的物体、各物体的模型制作中使用的帧图像的张数、以及从一张帧图像提取的局部描述符的平均提取数。改变拍摄模型构建用的图像的时间和照明条件，以使三维物体每旋转10度拍摄一次的方式，对每一个物体准备36张拍摄图像作为查询对象图像。

接着，说明COIL-100进行的实验。COIL-100是指使100个物体每旋转5度进行一次拍摄而得到的图像数据库。在本实验中，在每5度拍摄一次得到的72张图像中，将角度为0°、10°、20°、...、350°的每个物体36张图像用作模型构建用图像。将角度为5°、15°、25°、...、355°的每个物体36张图像用作查询对象图像。从模型构建用的全部图像中得到的局部描述符数量约为18万个，此时的模型的容量为13.6MB。图5中示出了所使用的帧图像的例。

在两个实验中，在三维物体识别方法中，使用野口等人的方法。在本实施方式中进行的物体识别仿真中所使用的参数和在本实验中所使用的参数是相同的。

在本实验中，对使用该实施方式制作的模型的识别率与从全部局部描述符中随机地进行取舍选择的模型的识别率进行比较。在随机的方法中，每次制作出10种模型。

图6中示出了使用11个物体进行的实验的结果。其中，随机方法示出10个模型的平均识别率。根据实验结果，可知与随机进行选择的模型相比，本实施方式即使容量减少也是有效的。在此，注意识别率为最高的98.73％的t＝25000的模型的结果。在该模型中，“人偶2”和“手表”中分别有一张图像引起错误识别，“人偶6”有三张图像引起错误识别。引起错误识别的图像是由于对其它物体的投票多于正确物体、完全没有得票这些理由而错误识别的。认为投给其它物体的票数多于投给正确物体的票数这个问题是由以下状况而引起的：被登记的各局部描述符的距离最短的局部描述符，从未删除局部描述符的状态时起由于局部描述符的取舍选择而发生了变化。

接着，图7中示出了使用COIL-100进行的实验结果。其中，随机方法表示10个模型的平均识别率。在此，注意识别率为96％的t＝25000的模型的结果。在该模型中，“obj15”是识别率最低的。关于由“obj15”引起错误识别的图像，存在5张其它物体得票数较多的图像，存在1张完全没有得票的图像。作为引起错误识别的原因，列举了从图像中得到的局部描述符的数量较少的情况。因此，认为需要对所得到的局部描述符的数量较少的物体设定能够将很多局部描述符在模型中进行登记的评价基准。

如上所述，在本实施方式和实验例中，示出了在使用了局部描述符的三维物体识别中、为了能够以尽可能少的局部描述符高精确度地进行识别而通过对局部描述符进行取舍选择来削减存储器容量的方法。以11个物体为对象得到的实验结果是，在削减约百分之一的容量的模型中得到98.73％的识别率。另外，以COIL-100为对象得到的实验结果是，在削减约七分之一的容量的模型中得到96％的识别率。

除上述实施方式以外，本发明还具有各种变形例。不应理解为这些变形例不属于本发明的范围。本发明中应该包含与权利要求均等的含义和上述范围内的所有变形。

Claims

1.一种三维物体识别用图像数据库的制作方法，具备以下工序：

提取工序，从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图像的各处的局部特征的矢量作为多个局部描述符；

模型制作工序，通过评价各矢量对上述三维物体的识别贡献度、选择具有正面贡献的矢量、并组织所选择的各矢量使得各矢量适用于能够执行近似最邻近搜索，来制作上述三维物体的模型；以及

登记工序，对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标识符，并在上述图像数据库中进行登记，

各工序是由计算机执行的，

上述登记工序登记上述物体模型和与其对应的物体标识符使得能够进行以下动作：在多个物体模型被登记于上述图像数据库、并提供了所关注的三维物体的一个图像作为查询对象时，计算机以与上述提取工序同样的过程从上述查询对象中提取多个查询对象局部描述符，使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量，获取附加于该邻近矢量的物体标识符，将由该物体标识符指定的三维物体决定为候补，根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体，

上述模型制作工序以下面的方式评价各矢量的贡献度：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献；在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献。

2.根据权利要求1所述的方法，其特征在于，上述模型制作工序包括：

在以下的矢量中检索并指定与上述对象矢量近似最邻近的矢量：从不同的视点观察与应该进行评价的对象矢量所涉及的三维物体相同的物体得到的图像以及从不同的三维物体所涉及的图像提取出的矢量，

在从与对象矢量所涉及的三维物体相同的物体中得到各近似最近邻的矢量的情况下加分，

根据所计算出的分数对构成上述物体模型的矢量进行取舍选择。

3.根据权利要求2所述的方法，其特征在于，

上述模型制作工序对在从不同的视点观察应该进行登记的三维物体而得到的各图像中提取的各矢量的分数进行计算。

4.根据权利要求2或3所述的方法，其特征在于，

上述模型制作工序对在从不同的视点观察同一物体而得到的各图像中提取出的矢量进行取舍选择，使得在物体模型中大致均等地使用提取出的矢量。

5.根据权利要求1～4中的任一项所述的方法，其特征在于，

上述模型制作工序评价各矢量对三维物体实例的识别的贡献度。

6.一种三维物体识别用图像数据库的处理装置，具备：

提取部，其从表示一个三维物体从不同的视点看到的多个图像中提取分别表现各图像的各处的局部特征的矢量作为多个局部描述符；

模型制作部，其通过评价各矢量对上述三维物体的识别的贡献度、选择具有正面贡献的矢量、并组织所选择的各矢量使得各矢量适用于执行近似最邻近搜索，来制作上述三维物体的物体模型；

登记部，其对表示上述三维物体的图像以及所制作出的物体模型附加识别上述三维物体的物体标识符来登记于上述图像数据库；以及

检索部，其在多个物体模型被登记于上述图像数据库、并提供了表示所关注的三维物体的一个图像作为查询对象时，计算机以与上述提取部同样的方式从上述查询对象中提取多个查询对象局部描述符，使用上述近似最邻近搜索的算法从上述图像数据库所登记的物体模型中检索作为各查询对象局部描述符的邻近矢量的矢量，获取附加于该邻近矢量的物体标识符，将由该物体标识符指定的三维物体决定为候补，根据各查询对象局部描述符和与其对应的邻近矢量之间的相似度和/或差异度来决定至少一个三维物体，

其中，上述模型制作部以下面的方式评价各矢量的贡献度：在从某个三维物体的某个图像中提取出的矢量与来自该三维物体的不同的视点的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量作出了正面贡献；在上述矢量与不同的三维物体的图像所涉及的其它矢量近似最邻近的情况下，认为该矢量做出了负面贡献。

7.一种三维物体识别用图像数据库的处理程序，使计算机作为以下各部而发挥功能：