CN101506843B

CN101506843B - 图像中的对象的自动分类

Info

Publication number: CN101506843B
Application number: CN2007800303801A
Authority: CN
Inventors: M·贾; H·李; X·谢; Z·陈; W-Y·马
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-08-14
Filing date: 2007-06-28
Publication date: 2013-06-12
Anticipated expiration: 2027-06-28
Also published as: EP2054855B1; CN101506843A; US7813561B2; JP2010500688A; CA2655242A1; EP2054855A2; WO2008020919A3; WO2008020919A2; EP2054855A4; US20080037877A1

Abstract

本发明提供了一种用于自动对目标图像的对象进行分类的系统。分类系统提供分类图像集合以及图像的主要对象的分类。分类系统试图基于目标图像与分类图像的相似性来对目标图像的对象进行分类。为了对目标图像进行分类，分类系统基于目标图像与分类图像的显著点之间的相似性来标识集合中与目标图像最相似的分类图像。分类系统将与同目标图像最相似的分类图像相关联的分类选为对目标图像的对象的分类。

Description

图像中的对象的自动分类

背景

图像的自动分类随着由网页提供的图像数量的日益增长而变得愈发重要。图像的分类具有许多不同的应用。例如，提供图像搜索的搜索引擎服务可试图对图像进行分类以使得搜索更高效且更有效。该搜索引擎服务可以将图像分类成图像分类的分层结构(例如，地理、北美、美国等等)。该图像搜索引擎服务可允许用户同时指定搜索请求(或查询)和感兴趣的图像分类(例如，查询“日落”和分类“北美”)。该图像搜索引擎服务然后能够将其搜索限于所指定的分类中的图像。其中图像的分类可能是有用的另一示例是web市场。web市场系统可允许许多不同的零售商为其产品作广告并销售其产品。零售商可提供其产品的数据库，其可包括对于每一产品的定价信息、产品描述和产品图像。不同的零售商可以按不同的方式来描述产品以使得市场系统难以正确地对可销售产品进行分类。如果该市场系统能够通过分析产品图像来有效地标识分类，则该市场系统就能够使用该分类来帮助对产品进行分类。

许多不同的技术已被应用于对图像进行分类。某些技术基于图像附近的文本来对图像进行分类。例如，网页可包括图像的标题和描述性文本。这些技术的准确性不仅取决于正确地标识标题及相关联的描述性文本的能力，而且取决于该标题和描述性文本在表示该图像方面的准确性。由于各种各样的网页格式，可能难以标识关于图像的文本。同样，关于图像的文本可能给出有助于分类的非常少的信息。而且，这些技术在各零售商使用不完整的、有歧义的、及不正确的描述时对于市场系统并不是特别有用。其他技术基于图像本身的内容来对图像进行分类。这些技术被称为基于内容的图像检索(“CBIR”)系统。CBIR系统试图基于诸如颜色、形状和纹理等特性来对图像进行分类。不幸的是，CBIR系统的精度并不令人满意，因为难以从图像的低级特性中标识分类。

概述

提供了一种用于对目标图像的对象进行分类的系统。分类系统提供分类图像集合以及图像的主要对象的分类。分类系统试图基于目标图像与分类图像的相似性来对目标图像的对象进行分类。为了对目标图像进行分类，分类系统标识与目标图像最相似的分类图像。分类系统将目标图像和分类图像的显著点之间的相似性作为相似性的基础。分类系统通过特征向量来表示每一个显著点并且使用距离度量来确定特征向量之间的相似性。分类系统使用从特征向量的距离度量中导出的相似性度量来确定目标图像和分类图像之间的相似性。分类系统将与同目标图像最相似的分类图像相关联的分类选为对目标图像的对象的分类。

提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图简述

图1是示出在一个实施例中的分类系统的组件的框图。

图2是示出在一个实施例中的特征向量/分类图像存储的逻辑表示的框图。

图3是示出在一个实施例中的分类系统的标识图像分类的在线组件的总体处理的流程图。

图4是示出在一个实施例中的分类系统的在线组件的找出匹配图像组件的处理的流程图。

图5是示出在一个实施例中的分类系统的在线组件的找出候选图像组件的处理的流程图。

图6是示出在一个实施例中的分类系统的在线组件的计算相似性组件的处理的流程图。

图7是示出在一个实施例中的分类系统的在线组件的选择分类组件的处理的流程图。

详细描述

提供了一种用于自动对目标图像中的对象进行分类的系统。在一个实施例中，分类系统提供图像集合以及图像的主要对象的分类。“对象”指的是能够在图像中描绘的任何东西(例如，汽车、膝上型计算机、狮子、独角兽等)且尤其是物理对象。图像集合(“分类图像”)可以按各种方式来生成，诸如通过提供图像的分类手动生成、或者通过从具有已知是准确的产品描述的图像中导出分类来自动生成等。例如，图像集合可包括用于销售的电吉他的图片以及吉他的分类、和山地自行车的图片以及自行车的分类。分类系统试图基于目标图像与集合中的图像的相似性来对目标图像的对象进行分类。为了对目标图像进行分类，分类系统标识集合中与目标图像最相似的图像。例如，目标图像可包含经典吉他的图像。分类系统可以将集合中包含经典吉他和电吉他的图像标识为最相似。分类系统然后将与集合中所标识的图像相关联的分类选为对目标图像的对象的分类。例如，如果所标识的图像中的大多数都具有吉他分类，则分类系统将为目标图像的对象选择吉他分类。以此方式，分类系统能够自动对图像的对象进行分类而不必依赖于或者提取图像周围的相关文本的准确性或者描述图像的文本本身的准确性。

在一个实施例中，分类系统包括离线组件和在线组件。离线组件预处理分类图像以便于标识与目标图像相似的图像。离线组件标识分类图像的显著点并生成分类图像的相似显著点与包含这些显著点的分类图像之间的映射。为了对目标图像进行分类，在线组件标识目标图像的显著点、标识具有相似显著点的分类图像、并且基于所标识的分类图像的分类来选择目标图像的分类。

离线组件通过首先标识分类图像的显著点来预处理分类图像。显著点指的是可被自动检测为包含可用于将一个图像与另一个图像区分开来的内容的图像区域。例如，吉他图像中的显著点可包括沿着其琴颈的各点(例如，音品和调音弦轴)和琴身的各点(例如，琴马和护板)。如以下所描述的，许多公知的技术都可用于标识这些显著点。离线组件生成特征向量来表示每一个显著点的特征。特征向量因此是显著点的多维表示。例如，特征向量可包括基于显著点的颜色或对比度的特征(或条目)。分类系统基于显著点的特征向量的相似性来确定显著点之间的相似性。离线组件生成特征向量到包含相应显著点的分类图像的映射。离线组件还可生成对相似的特征向量进行分组的索引。离线组件可使用聚合技术来生成该索引。相似的特征向量的聚合帮助在线组件快速标识分类图像中类似于目标图像的显著点的显著点。

在线组件使用由离线组件生成的索引和映射来对目标图像的对象进行分类。在线组件接收包括对象的目标图像、标识该目标图像的显著点、并为每一个显著点生成一特征向量。在线组件然后使用索引和映射来标识候选分类图像，例如，基于其特征向量的相似性包含类似于目标图像的显著点的一个或多个显著点的分类图像。例如，在线组件可标识20个候选分类图像。当目标图像的对象是电吉他时，则这20个候选分类图像可包括电吉他、经典吉他和网球拍的图像。在线组件评估目标图像和候选分类图像之间的相似性来丢弃其相似性低于阈值的那些候选分类图像。例如，在线组件可丢弃网球拍的图像，因为电吉他的目标图像和网球拍的分类图像可能只具有少许相似的显著点。在线组件然后可过滤掉其相似显著点不同于(例如，不一致)目标图像的相应显著点排列的候选分类图像。例如，目标图像可具有对齐成一条线的若干显著点(例如，横穿吉他颈部的音品的弦)，而对比的分类图像可具有按网格排列的相应的相似显著点(例如，网球拍的交叉绳)。在这种情况下，在线组件可由于不一致的排列而忽略该候选分类图像。剩下的候选分类图像被认为是匹配的分类图像，即，匹配的分类图像的对象被认为是匹配目标图像的对象的。在线组件分析匹配的分类图像的分类并选择对目标图像的对象的分类。例如，如果大多数匹配的分类图像都具有相同的分类，则在线组件就将该分类标识为对目标图像的对象的分类。相反，如果每一个匹配的分类图像的分类都与大致相同数量的匹配的分类图像相关联，则在线组件可报告它无法将目标图像的对象分类到单个分类中。如果分类是分层的，则在线组件可进一步分析多个分类以确定其是否表示相关分类(例如，祖先和子孙分类或兄弟分类)。例如，如果匹配的分类图像的分类是在兄弟分类经典吉他和电吉他之间均分的，则在线组件可将目标图像的对象分类为父分类吉他。同样，如果匹配的分类图像的分类是在父分类吉他和子分类电吉他之间均分的，则在线组件可将目标图像的对象分类为子分类电吉他。

图1是示出在一个实施例中的分类系统的组件的框图。分类系统100包括离线组件110和在线组件120。离线组件包括分类图像存储111、提取特征向量组件112、通过特征向量来索引分类组件113、以及特征向量/分类图像存储114。分类图像存储包含分类图像的集合及其分类。提取特征向量组件标识分类图像的显著点并生成这些显著点的特征向量。离线组件可使用各种类型的检测器来标识分类图像的显著点。这些检测器可包括高斯差分(“DoG”)区域检测器、赫赛仿射(Hessian-affine)区域检测器、哈里斯仿射(Harris-affine)区域检测器、极大稳定极值区域(“MSER”)检测器、基于强度的极值区域(“IBR”)检测器、或者基于边缘的区域(“EBR”)检测器。分类系统可以使用包括除了以上所列出的之外的任何类型或类型组合的检测器来实现。

在一个实施例中，离线组件(以及在线组件)标识显著点并使用比例不变(scale-invariant)特征变换技术来提取其特征。比例不变特征变换(“SIFT”)技术在Lowe，D.的“Distinctive Image Features from Scale-Invariant Keypoints(来自比例不变的关键点的不同的图像特征)”，International Journal of ComputerVision(计算机视觉国际期刊)，第60卷，第2册，第91-110页，2004年中描述，其通过引用结合于此。SIFT技术使用DoG区域检测器来标识显著点。Lowe描述的SIFT技术将显著点标识为可在不管图像比例和图像的许多不同变换(例如，不同的透视角度和距离)的情况下准确标识的图像位置。SIFT技术使用级联过滤方法来标识候选显著点。SIFT技术通过搜索在所有可能的比例上都稳定的特征来标识能够在相同对象的不同视图下重复定位的位置。SIFT技术然后对于每一候选显著点的位置、比例和主曲率比执行对附近数据的详细拟合。SIFT技术拒绝具有低对比度以及沿着边缘较差定位的候选显著点。SIFT技术然后生成每一个显著点的本地图像描述符(即，“特征”)。SIFT技术通过首先计算显著点周围区域中的每一图像样本的梯度大小和方向来生成方向不变的特征。SIFT技术然后将这些样本累积成概括了4×4区域上的内容的方向直方图。每一个直方图都可具有表示不同方向的八根柱(bin)，从而导致特征由128(4×4×8)个特征向量来表示。本领域的技术人员可以理解，可以使用其他技术来标识图像的显著点和显著点的特征。

离线组件的通过特征向量来索引分类组件生成特征向量到其相应的分类图像的映射以及对特征向量的索引。离线组件可使用各种类型的索引机制，诸如基于树的机制(例如，R树、SS树和SR树)、基于散列的机制(例如，本地敏感散列(“LSH”))和基于扫描的方法(例如，VA文件和VA+文件)等。在一个实施例中，离线组件使用如Fritzke，B.的“Growing Cell Structures—ASelf-Organizing Network for Unsupervised and Supervised Learning(神经元增长结构-用于无监督和监督学习的自组织网络)”，Neural Networks(神经网络)，7(9)，1994年，第1441-1460页中所描述的基于聚类的索引技术，其通过引用结合于此。离线组件可根据以下公式来计算两个特征向量之间的距离(或两个显著点之间的相似性)：

D (X, Y) = \frac{\sqrt{Σ_{i = 1}^{128} {(x_{i} - y_{i})}^{2}}}{{| | X | |}_{2} \cdot {| | Y | |}_{2}} - - - (1)

其中X＝(x₁，...x_i，...x₁₂₈)和Y＝(y₁，...y_i，...y₁₂₈)表示特征向量，而||X||₂和||Y||₂表示特征向量X和Y的L2范数。

在线组件接收目标图像，标识匹配的分类图像，并基于同该匹配的分类图像相关联的分类来选择该目标图像的对象的分类。在线组件包括提取特征向量组件121；找出匹配图像组件122，其包括找出候选图像组件123、排列候选图像组件124和过滤候选图像组件125；以及选择分类组件126。提取特征向量组件标识目标图像的显著点并生成显著点的特征向量，如以上参考离线组件的提取特征向量组件112所描述的。找出匹配图像组件使用特征向量/分类图像存储来标识匹配目标图像的分类图像。找出候选图像组件标识具有类似于目标图像的显著点的显著点的候选分类图像。排列候选图像组件排列候选分类图像与目标图像的相似性并丢弃其相似性低于阈值的候选分类图像。在一个实施例中，排列候选图像组件可根据以下公式来表示候选分类图像和目标图像之间的相似性：

Sim(I，J)＝∑_i，jcorr(X_i，Y_j) (2)

其中I(X₁，...，X_n)表示目标图像的特征向量，J(Y₁，...，Y_m)表示分类图像的特征向量，而corr(X_i，Y_j)表示测量特征向量之间的对应性的度量。例如，对应性在数值上可被计算为X_i和Y_j的反向L2距离(inverted L2 distance)。在一个实施例中，排列候选图像组件使用二进制值1或0(1为相似而0为不相似)来标识相似的特征向量。排列候选图像组件可另选地丢弃除了固定数量或固定百分比的候选分类图像之外的全部候选分类图像，或者丢弃并非几乎与其他数据分类候选图像一样相似的候选分类图像。过滤候选图像组件过滤掉其显著点并非与目标图像的相应显著点相一致地排列的候选分类图像。在一个实施例中，过滤候选图像组件使用随机抽样一致性(Random Sample Consensus)(“RANSAC”)算法来过滤掉噪声，这可具有验证显著点的几何关系的效果。过滤候选图像组件可基于该RANSAC分析来重新排列候选图像。选择分类组件输入候选分类图像并基于最大数量的候选分类图像的分类来选择对目标图像的对象的分类。然而，如果数量未超出特定阈值或百分比，则选择分类组件可指示无法确定分类。或者，选择分类组件可以在选择对目标图像的对象的分类时将候选分类图像的相似性计算在内。例如，如果存在100个候选分类图像，且其中50个具有吉他分类而另50个具有电吉他分类，但是具有电吉他分类的候选分类图像具有与目标图像高得多的相似性，则选择分类组件可以为目标图像的对象选择电吉他分类。

图2是示出在一个实施例中的特征向量/分类图像存储的逻辑表示的框图。特征向量/分类图像存储可包括聚类索引210和聚类表220。聚类索引包含对应于分类图像的显著点(由其特征向量来表示)的每一个聚类的条目。每一个条目可包含对于该聚类的代表性特征向量和指向相应的聚类表的指针。代表性特征向量可以是聚类中的特征向量的平均值、聚类的中间特征向量、聚类的形心特征向量等。每一聚类表都包含对应于该聚类中的每一个显著点的条目。聚类表的每一条目都包含该显著点的特征向量以及对包含该显著点的分类图像的引用。为了标识候选分类图像，在线组件将目标图像的显著点的特征向量与聚类索引中的代表性特征向量进行比较。在线组件可选择与显著点的特征向量最接近的代表性特征向量并且然后将相应的聚类表中具有与目标图像的显著点最接近的显著点的分类图像选为候选分类图像。

其上可以实现分类系统的计算设备可以包括中央处理单元、存储器、输入设备(例如，键盘和定点设备)、输出设备(例如，显示设备)和存储设备(例如，盘驱动器)。存储器和存储设备是可包含实现分类系统的指令的计算机可读介质。此外，指令、数据结构和消息结构可被存储或经由诸如通信链路上的信号之类的数据传送介质发送。可以使用各种通信链路，如因特网、局域网、广域网或点对点拨号连接。

分类系统可以在各种操作环境中实现，包括个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括上述系统或设备中的任一个的分布式计算环境等。

分类系统可以在由一个或多个计算机或其他设备执行的诸如程序模块等计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。通常，程序模块的功能可以在各个实施例中按需进行组合或分布。例如，离线组件和在线组件可以在不同的计算系统上实现。此外，在线组件可以在一个计算系统上实现，而使用该在线组件的应用程序可以在另一计算系统上实现。应用程序可包括搜索引擎服务、产品标识系统、图像分类系统、机器人系统等。搜索引擎服务可使用该在线组件来协助对在爬行(crawling)web时遇到的图像的自动分类。搜索引擎服务还可使用在线组件来对作为查询的一部分的图像输入进行分类。产品标识系统可使用该在线组件来协助按照包括产品图像的产品描述对产品进行分类。图像分类系统可使用该在线组件来对图像集合中的图像进行分类。例如，对历史路标进行分类的图像分类系统可将图像分类到诸如中国长城和华盛顿纪念碑等分类中。机器人系统可对图像进行分类以帮助标识该系统遇到的对象。例如，机器人系统可能需要在所标识的对象周围导航、移动所标识的对象、定位感兴趣的对象等。

图3是示出在一个实施例中的分类系统的标识图像分类的在线组件的总体处理的流程图。向该组件传递对象的目标图像并且该组件基于该目标图像与先前分类的图像的相似性来标识对该目标图像的对象的分类。在框301中，该组件标识目标图像的显著点并生成每一个显著点的特征向量。在框302中，该组件调用找出匹配图像组件来标识与目标图像最佳匹配的分类图像。在框303中，该组件调用选择分类组件来基于匹配的分类图像的分类选择对目标图像的分类。该组件然后返回所选分类作为对目标图像的对象的分类。

图4是示出在一个实施例中的分类系统的在线组件的找出匹配图像组件的处理的流程图。向该组件传递目标图像的显著点的特征向量并且该组件基于这些特征向量与分类图像的显著点的相似性来返回对该目标图像的对象的分类。在框401-403中，该组件循环标识具有类似于目标图像的显著点的显著点的候选分类图像。在框401中，该组件选择目标图像的下一个显著点(由其特征向量来表示)。在判定框402中，如果已经选择了目标图像的所有显著点，则该组件在框404处继续，否则该组件在框403处继续。在框403中，该组件调用找出候选图像组件来标识具有类似于目标图像的所选显著点的显著点的分类图像。该组件然后循环至框401以选择目标图像的下一个显著点。在框404-406中，该组件循环选择候选分类图像并计算候选分类图像与目标图像的相似性。在框404中，该组件选择下一个候选分类图像。在判定框405中，如果已选择了所有候选分类图像，则该组件在框407处继续，否则该组件在框406处继续。在框406中，该组件调用计算相似性组件来计算所选候选分类图像与目标图像之间的相似性。该组件随后循环至框404以选择下一候选分类图像。在框407中，该组件忽略具有与目标图像的低相似性的候选分类图像。在框408-411中，该组件循环过滤掉其显著点排列与目标图像的相应显著点的排列不一致(例如，几何上)的候选分类图像。在框408中，该组件选择下一个候选分类图像。在判定框409中，如果已经选择了所有候选分类图像，则该组件返回还未被忽略的候选分类图像作为匹配的分类图像，否则该组件在框410处继续。在框410中，该组件应用过滤(例如，RANSAC)来标识其显著点与目标图像的相应显著点不一致地排列的候选分类图像。在框411中，该组件忽略所标识的候选分类图像并且然后循环至框408以选择下一个候选分类图像。

图5是示出在一个实施例中的分类系统的在线组件的找出候选图像组件的处理的流程图。向该组件传递目标图像的显著点并且该组件标识候选分类图像。该组件返回候选分类图像及其类似于目标图像的显著点的显著点的指示。对于目标图像的每一个显著点，该组件标识分类图像的显著点的最相似的聚类。该组件然后标识该聚类中与目标图像的显著点最接近的显著点。该组件可使用各种算法来标识最接近的显著点。该组件可使用N-N算法，其标识N个最接近的显著点而不管包含最接近的显著点的分类图像。N-N算法由此可标识单个分类图像的多个显著点。或者，该组件可使用N-1算法，其标识最接近的显著点，但只从每一个分类图像中标识一个显著点。该组件还可使用模糊拒绝(Ambiguity Rejection)(“AR”)算法，该算法在分类图像的显著点在该分类图像的另一显著点附近时拒绝该显著点为相似的。AR算法基于目标图像的每一个显著点在候选分类图像中只具有一个相应的显著点的假设。在框501-503中，该组件循环计算所传递的显著点与每一个聚类之间的距离。在框501中，该组件选择下一个聚类。在判定框502中，如果已选择了所有聚类，则该组件在框504处继续，否则该组件在框503处继续。在框503中，该组件计算所传递的显著点到所选聚类的距离并且然后循环至框501以选择下一个聚类。在框504中，该组件选择具有与所传递的显著点的最短距离的聚类。在框505-509中，该组件循环标识所选聚类中在所传递的显著点附近的显著点。在框505中，该组件选择聚类的下一个显著点。在判定框506中，如果已经选择了该聚类的所有显著点，则该组件在框510处继续，否则该组件在框507处继续。在框507中，该组件计算从所传递的显著点到所选显著点的距离。在判定框508中，如果该距离低于一阈值，则该组件在框509处继续，否则该组件循环至框505以选择所选聚类的下一个显著点。在框509中，该组件将聚类的所选显著点标记为接近的显著点并且然后循环至框505以选择所选聚类的下一个显著点。在框510-513中，该组件使用N-1算法来循环标记接近的显著点并且将分类图像标记为候选分类图像。在框510中，该组件按距离次序选择下一个接近的显著点。按距离次序的选择确保选择了每一个分类图像中最接近所传递的显著点的显著点。在判定框511中，如果已经选择了所有接近的显著点，则该组件返回被标记为候选分类图像的分类图像及其各自的标记的显著点，否则该组件在框512处继续。在线组件使用所标记的显著点来确定目标图像与候选分类图像之间的相似性。在判定框512中，如果所选的接近的显著点的分类图像对应于先前被标记为候选图像的分类图像，则该组件循环至框510以选择下一个接近的显著点，否则该组件在框513处继续。在框513处，该组件将所选显著点及其分类图像标记为候选分类图像。该组件然后循环至框510以选择下一个接近的显著点。

图6是示出在一个实施例中的分类系统的在线组件的计算相似性组件的处理的流程图。向该组件传递目标图像和候选分类图像并计算这些图像之间的相似性。在框601中，该组件将相似性初始化为0。在框602-607中，该组件循环选择目标图像的显著点并基于候选分类图像的标记的显著点来累加相似性。即使在使用N-1算法时，候选分类图像也可具有多个标记的显著点。例如，当候选分类图像与目标图像相同时，它可具有对应于目标图像的每一个显著点的标记的显著点。在框602中，该组件选择目标图像的下一个显著点。在判定框603中，如果已经选择了目标图像的所有显著点，则该组件返回所累加的相似性，否则该组件在框604处继续。在框604中，该组件选择候选分类图像的下一个标记的显著点。在判定框605中，如果已经选择了候选分类图像的所有标记的显著点，则该组件循环至框602以选择目标图像的下一个显著点，否则该组件在框606处继续。在框606中，该组件计算目标图像和候选分类图像的所选显著点之间的相关。在框607中，该组件将对应性聚集成相似性分数并且然后循环至框604以选择候选分类图像的下一个标记的显著点。

图7是示出在一个实施例中的分类系统的在线组件的选择分类图像组件的处理的流程图。向该组件传递匹配的分类图像并且该组件或者选择对目标图像的对象的分类(即，主分类)或者指示无法确定分类。在框701-704中，该组件对于每一分类累加对匹配的候选图像的数量的计数。在框701中，该组件选择下一个匹配的分类图像。在判定框702中，如果已选择了所有匹配的分类图像，则该组件在框705处继续，否则该组件在框703处继续。在框703中，该组件递增对所选匹配的分类图像的分类的计数。在框704中，该组件递增匹配的分类图像的总计数并且然后循环至框701以选择下一个匹配的分类图像。在框705中，该组件通过将每一分类的计数除以匹配的分类图像的总计数来将各分类的计数转换成百分比。在判定框706中，如果最高百分比高于一阈值，则该百分比的分类是对目标图像的候选分类并且该组件在框707处继续，否则该组件返回无法确定对目标图像的对象的分类的指示。在判定框707中，如果一分类的最高百分比与一分类的次高百分比之间的距离高于一阈值，则该组件能够唯一地标识一分类并且返回具有该最高百分比的分类作为对目标图像的对象的分类，否则该组件返回无法确定对目标图像的对象的分类的指示。

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。分类系统可通过使用不同的组件，改变组件的处理次序等来实现。例如，可互换排列候选图像组件和过滤候选图像组件的排序。同样，离线组件的各组件可取决于计算系统的处理能力和分类问题的特性另选地在线实现。例如，特征向量/分类图像存储可以在线增量式更新以反映新的图像分类。同样，分类系统可使用学习算法来训练分类器以便基于目标对象的显著点来对目标对象进行分类。该分类可以将特征向量/分类图像存储的数据用作训练数据来训练该分类器。因此，本发明只由所附权利要求来限制。

Claims

1.一种在计算设备中用于对目标图像的对象进行分类的方法，所述方法包括：

提供分类图像以及对于每一个分类图像的相关联的分类，所述相关联的分类指示由所述分类图像表示的对象的分类，每个分类图像具有通过特征向量来表示的显著点；

提供多个分类图像的显著点聚类，每个聚类具有从该聚类的每个显著点到包含该显著点的分类图像的映射；

标识目标图像的目标显著点；

为每个目标显著点生成目标特征向量；

为每个显著点标识候选图像，包括：

选择其显著点与目标显著点最相似的聚类，其中相似程度由聚类的显著点的特征向量和目标特征向量之间的最短距离所指示；

标识所选择的聚类的接近的显著点，所述接近的显著点的特征向量和目标特征向量之间的距离低于阈值；以及

将包含所标识的接近的显著点的图像标记为候选图像；

标识与所述目标图像最相似的分类图像，包括：

基于候选图像的显著点的特征向量与目标特征向量之间的相似度来计算每个候选图像和目标图像之间的相似度；

丢弃计算出的相似度不满足阈值相似度的候选图像；以及

在丢弃候选图像之后，滤除其显著点排列与相应的目标显著点不一致的候选图像，其中剩余的候选图像为所标识的分类图像；以及基于所标识的分类图像的分类来选择对所述目标图像的对象的分类。

2.如权利要求1所述的方法，其特征在于，每一个显著点都使用高斯差分技术来标识并且由特征向量来表示。

3.如权利要求1所述的方法，其特征在于，所述映射使用聚合技术来生成。

4.如权利要求3所述的方法，其特征在于，所述聚合技术基于神经元增长结构算法。

5.如权利要求1所述的方法，其特征在于，所述相似度是根据以下公式来计算的：

Sim(I,J)=∑_i，jcorr(X_i,Y_j)

其中I(X₁，…X_n)表示目标图像的目标特征向量，J(Y₁，…,Y_m)表示分类图像的特征向量，而corr(X_i,Y_j)表示测量特征向量之间的对应性的度量。

6.如权利要求1所述的方法，其特征在于，所述滤除包括应用基于RANSAC的算法。

7.一种用于对目标图像的对象进行分类的计算机系统，包括：

用于提供分类图像以及对于每一个分类图像的相关联的分类的装置，所述相关联的分类指示由所述分类图像表示的对象的分类，每个分类图像具有通过特征向量来表示的显著点；

用于提供多个分类图像的显著点聚类的装置，每个聚类具有从该聚类的每个显著点到包含该显著点的分类图像的映射；以及

用于标识目标图像的目标显著点的装置；

用于为每个目标显著点生成目标特征向量的装置；

用于为每个显著点标识候选图像的装置，包括：

用于选择其显著点与目标显著点最相似的聚类的装置，其中相似程度由聚类的显著点的特征向量和目标特征向量之间的最短距离所指示；

用于标识所选择的聚类的接近的显著点的装置，所述接近的显著点的特征向量和目标特征向量之间的距离低于阈值；以及

用于将包含所标识的接近的显著点的图像标记为候选图像的装置；用于标识与所述目标图像最相似的分类图像的装置，包括：

用于基于候选图像的显著点的特征向量与目标特征向量之间的相似度来计算每个候选图像和目标图像之间的相似度的装置；

用于丢弃计算出的相似度不满足阈值相似度的候选图像的装置；以及

用于在丢弃候选图像之后，滤除其显著点排列与相应的目标显著点不一致的候选图像的装置，其中剩余的候选图像为所标识的分类图像；以及

用于基于所标识的分类图像的分类来选择对所述目标图像的对象的分类的装置。

8.如权利要求7所述的计算机系统，其特征在于，所述显著点使用高斯差分算法来标识。

9.如权利要求7所述的计算机系统，其特征在于，所述聚类使用神经元增长结构算法来标识。

10.一种用于对目标图像的对象进行分类的方法，所述方法包括：

提供将分类图像的显著点的特征向量映射到所述分类图像及其分类的索引；

提供分类图像的显著点的多个聚类，每个聚类具有从该聚类的每个显著点到包含该显著点的分类图像的映射；以及

在提供了聚类之后，

生成所述目标图像的目标显著点的目标特征向量；

通过以下步骤来基于所述目标图像的目标显著点的目标特征向量和所述分类图像的显著点的特征向量之间的相似性来从所提供的索引中标识匹配所述目标图像的分类图像：

将包含所标识的接近的显著点的图像标记为候选图像；以及

基于匹配的分类图像的分类来选择对所述目标图像的对象的分类。

11.如权利要求10所述的方法，其特征在于，标识匹配的分类图像包括基于所述目标图像和所述匹配的分类图像的相似显著点来计算所述目标图像与所述匹配的分类图像之间的相似性。

12.如权利要求11所述的方法，其特征在于，选择分类包括选择所述匹配的分类图像的主分类。