CN101911116A

CN101911116A - 不变视觉场景和对象识别

Info

Publication number: CN101911116A
Application number: CN2008801231966A
Authority: CN
Inventors: G·赫里桑索柯普洛斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2007-12-24
Filing date: 2008-12-20
Publication date: 2010-12-08
Anticipated expiration: 2028-12-20
Also published as: EP2235680A1; US20090161968A1; JP2011508323A; EP2235680A4; US8036468B2; WO2009082719A1; CN101911116B; JP5261501B2; US8406535B2; KR101548928B1; KR20100098641A; US20110299787A1

Abstract

公开了一种用于执行图像识别的方法。该方法包括获取像素集合并基于梯度量级来将这些像素中的至少某一些分组到聚类特征集中。对于该集合中的每一个聚类特征，生成统计变量。统计变量表示聚类特征中的像素的共同特性。该统计变量用作将该像素集合与不同的像素集合进行比较的基础。

Description

不变视觉场景和对象识别

背景

计算机视觉是与从捕捉到的图像获取信息的人工系统相关的科学和技术领域。图像数据可采取许多形式，包括但不一定限于来自一个或多个照相机的视频序列或视图。

计算机视觉的通用类别包括各种不同的子领域。对象识别是计算机视觉中的子领域，其涉及识别来自图像数据的对象，例如，确定多个图像中的哪一个包括与包括在目标图像中的对象最相似的对象。另一子领域是场景识别，其涉及识别来自图像数据的场景，例如，确定多个图像中的哪一个包括与包括在目标图像中的对象最相似的场景。计算机视觉通常用作自动化包括但不一定限于自主机器人导航和无人监管安全功能的各种实际应用的基础。例如，机器人和安全系统可被配置成在自动检测到并标识出特定对象或场景时发起特定响应。

当前，存在支持包括自动化场景和对象识别在内的各种各样的面向识别的计算机视觉任务的系统。虽然这些系统中的某一些能够以合理的准确度执行识别任务，但性能并非始终是高效的努力，尤其是在所需计算机处理和/或存储器资源方面。此外，许多现有系统在提供不变的图像识别方面并非有效。

提供以上讨论仅用作一般的背景信息，并不旨在用于帮助确定所要求保护的主题的范围。

概述

公开了一种用于执行图像识别的方法的各实施例。在一个实施例中，一种方法包括获取像素集合并基于梯度量级来将这些像素中的至少某一些分组到一聚类特征集中。对于该集合中的每一个聚类特征，生成统计变量。统计变量表示聚类特征中的像素的共同特性。该统计变量用作将该像素集合与不同的像素集合进行比较的基础。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用来协助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。

附图简述

图1是图像识别系统的框图。

图2是图像比较过程的流程图。

图3是图像比较过程的流程图。

图4是与图像识别系统相关联的用户界面的示例。

图5示出了计算系统环境的示例。

详细描述

本发明涉及用于提高计算机视觉系统，尤其是图像识别系统的性能和可靠性的方法。虽然本详细描述可以在对象和/或场景识别系统的上下文中讨论各系统和方法，但可以理解，相同或相似的概念可以相当容易地在其他类型的计算机视觉系统中应用。

图1是其中可实现本发明的各实施例的图像识别系统10的框图。系统10仅为合适的系统的一个示例，且并非旨在对所要求保护的主题的使用范围或功能提出任何限制。也不应该将系统10解释为对所示出的任一组件或其组合有任何依赖性或要求。

图像识别系统10(其当然是简化表示)包括图像捕捉设备12、图像分析器/处理器14、数据库16、以及输出15。图像捕捉设备12可以是任何照相机或能够捕捉图像并将对应的数据传递至诸如图像分析器/处理器14等图像分析器的其他系统组件。捕捉到的图像可包括孤立图像或者可更具有视频图像的特性。此外，设备12可以相当容易地包括多个设备，例如，捕捉相同场景或对象的多个图像透视图的多个设备，而不背离本发明的范围。

在一个实施例中，设备12包括通过光学系统接收要成像的场景或对象的视觉表示的成像器。该成像器产生指示接收到的视觉表示的模拟图像信号。该模拟信号被传递至模/数转换器，该模/数转换器产生模拟信号的数字表示。数字信号被重新格式化成可被存储和操纵的数字化图像。说明性地，该数字化图像被传递至图像分析器/处理器14。

在本发明的一个实施例中，如将在下文中更详细地讨论的，图像分析器/处理器14生成指示从图像捕捉设备12接收到的图像的特征和特性的数据。在一个实施例中，该数据用作高效地将接收到的图像与数据库16中所表示的一个或多个不同的、先前获取的图像进行比较的基础。说明性地，输出15是比较过程的结果或成果。输出15的精确特性将取决于其中应用系统10的特定上下文。例如，输出15可以是肯定或否定比较结果的指示。或者，输出15可标识数据库16中的最相似或足够相似以超过匹配阈值的一个或多个特定图像。这些只是输出15的许多可能形式的示例。

此时，还值得一提的是不变性的概念。在逻辑上，从一次图像捕捉到下一次图像捕捉，将存在例如透视、方向、照明等方面的不一致性。对于将要声明的匹配，如果系统10需要对其中捕捉到前一图像的环境的确切或真实再造，则系统10不是非常稳健的并且可能具有极少或不具有实际效用。如将在下文中更详细地描述的，此处所描述的匹配过程和算法相对高效，但在能够支持相对不变的图像识别方面也是有效的。

存在受益于诸如系统10所提供的图像识别功能的各种实际应用。在许多示例中的一个中，系统10可被实现为使得移动机器人能够利用计算机视觉来相对于先前经历的环境的图像的数据库识别其当前环境是否熟悉。在机器人来回移动时，它说明性地抓取其环境的图片并且然后用标识符来标记照片，该标识符可以是计算机生成的字符串，但另选地可以是用作更人类友好的标识帮助的单词或短语。以此方式，该机器人能够利用比较输出来支持某种程度的人工智能，例如，以便定位位置(例如，该位置是厨房等)或者从场景中标识对象(例如，该对象是椅子等)。该基于视觉的方法在其中诸如GPS(全球定位系统)技术等其他技术不可用的环境中尤其有益。此外，利用基于视觉的方法与允许位置标识的大多数其他技术相比相对较便宜。本领域的技术人员可以理解，移动机器人应用只是适用的实际应用的许多示例中的一个。

图2是提供图像比较过程200的简化演示的流程图。说明性地，过程200是计算机实现的。在一个实施例中，过程200由计算机实现的图像分析器/处理器(例如，图1中的14)来执行。根据框202，过程200简单地通过获取第一图像来开始。并不要求该图像是当时捕捉到的。也不要求该图像是直接从图像捕捉设备获取的。该图像可源自任何源，诸如但不限于照相机、台式机、因特网(例如，web)、盘、或者扫描仪。

在一个实施例中，对所获取的图像的参数施加少许限制或不施加限制。例如，说明性地不存在必需的分辨率(例如，320×240、640×480等)。说明性地不存在必需的色深度。说明性地，图像可以是单色的。值得注意的是，图像不必表示真实场景。该图像可以例如是可视化帮助、模拟环境或甚至是图。如将变得显而易见的是，过程200本质上可用于将任何像素集合与另一像素集合进行比较。

根据步骤204，对所获取的图像应用边缘检测过程。本领域的技术人员可以理解，存在可用于边缘检测的各种不同的方法。本发明不限于任何一种特定方法。在一个实施例中，边缘检测利用Sobel系数的应用来计算每一点(例如，每一像素)处的图像强度的梯度来实现。

在另一实施例中，边缘检测利用对于X和Y的简单1D梯度向量(-1，0，1)的应用来实现。在这种情况下，对图像中的每一个像素应用单个卷积以产生放大梯度的图像表示。说明性地，该过程是以卷积核为参数的。

一种概念化该后一边缘检测过程的方式是想象经过像素阵列(即，图像)的滑动窗口。说明性地，该窗口是3×3像素，但卷积可以相当容易地以其他方式确定大小，例如，5×5像素。从图像中的任意点(例如，左上方)开始，取得该图像的3×3部分并应用卷积。例如，3×3像素在水平方向上说明性地乘以-1、0和1。与此同时，这些像素在垂直方向上乘以-1、0和1。因此，该过程本质上开始于3×3矩阵，并且在所述处理之后，产生对应的3×3矩阵。该结果本质上是梯度提取。产生与原始图像大小相同但具现在有强调的边缘的新图像。同样，本发明的范围不限于任一种特定边缘检测方法。本领域的技术人员可以理解，存在多种已知替换方案。

本领域的技术人员还可理解，大多数图像本质上是彼此覆盖的三个图像-红色像素矩阵、蓝色像素矩阵和绿色像素矩阵。在一个实施例中，对每一个色彩通道运行梯度(例如，梯度算法在红色通道中运行、然后在蓝色通道中运行，并且然后在绿色通道中运行)。各个梯度图像中的每一个本质上都可被认为是单独的单色图像(例如，红色梯度、蓝色梯度和绿色梯度)。这三个所得梯度图像说明性地彼此覆盖以形成组合的、单个梯度图像。就在本说明书中利用术语“梯度图像”而言，可以理解，这可包括共同与不同的色彩通道相关联的数据。

值得一提的是，本发明的各实施例可以相当容易地适用于除了RGB(红、绿、蓝)之外的色空间中的图像。例如，各实施例可适用于作为彩色图像的另3个通道编码的YcbCr色空间中的图像。在YcbCr色空间中，梯度通常在Y通道上最强，并且相对于RGB，存在改进的色彩和照明色彩不变性。这只是其中可应用本发明的各实施例的另一色空间的一个示例。本发明的范围不限于此处所提供的示例，并且不限于3通道编码方案。

在梯度图像中，边缘可清晰地辨别。例如，垂直墙角的图像在对应的梯度图像中可能产生沿着该角的边缘的大量像素(即，相对较粗的线)。当然，大量像素可以出现在梯度图像中的部分或全部不同色彩通道中。

在一个实施例中，利用字典(例如，散列表)来为在梯度图像中找到的每一个离散的梯度量级值创建一条目。在一个实施例中，为效率起见，将梯度量级量化成最近整数值(即，从原始双精度)。在一个实施例中，选择性地应用阈值以使得只将具有大于预定值的量级值的像素添加到字典。说明性地，阈值是可调整的系统参数。

根据框206，本质上聚集展示相同(或者充分相似，取决于系统容限)特性的像素。字典中的每一条目创建一新的“桶”，且每一桶具有唯一的(或基本上唯一的，取决于系统容限)量级值。在一个实施例中，将梯度图像中的所有像素(或者具有大于预订阈值的量级的所有像素)归类到这些桶中的一个中。

在处理了整个梯度图像之后，将存在N个桶，指示在场景中为每一离散梯度量级发现了多少总像素。根据框208，存储(例如，使用文本标签来命名所保存的图像数据)与第一图像相关联的聚类或桶。

根据框210，对第二图像重复步骤202-208。最后，根据框212，基于相对于与第二图像相关联的聚类/桶的特性的对与第一图像相关联的聚类/桶的特性的评估来评估第一图像相对于第二图像的相似性。

在一个实施例中，针对与多个其他图像相关联的聚类/桶的特性来评估与第一图像相关联的聚类/桶的特性以确定多个图像中的哪一个与第一图像最相似。在一个实施例中，生成指示多个存储的图像中的哪一个(全部或部分地基于聚类/桶特性)(例如，哪一场景、对象等)是相对于第一图像(例如，相对于当时捕捉到的图像)的最佳匹配的直方图。在一个实施例中，采用并行比较算法以使得并行地将多个存储的场景与当时捕捉到的场景进行比较(全部或部分地基于聚类/桶特性)。

值得注意的是，过程200不涉及第一和第二图像的直接、文字比较。这至少在即使在两个图像之间存在显著不一致性的情况下也可比较图像并认为其匹配方面是有利的。概念化这一点的另一种方式是过程200有效地支持不变的图像识别。如果这不是真的，则即使第一和第二图像是从相同的照相机取得的，如果该照相机在拍摄间即使稍微移动，则这些图像也将不太可能被确定为匹配。或者，即使第一和第二图像是来自相对透视的同一对象，这些图像也将不太可能被确定为匹配。

还应强调，不要求第一或第二图像是当时捕捉的。这两个图像可源自任何源，诸如但不限于照相机、台式机、因特网(例如，web)、盘、或者扫描仪。当然，图像不必源自相同的源。也不要求图像具有分辨率、颜色、照明等方面的相同参数或特性。过程200本质上支持任何第一像素集与任何第二像素集的比较。

一般而言，图像比较过程200背后的理论不聚焦于各个像素在将要比较的图像中的具体位置。相反，聚集具有充分相似梯度的像素，并且在本质上如同单独的特征那样共同对待这些像素。典型的图像很有可能具有某些强边缘、某些弱边缘、以及在两者之间的某些边缘。这些强度差异将反映在对应的梯度图像中的梯度离差中。与强边缘相关联的像素将被分配到与同弱边缘相关联的像素不同的组中。如果图像中的所有像素都具有相同的梯度(例如，如没有边缘的图像，诸如平整桌面的图像的情况)，则将标识不到特征(其本身在将一个图像与另一个图像进行比较时可以是有用信息)。

作为示例，可以想象只包含白色背景上的一系列四根相同的、垂直方向的黑线的图像。一般而言，图像比较过程200将不会简单地聚焦于黑线像素所在的位置。相反，焦点将会在边缘以及存在具有相同的强梯度量级的大量像素的事实。这些像素将在图像比较过程期间被聚集在一起并被共同考虑。

在一个实施例中，配置基于梯度量级来将像素分配到聚类/桶特征中的过程以便在某种程度上考虑像素位置。例如，可施加规则以便在特定情况下为相同或相似梯度创建多个聚类/桶特征。例如，可以期望将具有相同梯度但分隔超过x距离(其中x是可调整的系统参数)的两个像素分配到单独的聚类/桶特征中。这是出于比较目的而创建更多特征的可任选的方式。当然，图像比较步骤(例如，过程200中的步骤212)被说明性地配置成考虑具有相同或相似梯度特性的多个聚类/桶并在这一情形存在时有利地利用该情形。

虽然简单地基于与将要比较的图像相关联的聚类/桶特征的梯度量级特性来进行图像比较是可以想象的，但这些比较的准确度不太可能对于所有图像都是好的。例如，在白色背景上具有四根黑色垂直线的图像很有可能被确定为匹配在白色背景上具有四根相似的黑色但水平的线条的图像。该比较过程在诸如这些情况等情况下更灵活是合乎需要的。本说明书现在将转向用于使得比较过程更灵活且稳健的方法的示例。

在一个实施例中，对于每一个聚类/桶，跟踪与该聚类中的所有像素相关的更宽泛的共同梯度特性集，而不是维护各个实际物理像素位置的记录。本领域的技术人员可以理解，跟踪哪些特性的精确性质可随应用变化。支持一个聚类/桶特征与另一聚类/桶特征的比较的任何特性都应被认为是在本发明的范围内。应当注意，聚类/桶特征特性可以基于从梯度图像和/或对应的原始图像导出的值。此外，特性可以是跨给定聚类/桶特征中所表示的像素计算的平均值。

在一个实施例中，为每一个聚类/桶特征生成特征向量。每一个特征向量都表示包括在对应的聚类/桶中的像素的共同或平均特性。在一个实施例中，特征向量包括基于聚类/桶中的像素来取均值的若干变量。在一个实施例中，变量包括以下各项中的任一个或全部：平均面积(例如，特征中所涉及的像素数量)、平均位置(例如，形心)、平均梯度角、平均梯度量级、倾斜(例如，在形心上)、标准差(例如，在形心上)、以及峰度(例如，对变量的概率分布相对于正态分布是波峰还是波谷的度量)。说明性地生成特征向量以支持图像比较过程。

虽然聚类/桶特征包含量级相似的像素，但它们可来自原始图像中的不同位置。因此，当期望将一个图像与另一个图像进行比较时，应如何出于比较目的(例如出于比较特征向量中所表示的变量的目的)将来自一个图像的聚类/桶特征与来自另一个图像的聚类/桶特征对齐并不是立即清楚的。

作为对所述对齐困境的解决方案，图3是展示用于将第一图像(下文中称为“目标图像”)与多个其他图像(下文中称为“存储图像”，如存储在数据库中的图像)进行比较的过程300的流程图。在一个实施例中，过程300由计算机实现的图像分析器/处理器(例如，图1中的14)来执行。说明性地假设已经为目标和存储的图像生成了聚类/桶特征。还说明性地假设已经为聚类/桶特征生成(并存储)了比较变量。

根据框302，对于每一个保存的图像，例如通过比较特征向量中的变量来将来自目标图像的每一个聚类/桶特征与所保存的图像中的最接近的特征进行匹配。在一个实施例中，这通过取目标图像中的每一个特征和所保存的图像中的每一个特征之间的欧几里得距离，并且然后取具有最小距离的图像来完成的。作为选项，该操作可被配置成施加加权方案以使得并非所有变量都是同等地考虑的。

根据框304，在一个大向量中以匹配来自所保存的图像的向量的次序写出来自目标图像的对齐特征。根据框306，计算每一个所保存的图像向量及其对应的目标图像向量之间的差异。根据框308，将具有最小距离的所保存的图像选为最接近的匹配图像。

因此，为目标图像计算“不同”的特征向量(特征次序不同)以支持与每一个所保存的图像的比较。这使得能够对所有保存的图像利用一个权重矩阵。该次序说明性地在目标图像改变时改变(即，由于不同的对齐)。这意味着为每一个所保存的图像生成不同的权重向量。针对图像集的训练给出了最高检测概率。

本领域的技术人员可以理解，可以利用其他比较算法而不背离本发明的范围。例如，可以实现其中最接近的匹配是由于具有最多匹配变量而得到最多点数的所保存的图像的“点数”系统，而不是所述的扁平向量方法。这只是应被认为是在本发明的范围内的许多其他可能的比较方案中的一个。

此时，可以值得对可以在聚类/桶特征比较过程中考虑的变量中的某一些进行详细描述。所提到的变量中的一个是平均梯度角。在一个实施例中，计算每一个像素的梯度角(并且然后取均值以支持该变量)，例如，使用垂直梯度量级除以水平梯度量级的反正切，其还可被表示为：

Atan(梯度量级Y[i]/梯度量级X[i])等式1

可以考虑的另一变量是平均色彩强度。如上所述，对每一个色彩通道说明性地进行像素到聚类/桶特征中的分配。可以想象中间有个绿球的桌子的图像以及相同但在中间有个蓝球的桌子的另一图像。尽管这两个图像非常相似，但球的颜色不同。在处理期间，在红色通道中，将不存在对应于该球的梯度。在蓝色通道中存在对应于蓝球的梯度，并且在绿色通道中存在对应于绿球的梯度。过程200检测色差，因为处理在不同的色彩通道中发生。在一个实施例中，对于每一个聚类/桶，跟踪每一个色彩通道的平均色彩强度(即，平均绿色强度、平均蓝色强度、以及平均红色强度)。在一个实施例中，平均色彩强度基于原始图像(而非梯度图像)中的各个像素的颜色。

说明性地，聚类/桶特征的标准差是包含在该特征中的像素的离差。例如，标准差可指示特定特征包括遍及图像的像素(即，相对较高的标准差)。换言之，该特征包含相对远离和分散的像素。如果标准差较小，则这意味着那些像素实际上在该图像中聚合在一起(例如，形成桌子中间的球的亮红色像素)。

在一个实施例中，用于比较图像的附加度量是特征向量本身的大小。例如，可以想象图像A具有跨所有色彩通道的十个聚类/桶特征(即，对应于十个不同的梯度量级值)。每一个聚类说明性地包括九个变量(梯度、平均角度、聚类中的像素数、平均色、平均色标准差、形心X、形心Y、标准差x、标准差y)。描述图像A的总特征向量于是具有大小九十(例如，9×10＝90)。现在，可以想象图像B具有跨所有色彩通道的三十个聚类/桶特征。其特征向量则是大得多的300。尽管有这一向量大小差异，但匹配算法说明性地将仍然试图将来自图像A的特征与来自图像B的特征进行匹配(值得注意的是，B中的相同特征可多次匹配A上的相同特征)。然而，在一个实施例中，在匹配过程中计算并考虑附加特征大小。在一个实施例中，特征大小值如下计算：

特征大小＝fv1A-fv1B/max(fv1A，fv1C)等式2

其中fv1A是特征向量A的长度，fv1B是特征向量B的长度，而fv1C是特征向量C的长度。特征大小被说明性地加到欧几里得距离并在场景之间计算。因此，总特征向量大小差异越大，图像就越“远”。实际上讲，这是相对图像复杂度的良好指示器(例如，不具有梯度的图像将具有非常少的聚类/桶特征，因此可以快速确定它将不会与具有许多梯度和聚类/桶特征的图像很好地匹配)。

给定图像可包含任何数量的像素，可能甚至300,000或更多。本发明避免了必须出于图像比较目的而分析大量单独的像素特性的处理负担。相反，聚类/桶特征的相对较少数量的特性支持比较过程。包含许多像素的图像被简化成少量的聚类/桶特征，例如，每一个色彩通道十个特征。然后为每一个特征导出少量的跟踪变量。由此，这导致支持准确且高效的图像比较处理的较少数量的数据点。

图4是示例用户界面400。界面400示出应用图像比较过程200和300的系统的一部分从用户的观点来看可能看上去是什么样子。只是出于说明的目的，假设正在应用该系统以将当时获取的目标图像与所保存的图像的数据库进行比较。

与将目标图像与三个不同的所保存的图像(例如，数据库中的三个最接近的匹配)进行比较的结果相关联的数据被包括在图4中。框402、404和406各自包含与这三个图像中的一个相关联的梯度图像的表示(每一个所保存的图像一个梯度图像)。框408、410和412各自包含在将这三个图像与目标图像进行比较的过程期间导出的统计数据的图形表示(每一个所保存图像一组统计数据)。

框408、410和412中的每一个都包括具有十个不同条的图表。前九个条中的每一个用不同的特征变量来标记，每一个特征变量都是聚类/桶特征的特性。具体而言，九个特性包括面积(例如，包括在特征中的像素数)、角度(例如，跨特征中的像素的平均梯度角)、量级(例如，特征中的像素的平均量级)、色彩(例如，特征中的像素的平均色)、色彩标准差、相对于X轴的标准差、相对于Y轴的标准差、相对于X轴的倾斜、以及相对于Y轴的倾斜。

在框408、410和412中的每一个中，对于九个特性中的每一个，提供误差值以及该值的条表示。对于该特性，误差值说明性地表示在将相关联的存储图像与目标图像进行比较(例如，根据诸如与图3相关联地描述的过程等用于优化聚类/桶特征的对齐的算法来进行比较)时生成的误差。条越高(即，误差值越大)，与目标图像进行比较时对于存储图像存在的误差越多。

因此，最接近地匹配目标场景的图像将会是具有最小条(即，最小误差)的图像。在图4所示的示例的情况下，目标场景最接近与框408相关联的所保存的图像(即，名为“有老鼠的墙”的场景)。应当注意，包括在框408、410和412中的每一个中的第十个值/条表示当前场景和每一所保存的场景之间的聚类/桶特征数量的差异。

用户界面400包括包含控件集合的区域420。这些控件说明性地使得用户能够操纵特征特性/变量(例如，框408、410和412中所注明的十个变量)以使得在比较处理中不一定给予这些特征特性/变量相等的权重。用户界面400还包括区域422，其中用户可选择性地施加量级阈值(例如，将要施加给形成聚类/桶特征的过程的最小量级阈值)。区域422还使得用户能够施加与特征半径相关的要求。当然，本领域的技术人员可以理解，界面400只是可以如何向用户呈现控件和数据演示的许多示例中的一个。其他控件和/或数据演示安排肯定在本发明的范围内。

图5示出了可在其中实现各实施例的合适的计算系统环境500的示例。计算系统环境500仅为合适的操作环境的一个示例，并非旨在对所要求保护的主题的使用范围或功能提出任何限制。也不应该将计算环境500解释为对示例性操作环境500中示出的任一组件或其组合有任何依赖性或要求。

各实施例可用于各种其它通用或专用计算系统环境或配置。适合在各实施例中使用的公知的计算系统、环境和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、电话系统、包含上述系统或设备中的任一个的分布式计算环境等。

各实施例此处已经在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。各实施例能在任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质两者(或其一)上。

参考图5，用于实现一些实施例的示例性系统包括计算机510形式的通用计算设备。计算机510的组件可以包括，但不限于，处理单元520、系统存储器530和将包括系统存储器在内的各种系统组件耦合至处理单元520的系统总线521。

计算机510通常包括各种计算机可读介质。计算机可读介质可以是能由计算机510访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例，而不是限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机510访问的任何其它介质。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其他无线介质。以上的任何组合也应包括在计算机可读介质的范围内。

系统存储器530包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)531和随机存取存储器(RAM)532。基本输入/输出系统533(BIOS)包括如在启动时帮助在计算机510内的元件之间传输信息的基本例程，它通常储存在ROM 531中。RAM 532通常包含处理单元520可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图5示出操作系统534、应用程序535、其他程序模块536和程序数据537。应用程序535被示为包括图像分析器/处理器，该图像分析器/处理器可以是实现与过程200和300相同或相似的功能的分析器/处理器。这只是计算系统的上下文中的本发明的各实施例的可能实现的一个示例。

计算机510还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器541，从可移动、非易失性磁盘552中读取或向其写入的磁盘驱动器551，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘556中读取或向其写入的光盘驱动器555。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器541通常由不可移动存储器接口，诸如接口540连接至系统总线521，磁盘驱动器551和光盘驱动器555通常由可移动存储器接口，诸如接口550连接至系统总线521。

以上讨论并在图5中示出的驱动器及其相关联的计算机存储介质为计算机510提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图5中，例如，硬盘驱动器541被示为存储操作系统544、应用程序545、其他程序模块546和程序数据547。注意，这些组件可以与操作系统534、应用程序535、其他程序模块536和程序数据537相同，也可以与它们不同。操作系统544、应用程序545、其他程序模块546和程序数据547在这里被标注了不同的标号是为了说明至少它们是不同的副本。应用程序545被示为包括图像分析器/处理器，该图像分析器/处理器可以是实现与过程200和300相同或相似的功能的分析器/处理器。这只是计算系统的上下文中的本发明的各实施例的可能实现的一个示例。

用户可以通过输入设备，如键盘562和定点设备561(诸如鼠标、跟踪球或触摸垫)向计算机510输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏手柄、话筒、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常由耦合至系统总线的用户输入接口560连接至处理单元520，但也可以由其他接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器591或其他类型的显示设备也经由接口，诸如视频接口590连接至系统总线521。除监视器以外，计算机还可以包括其他外围输出设备，诸如扬声器597和打印机596，它们可以通过输出外围接口595连接。

计算机510使用到诸如远程计算机580等一个或多个远程计算机的逻辑连接在网络化环境中操作。图5所描绘的逻辑连接是广域网(WAN)573，但还可以或改为包括其他网络。计算机510包括调制解调器572或用于通过诸如因特网等WAN 573建立通信的其他装置。调制解调器572可以是内置或外置的，它可以通过用户输入接口560或其它适当的机制连接至系统总线521。远程计算机580被示为操作远程应用程序585。应用程序585被示为包括图像分析器/处理器，该图像分析器/处理器可以是实现与过程200和300相同或相似的功能的分析器/处理器。这只是计算系统的上下文中的本发明的各实施例的可能实现的一个示例。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种计算机实现的图像处理方法，所述方法包括：

生成与第一图像相关联的梯度数据集合；

基于如所述梯度数据集合中所反映的梯度量级来将所述第一图像中的像素分配到聚类特征集中；以及

存储所述聚类特征集。

2.如权利要求1所述的方法，其特征在于，分配包括分配像素以使得给定聚类特征中的像素具有相同或充分相似的梯度量级。

3.如权利要求1所述的方法，其特征在于，还包括：

生成与第二图像相关联的第二梯度数据集合；

基于如所述第二梯度数据集合中所反映的梯度量级来将所述第二图像中的像素分配到第二聚类特征集中；以及

存储所述第二聚类特征集。

4.如权利要求3所述的方法，其特征在于，还包括通过相对于所述第二聚类特征集评估所述第一聚类特征集来将所述第一图像与所述第二图像进行比较。

5.如权利要求4所述的方法，其特征在于，相对于所述第二聚类特征集评估所述第一聚类特征集包括针对第二统计变量评估第一统计变量，其中所述第一统计变量指示包括在作为所述第一聚类特征集的一部分的第一聚类特征中的像素的特性，并且其中所述第二统计变量指示包括在作为所述第二聚类特征集的一部分的第一聚类特征中的像素的特性。

6.如权利要求5所述的方法，其特征在于，所述第一统计变量指示通过确定跨所述第一聚类特征中的所有像素的平均值来计算的特性。

7.如权利要求3所述的方法，其特征在于，将所述第一图像与所述第二图像进行比较包括基于聚类特征的相似性来将所述第一集合中的聚类特征与所述第二集合中的聚类特征对齐。

8.如权利要求1所述的方法，其特征在于，还包括对于所述集合中的每一个聚类特征，计算并存储指示包括在该聚类特征中的像素的特性的一组统计变量。

9.如权利要求8所述的方法，其特征在于，所述那组统计变量包括指示所述聚类特征中的像素数的面积变量。

10.如权利要求8所述的方法，其特征在于，所述那组统计变量包括指示所述聚类特征中的像素的相对位置的变量。

11.如权利要求8所述的方法，其特征在于，所述那组统计变量包括共同指示所述聚类特征中的像素的平均梯度角变量。

12.如权利要求8所述的方法，其特征在于，所述那组统计变量包括倾斜变量。

13.如权利要求8所述的方法，其特征在于，所述那组统计变量包括标准差变量。

14.一种用于执行图像识别的计算机实现的方法，所述方法包括：

获取像素集合；

基于梯度量级来将所述集合中的至少某些像素分组到聚类特征集中；

对于所述集合中的每一个聚类特征，生成表示该聚类特征中的像素的共同特性的统计变量；以及

将所述统计变量用作将所述像素集合与不同的像素集合进行比较的基础。

15.如权利要求14所述的方法，其特征在于，利用所述统计变量包括将所述集合中的聚类特征与同所述不同的像素集合相关联的不同集合中的聚类特征进行比较。

16.如权利要求14所述的方法，其特征在于，生成统计变量包括生成包括在所述聚类特征中的像素的平均色。

17.如权利要求14所述的方法，其特征在于，生成统计变量包括生成包括在所述聚类特征中的像素的平均位置。

18.如权利要求14所述的方法，其特征在于，生成统计变量包括生成包括在所述聚类特征中的像素的数量。

19.一种用于执行图像识别的计算机实现的方法，所述方法包括确定第一图像与第二图像的相对相似性，其中确定包括将与所述第一图像相关联的聚类特征与同所述第二图像相关联的聚类特征进行比较，并且其中与所述第一和第二图像相关联的聚类特征基于已经基于梯度量级来分组在一起的像素来导出。

20.如权利要求19所述的方法，其特征在于，确定还包括将与所述第一图像相关联的聚类特征的数量与同所述第二图像相关联的聚类特征的数量进行比较。