CN105793867A

CN105793867A - 图像搜索方法及设备

Info

Publication number: CN105793867A
Application number: CN201480053618.2A
Authority: CN
Inventors: 桑德拉·莫
Original assignee: See Out Pty Ltd
Current assignee: See Out Pty Ltd
Priority date: 2013-12-20
Filing date: 2014-09-26
Publication date: 2016-07-20
Also published as: CN110263202A

Abstract

用于执行多张参考图像的搜索的设备，该设备包括一个或多个电子处理装置，该一个或多个电子处理装置搜索该多张参考图像以标识与一张样本图像相似的多张第一参考图像、标识与这些第一参考图像中的至少一张图像相关联的多个图像标签、使用这些图像标签中的至少一个图像标签搜索该多张参考图像以标识多张第二参考图像并且提供包括至少一些第一和第二参考图像的多个搜索结果。

Description

图像搜索方法及设备

技术领域

本发明涉及一种图像搜索方法和设备并且具体地涉及一种用于搜索多张参考图像(如商标、标志等等)的方法和设备。

背景技术

在本说明中对任何现有出版物(或来源于其中的信息)、或者任何已知的事项，不是也不应被视为承认或许可或以任何形式暗示该现有出版物(或来源于其中的信息)或者已知的事项形成本说明书涉及的工作的领域中的公共常识的一部分。

对于公司，其品牌(经常采取其名字的商标或标志的形式)经常是其最重要的资产。全世界的国家具有为公司提供正式的机制来通过商标注册保护其品牌的知识产权(IP)局。这种注册系统使得品牌能够反对或强制反对可能相似并导致商业混淆的其他标志或商标，因此允许它们建立唯一的公共身份以基于其建立它们的业务。

此外，1996年创建的并且约90个国家已经签署了的马德里协定和议定书通过可以覆盖多于一个国家的一个申请的方式来提供国际商标注册。与独立的国家注册投资组合相反，具有单一注册以覆盖大范围国家的机会既在投资组合管理又在成本节省方面赋予了多个优点。

然而，如果存在基本上相似并且可能导致品牌混淆的另一个已经建立的商标(无论已经注册的还是普通法商标，即，未注册但是在市场上具有已建立的提供品)，那么商标申请可能被拒绝。这会是对时间和金钱的很大浪费，因此，在申请注册商标之前，建议针对向其进行申请的国家局的商标数据库进行搜索以及进行普通法搜索。

不幸的是，搜索商标的装置(或标志或图像)会是非常难以实现的，因为目前其必须通过对图像的文本描述来完成。对于商标局，许多国家已经针对商标装置采用了基于文本的描述符(又称为图像构成详情(例如，正方形、正方形+、长方形、棱形数以千计))的标准列表。这在全世界包括多个不同的公约，如将图像构成分类成带编号的主类别和子类别(例如，1.1.1-‘星体’、1.1.15-‘彗星，具有尾巴的星体’)的维也纳公约和USPTO分类公约，以及使用基于文本的图像构成详情但最终处于基础水平的澳大利亚公约全部是对图像和其中组成部分(构成)的基于文本的描述。

不幸的是，搜索商标的装置(或标志或图像)会是非常难处理的并且耗费时间，因为目前其必须通过针对图像的文本元数据的文本描述来完成。针对普通的或抽象的标志，例如，耐克的“旋风”或阿迪达斯的“花”，找到最合适的文本描述符会是非常有挑战性的。要选择的有那么多，因为经常有成千上万个匹配要仔细查看。此外，如果漏掉某些描述符(即，如果搜索器对同一张图像描述得与IP局对其编索引的内容不相同)，那么有可能漏掉相似的匹配装置。在互联网上的普通法搜索也丝毫不简单。对于大部分而言，搜索确实也必须通过文本描述来完成。

发明内容

在一个广泛形式中，本发明提供用于执行多张参考图像的搜索的设备，该设备包括一个或多个电子处理装置，该一个或多个电子处理装置：

a)搜索该多张参考图像以标识与一张样本图像相似的多张第一参考图像；

b)标识与这些第一参考图像中的至少一张第一参考图像相关联的多个图像标签；

c)搜索该多张参考图像以使用这些图像标签中的至少一个图像标签来标识多张第二参考图像；并且，

d)提供包括至少一些第一和第二参考图像的多个搜索结果。

通常，该一个或多个电子装置：

a)根据这些第一参考图像与该样本图像的相似度确定一个第一图像排名；并且，

b)至少部分地根据该第一图像排名选择该至少一张第一参考图像。

通常，该一个或多个电子装置：

a)向一个用户呈现至少一些第一参考图像；

b)根据多个用户输入命令确定至少一张选定的第一参考图像；并且，

c)标识与该至少一张选定的第一参考图像相关联的多个图像标签。

通常，该一个或多个电子装置根据第一图像排名向该用户呈现多张第一参考图像。

通常，该一个或多个电子装置：

a)根据一个出现频率确定一个图像标签排名；

b)至少部分地根据该图像标签排名选择该至少一个图像标签。

通常，该一个或多个电子装置：

a)向该用户呈现与该至少一张第一参考图像相关联的多个图像标签；

b)根据多个用户输入命令确定至少一个选定的图像标签；并且，

c)使用该至少一个选定的图像标签搜索该多张参考图像。

通常，该一个或多个电子装置根据图像标签排名呈现多个图像标签。

通常，这些图像标签包括多个元数据标签。

通常，该一个或多个电子装置：

a)确定这些第一和第二参考图像的结果排名；并且，

b)根据该结果排名提供这些搜索结果。

通常，该一个或多个电子装置根据以下各项中的至少一项确定该结果排名：

a)第一图像排名；

b)第二图像排名；以及，

c)组合的第一图像排名和第二图像排名。

通常，该一个或多个电子装置根据这些第二参考图像与这些图像标签的相似度来确定第二图像排名。

通常，该一个或多个电子装置从该用户的接收该样本图像。

通常，该一个或多个电子装置处理该样本图像。

通常，该一个或多个电子装置通过以下操作来处理该样本图像：

a)分割该样本图像以形成多张样本子图像；并且，

b)使用该样本图像和这些样本子图像搜索该多张参考图像。

通常，该一个或多个电子装置通过以下操作来分割该样本图像：

a)确定多个图像特征聚类；并且，

b)根据多个聚类分割该图像。

a)将该样本图像转换成一张灰度图像；

b)对该灰度图像进行滤波以生成一张经滤波的灰度图像；

c)对该经滤波的灰度图像的图像强度进行归一化以生成一张归一化图像；并且，

d)确定该归一化图像内的多个聚类。

通常，该一个或多个电子装置通过以下操作中的至少一项来处理该样本图像：

a)对该样本图像和这些样本子图像进行缩放；

b)从该样本图像和这些样本子图像中确定多个图像特征；并且，

c)去除以下各项中的至少一项：

i)图像背景；

ii)噪声；以及，

iii)文本。

通常，该一个或多个电子处理装置通过以下操作对该样本图像和这些样本子图像进行缩放：

a)剪裁这些图像和子图像以去除背景并形成多张经剪裁的图像；并且，

b)将该经剪裁的图像的大小重新调整成一个限定的图像大小。

通常，该一个或多个电子处理装置通过以下操作来处理该样本图像：

a)执行光学字符识别来检测文本；并且，

b)从该图像中去除文本。

通常，该一个或多个电子处理装置：

a)处理该样本图像和这些样本子图像中的至少一张图像以确定多个样本图像特征；并且，

b)使用这些样本图像特征来确定一个样本特征向量。

在另一个广泛形式中，本发明提供一种用于执行多张参考图像的搜索的方法，该方法包括：

d)提供包括至少一些第一和第二参考图像的多个搜索结果。

在另一个广泛形式中，本发明提供一种用于在搜索多张参考图像时使用的设备，该设备包括一个或多个电子处理装置，该一个或多个电子处理装置：

a)采集至少一张图像；

b)处理该图像以确定多张子图像以及与该图像和/或子图像相关联的多个图像特征；并且，

c)使用该图像、该子图像和这些图像特征来执行图像搜索，其中，该图像是一张样本图像和多张参考图像之一中的至少一者，并且其中，搜索是至少部分地通过搜索多张参考图像来标识与该样本图像相似的多张参考图像来执行的。

通常，该方法包括创建索引，该索引包括多张参考图像，每张参考图像与多张子图像和多个图像特征相关联。

通常，该一个或多个电子装置通过分割该图像以形成这些子图像来处理该样本图像。

通常，该一个或多个电子装置通过以下操作来分割该图像：

a)确定该图像中的多个特征聚类；并且，

b)根据这些聚类分割该图像。

通常，该一个或多个电子装置通过以下操作分割该图像：

a)将该图像转换成一张灰度图像；

b)对该灰度图像进行滤波以生成一张经滤波的灰度图像；

d)确定该归一化图像内的多个聚类。

通常，该一个或多个电子装置通过以下操作中的至少一项来处理该图像：

a)对该图像和这些子图像进行缩放；

b)从该图像和这些子图像中确定多个图像特征；并且，

c)去除以下各项中的至少一项：

i)图像背景；

ii)噪声；以及，

iii)文本。

通常，该一个或多个电子处理装置通过以下操作来缩放这些图像：

通常，该一个或多个电子处理装置通过以下操作来处理该图像：

a)执行光学字符识别来检测文本；并且，

b)从该图像中去除文本。

通常，当该图像是参考图像时，该一个或多个电子处理装置将该文本与索引的参考图像进行关联。

通常，该一个或多个电子处理装置：

a)处理该图像和这些子图像中的至少一张图像以确定多个图像特征；并且，

b)使用这些图像特征来确定一个特征向量。

在另一个广泛形式中，本发明提供一种用于在搜索多张参考图像时使用的方法，该方法包括：

a)采集至少一张图像；

b)处理该图像以确定多张子图像以及与该图像相关联的多个图像特征；并且，

c)使用该图像、该子图像和这些图像特征来执行图像搜索，其中，该图像是一张样本图像和多张参考图像之一中的至少一者，并且其中，搜索是至少部分地通过搜索多张参考图像来标识与该样本图像类似的多张参考图像来执行的。

在另一种广泛形式中，本发明目的是提供一种用于执行图像搜索的方法，该方法包括以下步骤：

a)用户将查询图像上传至一个搜索引擎；

b)搜索引擎使用图像识别来在一个数据库中标识多张视觉上相似的匹配图像；

c)为用户呈现多个匹配图像结果；

d)用户选择那些匹配图像结果中的所有或部分匹配图像结果作为最相关的匹配图像结果；

e)搜索系统提取多个选定的结果的元数据以对最相关的图像标签进行整理和排名；

f)为用户呈现图像标签的列表；并且，

g)为用户呈现基于这些图像标签中的一个或多个图像标签进行组合式图像和文本搜索的选项。

在另一个广泛形式中，本发明目的是提供一种用于执行图像搜索的搜索系统，该搜索系统包括一个搜索引擎，并且其中：

a)用户将查询图像上传至搜索引擎；

b)搜索引擎使用图像识别来在数据库中标识多张视觉上相似的匹配图像；

c)为用户呈现多个匹配图像结果；

f)为用户呈现图像标签的列表；并且，

在另一个广泛形式中，本发明目的是提供一种用于对来自商标数据库的图像进行预处理的方法，该方法包括：

a)在该图像内分割多张子图像；

b)将该图像和这些子图像缩放到一个预定大小；

c)对每张产生的图像和子图像执行特征提取，从而使得该图像或这些子图像中的多个图案被概括为多个特征；并且，

d)在一个数据库中为这些图像、子图像和特征编索引以用于搜索。

在另一个广泛形式中，本发明目的是提供用于对来自商标数据库的图像进行预处理的设备，该设备包括一个计算机系统，该计算机系统执行：

a)在该图像内分割多张子图像；

b)将该图像和这些子图像缩放到一个预定大小；

附图说明

现在将参照附图描述本发明的示例，在附图中：

图1A是用于执行多张参考图像的搜索的方法的示例的流程图；

图1B是用于处理图像以用于搜索多张参考图像的方法的示例的流程图；

图2是分布式计算机架构的示例的示意图；

图3是图2的处理系统的示例的示意图；

图4是图2的计算机系统的示例的示意图；

图5A和图5B是图像处理方法的进一步示例的流程图；

图6是创建搜索索引的方法的示例的流程图；

图7A和图7B是搜索多张参考图像的方法的进一步示例的流程图；

图8是用于搜索图像的方法的进一步示例的流程图；

图9是用于搜索图像的方法的进一步示例的流程图；

图10是在搜索过程中使用的用户界面的示意图；

图11是显示多个搜索结果的用户界面的示意图；

图12是显示多个搜索结果的选择的用户界面的示例的示意图；

图13是显示被标识的图像标签的用户界面的示例的示意图；

图14是显示多个搜索结果的用户界面的示例的示意图；

图15是用于创建搜索索引的方法的进一步示例的流程图；

图16是用于执行搜索的方法的进一步示例的流程图；并且，

图17是搜索过程的示例的示意性框图。

具体实施方式

现在将参照图1A更详细地描述用于执行多张参考图像的搜索的方法的示例。

在这个示例中，如以下将更详细描述的，假设至少部分地使用形成一个或多个处理系统的一部分的一个或多个电子处理装置执行该过程，该一个或多个电子处理装置进而经由网络架构连接至一个或多个其他计算机系统。

出于示例的目的，以下技术将被使用。术语“用户”用来指与处理系统进行交互以例如执行搜索的实体，如个人、公司等。术语“参考图像”指针对其执行搜索的存储图像。在一个示例中，参考图像是商标或标志，但也可以包括可能已经或可能还未注册的其他商标图像资产，如图标、卡通字符等。还将认识到，这不是实质性的。术语“样本图像”指被提交为用于搜索参考图像的查询的一部分的示例图像。

术语“图像标签”用来指描述图像中的对象或语义信息的信息。在商标的情况中，图像标签有时指图像描述符、字典项、设计搜索代码、维也纳分类项或代码等。图像标签经常但不排他地被手动地限定并且可以被存储为与图像相关联的、允许此图像随后被搜索的元数据。

在这个示例中，在步骤100，该一个或多个电子处理装置搜索多张参考图像来标识与样本图像相似的第一参考图像。这可以用各种方式中的一种方式来执行但是通常涉及使用图像识别技术来分析样本图像以标识图像的特性，并且然后利用此分析结果来执行多张参考图像的搜索。在一个具体示例中，这涉及分析样本图像以确定指示图像中的特征的一个或多个特征向量，然后将其与参考图像的特征向量进行比较。

在步骤110，该一个或多个电子处理装置标识与这些第一参考图像中的至少一张第一参考图像相关联的多个图像标签。这些图像标签通常联合第一参考图像一起例如以元数据等形式被存储，并且在一个示例中是指示图像内容的文本描述符的形式。

这可以针对第一参考图像中的每一张图像来执行，但更典型地针对与样本图像视觉上最相似的第一参考图像的子集来执行。这可以通过多种方式中的一种方式来确定并且可以涉及向用户显示第一参考图像，从而允许用户查看这些图像并选择感兴趣的第一参考图像。替代地，这些第一参考图像可以基于它们与样本图像的相似度被排名，其中，排名最高的第一参考图像被自动选择。

在步骤120，该一个或多个电子处理装置使用这些图像标签中的至少一个图像标签来搜索多张参考图像以标识第二参考图像。因此，可以将在步骤110确定的图像标签同与这些参考图像中的每张参考图像相关联的图像标签进行比较，从而允许标识这些第二参考图像。

尽管可替代地可以使用任何合适的技术来传递搜索结果，但在步骤130，通常通过这些搜索结果其显示给用户来提供这些搜索结果，其中，这些搜索结果包括至少一些第一和第二参考图像。

因此，上述过程通过首先利用图像识别技术执行搜索来自动地标识与样本图像广泛相似的第一参考图像。然后，利用与这些第一参考图像中的至少一一些图像相关联的图像标签来执行附加搜索。这可以用来返回基于图像识别和图像标签搜索两者的搜索结果列表。

这因此使用有待执行的两种独立的搜索方法，以便使标识的感兴趣的相关图像最大化。这在搜索数据库(如商标数据库)时是特别重要的，其中，图像通常是基于图像标签被标识的。这些图像标签可能对于利用数据库的人员来说是不熟悉的，从而使得个人难以在没有适当训练的情况下搜索商标数据库。此外，当商标最初被存储在数据库中时这些图像标签通常被手动地创建并且这可以根据创建描述符的人员、描述符的使用随时间的变化等来不一致地被执行。这意味着不同的图像描述符可以用于描述相似的图像，而相似的图像标签可以用于描述不同的图像，使得搜索过程更难。

然而，图像标签的使用仍然通常是比单独图像识别的使用更强有力的搜索方法。因此，上述过程利用图像识别作为粗糙滤波器，以便标识感兴趣的第一参考图像，这些图像然后用于显示图像标签。对于针对不熟悉图像标签的用户，他们也能够查看这些图像标签并且标识将潜在地与样本图像相关的图像标签，从而允许在更精细的搜索过程中标识进一步的参考图像。

为了上述过程尽可能有效地操作，优选的上对图像执行预处理以确保样本与参考图像的格式和内容的一致性。这进而可以用于使图像识别过程以及因此搜索过程的有效性和速度最大化，并且将参照图1B描述图像处理技术的示例。

在这个示例中，在步骤150采集图像。该图像可以是针对其要执行搜索的样本图像或者替代地可以包括多张参考图像中的一张参考图像。

在步骤160，图像被处理以确定与该图像相关联的子图像和图像特征，在步骤170，图像、子图像和图像特征用于执行图像搜索，这可以例如利用上述技术来执行。

因此，为了跨多张图像和子图像标识具体的图像特征而执行处理。这些子图像和图像特征的性质将根据优选实现方式而变化。在一个示例中，子图像对应于图像的具体组成部分，如文本、标志、标志部分等。类似地，图像特征可以包括图像的具体组成部分的位置、形状、颜色、密度等。通过将这些标识为单独的子图像，这允许将样本图像组成部分与参考图像组成部分直接进行比较，由此增加相似的图像被准确标识的可能性。

现在将描述多个另外的特征。

通常，该一个或多个电子装置根据第一参考图像与样本图像的相似度来确定第一图像排名并且至少部分地根据该第一图像排名选择至少一张第一参考图像。此外和/或替代地，该一个或多个电子装置向用户呈现至少一些第一参考图像、根据多个用户输入命令确定至少一张选定的第一参考图像并且标识与该至少一张选定的第一图像相关联的图像标签。作为这个的一部分，该一个或多个电子装置可以根据第一图像排名向用户呈现多张第一参考图像。因此，这些过程允许与样本图像最相似的第一图像被选为进一步搜索的基础，由此增强进一步搜索的有效性。

该一个或多个电子装置可以根据出现频率确定图像标签排名并且至少部分地根据该图像标签排名选择至少一个图像标签。出现频率可以是在这些第一参考图像中的一张或多张图像内出现的频率。在此方面，相似的图像标签可以用于这些第一参考图像中的多张图像中，在这种情况下，这些图像更有可能是相关的并因此优先于其他图像标签被呈现给用户。此外和/或替代地，排名可以基于图像标签在作为整体的多张参考图像而不仅仅是作为第一参考图像标识的那些参考图像中的出现频率。例如，如果具有与CIRCLE描述符相反的HAND的参考图像更少，那么描述符HAND可能比描述符CIRCLE更有特色。在一个示例中，可以使用两个频率的组合，如TF-IDF(项频率-逆文档频率)组合。

该一个或多个电子装置还可以向用户呈现与该至少一张第一参考图像相关联的多个图像标签、根据多个用户输入命令确定至少一个选定的图像标签并且使用该至少一个选定的图像标签搜索多张参考图像。作为其一部分，该一个或多个电子装置可以根据图像标签排名呈现多个图像标签。因此，这允许用户选择用户认为最准确地描述了样本图像的图像标签，因此增强了进一步搜索的有效性。

图像标签可以是任何合适的形式，但是在一个示例中包括元数据标签。

该一个或多个电子装置可以确定第一和第二参考图像的结果排名并且根据该结果排名提供搜索结果。这可以根据第一图像排名、第二图像排名或组合的第一图像排名和第二图像排名确定结果排名，其中，该第二图像排名是根据第二参考图像与图像标签的相似度来确定的。因此，第一和第二参考图像中的任一者或两者可以被排名从而使得经由任一项搜索技术标识的更相关的参考图像可以优先于较不相关的参考图像被显示给用户。

该一个或多个电子装置通常接收来自用户的样本图像，尽管替代地这可以从数据库等中检索。

该一个或多个电子装置通常处理样本图像使得更易于将样本图像与这些参考图像进行比较。类似地，当最初接收参考图像时，该一个或多个电子处理装置通常处理这些参考图像并且然后创建包括多张参考图像的索引，每张参考图像与多张子图像、多个图像特征以及可选地多个图像标签相关联。

当处理图像时，该一个或多个电子装置分割该图像以形成这些子图像。这通常是通过确定图像中的特征聚类并根据这些聚类分割该图像来执行的。具体地，这可以涉及将图像转换成灰度图像、对灰度图像进行滤波以生成经滤波的灰度图像、对该经滤波的图像强度进行归一化以生成归一化图像并确定该归一化图像内的聚类。这允许图像的单独组成部分被分开处理，例如，允许文本被与图像有区别地处理，由此使得搜索过程更有效。

该一个或多个电子装置通常经过对图像和子图像进行缩放、从图像和子图像中确定图像特征并且去除图像背景、噪声或文本来处理图像。缩放通常是经过剪裁图像和子图像以去除背景并形成经剪裁的图像并且将经剪裁的图像的大小重新调整到限定的图像大小来执行的，从而使得参考图像、样本图像和相应的子图像中的所有图像具有相似的大小，从而再次使得这些图像的比较更有效。

该一个或多个电子处理装置还可以经过执行光学字符识别来检测文本并从图像中去除文本来处理图像。然后，这还可以与图像标签(如元数据)进行比较，这些图像标签通常包括图像内的任何文本的指示，或者用于确保字符识别过程中准确度和/或出于搜索图像标签的目的。当该图像是参考图像时，该一个或多个电子处理装置通常还将该文本与索引中的参考图像进行关联。

此外，该一个或多个处理装置通常处理图像和子图像中的至少一张图像以确定图像特征并使用这些图像特征来确定特征向量。这允许通过比较特征向量来比较样本图像与参考图像，从而允许执行更准确的匹配。

在一个示例中，该过程是由一个或多个处理系统作为分布式架构的一部分操作来执行的，现在将参照图2对其示例进行描述。

在这个示例中，基站201经由通信网络(如互联网202和/或多个局域网(LAN)204)联接至多个计算机系统203。将认识的是，网络202、204的配置仅用于示例性目的，并且实际上基站201和计算机系统203可以经由任何恰当的机构进行通信，如经由包括但不限于移动网络、如802.11网络的专用网络、互联网、LAN、WAN等的无线或有线连接、以及经由如蓝牙等直接或点对点连接。

在一个示例中，基站201包括联接至一个或多个数据库211的一个或多个处理系统210。例如，基站201被适配成用于执行搜索以及处理图像以创建参考图像的索引。基站还可以用于执行辅助过程，如管理计费和其他相关操作。计算机系统203因此被适配成用于与基站201通信，例如通过选择相关的第一参考图像和图像标签而允许样本图像被提交、查看搜索结果以及控制搜索过程。

虽然基站201被显示为单个实体，但将认识的是，基站201可以例如通过使用被提供作为基于云的环境的一部分的处理系统210和/或数据库211而分布在多个地理上分开的位置上。然而，上述安排不是必不可少的并且其他合适的配置可以被使用。

图3中示出了合适的处理系统210的示例。在这个示例中，处理系统210包括如所示的经由总线304互连的至少一个微处理器300、存储器301、可选的输入/输出装置302以及外部接口303。在这个示例中，外部接口303可以用于将处理系统210连接于外围装置，如通信网络202、204、数据库211、其他存储装置等。尽管示出的是单个外部接口303，但这仅是出于示例的目的，并且实际上可以提供使用各种方法(例如，以太网、串口、USB、无线等)的多个接口。

在使用时，微处理器300执行呈应用软件形式存储在存储器301中的多条指令从而允许执行搜索和相关的过程以及允许与计算机系统203进行通信。应用软件可以包括一个或多个软件模块并且可以在合适的执行环境(如操作系统环境等)中被执行。

因此，将认识的是，处理系统210可以由任何合适的处理系统形成，如适当编程的计算机系统、PC、web服务器、网络服务器等。在一个具体示例中，处理系统210是标准处理系统(如32位或64位基于Intel架构的处理系统)，该处理系统执行存储在非易失性(例如，硬盘)存储器上的软件应用(尽管这不是必不可少的)。然而，还将理解的是，处理系统可以是任何电子处理装置，如微处理器、微芯片处理器、逻辑门配置、可选地与实现逻辑相关联的固件(如FPGA(现场可编程门阵列))或任何其他电子装置、系统或安排。

如图4中所示，在一个示例中，计算机系统203包括如所示的经由总线404互连的至少一个微处理器400、存储器401、输入/输出装置402(如键盘和/或显示器)以及外部接口403。在这个示例中，外部接口403可以用于将计算机系统203连接于外围装置，如通信网络202、204、数据库211、其他存储装置等。尽管示出的是单个外部接口403，但这仅是出于示例的目的，并且实际上可以提供使用各种方法(例如，以太网、串口、USB、无线等)的多个接口。

在使用时，微处理器400执行呈应用软件形式存储在存储器401中的多条指令从而允许与基站201进行通信，例如，允许向其供应图像并允许向用户显示搜索过程的细节。

因此，将认识的是，计算机系统203可以由任何合适的处理系统形成，如适当编程的PC、互联网终端、膝上型计算机、手持式PC、智能电话、PDA、web服务器等。因此，在一个示例中，处理系统210是标准处理系统(如32位或64位基于Intel架构的处理系统)，该处理系统执行存储在非易失性(例如，硬盘)存储器上的软件应用(尽管这不是必不可少的)。然而，还将理解的是，计算机系统203可以是任何电子处理装置，如微处理器、微芯片处理器、逻辑门配置、可选地与实现逻辑相关联的固件(如FPGA(现场可编程门阵列))或任何其他电子装置、系统或安排。

现在将进一步详细地描述搜索过程的示例。出于这些示例的目的，假设处理系统210主管网页从而允许用户提交样本图像并查看搜索结果。处理系统210因此通常是根据可用的具体网络基础设施经由通信网络等与计算机系统203进行通信的服务器。为了实现这个目的，基站201的处理系统210通常执行用于主管网页并执行搜索以及为参考图像编索引的应用软件，其中，由处理系统210执行的动作由处理器300根据被存储为存储器301中的应用软件的指令和/或经由I/O装置302从用户接收到的输入命令或从计算机系统203接收到的命令来执行。

还将假设的是，用户经由呈现在计算机系统203上的GUI(图形用户界面)等并且在一个具体示例中经由显示由基站201主管的网页的浏览器应用与处理系统210进行交互。然而，替代地，这可以使用与现有客户端应用接口连接的API来实现。由计算机系统203执行的动作由处理器401根据被存储为存储器402中的应用软件的指令和/或经由I/O装置403从用户接收到输入命令来执行。

然而，将认识的是，上述出于以下示例的目的所假设的配置不是必不可少的，并且可以使用许多其他配置。还将认识的是，计算机系统203与基站201之间的功能的划分可以根据具体的实现方式而变化。

现在将参照图5A和图5B更详细地描述处理图像的方法的示例。

在这个示例中，在步骤500采集图像。在参考图像的情况中，这通常是从例如作为以下参考图6更详细描述的加索引程序的一部分的现有参考图像数据库中获得的。在样本图像的情况下，如例如在图10中所示并如以下更详细描述的，这可以是经由用户、经由如网页等合适的用户界面提交的。

在步骤505，所采集的图像被转换成灰度图像并且然后在步骤510被滤波，例如使用高斯滤波器来使图像内的边缘平滑。在执行此步骤之前，可以使用二值阈值化从图像中去除背景颜色。在步骤515，可以通过应用局部最大滤波器来使图像归一化，从而使得具有最高强度的像素被设置为最大值，而具有最低强度的像素被设置为最小值。此外，如将在以下特定示例中讨论的，还可以执行进一步的处理，如填充掩模的洞、平滑处理等。

在步骤520，确定多个特征聚类。执行这个的方式将取决于特征的性质。例如，如果图像包括文本，这可以利用光学字符识别(OCR)技术被标识，其中，这些字母表示具体的聚类，而针对标志，图像的多个连续元素可以表示各自的聚类。

在步骤525，围绕不同的特征聚类画包围盒以便将参考图像分割成多张子图像。在这个阶段，这些子图像和图像可以被呈现给用户，从而允许用户修改包围盒并因此修改分割。这允许执行对图像分割的可选手动检查，其在图像的不同部分通过纯自动化技术难以标识的情况下会是有用的。

然后，在步骤530，剪裁这些图像和子图像以去除任何外来背景。这通常是通过标识背景颜色并且然后逐渐去除多行像素直到图像的无背景部分被实现来执行的。

因此，在这个阶段，对应于单独特征聚类的原始参考图像和子图像的多张经剪裁的图像被准备好。然后，在步骤535，将这些图像的大小重新调整为标准大小，从而使得可以直接比较这些标准图像大小。

在步骤540，从经剪裁的图像中提取多个特征，其中，这些特征用于形成一个或多个特征向量。通常针对每张经剪裁的图像获得一个特征向量并且因此将针对每张参考和样本图像确定多个特征向量。这些特征向量通常指示特征，如像素在具体位置的强度，并且生成这些特征向量的方式将被本领域技术人员所领会。这因此将不会被进一步详细地描述。

无论如何，通过利用常见技术处理样本图像和参考图像两者，这确保了样本图像与参考图像的特征向量是等效的，从而允许在不要求额外处理的情况下执行对特征向量的直接比较。

现在将参照图6更详细地描述创建索引的过程的示例。

在这个示例中，在步骤600，接收参考图像。这些参考图像通常是从参考数据库(如商标数据库等)中提取的。在步骤605，选择下一张图像，在步骤610，处理这张图像，从而如以上关于图5A和图5B所描述的确定特征向量。

在步骤615，参考图像与子图像的细节以及该图像和子图像的特征向量一起被添加至参考图像的索引中。此外，与图像相关联的、以元数据标签为形式的任何图像标签也被存储为索引的一部分，尽管替代地这可以被存储为分开的索引的一部分。

在步骤620，确定图像是否是完整的，并且如果不是完整的，则该过程转至允许选择图像的步骤605。否则，在步骤625，一旦索引是完整的，这就可以用于执行搜索。

现在将参照图7A和图7B更详细地描述用于执行搜索的示例过程。

在这个示例中，样本图像是由处理系统210例如使用如在用户的计算机系统203上经由浏览器呈现的网页的接口接收的。在图10中示出了包括样本图像1001和多个选项1002的示例接口，这些选项可以被选择以控制搜索过程。选项通常包括文本搜索、图像颜色反转、子图像分割、按状态(例如，搜索对应于具有特殊状态的商标的参考图像)或类别或数据集(如不同国家的TM、web图像、应用商店图像、在线零售图像等)进行过滤。每个选项通常使附加选项能够被控制，其中，子图像的分割被示出从而允许调整该分割。控件1003允许上传和搜索图像。

在步骤705，利用以上关于图5A和图5B所描述的处理技术来处理样本图像，从而由此确定多个特征向量。然后，在步骤710，按照索引针对所包含的参考图像搜索这些特征向量。因此，这涉及在步骤715执行将样本图像特征向量与参考图像特征向量的比较以标识与样本图像相似的第一参考图像。

在步骤720，经由合适的用户界面(如在用户的计算机系统203上经由浏览器呈现的网页)向用户显示第一图像。图11中示出了这种界面的示例。如所示，这显示了样本图像1101以及多张第一参考图像1102。也可以提供多个搜索选项1103，如用于例如按类别对结果过滤或者用于示出文本或图像搜索结果的过滤器。这允许用户查看这些样本第一参考图像并且然后选择如例如在图12中示出的这些图像中被认为相关的图像。

在步骤730，处理系统210获得与选定的第一参考图像相关联的图像标签并且然后在步骤735对这些图像标签进行排名。在此方面，将认识的是，这些选定的参考图像中的每张图像将具有一个或多个图像标签并且常见的图像标签可以跨多张图像使用。因此，可以执行频率分析以确定这些图像标签中的每个图像标签的电流的相对频率，从而允许对这些图像标签进行排名。

在步骤740，经由如例如在图13中示出的界面向用户显示这些经排名的图像标签。在这个示例中，该界面包括样本图像1301、图像标签列表1302以及选定的图像列表1303。具有下拉字段的搜索选项1304也可以被呈现，从而允许结果被过滤，其中，仅出于示例目的示出状态、类别和文本字段。

这允许用户选择看起来最适合于样本图像的那些图像标签，其中，这些图像标签然后用于在步骤750对参考图像执行进一步的搜索。

一旦已经在步骤755标识了相关的第二图像，那么可以例如基于相似性程度、共用的图像标签等对第一和第二图像进行排名。在此方面，将认识的是，落入第一和第二两个图像分组内的参考图像通常将会被优先化。如例如在图14中所示，然后可以在步骤765向用户显示这些结果。

因此，上述过程允许基于样本图像和与参考图像相关联的描述符来执行搜索。

现在将描述组合图像识别和元数据的迭代搜索的特定示例。

这个示例描述了一种以迭代的方式在一个或多个数据库中搜索图像的系统和方法，从而使得可以使用基于计算机的图像识别算法来标识视觉上相似的图像、可以标识对最相关的结果图像进行描述的基于文本的元数据并且可以进行组合式图像和文本搜索以便提高搜索结果的相关性。

如在图8中概述的，所提出的系统的一个示例包括用户发起的图像搜索800的步骤，由此使用图10中示出的界面将查询图像上传至搜索系统。系统执行图像识别805以标识数据库中与查询图像最相似的图像，在810，为用户呈现如在图11中所示的那些结果，并且可以经由用户界面选择他/她在815找到的如在图12中所示的最相关的那些结果中的所有或一些结果。系统然后在820从那些选定结果的元数据中提取基于文本的图像标签来整理并对针对那些结果的最相关的描述符列表进行排名并如在图13中所示的在825将其返回呈现给用户。如在图14中所示，用户然后可以在830将那些基于文本的图像标签与他的/她的搜索图像进行组合以用组合式文本和图像开始新的搜索。

然后，使用相似的过程以如图9中概述的这些步骤进行组合式图像和文本搜索，由此在900将查询图像和查询文本(基于文本的图像标签)提供给搜索系统。在905，搜索系统如前所述经由其图像识别子系统执行图像识别搜索并且它在910还另外针对图像元数据的数据库进行文本搜索(经由其元数据文本搜索子系统)。从两个子系统搜索中所产生的图像在915被组合并在920如在图14中所示的被返回呈现给用户。系统的其余部分与之前在图8中所描述的一样。用户可以经由在925至940的这个过程用附加元数据迭代地进行并细化搜索。

非常明显的是，图9是图8的概括形式，由此用户可以用使用了组合的图像和文本两者的查询开始。

针对这种系统，所需要的部件包括：图像识别搜索子系统、元数据文本搜索子系统、对来自每个搜索子系统的图像结果进行组合和排名的方法以及对来自这些选定结果的基于文本的图像标签进行组合和排名的方法。以下详述了这些部件的示例。

存在许多潜在的图像识别算法可能用于图像识别搜索子系统，由此查询图像得以与已知图像的数据库进行比较。在赵(Zhao)、切拉帕(Chellappa)和菲利普斯(Phillips)的“人脸识别：文献调查(Facerecognition:Aliteraturesurvey)”(2003)中审查了多种图像识别算法。一种针对图像识别技术的可能方法基于词袋方法。词袋方法是从自然语言处理中衍生出来的，其中，在分析文献时忽略单词的顺序。在计算机视觉中，词袋方法启发了针对图像表示的相似想法，其中，不保存所提取的图像特征的位置的准确顺序。

根据一个示例，本系统利用一种用于图像识别的多区域概率直方图方法。桑德森(Sanderson)等人(桑德森等人，“Multi-RegionProbabilisticHistogramsforRobustandScalableIdentityInterference(用于鲁棒和可扩展标识干扰的多区域概率直方图)”，生物统计学国际会议，计算机科学讲义，第5558卷，第198-208页，2009)(下文中称为“桑德森”)描述了示例性多区域概率直方图技术。多区域概率直方图方法提出图像被分成若干个较大区域。根据一个示例，紧密剪裁的图像被分成3×3的栅格，从而产生大致对应于眼睛、前额、鼻子、脸颊、嘴和下巴区域的九个区域。在每个区域内，从较小的块中提取图像特征。桑德森提出一种用于从8×8的像素块中提取离散余弦变换(DCT)特征并且将这些系数归一化，仅保留较低频率系数(前16个系数)并废弃第一个常数系数(产生15个剩余的系数)的方法。

在训练过程中，使用高斯方法的混合建立视觉字典以聚类这些提取的DCT特征并按照由每个高斯聚类的主高斯以及相关联的概率分布函数所表达的生成视觉单词的似然模型。在评估过程中，每个提取的DCT特征与视觉字典比较以针对视觉字典中的每个视觉单词计算特征向量的后验概率。这产生维数等于视觉字典中的高斯数的概率直方图向量。本系统针对每个块生成概率直方图并在每个图像区域之将它们平均化。图像特征签名是这些区域直方图的连结并且是表示图像中的对象图像的图像特征。可以比较两张图像以通过使用距离/相似度度量比较两个图像特征签名来确定它们是否表示同一对象。桑德森提出了一种用于计算两个签名之间的L1范数的方法。距离越小，两张图像越有可能表示同一对象。

对于元数据文本搜索子系统，存在许多用于文本搜索的开放源和可商购的系统。除其他以外，众所周知的开放源系统包括Lucene(全文搜索引擎)、SOLR和ElasticSearch(开源分布式搜索引擎)。例如，Lucene针对在查询中呈现的每一项遍历数据库中的元数据并且将匹配文档放入大小为K的堆中以计算并返回前K个文档匹配(在这种情况下，每个文档是与数据库中的每张图像相关联的元数据，因此实质上是基于元数据匹配返回前K张图像)。

图像和文本搜索子系统两者通常都返回分数以指示相对于其他结果匹配与查询的相关程度。

为了组合图像识别结果与文本搜索结果并对其进行排名，可以使用不同的方法。假设被搜索的数据库是相同的或者跨图像和文本搜索子系统两者重叠，一种用于组合搜索结果的方法是看这些匹配是否满足不同的标准和针对每个标准具有优先顺序。一个示例是对同时出现的结果(即，由图像和文本搜索子系统两者发现的结果)确定优先次序。针对未同时出现的这些结果的其余部分，它们可以基于每个结果的搜索分数以多种方式被组合。例如，通过按照每个集合的分数进行排序，然后按排名顺序插入这些结果。替代地，系统可以尝试跨不同的搜索子系统将这些分数归一化(例如，如果是线性的，在0与1之间对其进行缩放)，或者如在Mau2012，“GaussianProbabilisticConfidenceScoreforBiometricApplications(生物计量应用的高斯概率置信分数)”中所描述的基于已知的分布将分数转换成概率。如果基于返回的图像的分数或概率将阈值应用于这些图像和文本结果，那么仍然可以使用以上方法(排序、插值、归一化)。一种甚至更简单的方法在彼此前后或彼此旁边仅显示一组结果。

在所提出的系统中，在用户选择他/她认为最相关的图像结果(如在图12中所示)之后，系统使用来自那些结果的基于文本的图像标签元数据来在基于文本的图像标签上提出有待添加至搜索查询的建议(如在图13中所示)，由此增强图14中所示的结果。

对图13中向用户呈现的基于文本的图像构成的列表进行整理和排名可以简单地是所产生的图像的元数据中的排名后的出现频率。对基于文本的图像构成的排名还可以被加权具体构成的唯一性(或可辨性)的测量值。例如，单词“CIRCLE(圆圈)”和“FOUR(四)”是比单词“QUATREFOIL(四瓣花)”常见得多的描述符，因此QUATREFOIL将有可能更好地缩小搜索结果。针对元数据中的构成的一个这种权重可以是：具有那个构成的结果的总数/数据库中的总结果。

通常在商标数据库中，这些基于文本的图像构成或描述符由商标局提供为元数据。清楚的是，这种系统通常可以轻易地扩展成图像数据库(不仅仅是商标)。

针对其他数据库，基于文本的图像描述可以通过包括如对象识别、光学字符识别、颜色和形状滤波、手动加标签的信息或图像标签、EXIF数据或图像周围的元数据标签(例如，HTML标签)的图像处理技术的各种手段来获得。

此外，基于文本的图像标签可以是单个单词、多个单词、短语、颜色或位置(包括坐标)。

系统的变体示例是这个迭代搜索系统的自动化版本，由此不需要用户。针对这种系统，系统将自动地使用靠前的搜索结果(例如，通过使用前N个结果，或者如较早所描述的通过对这些搜索结果分数阈值化)，而不是让用户来选择最相关的搜索结果。从那些靠前的结果生成最相关的基于文本的图像标签的排名列表。系统然后可以选择前K个最频繁的基于文本的图像标签(或对频率应用阈值)并添加那些基于文本的图像标签来完成随后的图像+文本查询。针对这种自动化系统，迭代搜索可以基于某些预定义的规则(例如，当在随后的搜索中图像搜索与文本搜索之间的重叠匹配数量停止增加时)而停止。

这种系统还可以包括在原始查询图像中分割相关子组成部分的预处理步骤，从而进行各自以子组成部分图像开始的多个查询序列。

另一个变体示例是允许迭代搜索添加基于文本的图像标签或者选定的结果图像自身(即，用多张图像+多个文本作为查询的搜索)。这可以通过组合多个单图像搜索或者使用图像集匹配方法(哈兰迪(Harandi)等人，2011，“GraphembeddingdiscriminantanalysisonGrassmannianmanifoldsforimprovedimagesetmatching(针对改进的图像集匹配对格拉斯曼流型的图形嵌入判别分析)”)而轻易地完成。

如对象识别、光学字符识别、颜色和形状滤波的图像处理技术还可以应用于其被编入索引的图像数据库以及查询图像两者中以便有进行更多的文本描述符和因此更多基于文本的元数据搜索。此外，其对于用于分割的图像预处理会是有用的，例如，将图像的文本区从图像的标志部分中分割出来。

现在将描述使用图像处理的商标图案匹配的特定示例。

本示例广义上提供了一种处理来自一个或多个数据库(例如，商标图案数据库)的图像的系统和方法，从而使得这些视觉上相似的图像可以使用基于计算机的图像识别算法被标识并且被排名。

商标数据库存在另一个挑战，即，针对图像格式的规则多年来已经改变了。而且，这些规则太少了，从而使得在文件中提供这些图案的方式存在许多变化。例如，许多较早的商标图案是从纸质文件扫描而来的，其中，在不是图案的一部分的边缘中存在管理框架、边界和文本。此外，在商标数据库中的许多图像在单个图像文件中包含多个图案。另一复合问题是许多商标图案包含标志和手写名字两者。虽然名字被认为是图案的一部分，但搜索者也经常单独考虑标志组成部分的相似度。

所有这些意味着允许视觉上相似的图像搜索的系统需要对图像进行显著的预处理以隔离这些相关的组成部分从而如针对商标混淆所定义的基于相似度规则进行比较(而不是武断判断)。因为存在许多(通常上百万的)注册商标，这种预处理必须基本上是自动化的。

所提出的系统的一个示例包括以下步骤：经由在图像内分割子图像对来自商标数据库的图像进行自动化预处理，然后将图像和子图像缩放到预定大小，然后产生的每张图像和子图像经历特征提取步骤，由此图像中的图案被概括为“特征”，并且然后这些图像、子图像和特征被编索引至数据库中以用于搜索。

所提出的系统的另一个示例包括经由在图像内分割子图像对来自商标数据库的图像进行自动化预处理的步骤、然后由人查看那些子图像的人工步骤，然后将图像和子图像缩放到预定大小，然后产生的每张图像和子图像经历特征提取步骤，由此图像中的图案被概括为“特征”，并且然后这些图像、子图像和特征被编索引至数据库中以用于搜索。

经由分割子图像对来自商标数据库的图像进行预处理的步骤可以采取各种形式。

一个具体的示例涉及保存原始图像并且从该原始图像中分割出子图像。

另一个示例是保存原始图像，然后分割图像的文本部分，然后使图像的文本部分被来自原始图像的分割的子图像掩盖。

另一个示例如上，其中，所有图像和子图像首先被修整。

修整步骤可以通过确定或估计背景像素颜色(例如，通过假设图像左上角是背景颜色或者通过将图像的4个顶角或边界平均化)或者通过只是假设背景应当为白色或白色阴影(即，强度值高于240但不够255，其中，255是纯白色)来完成。然后，从图像的所有4条边缘向内剪裁直到一个或多个像素满足不是如以上定义的背景像素颜色为止。图像然后被剪裁成那个产生的包围盒，从而返回经修正的图像。

然而，可以替代地使用技术，如在灰度图像上迭代地增加阈值直到在阈值的任一侧上的像素数量停止变化为止。背景颜色然后被选择为具有的较大像素数量作为背景颜色的侧，其中，然后使用那些像素的掩模去除这个背景颜色。

检测并分割图像的文本部分的方式的示例可以基于最初由沃尔(Wahl)、王(Wong)和凯西(Casey)提出的“ConstrainedRun-LengthAlgorithm(受约束的游程长度算法)”的变体(“Blocksegmentationandtextextractioninmixedtext/imagedocuments(混合文本/图像文件中的块分割和文本提取)”，计算机图形图像处理，1982)。另一种方法是由爱泼斯坦(Epshtein)、奥菲克(Ofek)和韦克斯勒(Wexler)提出的笔画宽度变换(SWT)算法的变体(“Detectingtextinnaturalsceneswithstrokewidthtransform(用笔画宽度变换检测自然场景中的文本)”，计算机视觉和图案识别，2010)。

当文本被检测时，那个部分被剪裁并且被保存为子对象。然后，在原始图像中掩盖那个区域，例如，通过基于用图像背景颜色(通常是白色)填充的原始文本区域创建新的图像。在一个示例中，文本检测是根据预期文本项的白名单执行的。例如，与图像相关联的元数据通常包括包含对图像内的任何文本的指示，并且因此这可以用于建立白名单，该白名单然后可以与OCR过程的结果进行比较以方便准确地检测文本。

在原始图像或去除文本的图像内如何分割多个不同的子图像(即，在一个图像文件中的多个图案，或者在图像文件的图案的多个组成部分)的示例涉及首先将该图像转换成灰度级，然后使用这些步骤的组合：高斯滤波器使边缘平滑化(帮助将附近的相邻的形状连结在一起)、应用局部最大值滤波，由此将在其邻域中的最大值的所有像素设置为最大(白色)、填充掩模的洞、通过在那个掩模上执行二值开闭操作而使边缘平滑、然后对该掩模阈值化以得到聚类、并且导出那些聚类的包围盒。这些盒可以基于大小要求被排名或被过滤，并最终被修整和被保存为子图像。然而，将认识的是，可以使用其他技术。

一旦图像和子图像(文本和图像两者)已经被剪裁、修整和缩放，那么可以提取特征。

不同的特征可以应用于不同类型的图像。例如，可以差异对待文本被剪裁的图像以便进行光学字符识别(OCR)。然而“仅图像”的图像可以使用不同的特征。

一种针对图像识别技术的可能方法基于词袋方法。词袋方法是从自然语言处理中衍生出来的，其中，在分析文献时忽略单词的顺序。在计算机视觉中，词袋方法启发了针对图像表示的相似想法，其中，不保存所提取的图像特征的位置的准确顺序。

根据一个示例，本系统执行自动对象检测以检测图像中的对象(例如，标志、产品和品牌)。对象匹配通常涉及检测和提取图像中的独特特征。为了执行可靠的对象识别，重要的是从图像中提取的特征在图像比例、噪声、照明变化和视角变化的情况下是可检测的。本系统检测通常位于图像的高对比度区域(如对象边缘)上的点。

根据一个示例，本系统利用尺度不变量特征变换(SIFT)关键点检测技术，该技术包括计算在尺度空间中应用于图像的一系列逐渐平滑/模糊版本的高斯函数之差的结果的极大值和极小值。本系统为每个关键点指定主导方向，并且分析这些梯度幅值和方向以确定特征向量。特征向量然后可以用一种于如所描述的多区域直方图方法相似的方法经由将从图像中提取的每个特征向量与特征的视觉字典进行比较并存储所产生的概率直方图而被转化成特征直方图。本系统通过使用最近邻搜索跨图像比较那些特征来进一步匹配图像之间的特征，从而找出高于可接受阈值的某个匹配百分比。

因此，全部过程可以如图15所示。这广义上包括建立搜索引擎1500的这些步骤，其针对每张图像涉及用以下步骤中的一个或多个步骤对图像进行预处理。在步骤1505，执行背景和噪声去除，其涉及一些用于检测背景颜色、制作反转副本或者去除背景和去除噪声的预处理。在步骤1510，执行基于元数据的OCR，经由OCR(即，白名单)使用与商标中的已知词语有关的元数据来进行检测。如果被检测到的话，这些词语然后就被去除，其中，保存关于预期词语是否被找到并被去除的信息。

在1515，执行分割，其涉及在去除图像帖子文本时分割斑点。附近的对象被分组并且小的对象被删除，其结果是裁剪商标的标志组成部分。在1520，针对原始和分割图像中的每张图像执行特征提取，其中，根据需要处理图像(例如，修整、灰度化、缩放)并且如上所述提取特征。在1530，在所有图像被处理之后，特征被整理成若干个数据阵列并且被加载到图像搜索工作器中。

如图16中所示，当搜索时，执行一组相似的步骤。因此，在这个情况中，针对每个样本图像，用以下步骤中的一个或多个步骤在1600对图像进行预处理。

在1605，执行背景和噪声去除，其涉及一些用于检测背景颜色、制作反转副本或者去除背景和去除噪声的预处理。在1610，执行OCR来检测词语，这些词语如果被检测到就被去除，其中，保存关于预期词语是否被找到并被去除的信息。

在1615，执行分割以在去除图像帖子文本时分割斑点。执行附近对象的分组以及小对象的删除，其结果是裁剪商标的标志组成部分。在这个阶段，可以在1620可选地将经处理的图像呈现给用户，从而允许用户批准、修改或创建片段。

在1625，执行特征提取，其中，根据需要对图像进行处理，例如，在提取特征之前进行修整、灰度化、重新调整大小等。

在1630，依靠图像搜索工作器执行搜索，其中，这些结果被整理并返回给用户。

这是过程并且相关联的工作流程在图17中被进一步示出。

在这个示例中，图像1701被上传至服务器210，在该服务器处，在1702，例如经过执行OCR、分割和特征提取对该图像进行处理。作为这个过程的一部分，可以寻找用户输入1703(例如)以指导分割过程。

处理之后，图像在1705被转发至一个或多个搜索模块1704。在此方面，如将由本领域技术人员认识到的，每个模块可以包括参考图像的全部集合的一部分，从而使得对整个集合的处理可以由多个模块并行地执行。

然后，结果被整理，其中，在1706，从索引1707中存储的文本元数据中获得呈图像标签形式的元数据。在1708，包括元数据的结果被呈现给用户，其中，在1709执行用户选择相关图像和/或元数据。在1710，上传用户选择，从而允许基于文本元数据1707执行文本搜索。

这些结果在1711被组合并在1712被提供给用户，从而允许根据需要重复步骤1709至1712，允许这些结果被进一步细化。

贯穿本说明书和以下权利要求书，除非上下文另外要求，否则词语“包括(comprise)”和如“包括(comprises)”或“包括(comprising)”等变体将被理解为暗示包括阐明的整数或一组整数或步骤，但不排除任何其他整数或其他组整数。

本领域技术人员将认识到许多变化和修改将变得明显。对本领域技术人员而言变得明显的所有这些变化和修改应当被认为落入前述本发明广义上出现的精神和范围之内。

Claims

1.用于执行多张参考图像的搜索的设备，该设备包括一个或多个电子处理装置，该一个或多个电子处理装置：

d)提供包括至少一些第一和第二参考图像的多个搜索结果。

2.根据权利要求1所述的设备，其中，该一个或多个电子装置：

3.根据权利要求1或权利要求2所述的设备，其中，该一个或多个电子装置：

a)向一个用户呈现至少一些第一参考图像；

4.根据权利要求3所述的设备，其中，该一个或多个电子装置根据一个第一图像排名向该用户呈现多张第一参考图像。

5.根据权利要求1至4中任一项所述的设备，其中，该一个或多个电子装置：

a)根据一个出现频率确定一个图像标签排名；

6.根据权利要求1至5中任一项所述的设备，其中，该一个或多个电子装置：

c)使用该至少一个选定的图像标签搜索该多张参考图像。

7.根据权利要求6所述的设备，其中，该一个或多个电子装置根据一个图像标签排名呈现多个图像标签。

8.根据权利要求1至7中任一项所述的设备，其中，这些图像标签包括多个元数据标签。

9.根据权利要求1至8中任一项所述的设备，其中，该一个或多个电子装置：

a)确定这些第一和第二参考图像的结果排名；并且，

b)根据该结果排名提供这些搜索结果。

10.根据权利要求9所述的设备，其中，该一个或多个电子装置根据以下各项中的至少一项确定该结果排名：

a)第一图像排名；

b)第二图像排名；以及，

c)组合的第一图像排名和第二图像排名。

11.根据权利要求10所述的设备，其中，该一个或多个电子装置根据这些第二参考图像与这些图像标签的相似度来确定一个第二图像排名。

12.根据权利要求1至11中任一项所述的设备，其中，该一个或多个电子装置从该用户接收该样本图像。

13.根据权利要求1至12中任一项所述的设备，其中，该一个或多个电子装置处理该样本图像。

14.根据权利要求13所述的设备，其中，该一个或多个电子装置通过以下操作来处理该样本图像：

a)分割该样本图像以形成多张样本子图像；并且，

b)使用该样本图像和这些样本子图像搜索该多张参考图像。

15.根据权利要求14所述的设备，其中，该一个或多个电子装置通过以下操作来分割该样本图像：

a)确定多个图像特征聚类；并且，

b)根据多个聚类分割该图像。

16.根据权利要求15所述的设备，其中，该一个或多个电子装置通过以下操作来分割该样本图像：

a)将该样本图像转换成一张灰度图像；

b)对该灰度图像进行滤波以生成一张经滤波的灰度图像；

d)确定该归一化图像内的多个聚类。

17.根据权利要求13或权利要求14所述的设备，其中，该一个或多个电子装置通过以下各项中的至少一项来处理该样本图像：

a)对该样本图像和这些样本子图像进行缩放；

c)去除以下各项中的至少一项：

i)图像背景；

ii)噪声；以及，

iii)文本。

18.根据权利要求15所述的设备，其中，该一个或多个电子处理装置通过以下操作对该样本图像和这些样本子图像进行缩放：

19.根据权利要求13至18中任一项所述的设备，其中，该一个或多个电子处理装置通过以下操作来处理该样本图像：

a)执行光学字符识别来检测文本；并且，

b)从该图像中去除文本。

20.根据权利要求13至19中任一项所述的设备，其中，该一个或多个电子处理装置：

b)使用这些样本图像特征来确定一个样本特征向量。

21.一种用于执行多张参考图像的搜索的方法，该方法包括：

d)提供包括至少一些第一和第二参考图像的多个搜索结果。

22.用于在搜索多张参考图像时使用的设备，该设备包括一个或多个电子处理装置，该一个或多个电子处理装置：

a)采集至少一张图像；

23.根据权利要求22所述的设备，其中，该方法包括创建一个索引，该索引包括多张参考图像，每张参考图像与多张子图像和多个图像特征相关联。

24.根据权利要求22或权利要求23所述的设备，其中，该一个或多个电子装置通过分割该图像以形成这些子图像来处理该样本图像。

25.根据权利要求24所述的设备，其中，该一个或多个电子装置通过以下操作来分割该图像：

a)确定该图像中的多个特征聚类；并且，

b)根据这些聚类分割该图像。

26.根据权利要求24或权利要求25所述的设备，其中，该一个或多个电子装置通过以下操作来分割该图像：

a)将该图像转换成一张灰度图像；

b)对该灰度图像进行滤波以生成一张经滤波的灰度图像；

d)确定该归一化图像内的多个聚类。

27.根据权利要求22至26中任一项所述的设备，其中，该一个或多个电子装置通过以下各项中的至少一项来处理该图像：

a)对该图像和这些子图像进行缩放；

b)从该图像和这些子图像中确定多个图像特征；并且，

c)去除以下各项中的至少一项：

i)图像背景；

ii)噪声；以及，

iii)文本。

28.根据权利要求27所述的设备，其中，该一个或多个电子处理装置通过以下操作来对这些图像进行缩放：

29.根据权利要求22至28中任一项所述的设备，其中，该一个或多个电子处理装置通过以下操作来处理该图像：

a)执行光学字符识别来检测文本；并且，

b)从该图像中去除文本。

30.根据任一权利要求29所述的设备，其中，当该图像是一张参考图像时，该一个或多个电子处理装置将该文本与一个索引中的参考图像进行关联。

31.根据权利要求22至30中任一项所述的设备，其中，该一个或多个电子处理装置：

b)使用这些图像特征来确定一个特征向量。

32.一种用于在搜索多张参考图像时使用的方法，该方法包括：

a)采集至少一张图像；

33.一种用于执行图像搜索的方法，该方法包括以下步骤：

a)用户将查询图像上传至一个搜索引擎；

c)为用户呈现多个匹配图像结果；

d)用户将那些匹配图像结果中的所有或部分匹配图像结果选为最相关的匹配图像结果；

f)为用户呈现图像标签的列表；并且，

34.一种用于执行图像搜索的搜索系统，该搜索系统包括一个搜索引擎，并且其中：

a)用户将查询图像上传至一个搜索引擎；

c)为用户呈现多个匹配图像结果；

f)为用户呈现图像标签的列表；并且，

35.一种用于对来自商标数据库的多张图像进行预处理的方法，该方法包括：

a)在该图像内分割多张子图像；

b)将该图像和这些子图像缩放到一个预定大小；

36.对来自商标数据库的图像进行预处理的设备，该设备包括一个计算机系统，该计算机系统执行：

a)在该图像内分割多张子图像；

b)将该图像和这些子图像缩放到一个预定大小；