CN107085585B

CN107085585B - 用于图像搜索的准确的标签相关性预测

Info

Publication number: CN107085585B
Application number: CN201611132510.XA
Authority: CN
Inventors: 林哲; 沈晓辉; J·勃兰特; 张健明; 方晨
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2016-02-12
Filing date: 2016-12-09
Publication date: 2023-06-06
Anticipated expiration: 2036-12-09
Also published as: CN107085585A; GB201621118D0; US10235623B2; US20170236055A1; GB2547313A

Abstract

本发明的各实施例总体上用于图像搜索的准确的标签相关性预测。具体地，本发明的实施例提供了一种自动图像标记系统，其可以预测可以用于基于关键字的图像检索、图像标签建议和基于用户输入的图像标签自动完成的标签的集合以及相关性得分。最初，在训练期间，使用聚类技术来减少被输入到用于训练特征数据的卷积神经网络(CNN)中的数据中的集群不平衡。在实施例中，聚类技术还可以用于计算可以用于标签传播(以标记未标记的图像)的数据点相似性。在测试期间，利用基于多样性的投票框架来克服用户标记偏差。在一些实施例中，二元语法重新加权可以基于预测的标签集合来降权可能是二字母的一部分的关键字。

Description

用于图像搜索的准确的标签相关性预测

技术领域

本申请的各实施例总体上涉及图像搜索领域，具体是涉及用于图像搜索的准确的标签相关性预测。

背景技术

基于因特网的搜索引擎传统上采用常见的图像搜索技术来定位万维网上的数字图像内容。这些公知的图像搜索技术之一可以被分类为“基于文本的”图像搜索。传统的基于文本的图像搜索可以接收基于文本的查询，该基于文本的查询用于搜索具有关键字标记的图像的数据库，以生成每个具有与基于文本的查询匹配的一个或多个关键字标签的结果图像集合。这些基于文本的搜索主要依赖于在其上进行搜索的图像数据库中的关键字标签的质量和细节水平。这些关键字标签通常由自动标记系统来提供。

当前标记系统将标记视为图像分类问题。在这些系统中，为每个可能的标签收集大量样本或训练图像。然后可以训练分类器以确定给定测试图像(例如，尚未被标记的图像)的最可能的标签。然而，当标签的数目非常大(例如，大于10000)时，训练每个分类器在计算上是一种挑战。此外，这些系统通常忽略稀有标签，并且不能为给定图像分配非常特定的标签。此外，当类似的图像由类似的注释者注释时，由这些系统传播的关键字标签可能被破坏。在这些情况下，即使图像具有一些差异，由于图像和注释者的相似性，它们可以用相同的标签注释，通常称为标签偏差。甚至进一步地，大的数据集合通常被聚类以分组类似的数据点，其可以由分类器用来将一个组(例如，标签)与另一个区分开。然而，当前聚类算法经常导致不平衡数据，其中大多数数据点(例如，图像)在同一集群中，留下具有很少或没有数据点(例如，图像)的其它集群。作为这些和其他限制的结果，这样的系统通常不足以标记和检索真实世界图像。

发明内容

提供本发明内容以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并非旨在标识要求保护的主题的关键特征或必要特征，也不应当用于帮助确定要求保护的主题的范围。

本发明的实施例涉及图像标记系统。特别地，本发明的实施例提供了一种自动图像标记系统，其可以预测可以用于基于关键字的图像检索、图像标签建议和基于用户输入的图像标签自动完成的标签的集合以及相关性得分。使用增强的聚类技术来去除聚类不平衡并且改进用于预测图像的标签和相关性得分的分类器的训练。如上所述，集群不平衡是当大量数据点集中在少量集群中时发生的问题。集群不平衡导致训练期间的低效率以及测试期间的不准确性。因此，提出了一种解决方案，其通过以下方式来强化聚类上的大小上限：(a)去除特定大小的聚类的子集，以及(b)对任何剩余的优势聚类递归地应用KMeans聚类。以这种方式，当数据被输入到卷积神经网络(CNN)中时，CNN能够更有效地区分训练数据中存在的大量标签，这也使得CNN能够在测试期间更准确地标记未标记的图像。

然后可以利用增强的投票框架来克服用户标记偏差。如上所述，用户标记偏差是当训练图像集合已被类似注释者或类似标签提供者标记时发生的问题。提出了一种通过采用基于分集的投票框架来解决用户标记偏差的解决方案。特别地，在该框架下，可以考虑一对图像的标签序列的相似性。这使得能够确定标签提供者之间的相似性。因此，不是利用类似的投票计数来确定何时标记图像，而是可以测量在投票计数中消除相似用户的有效投票数，并且因此减小标记偏差。

附图说明

下面参考附图详细描述本发明，其中：

图1是示出根据本发明实施例的可以用于基于关键字的图像检索、图像标签建议和图像标签自动完成的标签系统的框图；

图2是示出根据本发明实施例的可以用于减少输入到CNN中的数据中的集群不平衡的示例性递归聚类技术的图；

图3是示出根据本发明实施例的被修改以去除用户标记偏差的基线KNN投票方案的图；

图4A和图4B以及5A和图5B是示出根据本发明实施例的指示基线KNN投票方案与Div-KNN投票方案之间的差异的示例性结果的图；

图6是示出根据本发明实施例的示例性结果的图，其中使用二元语法重新加权可以防止不期望的结果；

图7是示出根据本发明实施例的用于解决集群不平衡的方法的流程图；

图8是示出根据本发明实施例的用于改进稀有标签的标签预测性能的方法的流程图；

图9是示出根据本发明实施例的用于寻址用户标记偏差的方法的流程图；以及

图10是适于在实现本发明的实施例中使用的示例性计算环境的框图。

具体实施方式

在本文中具体描述本发明的主题以满足法定要求。然而，描述本身并非旨在限制本专利的范围。相反，发明人已经设想要求保护的主题还可以以其他方式实施，以包括与本文档中描述的步骤类似的不同步骤或步骤组合，结合其他现有技术或未来技术。此外，尽管术语“步骤”和/或“块”在这里可以用于指示所采用的方法的不同元素，但是这些术语不应被解释为暗示这里公开的各种步骤之间的任何特定顺序，除非明确地描述了各个步骤的顺序。

如在背景技术中指出的，当前标记系统通常在它们的有用性方面不足，因为它们被标记偏差和不平衡数据破坏，这可能影响图像检索系统的训练和测试。这些系统将标记视为图像分类问题，其中为每个标记(类)收集多个训练图像，并且训练二元分类器以计算标签独立给出图像的的概率。然而，当标签的数目非常大(例如，大于10000)时，训练每个分类器在计算上是一种挑战。由于标签的数目如此之大，以至于常规标记系统通常在预处理中应用聚类算法以使得数据更易于管理。然而，在很多情况下，将典型的聚类算法(例如，KMeans)应用于训练数据导致不平衡的聚类(即，其中少数主导聚类包含大多数数据点)，这导致差的预测性能，特别是对于罕见或非常具体的标签。这些缺陷最终导致较不精确的图像检索。

对于图像标记，最近的可缩放自动标记系统通常使用训练的卷积神经网络(CNN)在大规模的标记图像数据库中执行视觉相似性搜索。在检索相似图像(例如，K个最近邻居)之后，这些系统采用基于与图像数据库中的相似图像相关联的标签的标签投票方案。输出每个标签候选的投票数作为标签相关性得分。然而，在很多情况下，类似的数据可以由趋向于具有类似的标记偏差的类似的注释者注释，导致投票方案被这些用户标记偏差歪曲。例如，即使在图像的焦点实际上可能是人或其他物体并且日落仅仅是背景物体的情况下，一组检索到的相似图像可以由具有关键字“日落”的类似注释者标记。因为类似的注释者已经在“投票方案”期间将每个图像标记为“日落”，所以即使日落不是图像的焦点，标签相关性得分可以指示“日落”已经接收到最多投票作为标签相关性得分。作为这些和其他限制的结果，这样的系统通常不足以准确地标记和检索真实世界图像。

本发明的实施例总体上涉及训练分类器(例如，CNN)以预测标签(关键字)的集合以及图像的相关性得分(或概率)。预测的相关性加权标签(已经用对应标签相关性得分加权的标签)可以用于大规模基于关键字的图像检索、图像标签建议和基于用户输入的图像标签自动完成。本文描述的实现在训练分类器和测试分类器时利用各种算法来提高预测的准确性。特别地，增强的聚类技术提供更加平衡的聚类，这增加了训练效率并且减少过度拟合。此外，增强的投票方案减小标记偏差的效果，并且提供更好的预测性能，特别是对于罕见或非常具体的标签。因此，得到更准确的图像检索。

最初，在训练期间，使用聚类技术(例如，下面描述的改进的递归KMeans(R-KMeans)技术)来减少输入到用于训练特征数据的CNN(诸如上述的)的数据中的集群不平衡。改进的R-KMeans技术通过在去除所需大小的其他集群之后对剩余的优势集群(具有大多数数据点的集群)递归地应用KMeans聚类来克服集群不平衡。因此，生成平衡集群用于在图像检索系统中训练CNN特征。在一些实施例中，改进的R-KMeans聚类技术还可以用于测量可以用于标签传播(以标记未标记的图像)的数据点相似性(基于改进的R-KMeans聚类技术导致一对数据点在同一集群中的次数)。下面更详细描述的标签传播方法改进了稀有标签的标签预测性能。

在测试期间，利用基于多样性的投票框架来克服用户标记偏差。投票方案、下面更详细描述的Div-KNN投票方案采用基于分集的投票框架，以通过考虑用户(即，图像标签提供者)在投票期间有多类似来克服用户标记偏差。此框架允许合并类似注释者的投票，以减少用户标记偏差的影响。在一些实施例中，在图像检索期间利用二元语法重新加权来解决单词的含义可能不同于其在二元语法中的含义这一问题。以这种方式，基于预测的标签集合来对可能作为二元语法的部分的关键字降权。

现在参考图1，提供了根据本发明实施例的示出用于预测标签的集合以及相关性得分的标签系统100，预测标签的集合以及相关性得分可以用于基于关键字的图像检索、图像标签建议和基于用户输入的图像标签自动完成。应当理解，这里描述的这种和其他布置仅作为示例。除了所示的那些之外或代替所示的那些，可以使用其他布置和元件(例如，机器、接口、功能、命令和功能分组等)，并且一些元件可以完全省略。此外，本文描述的很多元件是可以被实现为离散或分布式部件或与其他部件结合、以及以任何合适的组合和位置实现的功能实体。本文描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来执行。例如，各种功能可以由执行存储在存储器中的指令的处理器执行。标记系统100可以经由任何类型的计算设备来实现，诸如下面参考图10描述的计算设备1000。在各种实施例中，标记系统100可以经由单个设备或者在分布式环境中协作的多个设备来实现。

标记系统100通常操作以针对图像的集合预测标签的集合以及相关性得分。如图所示，如图1所示，标记系统100包括数据库104A-104N、用户设备106A-106N和标记引擎110以及未示出的其他部件。应当理解，图1所示的标记系统100是一个合适的计算系统架构的示例。图1中所示的每个组可以经由任何类型的计算设备来实现，诸如参考图10描述的计算设备1000。部件可以经由网络102彼此通信，网络102可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这样的网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。应当理解，在本发明的范围内，可以在标记系统100内采用任何数目的用户设备、数据库和标记引擎。每个可以包括单个设备或在分布式环境中协作的多个设备。例如，可以经由布置在分布式环境中的共同提供本文描述的功能的多个设备来提供标记引擎110。在另一实例中，标记引擎110和包括标记系统100的一个或多个其他部件可以经由单个设备来提供。另外，未示出的其他部件也可以被包括在网络环境内。

如图1所示，标记系统100包括数据库104A-104N。数据库104A-104N可以由标记引擎110利用来存储图像、标签和/或相关性得分。例如，基于由用户提供的图像(诸如经由用户设备106A-106N)，可以由CNN学习特征。该特征可以用于访问数据库中的特定数据库。可以为图像预测所访问的数据库中的每个标签的得分。因此，可以将具有最高得分的标签传播到图像。

如图1所示，标记系统100包括用户设备106A-106N。用户设备106A-106N可以由标签提供者利用来标记存储在数据库104A-104N中的图像，由用户利用来提供存储在数据库104A-104N中的图像，和/或由执行图像搜索的用户来利用。

如图1所示，标记引擎110包括训练部件112、传播部件114和预测部件116以及其他未示出的部件。最初，在一些实施例中，训练部件112利用改进的R-KMeans聚类技术来减少被输入到用于训练特征数据的CNN(诸如上述的)中的图像数据(图像的特征向量)中的聚类不平衡。训练部件112通常被配置为训练分类器，该分类器稍后可以用于对图像进行分类或标记。分类器可以用于成像标记和/或图像检索。分类器可以是用于分类的任何分类器(对图像或标签进行分类)。例如，分类器可以是CNN。为了训练分类器，分析在数据库(诸如数据库104A-104N)中收集的样本图像。这样的图像可以从各种用户、诸如用户设备106A-106N来获得。为了训练分类器，训练部件112从样本图像提取特征(表示为特征向量)。利用所提取的特征，对训练部件112进行训练以学习哪些特征对应于哪些标签(在训练数据的集合中是已知的)。最初，在一些实施例中，训练部件112利用聚类技术(诸如本文所描述的改进的R-KMeans技术)来减少作为训练数据输入到CNN中的图像数据(例如，图像的特征向量)中的聚类不平衡。

例如，现在参考图2，训练部件112在去除期望大小(其可以由用户预定)的其他集群之后，对剩余的优势集群递归地应用KMeans聚类。如图所示，输入数据210最初在KMeans聚类之前未聚集。KMeans聚类是一种将输入数据组划分为集群的方法，其中每个集群表面上类似。虽然典型的KMeans聚类技术导致其中少量聚类包含大多数数据点的集群，但是改进的R-KMeans技术将数据分成包含期望数目的(例如，相等、接近相等或根据用户需要的)数据点数的集群。通过避免不平衡的集群，可以更准确地训练CNN，并且改进图像标记和检索。在第一次KMeans迭代220之后，得到期望大小的第一集群222。去除期望大小的任何集群(例如，第一集群222)，并对剩余集群的并集执行第二次KMeans迭代230。再次，去除期望大小的任何集群(例如，第二集群232)，并对剩余集群的并集执行第三次KMeans迭代240。在该示例中，在第三次KMeans迭代之后，剩余的集群已经被划分为期望的大小(例如，第三集群242和第四集群244)。如可以理解的，可以执行任何数目的KMeans迭代，直到所有数据已被划分为期望大小的集群。结果，可以生成包括类(例如，相似的图像)的平衡集群，并且训练部件112训练CNN以用于图像标记和检索中的应用。

再次参考图1，传播部件114通常被配置为使用在训练部件112确定的训练来标记图像。最初，传播部件114利用R-KMeans聚类技术来测量集群中的两个数据点(例如，标签)之间的数据点相似性。为了计算集群敏感散列距离(C散列距离)以测量数据点相似性，如上所述，可以多次应用R-KMeans算法。两个数据点之间的C散列距离表示两个数据点被分配给同一集群的次数的计数。这种相似性度量适应于数据分布，并且当数据分布高度不均匀时，其相似性得分比诸如L2距离的公共度量更加校准。传播部件114利用C散列距离来确定传播概率，如下面更详细地描述的。当传播概率高(例如，达到用户设置的特定阈值)时，标签被传播到未标记的图像。

在一些实施例中，传播部件114改进了稀有标签的标签预测性能。由于数据库中缺少数据样本，稀有标签的标签预测性能通常较差。然而，传播部件114基于C散列距离和经验条件概率来计算标签传播概率(即，标签A与标签B在图像的标签集合中共同出现的次数除以标签B的总出现次数)。预测标签的相关性得分(即，分配给给定输入图像的标签的置信度值)可以与标签传播概率成比例地传播到其他类似标签。以这种方式，稀有标签可以从具有类似含义的其他标签接收传播的相关性得分，因此，可以用稀有标签来标记图像。

在一些实施例中，测试部件116利用基于分集的投票框架(Div-KNN)来克服测试期间的用户标记偏差。测试是指其中分类器对在图像标记期间由用户提供的未标记的图像进行标记的过程。在典型的KNN投票框架中，如图3所示，CNN 312最初可以从图像310中提取特征。这些提取的特征可以影响具有带标签的图像的特定数据库320的选择。然后可以对所选择的数据库320执行视觉搜索322，并且检索具有相似视觉特征的图像的集合330。这些图像330中的每一个可以与多个标签332相关联。标签的数目被计数或投票340以确定最频繁出现的标签。最频繁的标签342可以用于标记图像310。

然而，如上所述，由于基于所选择的数据库对标签进行投票，其中类似的数据可能由倾向于具有类似标签偏差的类似注释者注释，因此投票方案可以由用户标签偏差支配。如图4和图5所示，典型的KNN框架产生以结果集400A、500A中的不期望的图像的形式示出这些标记偏差的结果。如图4所示，在实验测试中，利用典型的KNN框架搜索“酸奶”提供不包括酸奶的四个图像402、404、406、408。类似地，在图5中，在实验测试中，利用典型KNN框架的“多云”搜索提供不包括云作为图像的焦点的四个图像502、504、506、508。400A和500A中所示的每个结果对于进行搜索的用户是不期望的。

再次参考图1，由测试部件116使用的Div-KNN框架不利用简单的投票计数来标记图像。相反，利用有效投票数，其考虑类似的标签序列如何用于一对图像。以这种方式，Div-KNN框架可以确定图像标签提供者对于图像对的相似性，并且消除或减少标签偏差。

返回图4A和图4B以及5A和图5B，Div-KNN框架产生减少结果集400A、500A中存在的标记偏差的结果。如图4B所示，在实验测试中，利用Div-KNN框架搜索“酸奶”提供不包括没有酸奶的任何图像的结果集400B。类似地，在图5B中，在实验测试中，利用Div-KNN框架的“多云”搜索提供包括云作为所有图像中的焦点的结果集500B。对于进行搜索的用户来说，400B和500B中所示的每个结果比400A和500A中所示的结果更加理想。

在一些实施例中，并且还参考图6，测试部件116利用二元语法重新加权来进行词义消歧，其中词的含义可能与其在二元语法中的含义非常不同。在图像标记的上下文中，二元语法标记(例如，“dragon fruit”)通常被划分为单字符(例如“dragon”和“fruit”)。例如，当用户搜索“dragon”时，用户会发现在结果600中具有“dragon fruit”602、604、606的图像是不合需要的。为了解决这个问题，测试部件116降权可能是基于预测的标签集合的二元语法(例如，“dragon fruit”)的部分的标签对。

在一些实施例中，测试部件116利用用于学习低维空间的框架来加速在线训练。例如，当特征维度较高(即，相对于训练样本具有大量不同特征)时，训练在线分类器可能是非常耗时且处理器密集的。此外，在测试期间，分类器倾向于过度拟合(其中分类器已经记住而不是在训练期间学习以推广)，这导致差的预测性能。为了解决这些问题，测试部件116将查询图像及其最近邻居映射到低维度空间(即，相对于训练样本的少量不同特征)。例如，给定图像，Div-KNN投票方案可以识别候选标签。如果特定标签候选者不够置信，则离线训练的线性投影矩阵将图像及其K个最近邻居投影到低维空间。可以使用K个最近邻居作为训练样本在低维空间中训练用于特定标签候选者的分类器。可以计算特定标签的图像得分作为分类器的置信度得分。测试部件116然后可以使用最近邻居作为训练样本来训练低维空间中的图像标签的分类器。由测试部件116计算该标签的结果得分作为分类器的置信度得分。结果，可以用特定标签标记图像。

现在转到图7，提供了示出根据本发明实施例的用于解决集群不平衡的方法700的流程图。例如，可以利用图1的标记系统100来采用方法700。如步骤702所示，首先接收包括图像和对应图像标签的输入数据的集合。输入数据可以存储在图像数据库中并从图像数据库接收。输入数据用于训练分类器(例如，CNN)，使得可以从给定图像的CNN提取图像特征，并且可以预测标签的相关性得分。然而，如上所述，在典型的KMeans聚类算法中，少量的优势集群接收大多数数据点(导致不平衡的集群)。

为了克服集群不平衡，在步骤704，使用改进的R-KMeans技术将来自输入数据集合的数据划分为集群。为了这样做，可以由用户定义最大集群大小和/或期望集群的数目。在R-KMeans过程中，使用KMeans将输入数据分成多个集群。在步骤706，去除小于预定义大小的每个集群。然后在步骤708确定是否已经达到预定数目的集群。如果是，则输入数据已经被聚类而没有集群不平衡，并且处理结束。另外在步骤710确定大量集群中的所有集群的大小是否小于预定义阈值。如果是，则输入数据已经被聚类而没有集群不平衡，并且处理结束。

如果没有满足任何结束条件，则该过程使用不在已经被去除的集群中的剩余数据重复。如上所述，该过程重复，直到已经向集群集合添加了最大数目的集群或者由R-KMeans迭代导致的每个集群的大小低于预定义阈值。

在一些实施例中，使用R-KMeans技术来计算输入数据的集合中的两个数据点的集群敏感散列距离(C散列距离)。现在参考图8，提供了示出根据本发明实施例的用于改进稀有标签的标签预测性能的方法800的流程图。例如，可以利用图1的图像标记系统100来采用方法800。如步骤802所示，接收包括图像标签的输入数据的集合。

在步骤804，对于输入数据集中的两个数据点，计算C散列距离。为此，在步骤906，对两个数据点被分配给相同集群的次数计数。C散列距离被计算为(R-KMeans的迭代次数减去两个数据点被分配给相同集群的次数)除以R-KMeans的迭代次数。

在一些实施例中，计算C散列距离，其中每个标签被表示为基于上下文窗口共生矩阵的特征向量。矩阵的每一行对应于一个标签，每个条目表示第二标签在第一标签的上下文窗口中出现的次数。为了生成用于C散列距离的特征向量，执行矩阵的行归一化，使得每行总计为1。执行行归一化矩阵的每个条目的平方根，随后是用于减小特征尺寸的PCA维度减少。结果矩阵的每一行表示可以用于计算C散列距离的对应标签的特征向量。

在步骤908，可以基于C散列距离和经验条件概率来计算标签传播概率。经验条件概率被定义为(第一标签与图像的标签集合中的第二标签共同出现的次数)除以第二标签的总出现次数。为了确定从第二标签到第一标签的标签传播概率，将C散列距离乘以经验条件概率。虽然C散列距离是一个对称的距离测量，但经验条件概率不是，这有助于阻碍从更一般的词到更具体的词的相关性传播。以这种方式，在步骤910，预测标签的相关性得分可以与标签传播概率成比例地传播到其他类似标签。这可以提高稀有标签的标签预测性能。

现在参考图9，提供了示出根据本发明实施例的利用Div-KNN框架来寻址用户标记偏差的方法900的流程图。例如，可以利用图1的图像标记系统100来采用方法900。最初，可以使用CNN从输入图像提取特征。这些特征可以用于选择图像数据库。如步骤902所示，接收包括图像和相关联的图像标签的输入数据的集合。基于所提取的输入图像的特征从所选择的数据库接收输入数据的集合。

在步骤904，确定图像标签提供者对于一对图像有多相似。为此，确定特定标签的有效投票数，其考虑标签序列对于从图像数据库接收的图像中的一对图像有多类似。以这种方式，Div-KNN框架可以确定图像标签提供者对于图像对的相似性，并且消除或减少标签偏差。

有效数目可以被公式化为

其中/>

其中0≤d_i,j≤1。在该公式中，N表示针对输入图像的每个最近邻居的特定标签的投票数，di，j表示对方向距离函数，其返回图像集中的所有实例对的距离，并且可以进一步定义为：d_i，j＝αf_tag(i，j)+(1-α)f_usr(i，j)，，其中f_tag(i，j)测量实例i和j的标签序列有多相似，并且f_usr(i，j)是反映用户(图像标签提供者)i和j的距离函数。实际上，可以利用与图像相关联的用户标识和其他元数据来测量用户距离。

在一些实施例中，为输入数据集合中的两个数据点计算C散列距离。然后可以如上所述计算基于C散列距离和经验条件概率的标签传播概率。预测标签的相关性得分可以与标签传播概率成比例地传播到其他类似标签。

在一些实施例中，基于预测的标签集合对可能是二元语法的部分的关键字降权。这减少了可能来自二元语法的标签。可以通过应用

来降权关键字，其中/>

并且/>

表示标签的字典，并且/>

表示给定图像的预测的相关性得分。

在一些实施例中，对每个标签使用部分线性正方形(PLS)以学习低维度线性投影。这使得高维图像特征能够被投影到低维空间。然后可以使用k个最近邻居作为训练样本来训练支持向量机(SVM)分类器以用于低维空间中的标签字典。然后可以为查询图像的每个标签计算置信度得分(即，来自SVM分类的输出分类得分)。

已经描述了本发明的实施例，下面描述可以实现本发明实施例的示例性操作环境，以便为本发明的各个方面提供一般上下文。参考图10，具体地，示出了用于实现本发明实施例的示例性操作环境，并且通常将其指定为计算设备1000。计算设备1000仅是合适的计算环境的一个示例，而非意图暗示对于本发明的使用范围或功能的任何限制。计算设备1000也不应被解释为具有与所示的部件中的任何一个或组合相关的任何依赖性或要求。

本发明可以在计算机代码或机器可使用指令的一般上下文中描述，计算机代码或机器可使用指令包括由计算机或其他机器(诸如个人数字助理或其他手持设备)执行的计算机可执行指令(诸如程序模块)。通常，包括例程、程序、对象、部件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在各种系统配置中实现，包括手持设备、消费电子产品、通用计算机、更专业的计算设备等。本发明还可以在分布式计算环境中实施，其中任务由通过通信网络链接的远程处理设备来执行。

参考图10，计算设备1000包括直接或间接耦合以下设备的总线1010：存储器1012、一个或多个处理器1014、一个或多个呈现部件1016、输入/输出(I/O)端口1018、输入/输出部件1020、以及说明性电源1022。总线1010表示可以是一个或多个总线(例如地址总线、数据总线或其组合)的总线。尽管为了清楚起见，图10的各个框用线条示出，但实际上，描绘各种部件不是那么清楚，并且隐喻地，线条将更准确地是灰色和模糊的。例如，可以将呈现部件(诸如显示设备)视为I/O部件。此外，处理器具有存储器。发明人认识到这是本领域的本质，并且重申图10的图仅仅是可以结合本发明的一个或多个实施例使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等类别之间不进行区分，因为所有这些类型都在图10的范围内并且引用“计算设备”。

计算设备1000通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备1000访问的任何可用介质，并且包括易失性和非易失性介质、可移除和不可移除介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备或可以用于存储所需信息并且可以由计算设备1000访问的任何其他介质。计算机存储介质本身不包括信号。通信介质通常在调制数据信号(诸如载波或其他传输机制)中实施计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“调制数据信号”意指具有以使得能够在信号中编码信息的方式设置或改变其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质以及诸如声学、RF、红外和其他无线介质的无线介质。任何上述的组合也应包括在计算机可读介质的范围内。

存储器1012包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备1000包括从各种实体(诸如存储器1012或I/O部件1020)读取数据的一个或多个处理器。呈现部件1016向用户或其他设备呈现数据指示。示例性呈现部件包括显示设备、扬声器、打印部件、振动部件等。

I/O端口1018使得计算设备1000能够在逻辑上耦合到包括I/O部件1020的其它设备，其中一些可以被内置。说明性部件包括麦克风、操纵杆、游戏板、卫星天线、扫描仪、打印机、无线设备等。I/O部件1020可以提供处理由用户生成的空气姿势、语音或其他生理输入的自然用户界面(NUI)。在一些情况下，输入可以被传输给适当的网络元件用于进一步处理。NUI可以实现以下的组合：语音识别、触摸和触笔识别、面部识别、生物测定识别、屏幕上和屏幕上的手势识别、空气手势、头部和眼睛跟踪以及与计算设备1000上的显示相关联的触摸识别。计算设备1000可以配备有深度相机，例如立体相机系统、红外相机系统、RGB相机系统、以及这些的组合，用于手势检测和识别。另外，计算设备1000可以配备有能够检测运动的加速度计或陀螺仪。加速度计或陀螺仪的输出可以被提供给计算设备1000的显示器以呈现沉浸式增强现实或虚拟现实。

可以理解，本发明的实施例提供了一种自动图像标记系统，其可以预测标签的集合以及相关性得分，标签的集合以及相关性得分可以用于基于关键字的图像检索、图像标签建议和基于用户输入的图像标签自动完成。已经关于特定实施例描述了本发明，这些特定实施例在所有方面都旨在是说明性的而不是限制性的。在不脱离本发明范围的情况下，替代实施例对于本发明所属领域的普通技术人员将变得显而易见。

从上述内容可以看出，本发明很好地适于实现上述所有目的和目的、以及系统和方法显而易见和固有的其它优点。将理解，某些特征和子组合是有用的，并且可以在不参考其它特征和子组合的情况下使用。这是权利要求的范围所涵盖的并且在权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

将图像输入到经训练的图像分类器中，其中所述图像分类器使用递归聚类过程而被训练，所述递归聚类过程生成数据集群，其中所述递归聚类过程中的步骤包括在数据上应用递归KMeans聚类，其中KMeans聚类是将输入数据组划分为集群的方法，其中每个所述数据集群表面上类似；

在接收到所述图像后，所述经训练的图像分类器从所述图像中提取特征；

确定具有基于所提取的所述特征的标签的所述训练图像的集群，所述集群利用所述递归聚类过程而被生成，其中所述集群包括具有类似于所提取的所述特征的训练图像集合；

分析所述训练图像集合的所述标签以确定出现最频繁的标签的相关性得分；以及

向所述图像传播标签，所述标签使用所述出现最频繁的标签的相关性得分从所述集群的所述训练图像集合的对应标签中被选择；

其中所述相关性得分中的一个相关性得分包括基于所述集群中的所述对应标签中的两个对应标签之间的相似性来确定预测的标签的置信度值，其中所述预测的标签基于上下文窗口共现矩阵被表示为特征向量，并且所述矩阵的每一行对应于所述标签。

2.根据权利要求1所述的方法，其中确定所述集群中的所述两个对应标签之间的相似性包括找到集群敏感散列距离，所述集群敏感散列距离表示与所述递归聚类过程的迭代相关的、所述两个对应标签被分配给相同集群的次数。

3.根据权利要求2所述的方法，还包括确定经验条件概率，所述经验条件概率指示与所述预测的标签的总出现次数相关的、所述两个对应标签被分配给图像标签集合的次数。

4.根据权利要求1所述的方法，还包括与所述相关性得分成比例地向其他类似标签传播所述预测的标签的所述相关性得分。

5.一种非瞬态计算机存储介质，包括计算机可用指令，所述计算机可用指令在由一个或多个计算设备使用时使所述一个或多个计算设备执行操作，所述操作包括：

将图像输入到经训练的图像分类器中，其中所述图像分类器使用递归聚类过程而被训练，所述递归聚类过程生成数据集群，其中所述递归聚类过程中的步骤包括在数据上应用递归KMeans聚类，其中KMeans聚类是将输入数据组划分为集群的方法，其中每个所述集群表面上类似；

其中所述相关性得分中的一个相关性得分包括预测的标签的置信度值，并且所述预测的标签的所述置信度值基于集群敏感散列距离和经验条件概率，所述集群敏感散列距离表示与所述递归聚类过程的迭代相关的、两个对应标签被分配给相同集群的次数，所述预测的标签基于上下文窗口共现矩阵被表示为特征向量，并且所述矩阵的每一行对应于所述标签，并且所述经验条件概率指示与所述预测的标签的总出现次数相关的、所述两个对应标签被分配给图像标签集合的次数。

6.根据权利要求5所述的非瞬态计算机存储介质，其中所选择的所述标签是具有最高相关性得分的标签。

7.根据权利要求5所述的非瞬态计算机存储介质，其中所述操作还包括：

与所述相关性得分成比例地向其他类似标签传播所述预测的标签的所述相关性得分。

8.根据权利要求5所述的非瞬态计算机存储介质，其中所述操作还包括：

当所述预测的标签被确定为二元语法的一部分时，基于预测的标签集合来对所述预测的标签降权。

9.根据权利要求5所述的非瞬态计算机存储介质，其中所述操作还包括：

利用偏最小二乘来将所确定的所述图像的所提取的特征投影到低维度空间，其中所述所提取的特征与所述预测的标签对应。

10.根据权利要求5所述的非瞬态计算机存储介质，其中所述操作还包括：

通过以下来确定相关性得分：基于针对所述图像的第一图像和所述图像的第二图像的标签序列之间的第一相似性相对于第一标签的第一图像标签提供者和第二标签的第二标签提供者之间的第二相似性来将有效投票数分配给所述第一标签。

11.根据权利要求9所述的非瞬态计算机存储介质，其中所述操作还包括：

使用k个最近邻居作为训练样本在较低维度空间中训练针对标签字典的支持向量机SVM分类器。

12.根据权利要求11所述的非瞬态计算机存储介质，其中所述操作还包括：

基于所述标签字典来计算针对每个标签的置信度得分。

13.一种用于改进标签预测性能的计算机化的系统，包括：

处理器；以及

存储计算机可用指令的计算机存储介质，所述计算机可用指令在由所述处理器使用时使所述处理器：

在接收到所述图像后，所述经训练的图像分类器用以从所述图像中提取特征；

分析所述训练图像集合的所述标签以确定出现最频繁的标签的相关性得分；

向所述图像传播标签，所述标签使用所述出现最频繁的标签的相关性得分从所述集群的所述训练图像集合的对应标签中被选择；以及

确定针对每个标签的所述相关性得分，包括找到集群敏感散列距离和经验条件概率，所述集群敏感散列距离表示与所述递归聚类过程的迭代相关的、两个对应标签被分配给相同集群的次数，并且所述经验条件概率指示与预测的标签的总出现次数相关的、所述两个对应标签被分配给图像标签集合的次数，其中所述预测的标签基于上下文窗口共现矩阵被表示为特征向量，并且所述矩阵的每一行对应于标签。

14.根据权利要求13所述的系统，其中所述计算机可用指令在由所述处理器使用时还使所述处理器：

15.根据权利要求13所述的系统，其中所述计算机可用指令在由所述处理器使用时还使所述处理器：

接收第二集群，所述第二集群包括具有对应标签的训练图像的第二集合，训练图像的所述第二集合具有类似于所述图像的所提取的所述特征；

确定针对所述第二集群中的预测的标签的图像标签提供者的相似性；

基于针对所述第二集群中的所述预测的标签的所述图像标签提供者的相似性，确定针对所述预测的标签的有效投票数；以及

基于针对所述预测的标签的所述有效投票数，利用所述预测的标签标记所述图像。

16.根据权利要求13所述的系统，其中所述计算机可用指令在由所述处理器使用时还使所述处理器：

利用针对每个标签的偏最小二乘学习较低维度线性投影；

将较高维度图像特征投影到低维度空间；

使用k个最近邻居作为训练样本在所述低维度空间中训练针对标签字典的支持向量机SVM分类器；以及

计算针对查询图像的每个标签的置信度得分。