CN107209860B

CN107209860B - 用于处理弱监督图像的方法、系统和计算机存储介质

Info

Publication number: CN107209860B
Application number: CN201580073396.5A
Authority: CN
Inventors: I·米斯拉; 李劲; 华先胜
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-01-22
Filing date: 2015-12-28
Publication date: 2021-07-16
Anticipated expiration: 2035-12-28
Also published as: US10013637B2; CN107209860A; EP3248143B1; US20160217344A1; EP3248143A1; WO2016118286A1

Abstract

描述了通过利用从弱监督图像提取的基于分块的特征训练分类器来优化多类图像分类。可以接收与一组标签相关联的图像的语料库。可以从语料库中的个体图像中提取一个或多个分块。可以从一个或多个分块中提取基于分块的特征，并且可以从一个或多个分块的个体分块中提取分块表示。至少部分地基于基于分块的特征分块可以被布置到聚类中。可以至少部分地基于表示个体分块之间的相似性的所确定的相似性值，从个体聚类中移除个体分块中的至少一些。系统可以部分地基于从改进聚类中的分块中提取的基于分块的特征来训练分类器。分类器可用于准确和高效地分类新图像。

Description

用于处理弱监督图像的方法、系统和计算机存储介质

背景技术

计算机视觉可以包括对象识别、对象分类、对象类检测、图像分类等。对象识别可以描述找到特定对象(例如，特定做工的手提包、特定人物的面部等)。对象分类和对象类检测可以描述找到属于特定分类或类的对象(例如面部、鞋子、汽车等)。图像分类可以描述将整个图像分配给特定分类或类(例如，位置识别、纹理分类等)。使用图像的计算机对象识别、检测和/或分类是具有挑战性的，因为现实世界中的对象在视觉外观上变化很大。例如，与单个标签相关联的对象(例如猫、狗、汽车、房屋等)在颜色、形状、大小、视角、照明等方面呈现多样性。

一些当前的对象检测、识别和/或分类方法包括基于受监督或标记的数据的训练分类器。这样的方法是不可扩展的。目前的对象检测、识别和/或分类方法中的其他方法利用局部图像特征(例如，定向梯度直方图(HOG))来学习常识知识(例如，眼睛是人的一部分)或通用标签的特定子标签(例如，马的通用标签包括棕色马、骑马等的子标签)。然而，使用局部图像特征(例如，HOG)是计算密集型的。因此，目前用于对象检测、识别和/或分类的技术是不可扩展的并且在计算上是密集的。

发明内容

本公开描述了通过利用从弱监督图像提取的基于分块(patch)的特征用于优化多类图像分类的技术。本文描述的技术通过提高使用分类器对输入图像进行分类的准确性并减少用于训练分类器的计算资源量，利用基于分块的特征来优化多类图像分类。

系统和方法描述了来自互联网上可用的弱监督图像的学习分类器。在至少一些示例中，本文描述的系统可以接收与一组标签相关联的图像的语料库。图像的语料库中的每个图像可以与该组标签中的至少一个标签相关联。系统可以从图像语料库中的个体图像中提取一个或多个分块。系统可以从一个或多个分块中提取基于分块的特征，并从一个或多个分块的个体分块中提取分块表示。该系统可以至少部分地基于基于分块的特征来将分块布置到聚类中。此外，系统可以确定表示各个分块之间的相似性的相似性值。可以至少部分地基于相似性值来从个体聚类中移除个体分块中的至少一些。该系统可以至少部分地基于在改进聚类中剩余的分块来提取基于分块的特征。该系统可以至少部分地基于基于分块的特征来训练分类器。

系统和方法进一步描述了应用分类器分类新图像。在至少一个示例中，用户可以将图像输入到本文描述的经训练的系统中。系统可以从图像中提取分块，并从图像中提取特征。该系统可以将分类器应用于所提取的特征以分类新图像。附加地，系统可以向用户输出结果。结果可以包括通过将分类器应用于从图像提取的特征来确定的图像的分类。

提供本发明内容以简化形式介绍概念的选择，这些概念在下面的具体实施例中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键或必要特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

具体实施方式参照附图进行阐述，其中附图标记的最左边的数字标识附图标记首次出现的附图。在相同或不同的附图中使用相同的附图标记指示相似或相同的项目或特征。

图1是示出用于从图像训练分类器并将经过训练的分类器应用于分类新图像的示例系统的图。

图2是示出用于从弱监督图像训练分类器并且将经训练的分类器应用到分类新图像的示例系统的附加部件的图。

图3图示了用于从基于分块的特征来训练分类器的示例过程。

图4示出了用于至少部分地基于过滤图像的语料库(corpus)来确定标签是否可学习的示例过程。

图5图示了用于过滤图像的语料库的示例过程。

图6图示了用于过滤图像的语料库的另一示例过程。

图7图示了用于确定相似性值的示例过程。

图8图示了用于从分块聚类中移除分块的示例过程。

图9图示了用于训练的特定分块的多样性选择的示例过程。

图10图示了示出了用于分类新图像的示例系统的图。

图11图示了用于分类新图像的示例过程。

具体实施方式

图像中的计算机视觉对象(例如人、动物、地标等)、纹理和/或场景分类(例如照片，视频等)可能对于包括照片和/或视频识别、图像搜索、产品相关搜索等是有用的。目前的分类方法包括基于监督或标记的数据训练分类器。这种方法不可扩展或可扩张的。此外，当前的分类方法利用局部图像特征(例如，HOG)来学习常识知识(例如，眼睛是人的一部分)或通用标签的特定子标签(例如，马的通用标签包括棕色马、骑马等的子标签)。然而，使用局部图像特征(例如，HOG)是计算密集型的。也就是说，目前的数据挖掘技术需要对计算机资源进行实质性投资，并且是不可扩展和/或可扩张的。

本文描述的技术通过利用从弱监督图像中提取的基于分块的特征来优化多类图像分类。本文描述的系统和方法对于训练分类器并且使用分类器分类图像可以是有用的。这种分类可以被利用用于几个应用，包括：对象识别(例如，找到特定对象，诸如特定制作的手提包、特定人物的面部等)、对象分类或类检测(例如，找到属于特定分类或类的对象)和/或图像分类(例如，将整个图像分配给特定分类或类)。例如，这种分类对于照片和/或视频识别、图像搜索、产品相关搜索等可能是有用的。本文描述的技术利用基于分块的特征来通过减少用于训练分类器的计算资源的量来优化多类图像分类。此外，使用基于分块的特征改进使用分类器分类传入图像的效率和准确性。

系统和方法描述了互联网上可用的弱监督图像的学习分类器。在至少一些示例中，本文描述的系统可以接收与一组标签相关联的图像的语料库。图像的语料库中的每个图像可以与该组标签中的至少一个标签相关联。系统可以从图像语料库中的个体图像中提取一个或多个分块。分块可以表示图像的区域或部分。分块可以代表图像中的对象或对象的一部分，并且可以是有区别的，使得它们可以以高召回和精确度在多个图像中被检测。在至少一些示例中，分块可以是有区别的，使得它们可以在与相同标签相关联的多个图像中被检到比它们在与各种不同标签相关联的图像中可以被检测到更频繁。

系统可以从个体图像中提取基于分块的特征。基于分块的特征是描述或表示图像的图像级特征。基于分块的特征可以表示如下所述的分块字典上的分块分布。个独图像的基于分块的特征至少部分地基于从个体图像中提取的分块。在一些示例中，从个体图像中提取多个分块，并且基于分块的特征可以基于从个体图像提取的多个分块。在其他示例中，仅从图像中提取单个分块，并且基于分块的特征可以基于单个分块。基于分块的特征使得本文所描述的系统能够使用更少的数据来训练分类器，从而增加效率并减少用于训练所消耗的计算资源。

系统可以从个体分块中提取分块表示。分块表示描述从个体分块提取的特征。分块表示可以表示分块级别的特征，并且可以用于改进这些聚类，如下所述。

该系统可以至少部分地基于基于分块的特征来将一个或多个分块的个体分块布置到聚类中。聚类的个体对应于该组标签的个体标签。可以至少部分地基于基于分块的特征来改进聚类。系统可以至少部分地基于分块表示来确定相似性值。相似性值可以是相同和/或不同聚类中的个体分块之间的相似性的代表。系统可以至少部分地基于相似性值来处理聚类以移除至少一些个体分块。至少部分地基于在处理聚类之后保留的分块，系统可以从改进聚类中的分块中提取基于分块的特征。系统可以利用从改进的分块聚类中提取的基于分块的特征来训练分类器。

本文的系统和方法进一步描述了应用分类器分类新图像。在至少一个示例中，用户可以将图像输入到本文描述的训练系统中。系统可以从图像中提取分块和特征。系统可以将分类器应用于所提取的特征以分类输入图像。另外，系统可以向用户输出结果。结果可以包括通过将分类器应用于从图像提取的特征确定的图像的分类。

说明性环境

下面描述的环境仅构成一个示例，而不旨在将下述系统的应用限制在任何一个特定的操作环境中。在不脱离所要求保护的主题的精神和范围的情况下，可以使用其他环境。本文描述的各种类型的处理可以在任何数量的环境中实现，包括但不限于独立的计算系统、网络环境(例如，局域网或广域网)、对等网络环境、分布式计算(如云计算)环境等

图1是示出用于从图像训练分类器并将经训练的分类器来应用于分类新图像的示例系统100的图。更具体地，示例性操作环境100可以包括服务提供商102、一个或多个网络104、一个或多个用户106、以及与一个或多个用户106相关联的一个或多个用户设备108。备选地或另外地，本文描述的功能可以至少部分地由一个或多个硬件逻辑部件(诸如加速器)来执行。例如但非限制，可以使用的说明性类型的硬件逻辑部件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、系统级芯片系统(SOC)、复杂可编程逻辑器件(CPLD)等。例如，加速器可以表示混合器件，诸如来自包括嵌入FPGA架构中的CPU进程的ZYLEX或ALTERA的混合器件。

如所示，服务提供商102可以包括一个或多个服务器110，其可以包括一个或多个处理单元112和计算机可读介质114。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、训练模块118和分类模块120以及可由处理单元112加载和执行的用于分类图像的其他模块、程序或应用。一个或多个服务器110可以包括设备。服务提供商102可以是可以从弱监督图像学习分类器并应用所学习的分类器用于分类新图像的任何实体、服务器、平台等。服务提供商102可以接收与一组标签相关联的图像的语料库，并且可以从语料库中的个体图像提取分块。服务提供商102可以从分块和图像中提取特征用于训练分类器。服务提供商102可以利用分类器分类由用户106输入的新图像。

在一些示例中，网络104可以是本领域已知的任何类型的网络，诸如因特网。此外，用户106可以以任何方式例如通过全局或局部有线或无线连接(例如，局域网(LAN)、内部网等))通信地耦合到网络104。网络104可以促进服务器110和与用户106相关联的用户设备108之间的通信。

在一些示例中，用户106可以操作对应的用户设备108以执行与用户设备108相关联的各种功能，用户设备108可以包括一个或多个处理单元112、计算机可读存储介质114和显示器。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、训练模块118和分类模块120以及由处理单元112可加载和可执行的用于分类图像的其他模块、程序或应用程序。此外，用户106可以利用用户设备108经由一个或多个网络104与其他用户106进行通信。

用户设备108可以表示各种各样的设备类型，并且不限于任何特定类型的设备。设备108的示例可以包括但不限于固定计算机、移动计算机、嵌入式计算机或其组合。示例性的固定计算机可以包括台式计算机、工作站、个人计算机、瘦客户端、终端、游戏机、个人录像机(PVR)、机顶盒等。示例性的移动计算机可以包括膝上型计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、个人数据助理(PDA)、便携式游戏设备、媒体播放器、摄像机等。示例性嵌入式计算机可以包括网络使能的电视机、用于包括在计算设备中的集成部件、装置、微控制器、数字信号处理器或任何其他类型的处理设备等。

如上所述，服务提供商102可以包括一个或多个服务器110，其可以包括设备。设备可以被包括在一个或多个服务器110中的示例支持场景可以包括一个或多个计算设备，其在聚类或其他聚类配置中操作，以共享资源、平衡负载、增加性能、提供故障容错支持或冗余、或用于其他目的。包括在一个或多个服务器110中的设备可以表示但不限于台式计算机、服务器计算机、网络服务器计算机、个人计算机、移动计算机、膝上型计算机、平板电脑、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、网络启用电视、瘦客户端、终端、个人数据助理(PDA)、游戏机、游戏设备、工作站、媒体播放器、个人视频录像机(PVR)、机顶盒、相机、用于包括在计算设备中的集成部件、装置或任何其他类型的计算设备。

如上所述，可以包括在一个或多个服务器110和/或用户设备108中的设备可以包括具有诸如经由总线可操作地连接到计算机可读介质114的一个或多个处理单元112的任何类型的计算设备，其在一些实例中可以包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及任何各种本地、外围和/或独立总线中一个或多个。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、训练模块118和分类模块120以及由处理单元112可加载和可执行的其他模块、程序或应用程序。备选地或另外地，本文描述的功能可以至少部分地由一个或多个硬件逻辑部件(诸如加速器)来执行。例如但非限制，可以使用的示意性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、系统级芯片系统(SOC)、复杂可编程逻辑器件(CPLD)等。例如，加速器可以表示混合设备、例如来自包括嵌入在FPGA架构中的CPU进程的

或

的混合设备。

可以包括在一个或多个服务器110和/或用户设备108中的设备还可以包括耦合到总线的一个或多个输入/输出(I/O)接口，以允许设备与诸如用户输入外围设备(例如键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备等)和/或输出外围设备(例如显示器、打印机、音频扬声器、触觉输出等)的其他设备通信。可以包括在一个或多个服务器110中的设备还可以包括耦合到总线的一个或多个网络接口，以使得能够在计算设备与诸如用户设备108的其他联网设备之间的通信。这样的网络接口可以包括一个或多个网络接口控制器(NIC)或其他类型的收发器设备以用于通过网络发送和接收通信。为了简单起见，从所图示的系统中省略了一些部件。

处理单元112可以表示例如CPU型处理单元、GPU型处理单元、现场可编程门阵列(FPGA)、另一类数字信号处理器(DSP)或在某些情况下可以由CPU驱动的其它硬件逻辑部件。例如但非限制，可以使用的示意性类型的硬件逻辑部件包括专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复合可编程逻辑设备(CPLD)等。在各种示例中，处理单元112可以执行一个或多个模块和/或过程以使得服务器110能够执行各种功能，如上所阐述并且在下面的公开内容中进一步详细解释。附加地，每个处理单元112可以拥有其自己的本地存储器，其也可以存储程序模块、程序数据和/或一个或多个操作系统。

在至少一个配置中，服务器110和/或用户设备108的计算机可读介质114可以包括促进服务提供商102和用户106之间的交互的部件。例如，计算机可读介质114可以包括输入模块116、训练模块118和分类模块120，如上所述。模块(116、118和120)可以经由至少一个处理单元112被实现为计算机可读指令、各种数据结构等，以配置设备来执行指令并执行实现从图像训练分类器并利用分类器分类新图像的操作。执行这些操作的功能可以被包含在多个设备或单个设备中。

根据服务器110和/或用户设备108的准确配置和类型，计算机可读介质114可以包括计算机存储介质和/或通信介质。计算机存储介质可以包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性存储器、非易失性存储器和/或其他持久计算机存储介质和/或辅助计算机存储介质、可移除计算机存储介质和不可移除计算机存储介质。计算机存储器是计算机存储介质的示例。因此，计算机存储介质包括被包括在设备和/或设备的一部分的硬件部件或到设备的外部设备中的有形和/或物理形式的介质，包括但不限于随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、相变存储器(PRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、光盘只读存储器(CD-ROM)、数字通用盘(DVD)、光卡或其他光存储介质、微型硬盘驱动器、存储卡、磁带盒、磁带、磁盘存储器、磁卡或其他磁存储设备或介质、固态存储设备、存储阵列、网络附接存储器、存储区域网络、托管计算机存储设备或可用于存储和维护由计算设备访问的信息的任何其他存储存储器、存储设备和/或存储介质。

相比之下，通信介质可以体现为计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，诸如载波或其他传输机制。术语“调制数据信号”是指以对信号中的信息进行编码的方式设置或改变其特征中的一个或多个的信号。这样的信号或载波等可以在诸如有线网络或直接有线连接的有线介质和/或诸如声学、RF、红外和其它无线介质的无线介质上传播。如本文所定义的计算机存储介质不包括通信介质。也就是说，计算机存储介质本身不包括仅由调制数据信号、载波或传播信号组成的通信介质。

训练分类器

图2是示出用于从弱监督图像训练分类器并且应用所训练的分类器对新图像进行分类的示例系统200的附加组件的图。如图1和图2所示，系统200可以包括输入模块116、训练模块118和分类模块120。

输入模块116可以接收图像，并且在一些示例中可以使用下面描述的过滤处理移除至少一些图像。输入模块116可以包括附加的部件或模块，诸如接收模块202和过滤模块204。

在至少一个示例中，接收模块202可以至少部分地基于发送查询来接收多个图像。查询可以是对单个标签或多个标签的查询。查询可以是文本查询、图像查询等。例如，查询可以包括用于标识标签(例如，“虎鲸”)的词和相关词和/或短语(例如“杀人鲸”、“黑鱼”等)。在至少一个示例中，用户106可以包括对查询的可选修改符。例如，如果用户希望使用“捷豹”作为查询，则用户可以修改查询“捷豹”以包括“动物”。在这样的示例中，图像的结果语料库可以包括捷豹动物，但可以排除

汽车。输入模块116可以将查询发送到一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务。接收模块202可以至少部分地基于发送查询来接收多个图像。

在至少一个示例中，接收模块202可以接收弱监督图像。弱监督图像可以包括与标签相关联的图像。然而，标签可能或可能不能正确地识别图像的主题。附加地，标签可以标识图像中的图像或个体对象，但是本文描述的系统可能不能够确定标签标识的哪个主体(例如，图像或图像中的个体对象)。相比之下，监督图像可以以高于预定阈值的确定性标记，并且无监督图像可以完全不被标记。在附加或备选的示例中，本文描述的技术可以被应用于各种类型的多媒体数据(例如，视频、动画等)，并且在这样的示例中，接收模块202可以接收各种类型的多媒体数据项。

弱监督图像可能在互联网上是可用的。例如，对于与标签相关联的任何查询，可以从搜索引擎、社交网络服务、博客服务、数据源和/或其他网站或web服务中的互联网上可获得的数据中提取弱监督图像。搜索引擎的示例包括

Yahoo！

等。社交网络服务的示例包括

等。博客服务的示例包括

Windows

等。数据源示例包括ImageNet(斯坦福大学维护)、开放视频注解项目(由哈佛大学维护)等。

在一些示例中，弱监督图像可以由公众访问(例如，存储在搜索引擎中的数据、公共

图片、公共Facebook图片等)。然而，在其他示例中，弱监督的图像可以是私有的(例如，私有的

图片、私有

视频等)，并且可能不被公众观看。在这样的示例中(即，当弱监督图像是私有的)时，本文描述的系统和方法在没有首先获得弱监督图像的作者的许可的情况下可能不会进行访问图像。

在弱监督图像是私有的或包括标识或可以用于标识、联系或定位这些图像所属的人的个人可识别信息(PII)的示例中，可以向用户106提供本文的系统和方法正在收集PII。附加地，在启动PII数据收集之前，用户106可能有机会选择加入或选择退出PII数据收集。例如，用户106可以通过采取指示他或她同意PII数据收集的肯定动作来选择加入PII数据收集。备选地，可以向用户106呈现选择退出PII数据收集的选项。选择退出选项可能需要PII数据收集的选择退出的肯定动作，并且在没有肯定的用户动作来选择退出的情况下，可能暗示允许PII数据收集。

如上所述，标签对应于查询。标签可以对应于特定实体的描述性术语(例如，动物、植物、吸引力等)。查询是可用于从搜索引擎、社交网络等收集图像语料库的文本术语或短语。通常，标签对应于特定查询，但在某些示例中，标签可能对应于多于一个查询。例如，在这样的示例中，标签“虎鲸”可以对应于诸如“虎鲸”、“杀人鲸”和/或“黑鱼”的查询。

返回到接收模块202的多个图像可能是嘈杂的。因此，过滤模块204可以从多个图像中过滤一个或多个图像，以减轻用于训练分类器的图像中的噪声。在附加或备选示例中，接收模块202可以接收新的图像用于由经训练的分类器分类。

训练模块118可以从弱监督图像训练分类器。训练模块118可以包括用于训练分类器的附加部件或模块。在至少一个示例中，训练模块118可以包括提取模块206、聚类模块212、改进模块214和学习模块216，提取模块206包括分块提取模块208和特征提取模块210。

如上所述，提取模块206可以包括分块提取模块208和特征提取模块210。分块提取模块208可以从接收模块202访问多个图像，并且从多个图像的个体图像中提取一个或多个分块。如上所述，分块可以表示图像的区域或部分。个体分块可以对应于图像中的对象或对象的一部分。在一些示例中，在个体图像中可能存在多个分块。

特征提取模块210可以提取全局特征和基于分块的特征。另外，特征提取模块210可以从分块提取分块表示。利用全局特征和基于分块的特征提高识别和分类图像中对象的准确性。可以利用分块表示来改进分块，如下所述。

全局特征提取可以描述标识图像的有趣部分或形状并提取这些特征以用于附加处理的过程。识别图像的有趣部分或形状的过程可以经由诸如SIFT(尺度不变特征变换)、深层神经网络(DNN)特征提取器等的公共多媒体特征提取技术来发生。在至少一个示例中，多媒体特征提取可以描述将图像转变成高维特征向量。例如，提供的所有信息可以被组织为单个向量，其通常被称为特征向量。在至少一个示例中，图像语料库中的每个图像基于适合的特征集合可以具有对应特征向量。全局特征可以包括视觉特征、文本特征等。视觉特征可以从简单的视觉特征(诸如边缘和/或角落)到更复杂的视觉特征(诸如对象)的范围变化。文本功能包括与图像相关联的标签、分类和/或元数据。

基于分块的特征提取可以至少部分地基于从图像提取的分块来描述提取图像级特征。在至少一个示例中，基于分块的特征可以是至少部分地基于改进的分块聚类中的分块，如下所述。在一些示例中，基于分块的特征类似于DNN中的中间层表示。基于分块的特征可以表示分块字典上的分块分布，如下所述。基于分块的特征使得本文所描述的系统能够使用较少的数据来训练分类器，从而提高效率并减少用于训练所消耗的计算资源。可以使用线性变换与图像相关联的特征空间的各种模型来提取基于分块的特征，例如潜在的Dirichlet分配(LDA)、支持向量机(SVM)等。

特征提取模块210还可以提取分块表示。分块表示描述从个体分块提取的特征。如上所述，分块表示可以表示分块级别的特征，并且可以用于改进这些聚类。各种模型可以被用于提取分块表示，诸如但不限于HOG的LDA表示等。

聚类模块212可以基于基于分块的特征将分块布置到聚类中。在至少一些示例中，为了提高处理用于训练分类器的图像的速度，聚类模块212可以至少部分地基于基于分块的特征将个体分块布置到多个聚类中，如上所述。至少部分地基于对与图像相关联的分块的LDA表示的过度聚类，分块可以被放置在相同的聚类中，以生成聚类。宽高比可以由基于分块的特征隐含地捕获。在一些示例中，每个聚类可以表示特定的标签。在其他示例中，每个聚类可以表示特定聚类的各种视图。在附加的或备选的示例中，聚类模块212可以使用包括K-Means聚类的向量量化的不同方法来布置分块聚类。

改进模块214可以至少部分地基于表示个体分块之间的相似性的相似性值来从个体聚类中移除分块。改进模块214可以确定相似性值，如下所述。相似性值可以被用于确定熵值，并且熵值可以被使用用于经由多样化选择来处理分块，如下所述。熵值可能代表确定性度量。至少部分地基于熵值和多样性选择，可以从个体聚类中去除一个或多个分块。在从个体聚类中去除分块之后，剩余的分块可能比预处理的聚类中的分块具有更低的熵值和/或更多的多样化。所得到的聚类可以是用于训练分类器以分类图像的经改进的分块聚类。

学习模块216可以利用一个或多个学习算法来训练针对与改进的分块聚类相关联的一个或多个标签的分类器。特征提取模块210可以从改进的分块聚类中的分块中提取基于分块的特征。可以至少部分地基于提取的基于分块的特征以及至少一些示例中的全局特征来训练分类器。例如，可以应用诸如快速排序，随机梯度下降(SGD)，SVM，增强等的学习算法来学习用于标识一个或多个标签的特定标签的分类器。在至少一些示例中，可以使用多标签学习技术(诸如多分类SVM或SGD)同时训练所有标签的分类器。

在其他示例中，当接收到新标签时上述训练可以被应用于新的标签，并且可以将新的分类器添加到分类器218。

分类模块120可以存储分类器218。分类模块120可以接收从新图像提取的分块和基于分块的特征，并且可以将分类器218应用于基于分块的特征。分类模块120可以输出包括标识和/或分类图像的标签的结果。在至少一些示例中，输出结果可以包括对应于每个标签的置信度得分。

示例过程

图3-5描述了从弱监督图像训练分类器的示例过程。示例性过程在图1和图2的环境的上下文中被描述，但不限于这些环境。这些过程被图示为逻辑流程图，其每个操作表示可以在硬件、软件或其组合中实现的所图示的或另一操作序列中的操作。在软件的上下文中，操作表示存储在一个或多个计算机可读介质114上的计算机可执行指令，该计算机可执行指令当由一个或多个处理器112执行时，配置计算设备来执行所述操作。通常，计算机可执行指令包括配置计算设备执行特定功能或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。

计算机可读介质114可以包括硬盘驱动器、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪存、磁或光卡、固态存储器件或适用于存储电子指令的其它类型的存储介质，如上所述。最后，描述操作的顺序不旨在被解释为限制性的，并且任何数量的所描述的操作可以以任何顺序和/或并行地被组合以实现该过程。

图3示出了用于从基于分块的特征训练分类器的示例过程300。

框302图示了发送查询。在至少一些示例中，训练分类器可以以输入模块116发送查询开始，如上所述。

框304图示了接收与查询相关联的图像语料库。至少部分地基于发送查询，与查询有关的图像可以从一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务返回给接收模块202，如以上所描述。与一组标签的个体标签相关联的附加查询可以被发送到如上所述的一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务，并且对应的图像可以被返回并被添加到图像的语料库218用于训练分类器。在一些示例中，语料库可能是嘈杂的，并且可以包括与查询无关、是低质量的图像的等。因此，图像的语料库可以被改进。在至少一些示例中，过滤模块204可以从图像语料库中过滤个体图像，如下面在图4-6中所述。

框306图示访问图像的语料库。提取模块206可以从输入模块116访问图像语料库用于处理。在至少一些实施例中，可以在继续处理来自图像语料库的个体图像之前对图像的语料库进行过滤。用于过滤的示例性过程在图4-6中描述。

框308图示了从个体图像提取分块。如上所述，分块可以表示图像的区域或部分。个体分块可以对应于图像中的对象或对象的一部分。在一些示例中，每个图像中可能有多个分块。分块提取模块208可以利用边缘检测来提取对应于图像中的对象或对象部分的分块。在至少一个示例中，分块提取模块208可以使用结构化边缘检测和/或快速边缘检测(例如，经由结构化随机森林等)。在其他示例中，分块提取模块208可以至少部分地基于使用强度、颜色渐变、分类器等检测边缘来提取分块。

框310图示了提取特征。如上所述，特征提取模块210可以从个体图像中提取全局特征和/或基于分块的特征，并且可以从分块中提取分块表示。全局特征可以表示从个体图像中提取的上下文信息。基于分块的特征可以表示与个体图像相关联的分块的区别特征。分块表示可以表示特定分块的区别特征。

框312图示了将分块布置到聚类中。在至少一些示例中，为了提高处理用于训练分类器的图像的速度，如上所述，聚类模块212可以至少部分地基于基于分块的特征将个体分块布置到多个聚类。对于每个聚类，聚类模块212可以确定规范尺寸。聚类模块212可以预先确定并缓存LDA的∑^-1。如下所述，可以利用预定规范尺寸来确定相似性值。

框314示出了确定分块的相似性值。改进模块214可以至少部分地基于相似性值从多个聚类中的个体聚类中移除至少一些个体分块。改进模块214可以确定表示两个个体分块之间的相似性的相似性值，该确定可以至少部分地基于分块表示。在至少一个示例中，改进模块214可以针对LDA特征利用HOG。改进模块214可以通过标准化从个体分块的第一个体分块和个体分块的第二个体分块提取的分块表示(例如，LDA HOG)为预定规范尺寸来确定相似性值。在至少一个示例中，可以通过零填充从第一个体分块和第二个体分块提取的分块表示来对分块表示(例如，LDA HOG)进行标准化。在一些示例中，第一个体分块是与标签相关联的多个分块的特定聚类的一部分，并且第二个体分块是与多个标签的不同标签相关联的多个分块的不同聚类的一部分。也就是说，在一些示例中，可以经由聚类间比较针对不同聚类中的分块确定相似性值。在其他示例中，第一个体分块和第二个体分块是多个聚类中相同聚类的一部分，相同聚类与多个标签的相同标签相关联。也就是说，在一些示例中，可以经由聚类内比较针对相同聚类中的分块确定相似性值。

改进模块214可以至少部分地基于第一个体分块和第二个体分块的标准化分块表示来计算点积。在至少一个示例中，可以使用从分块的LDA特征提取导出的权重向量用于计算点积。在其他示例中，改进模块214可以通过欧几里德距离比较来近似点积。利用欧几里德距离使改进模块214能够使用用于最近邻居确定的索引(例如，k维树)用于标识具有低熵值和高多样性度的分块，如下所述。在一些示例中，可以存储索引中的分块，并且在训练和/或分类期间提供的新分块可以与索引中的分块进行比较，以快速并且高效地确定分块之间的相似性(例如，计算相似性值)。

框316图示了从聚类中移除个体分块。如上所述，改进模块214可以至少部分地基于相似性值来从多个聚类中的个体聚类中去除至少一些个体分块。在至少一些示例中，改进模块214可以至少部分地基于熵值和多样性选择来移除至少一些个体分块。为了确定特定分块具有高熵值还是低熵值，改进模块214可以访问多个聚类中的特定聚类中的多个个体分块。特定聚类可以与多个标签中的标签相关联。改进模块214可以处理个体分块以确定顶部最近邻居，如上所述。在至少一个示例中，可以迭代地处理个体分块。当处理个体分块时，可以选择预定数量的顶部最近邻居用于训练分类器218(并且未选择的那些分块从聚类中被移除)。在一些示例中，增加可以确定最近邻居的速度的特定数据结构可以被利用。在至少一个示例中，特定数据结构可以合并可以由欧几里德距离近似的余弦相似性度量。因此，可以通过利用针对所有的分块的索引(例如，k维树)并使用该索引近似最近邻居来加速最近邻居确定。

改进模块214可以至少部分地基于确定与聚类内的最近邻居相关联的标签来确定每个个体分块的熵值。改进模块214可以利用最近邻居确定来生成可以代表个体分块的熵值的标签的分布。如果特定个体分块和最近邻居分块与相同标签相关联，则改进模块214可以至少部分地基于低熵分布来分配低熵值(例如，接近于0)。低熵值(例如接近0)可以指示特定的个体分块和最近邻居分块是标签的高度代表。相反，如果特定个体分块和最近邻居分块与不同标签相关联，则改进模块214可以至少部分地基于高熵分布来分配高熵值(例如接近于1)。高熵值(例如接近1)可以指示特定个体分块和最近邻居分块不代表相同的标签。改进模块214可以移除具有高于预定阈值的熵值的所有个体分块，以确保训练数据是标签的高度代表。

改进模块214还可以移除减少分块多样性的分块。所得到的分块可以被布置到多样化的、并且具有低于预定阈值的多个分块的字典中。如果分块是对象的各个部分和/或由标签标识的对象的各种视图的代表，则分块可以是多样的。在一些示例中，可以存储字典，并且可以随着时间将新的分块添加到字典。分块字典可用于生成分块表示。

改进模块214可以通过至少部分地基于与每个个体分块相关联的熵值来对字典中的个体分块进行排序来执行多样性选择。然后，在多次迭代中，改进模块214可以通过确定排序的个体分块的每个个体分块的最近邻居分块来处理排序的个体分块。如果特定分块具有熵值低于预定值的最近邻居的阈值数目，则改进模块214可以选择特定分块。改进模块214可以在每次迭代之后移除到特定分块的最近邻居分块。

至少部分地基于改进模块214移除具有高于预定阈值的熵值的个体分块以及移除个体分块以最大化个体分块的多样性，改进模块214可以针对效率进一步改进剩余的分块。例如，假设分块与预定数量的标签(例如E)相关联，则改进模块214可将来自每个标签的分块分组成聚类(例如，P_i,…,P_E)。在至少一个示例中，在每个聚类(例如，P_i,…,P_E)中选择的用于处理的个体分块可以基于对应的熵值进行排序，并将其分组为子集。用于训练分类器的最后一组分块(例如，F)可以被迭代地选择以最大化分类的效率和准确性。识别和/或分类性能(例如，m_pv)可以使用以下示例算法或与以下示例算法类似的算法来测量。

[b₁,…,b_E]＝指示P_i的哪个子集正被处理的计数器。

对于t＝1...T(迭代)

框318图示训练分类器。学习模块216可以至少部分地基于改进的多个聚类中的分块来训练用于多个标签的一个或多个分类器218。分类器218可以至少部分地基于从改进聚类中的分块提取的基于分块的特征以及至少一些示例中的全局特征被训练。例如，可以应用诸如快速排序、SGD、SVM、增强等的学习算法来学习用于标识一个或多个标签的特定标签的分类器。在至少一些示例中，可以使用多标签学习技术(诸如多分类SVM或SGD)同时训练所有标签的分类器。在其他示例中，当接收到新标签时，上述训练可以被应用于新的标签，并且可以将新的分类器添加到分类器218。

图4图示了用于至少部分地基于过滤图像语料库来确定标签是否是可学习的示例过程400。

框402图示了发送查询，如上所述。框404图示了接收与查询相关联的图像语料库，如上所述。

框406图示了过滤图像的语料库。在一些示例中，图像的语料库可能是嘈杂的，并且可以包括与查询无关、质量低的图像等。因此，图像的语料库可以被改进。在至少一些示例中，过滤模块204可以从图像语料库中过滤个体图像，如下面的图5-6所描述的。除了下面描述的处理之外，过滤模块204可以应用特定的过滤器以从图像语料库中移除特定标识的图像。例如，过滤模块204可以移除卡通图像、具有覆盖图像的预定部分的人脸的图像、具有低梯度强度的图像等。

框408图示了确定标签是否可学习的。如果从语料库去除图像导致图像的数量低于预定阈值，则过滤模块204可以确定标签不可学习的，并且可以转向人类干预，如框410所图示。相反，如果从语料库中移除图像导致图像数量高于预定阈值，则过滤模块204可以确定标签是可学习的，并且可以如框412所图示的进行训练分类器218。在上面的图3中描述了训练分类器218的示例过程。

图5图示了用于过滤图像的语料库的示例过程500。

框502图示了确定图像语料库中每个图像的最近邻居。对于多个标签中的每个标签，过滤模块204可以将图像语料库中的每个图像布置到k维树中用于促进最近邻居查找。对于每个图像，促进模块204可以确定预定数量的最近邻居。过滤模块204可以利用从个体图像提取的全局特征用于确定最近邻居。过滤模块204可以确定特定个体图像在任何个体图像的邻域中出现多少次。如果特定的个体图像出现低于预定量的次数，则可以从图像的语料库中去除特定的个体图像。

框504图示将个体图像布置到聚类中。过滤模块204可以将个体图像聚类到与多个标签的个体标签对应的聚类中。过滤模块204可以使用单个链接聚类，并且可以将预定距离内的个体图像布置到预定数量的聚类中。

框506图示了确定聚类中每个个体图像的熵值。过滤模块204可以处理聚类以确定图像的最近邻居。对于特定聚类中的每个图像，过滤模块204可以确定其他聚类中图像的最近邻居。过滤模块204可以至少部分地基于将最近邻居彼此进行比较来确定熵值。如果特定聚类的最近邻居是稳定的(例如，低熵值)，则特定聚类可能是稳定的，并且是标签的代表和/或特色。然而，如果特定聚类的最近邻居是不稳定(例如，高熵值)的，则特定聚类可能是不稳定的，并且不是标签的代表或特色。

框508图示了移除至少一些个体图像。过滤模块204可以移除具有高于预定阈值的熵值的个体图像。

图6图示了用于过滤图像语料库的另一示例性过程600。

框602图示了收集负图像。负图像是已知从与标签相关联的训练数据中排除的图像。在至少一些示例中，接收模块202可执行两个或多个查询。至少一个查询可以是如上所述的针对特定标签的查询(例如，CenturyLink字段)。附加查询可以包括构成具有两个或多个单词的特定标签(例如，CenturyLink、Field)的个体单词的查询。附加查询的初始查询可以包括两个或多个单词(例如，CenturyLink)的第一单词。附加查询的每个附加查询可以包括两个或多个单词(例如，Field)的每个附加单词。接收模块202可以从两个或多个查询接收结果。针对至少第二查询返回的结果可能表示负图像。在其他示例中，接收模块202可以利用知识图(例如Satori等)用于收集负图像。

框604图示了将图像与负图像进行比较。过滤模块204可以将作为第一查询的结果返回的个体图像与附加查询中返回的个体图像进行比较，以确定如上所述的相似性值。

框606图示了基于相似性值从图像语料库中移除个体图像。过滤模块204可以移除具有高于预定阈值的相似性值的个体图像。也就是说，如果个体图像与负面图像太相似，则可以从语料库中移除个体图像。

图7图示了用于确定相似性值的示例过程700。如上所述，改进模块214可以确定表示个体分块之间的相似性的相似性值。可以至少部分地基于分块表示来确定相似性值。在至少一个示例中，改进模块214可以利用针对LDA特征的HOG。

框702图示了从个体分块提取的标准化分块表示。在至少一些示例中，为了增加处理用于训练分类器的图像的速度，改进模块214可以基于分块的宽高比将多个分块布置到聚类中。改进模块214可以通过标准化从个体分块的第一个体分块和和个体分块的第二个体分块提取的分块表示(例如，LDA HOG)到预定规范尺寸来确定相似性值。在至少一个示例中，可以通过零填充从第一个体分块和第二个体分块提取的分块表示来标准化分块表示(例如，LDA HOG)。

框704图示了基于标准化分块表示来计算点积。至少部分地基于标准化分块表示，改进模块214可以至少部分地基于第一个体分块和第二个体分块的标准化值来计算点积。在至少一个示例中，从LDA特征提取导出的权重向量可以被使用用于计算点积。在其他示例中，改进模块214可以通过欧几里德距离比较来近似点积。利用欧几里德距离使得改进模块214能够使用用于最近邻居确定的k维树用于标识具有低熵值和高多样性的分块，如下所述。

图8图示了用于从分块的聚类中移除分块的示例过程800。如上所述，改进模块214可以至少部分地基于相似性值从多个聚类中的个体聚类中移除个体分块的至少一些。在至少一些示例中，改进模块214可以至少部分地基于熵值和多样性选择来移除个体分块的至少一些。

框802图示了访问特定聚类中的多个个体分块。为了确定特定分块具有高熵值还是低熵值，改进模块214可以访问多个聚类中的特定聚类中的多个个体分块。特定聚类可以与多个标签中的标签相关联。

框804图示了确定每个个体分块的最近邻居。如上所述，改进模块214可以处理个体分块以确定顶部最近邻居。在至少一个示例中，可以迭代地处理个体分块。当处理个体分块时，可以选择预定数量的顶部最近邻居用于训练分类器218。在一些示例中，可以利用增加可以确定最近邻居的速度的特定的数据结构。在至少一个示例中，特定数据结构可以合并可以由欧几里德距离近似的余弦相似性度量。因此，可以通过利用对所有的分块的k维树并使用k维树近似最近邻居来加速最近邻居确定。

框806图示基于每个个体分块的最近邻居来确定熵值。改进模块214可以至少部分地基于确定聚类内的最近邻居来确定每个个体分块的熵值。如果特定的个体分块和最近邻居分块与相同的标签相关联，则改进模块214可以分配低熵值(例如，接近于0)。低熵值(例如接近0)可以指示特定的个体分块和最近邻居分块是标签的高度代表。相反，如果特定个体分块和最近邻居分块与不同标签相关联，则改进模块214可以分配高熵值(例如，接近1)，指示特定个体分块和最近邻居分块不是同一标签的代表。

框808图示了从分块的聚类中移除个体分块。改进模块214可以至少部分地基于熵值和/或多样性选择来移除个体分块。改进模块214可以移除具有高于预定阈值的熵值的个体分块，以确保训练数据的标签的高度代表。改进模块214还可以移除减少分块多样性的分块。如果分块代表对象的各个部分和/或由标签识别的对象的各种视图，则分块可以是多样的。改进模块214可以至少部分地基于与每个个体分块相关联的熵值通过排序个体分块来执行多样性选择。然后，在多次迭代中，改进模块214可以通过确定排序的个体分块的每个个体分块的最近邻居分块来处理排序的个体分块。改进模块214可以在每次迭代之后从聚类中移除最近邻居分块。如果特定分块具有高于预定阈值的具有低于预定阈值的熵值的最近邻居的数目，则改进模块214可以选择特定分块。

图9图示用于训练分类器218的特定分块的多样性选择的示例过程900。如上所述，改进模块214还可以移除减少分块多样性的分块。如果分块代表对象的各个部分和/或由标签标识的对象的各种视图，则分块可以是多样的。

框902图示基于熵值来排序个体分块。改进模块214可以至少部分地基于与每个个体分块相关联的熵值通过排序个体分块来执行多样性选择。

框904图示处理个体分块。在多次迭代中，改进模块214可以通过确定经排序的个体分块的每个个体分块的最近邻居分块来处理经排序的个体分块。

框906图示去除每个个体分块的最近邻居。改进模块214可以在每次迭代之后从聚类中移除最近邻居分块。

框908图示确定特定分块具有高于预定阈值的熵值低于预定阈值的最近邻居的数量。改进模块214可以确定特定分块具有高于预定阈值的熵值低于预定阈值的最近邻居的数量。

块910图示选择用于训练分类器218的特定分块。如果特定分块具有高于预定阈值的熵值低于预定阈值的最近邻居的数量，则改进模块214可以选择特定分块。至少部分地基于改进模块214移除具有熵值高于预定阈值的个体分块以及移除个体分块以最大化个体分块的多样性，改进模块214为了效率可以进一步改进剩余的分块。在至少一个示例中，用于在每个聚类中进行处理所选择的个体分块可以基于对应的熵值被排序并且被分组成子聚类。可以迭代地选择可以用于训练分类器的最后一组分块以最大化分类的效率和准确性。特征提取模块210可以从最后一组分块(例如，改进的分块聚类)中提取基于分块的特征，用于在训练分类器中使用。

应用分类器

图10图示示出用于分类新图像的示例系统1000的图。如图10所示，系统1000可以包括输入模块116、训练模块118和分类模块120。

输入模块116可以包括接收模块202。接收模块202可以接收用于分类的新图像1002。用户106可以经由用户设备108中的一个将一个或多个图像输入到接收模块202中。例如，在至少一个示例中，用户106可以选择存储在他或她的用户设备108上的图像用于输入到输入模块116。在另一示例中，用户106可以经由他或她的用户设备108拍摄照片或视频，并将图像输入到输入模块116中。

接收模块202可以将新图像1002发送到存储在训练模块118中的提取模块206。如上所述，存储在提取模块208中的分块提取模块208可以从新图像1002中提取分块。如上所述，分块提取模块208可以至少部分地基于分块1004将分块1004发送到特征提取模块210，用于从图像1002中提取基于分块的特征。特征提取模块210可以将基于分块的特征1006发送到分类模块以用于由分类器218分类。分类模块120可以将分类器218应用于基于分块的特征1006用于分类。分类模块120可以将分类结果1008发送给用户106。在至少一个示例中，分类结果1008可以包括置信度得分。

示例过程

示例过程1100在图1、2和10的环境的上下文中被描述，但不限于这些环境。过程1100被图示为逻辑流程图，其每个操作表示可以在硬件、软件或其组合中实现的所示或另一操作序列中的操作。在软件的上下文中，操作表示存储在一个或多个计算机可读介质114上的计算机可执行指令，其当由一个或多个处理器112执行时，配置计算设备来执行所述操作。通常，计算机可执行指令包括配置计算设备执行特定功能或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。

计算机可读介质114可以包括硬盘驱动器、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪存、磁或光卡、固态存储器件或适用于存储电子指令的其它类型的存储介质，如上所述。最后，描述操作的顺序不旨在被解释为限制性的，并且任何数量的所描述的操作可以以任何顺序和/或并行地组合以实现该过程。

图11图示用于分类新图像1002的示例过程1100。

框1102图示接收输入。接收模块202可以接收要被分类的新图像1002。如上所述，用户106可以经由用户设备108中的一个将一个或多个图像输入到接收模块202。

框1104图示了提取分块1004。如上所述，分块提取模块208可以从新图像1002提取分块1004。

框1106图示了提取特征1006。分块提取模块208可以至少部分地基于所提取的分块1004将分块1004发送到特征提取模块210，用于从图像1002提取基于块的特征1006，如上所述。

框1108图示了应用分类器218。特征提取模块210可以将基于分块的特征1006发送到分类模块以由分类器218进行分类。分类模块120可以将分类器218应用于基于分块的特征1006用于分类。

框1110图示了输出结果1008。分类模块120可以将分类结果1008发送给用户106。

A.一种计算机实现方法，包括：访问图像的语料库，其中该语料库的个体图像与多个标签中的至少一个标签相关联；从个体图像提取一个或多个分块；从一个或多个分块提取基于分块的特征；从一个或多个分块的个体分块提取分块表示；至少部分地基于该基于分块的特征将所述个体分块布置到多个聚类中，其中所述多个聚类中的个体聚类对应于所述多个标签中的个体标签；确定表示所述个体分块中的一些个体分块之间的相似性的相似性值，所述确定至少部分地基于分块表示；至少部分地基于所述相似性值从所述多个聚类中的个体聚类移除所述个体分块中的至少一些个体分块；以及至少部分地基于从个体聚类提取的基于分块的特征来训练针对多个标签的分类器。

B.如段落A所述的计算机实现的方法，其中从个体分块中提取分块表示包括经由潜在Dirichlect分配(LDA)从个体分块提取特征。

C.如段落B所述的计算机实现的方法，其中确定表示个体分块之间的相似性的相似性值包括：将从个体分块中的第一个体分块和个体分块中的第二个体分块提取的分块表示标准化为预定规范尺寸；以及至少部分地基于第一个体分块和第二个体分块的经标准化的分块表示来计算点积。

D.如段落C所述的计算机实现方法，其中第一个体分块是多个分块中与多个标签中的至少一个标签相关联的特定聚类的一部分，并且第二个体分块是该多个分块中与该多个标签中的不同标签相关联的不同聚类的一部分。

E.如段落C所述的计算机实现方法，其中所述第一个体分块和所述第二个体分块是所述多个聚类中的相同聚类的一部分，所述相同聚类与所述多个标签的相同标签相关联。

F.如段落A至E中任一段所述的计算机实现方法，其中从个体聚类移除个体分块中的至少一些分块包括：访问多个聚类中的特定聚类中的多个个体分块；至少部分地基于所述相似性值来确定多个个体分块中的个体分块的最近邻居；至少部分地基于确定个体分块的最近邻居来确定个体分块的熵值；以及移除具有高于预定阈值的熵值的至少一些个体分块。

G.如段落F所述的计算机实现方法，还包括：至少部分地基于与个体分块相关联的熵值来排序个体分块；经由多次迭代来处理经排序的个体分块，该处理包括确定经排序的个体分块中的每一个的最近邻居分块；在多次迭代中的每一次迭代中移除经排序的个体分块中的每一个的最近邻居分块；确定个体分块的特定个体分块具有高于预定阈值的具有熵值低于预定阈值的最近邻居的数量；以及选择该特定个体分块以用于训练所述分类器的。

H.一种或多种被编码有指令的计算机可读介质，该指令当由处理器执行时配置计算机执行如段落A至G中任一段所述的方法。

I.一种设备，该设备包括一个或多个处理器和编码有指令的一个或多个计算机可读介质的设备，该指令当由一个或多个处理器执行时，配置计算机以执行如段落A至G中任一段所述的计算机实现的方法。

J.一种系统，包括：计算机可读介质，存储一个或多个模块；处理单元，可操作地耦合到计算机可读介质，处理单元适于执行一个或多个模块，该一个或多个模块包括：分块提取模块，用于访问多个图像并从多个图像中的个体图像提取一个或多个分块；特征提取模块，用于从一个或多个分块提取基于分块的特征，并从一个或多个分块中的个体分块提取分块表示；聚类模块，用于至少部分地基于基于分块的特征来将个体分块布置到多个聚类中；改进模块，用于至少部分地基于熵值和多样性选择来从所述多个聚类中的个体聚类中移除所述个体分块中的至少一些；以及学习模块，用于至少部分地基于个体聚类来训练针对至少一个标签的分类器。

K.如段落J所述的系统，还包括接收模块，用于至少部分地基于所述至少一个标签的查询来接收所述多个图像。

L.如段落J或K所述的系统，还包括过滤模块，用于至少部分地基于以下各项来移除个体图像中的至少一些个体图像：个体图像中的至少一些个体图像具有高于预定阈值的熵值；或个体图像中的至少一些个体图像和负图像具有高于预定阈值的图像相似性值。

M.如段落J至L中任一段所述的系统，其中特征提取模块还从个体图像中提取全局特征，全局特征表示与个体图像有关的上下文信息。

N.如段落M所述的系统，其中学习模块至少部分地基于全局特征和基于分块的特征来训练至少一个标签的分类器。

O.如段落J至N中任一段落所述的系统，其中所述改进模块还确定表示所述一个或多个分块中的个体分块之间的相似性的相似性值，所述确定包括：将从个体分块中的第一个体分块和个体分块中的第二个体分块提取的分块表示标准化为预定规范尺寸；以及至少部分地基于第一个体分块和第二个体分块的经标准化的分块表示来计算点积。

P.如段落J至O中任一段所述的系统，其中所述改进模块至少部分地基于以下各项来从多个聚类的个体聚类中移除个体分块中的至少一些个体分块：访问多个聚类的特定聚类中的多个个体分块；至少部分地基于所述相似性值来确定多个分块中的个体分块的最近邻居；至少部分地基于确定个体分块的最近邻居来确定熵值；过滤个体分块中的具有高于预定阈值的熵值的至少一些个体分块，多个个体分块的剩余个体分块包括经过滤分块；经由多次迭代确定经过滤分块的最近邻居分块；在所述多次迭代的每次迭代中移除所述经过滤分块的最近邻居分块；确定经过滤分块中的特定经过滤的分块具有低于预定阈值的具有熵值低于预定阈值的最近邻居的数目；并移除特定的经过滤的分块。

Q.如段落J至P中任一段所述的系统，还包括分类模块，用于存储用于所述至少一个标签的分类器。

R.如段落J至Q中任一段所述的系统，还包括接收模块，用于接收用于用于由分类器分类的新图像。

S.编码有指令的一种或多种计算机可读介质，当由处理器执行时，配置计算机以执行包括以下各项的动作：访问多个弱监督图像；从多个弱监督图像的个体弱监督图像中提取一个或多个分块；从一个或多个分块中提取基于分块的特征；从一个或多个分块提取分块表示；至少部分地基于所述基于分块的特征将个体分块布置到多个聚类中；至少部分地基于表示个体分块中的一些分块之间的相似性的相似性值来从多个聚类中的个体聚类中去除个体分块中的至少一些；以及至少部分地基于多个聚类来训练用于至少一个标签的分类器。

T.如段落S所述的一种或多种计算机可读介质，其中训练分类器包括：从个体聚类的剩余个体分块中提取新的基于分块的特征；并至少部分地基于新的基于分块的特征来训练分类器。

U.如段落S或T所述的一种或多种计算机可读介质，其中该动作还包括在从多媒体弱监督数据项中提取一个或多个分块之前，过滤所述多个弱监督图像，所述过滤包括：确定多个弱监督图像的每个个体弱监督图像的最近邻居；将预定距离内的一个或多个个体弱监督图像布置到图像聚类中；确定图像聚类的单个图像聚类中的每个个体弱监督图像的熵值，其中确定每个个体的弱监督图像的熵值包括确定表示特定图像聚类中每个个体的弱监督图像和在一个或多个其他图像聚类中的每个个体的弱监督图像之间的相似性的相似性值；以及当所述熵值高于预定阈值时，移除所述个体弱监督图像中的至少一些。

V.如段落S至U中任一段落所述的一种或多种计算机可读介质，其中所述动作还包括在从所述多媒体弱监督数据项中提取所述一个或多个分块之前，过滤多个弱监督图像，该过滤包括：收集负图像；将个体弱监督图像与负图像进行比较；以及至少部分地基于个体弱监督图像以及具有高于预定阈值的相似性值的负图像中的一个或多个，从所述多个图像中移除个体弱监督图像中的一个或多个。

W.一种包括一个或多个处理器和如在段落S至V中任一段落所述的一个或多个计算机可读介质的设备。

X.一种系统，包括：计算机可读介质；一个或多个处理器；以及一个或多个模块，在计算机可读介质上并且由一个或多个处理器可执行的以执行包括以下各项的操作：访问多个弱受监督的图像；从多个弱监督图像的个体弱监督图像中提取一个或多个分块；从一个或多个分块提取基于分块的特征；从一个或多个分块提取分块表示；至少部分地基于基于分块的特征将个体分块布置到多个聚类中；至少部分地基于表示个体分块中的一些分块之间的相似性的相似性值来从多个聚类中的个体聚类中移除个体分块中的至少一些；以及至少部分地基于所述多个聚类来训练用于至少一个标签的分类器。

Y.如段落X所述的系统，其中训练分类器包括：从个体聚类的剩余个体分块中提取新的基于分块的特征；并至少部分地基于新的基于分块的特征来训练分类器。

Z.如段落X或Y所述的系统，其中所述操作还包括在从所述多媒体弱监督数据项中提取所述一个或多个分块之前，过滤多个弱监督图像，该过滤包括：确定所述多个弱监督图像的每个个体弱监督图像的最近邻居；将预定距离内的一个或多个个体的弱监督图像布置到图像聚类内；确定图像聚类的个体图像聚类中的每个个体弱监督图像的熵值，其中确定每个个体的弱监督图像的熵值包括确定表示特定图像聚类中每个个体的弱监督图像和在一个或多个其他图像聚类中的每个个体的弱监督图像之间的相似性的相似性值；以及当所述熵值高于预定阈值时，移除个体弱监督图像中的至少一些弱监督图像。

AA.如段落X至Z中任一段落所述的系统，其中所述操作还包括在从所述多媒体弱监督数据项中提取一个或多个分块之前，过滤多个弱监督图像，所述过滤包括：收集负图像；将个体弱监督图像与负图像进行比较；以及至少部分地基于所述个体弱监督图像以及具有高于预定阈值的相似性值的所述负图像中的一个或多个，从多个图像中移除个体弱监督图像中的一个或多个。

结论

虽然主题已经以结构特征和/或方法动作特有的语言描述，但是应当理解，所附权利要求中限定的主题不必限于所描述的具体特征或动作。相反，具体特征和动作被描述为实现权利要求的示意性形式。

有条件的语言(尤其诸如“可以”、“可能”，“可以”或“可以”)，除非另有明确说明，否则在上下文中被理解，以表明某些示例包括，而其他示例不一定包括某些特征、元素和/或步骤。因此，这种条件语言通常不旨在暗示某些特征、元素和/或步骤以任何方式对于一个或多个示例是所需的，或者一个或多个示例必然包括用于在具有或没有用户输入或提示的情况下决定是否包括某些特征、元件和/或步骤或将在任何特定示例中将被执行的逻辑。除非另有特别说明，诸如短语“X、Y或Z中的至少一个”等短语的关联语言应被理解为呈现项目、术语等可以是X、Y或Z、或它们的组合。

Claims

1.一种计算机存储介质，被编码有指令，所述指令当由处理器执行时，配置计算机以执行动作，所述动作包括：

访问多个弱监督图像；

从所述多个弱监督图像的个体弱监督图像中提取一个或多个分块；

从所述一个或多个分块中提取基于分块的特征；

至少部分地基于所述基于分块的特征，将个体分块布置到多个聚类中；

至少部分地基于相似性值来从所述多个聚类中的至少一个聚类中移除所述个体分块中的至少一些个体分块，所述相似性值表示在所述至少一个聚类中布置的所述个体分块中的个体分块之间的相似性；

以及至少部分地基于所述多个聚类来训练用于多个标签中的至少一个标签的分类器，包括：

从所述至少一个聚类的剩余个体分块中提取新的基于分块的特征；以及

至少部分地基于所述新的基于分块的特征训练所述分类器。

2.根据权利要求1所述的计算机存储介质，其中所述动作还包括：在从所述个体弱监督图像中提取所述一个或多个分块之前，过滤所述多个弱监督图像，所述过滤包括：

确定所述多个弱监督图像的每个个体弱监督图像的最近邻居；

将预定距离内的一个或多个个体弱监督图像布置到图像聚类中；

确定所述图像聚类的个体图像聚类中的每个个体弱监督图像的熵值，其中确定每个个体弱监督图像的熵值包括确定表示特定图像聚类中的每个个体弱监督图像和一个或多个其他图像聚类中的每个个体弱监督图像之间的相似性的相似性值；以及

当所述熵值高于预定阈值时，移除所述个体弱监督图像中的至少一些个体弱监督图像。

3.根据权利要求1所述的计算机存储介质，其中所述动作还包括：在从所述个体弱监督图像中提取所述一个或多个分块之前，过滤所述多个弱监督图像，该过滤包括：

收集负图像；

将所述个体弱监督图像与所述负图像进行比较；以及

至少部分地基于所述个体弱监督图像中的一个或多个个体弱监督图像与所述负图像具有高于预定阈值的相似性值，从所述多个弱监督图像中移除所述个体弱监督图像中的所述一个或多个个体弱监督图像。

4.根据权利要求1所述的计算机存储介质，还包括：

从所述一个或多个分块提取分块表示，其中从所述个体分块提取分块表示包括经由潜在Dirichlect分配(LDA)从所述个体分块提取特征。

5.根据权利要求4所述的计算机存储介质，其中所述动作还包括：

至少部分地基于所述分块表示确定所述相似性值。

6.根据权利要求5所述的计算机存储介质，其中确定所述相似性值包括：

将从所述个体分块中的第一个体分块和所述个体分块中的第二个体分块提取的分块表示标准化为预定规范尺寸；以及

至少部分地基于所述第一个体分块和所述第二个体分块的经标准化的所述分块表示来计算点积。

7.根据权利要求6所述的计算机存储介质，其中所述第一个体分块和所述第二个体分块是所述多个聚类中的相同聚类的一部分，所述相同聚类与所述多个标签的相同标签相关联。

8.根据权利要求1所述的计算机存储介质，其中从所述多个聚类中的至少一个聚类中移除所述个体分块中的至少一些个体分块包括：

访问所述多个聚类中的特定聚类中的多个个体分块；

至少部分地基于所述相似性值来确定所述多个个体分块中的个体分块的最近邻居；

至少部分地基于确定所述个体分块的所述最近邻居来确定所述个体分块的熵值；以及

移除具有高于预定阈值的熵值的至少一些个体分块。

9.根据权利要求8所述的计算机存储介质，其中所述动作还包括：

至少部分地基于与所述个体分块相关联的所述熵值来排序所述个体分块；

经由多次迭代来处理经排序的所述个体分块，所述处理包括确定经排序的所述个体分块中的每一个经排序的个体分块的最近邻居分块；

在所述多次迭代中的每一次迭代中移除经排序的所述个体分块中的每一个经排序的个体分块的最近邻居分块；

确定所述个体分块的特定个体分块具有高于预定阈值的具有低于预定阈值的熵值的最近邻居的数目；以及

选择所述特定个体分块以用于训练所述分类器。

10.一种用于处理弱监督图像的系统，包括：

一个或多个处理单元；以及

计算机存储介质，存储有指令，所述指令当由所述一个或多个处理单元可执行时，使得所述系统执行操作，所述操作包括：

访问多个弱监督图像；

从所述一个或多个分块中提取基于分块的特征；

至少部分地基于相似性值来从所述多个聚类中的至少一个聚类中移除所述个体分块中的至少一些个体分块，所述相似性值表示在所述至少一个聚类中布置的所述个体分块中的个体分块之间的相似性；以及

至少部分地基于所述多个聚类来训练用于多个标签中的至少一个标签的分类器，包括：

至少部分地基于所述新的基于分块的特征训练所述分类器。

11.根据权利要求10所述的系统，其中所述操作还包括：至少部分地基于以下项确定所述相似性值：

从所述一个或多个分块提取分块表示；

12.根据权利要求11所述的系统，其中所述第一个体分块和所述第二个体分块是所述多个聚类中的相同聚类的一部分，所述相同聚类与所述多个标签的相同标签相关联。

13.根据权利要求10所述的系统，其中从所述多个聚类中的至少一个聚类中移除所述个体分块中的至少一些个体分块包括：

访问所述多个聚类中的特定聚类中的多个个体分块；

移除具有高于预定阈值的熵值的至少一些个体分块。

14.根据权利要求13所述的系统，所述操作还包括：

选择所述特定个体分块以用于训练所述分类器。

15.一种计算机实现的方法，包括：

访问多个弱监督图像；

从所述一个或多个分块中提取基于分块的特征；

至少部分地基于所述新的基于分块的特征训练所述分类器。

16.根据权利要求15所述的计算机实现的方法，还包括：至少部分地基于以下项确定所述相似性值：

从所述一个或多个分块提取分块表示；

17.根据权利要求15所述的计算机实现的方法，其中从所述多个聚类中的至少一个聚类中移除所述个体分块中的至少一些个体分块包括：

访问所述多个聚类中的特定聚类中的多个个体分块；

移除具有高于预定阈值的熵值的至少一些个体分块。

18.根据权利要求17所述的计算机实现的方法，还包括：

选择所述特定个体分块以用于训练所述分类器。

19.根据权利要求16所述的计算机实现的方法，其中所述第一个体分块和所述第二个体分块是所述多个聚类中的相同聚类的一部分，所述相同聚类与所述多个标签的相同标签相关联。

20.根据权利要求16所述的计算机实现的方法，还包括：至少部分地基于所述分块表示确定所述相似性值。