CN108351971B

CN108351971B - 对标记有属性的对象进行聚类的方法和系统

Info

Publication number: CN108351971B
Application number: CN201580084335.9A
Authority: CN
Inventors: 王晓刚; 欧阳万里; 李弘扬; 曾星宇
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-10-12
Filing date: 2015-10-12
Publication date: 2022-04-22
Anticipated expiration: 2035-10-12
Also published as: WO2017063126A1; CN108351971A

Abstract

公开了一种对标记有属性的对象进行聚类的方法，包括：获得多个对象的属性；将所获得的属性汇总为多个语义因子；将所述对象拆分为多于一个集群；以及将所述集群中的至少一个集群拆分一次或多次，其中从所述语义因子中独立地选择一个语义因子以在每次拆分期间拆分所述集群。本公开进一步公开了一种对标记有属性的对象进行聚类的系统。本公开还公开了一种使用所述对标记有属性的对象进行聚类的方法来进行特征学习方法，以及公开了一种特征学习系统。

Description

对标记有属性的对象进行聚类的方法和系统

技术领域

本申请涉及一种在对象检测装置的特征学习系统中对标记有属性的对象进行聚类的方法和系统。

背景技术

随着深度学习技术的出现，根据大规模监督来学习强特征表示已经实现了计算机视觉的巨大成功，这是由具有丰富标注的大视觉数据来驱动的。

近年来已经构造了许多属性数据集。Sun属性数据库用于场景辨识。其它数据集从不同方面描述对象的属性。还存在按照每个样本都提供了属性的许多数据集。

许多方法使用属性的预测作为中间级别特征，以用于辨识具有很少实例或没有实例的新对象范畴。人们旨在改进属性预测的准确性。人们还发现属性对于对象检测是有效的。已经提出了使用片段(segment)的功能(functionality)、上位范畴(superordinatecategory)、视点和位姿作为属性来改进检测准确性。然而，并不清楚这些属性是否有助于以深度模型学习一般特征表示，且尚不清楚这些属性是否有助于对比如ImageNet的极大规模数据集的对象检测。

已经表明深度学习对大规模对象检测和辨识是有效的。已发现，从大规模分类数据学习的特征可应用于许多其它视觉任务。然而，现有技术中未研究使用属性来改进用于对象检测的特征学习。

发明内容

基于ImageNet的对象检测数据集，本申请标注了旋转、视点、对象部分位置、部分遮挡、部分存在、共同属性和类别特定属性。因而，本申请提出使用此数据集来训练深度表示(representation)，且广泛地评估这些属性对一般对象检测任务的有用程度。为了较佳地使用属性标注，通过对属性的关系建模且将属性以分层方式聚类为语义上有意义的混合类型来提出深度学习方案。

在本公开的一个方面中，提供了一种对标记有属性的对象进行聚类的方法，包括：

获得多个对象的属性；

将所获得的属性汇总为多个语义因子；

将对象拆分为多于一个集群；以及

对集群中的至少一个集群拆分一次或多次，

其中，从语义因子中独立地选择一个语义因子以在每次拆分期间拆分集群。

在一个实施方式中，将所述对象划分为多于一个对象类别，且对每个对象类别单独地执行所述获得、所述汇总和所述拆分的处理。

在一个实施方式中，所述属性被汇总为以下语义因子中的一个或多个：

旋转属性，即，对象的平面内旋转；

视点属性，即，对象的平面外旋转；

共同属性，所有所述对象类别共享的属性；

类别特定属性，其特定地用于单个类别或小类别群组；

对象部分位置和遮挡；以及

对象部分存在。

在一个实施方式中，任何一个所述集群的、由用于从所有对象的集合获得集群的拆分次数所界定的深度不大于最大深度；或者任何一个所述集群的、由集群中的对象数目所界定的大小不小于最小大小。

在一个实施方式中，每个所述语义因被选择使得所述拆分的处理具有最佳的均一性。

在一个实施方式中，通过以下操作来独立地选择所述语义因子中的每个语义因子：使用所述语义因子中的每个语义因子来获得候选拆分；计算每个所述候选拆分的评估得分；以及比较所述评估得分以找到：最大评估得分，以及用于获得具有所述最大评估得分的候选拆分的对应语义因子。

在一个实施方式中，通过对有向图进行附聚聚类、吸引子传播、谱聚类或归一化分割来实现每次拆分。

在一个实施方式中，通过对有向图进行附聚聚类来实现每次拆分处理，其中，所述有向图使用K最近邻构造，在有向图中，每个对象是节点，来自第m节点的有向边缘用于测量第m样本与第n样本之间的相似性；且所述集群的接近性量度经由所述有向图上的入度和出度定义。

在本公开的另一方面中，提供了一种特征学习方法，包括：

将标记有属性的对象划分为一个或多个对象类别以获得每个对象的对象类别标记；

根据上述方法将每个对象类别中的对象独立地聚类为不同集群以获得每个对象的对象集群标记；

对于给定图像，预测出预测对象类别标记和预测集群类别标记；

获得给定图像的人工对象类别标记；以及

基于获得的人工对象类别标记、所获得的对象集群标记、预测对象类别标记和预测集群标记来训练图像特征。

在本公开的另一方面中，提供了一种用标记的属性聚类对象的系统，包括：

获得单元，获得多个对象的属性；

汇总单元，与获得单元电通信，将所获得的属性汇总为多个语义因子；

拆分单元，与汇总单元电通信，将对象拆分为多于一个集群；且

拆分单元进一步将集群中的至少一个集群拆分一次或多次；

其中，拆分单元包括选择器，选择器用于从语义因子中独立地选择一个语义因子以在每次拆分期间拆分集群。

在一个实施方式中，上述系统可进一步包括：划分单元，将所述对象划分为多于一个的对象类别，且针对每个对象类别单独地执行所述获得、所述汇总和所述拆分的处理。

在一个实施方式中，在所述汇总单元中，所述属性被汇总为以下语义因子中的一个或多个：

旋转属性，即，对象的平面内旋转；

视点属性，即，对象的平面外旋转；

共同属性，由所有所述对象类别共享；

类别特定属性，其特定地用于单个类别或小类别群组；

对象部分位置和遮挡；以及

对象部分存在。

在一个实施方式中，所述语义因子中的每个语义因子被选择使得所述拆分具有最佳的均一性。

在一个实施方式中，所述选择器包括：获得单元，使用所述语义因子中的每个语义因子来获得候选拆分；计算单元，计算每个候选拆分的评估得分；以及比较单元，比较所述评估得分以找到最大评估得分和用于获得具有所述最大评估得分的候选拆分的对应语义因子。

在一个实施方式中，通过对有向图进行附聚聚类来实现每次拆分，其中，所述有向图使用K最近邻而构造，在所述有向图中每个对象是节点，来自第m节点的有向边缘用于测量第m样本与第n样本之间的相似性；且集群的接近性量度经由所述有向图上的入度和出度定义。

在本公开的另外一个方面中，提供了一种特征学习系统，包括：

分类单元，将标记有属性的对象划分为一个或多个对象类别以获得每个对象的对象类别标记；

属性聚类单元，使用上述的系统将对象类别中的每个对象类别中的对象独立地聚类为不同集群以便获得每个对象的对象集群标记；

预测单元，对于给定图像，预测出预测对象类别标记和预测集群类别标记；

获得单元，获得给定图像的人工对象类别标记；以及

训练单元，基于获得的人工对象类别标记、所获得的对象集群标记、预测对象类别标记和预测集群标记来训练图像特征。

系统存储器，存储计算机可执行指令，以及

处理器，执行指令以进行以下操作：

获得多个对象的属性；

将属性汇总为多个语义因子；

将对象拆分为多于一个集群；以及

将集群中的至少一个集群拆分一次或多次，

其中从语义因子中独立地选择一个语义因子以在每次拆分期间拆分集群。

附图说明

下文参考附图来描述本发明的示范性非限制性实施例。附图是说明性的且通常未按确切比例绘制。不同图上的相同或相似元件用相同的附图标号来表示。

图1示出了对象检测的实例。

图2示出了一些实施例中的特征学习系统的总体流程。

图3示出了狮子、水獭和轿车的属性标注样本。彩色视图示出的效果最佳。将旋转量化为8个方向(图(a))。图(b)示出了视点是6维向量，其中前侧(front)表示主平侧。图(c)定义了定向和视点的原型。接着在图(d)中标注了每个边界框。室外/室内、与人的交互、定焦镜头和查看内部(see inside)是所有类别的共同属性。狮子为雌性、水獭在水上浮动以及轿车为古典款式是单个或小类别群组的类别特定属性。

图4示出了因子引导分层聚类的算法1。

图5示出了对象类别公共汽车的因子引导分层聚类。为了将样本拆分为集群，首先使用视点，接着使用部分存在，再接着使用旋转。

图6示出了训练级(stage)的预测单元。

图7示出了测试级的预测单元。

图8示出了训练单元。

图9示出了对使用关于ILSVRC2014val₂的属性的不同方法的研究。

图10示出了对使用关于ILSVRC2014val₂的多个属性混合集合的研究。

图11示出了与对象类别水獭和人最相关的视觉化特征映射。通过属性学习过的特征映射较佳地处置了外观变化且辨别出对象与背景。彩色视图的示出效果最佳。

图12示出了属性混合类型的高预测得分的实例。图像被裁剪，因此可较佳地看见属性。彩色视图的示出效果最佳。

图13示出了根据本公开的至少一些实施例而布置的示例性的计算装置。

具体实施方式

本公开涉及对象检测，其目标是自动地检测给定面部图像上的对象，例如人、狗和椅子。图1中给出一些实例。

对象表示(representation)对于对象辨识和检测至关重要。对象、场景和人类的表示存在显著的演变。该演变进展的大部分是通过创建数据集触发的。在本申请的公开中，构造了大规模对象属性数据集，其动机是如下两个方面。

第一，其是实现对图像的进一步语义理解的重要步骤。因为深度学习在ImageNet分类数据集上相比于人类级别实现精密乃至更佳的性能，所以对图像的语义理解获得更多关注。除了对象类别名称以外，对象的属性还提供较丰富的语义意义。举例来说，利用属性可辨识到，轿车是“古典款式”且“车门打开”，水獭“在水上浮动”且“面对相机”。作为另一实例，利用对象部分的位置可估计对象的动作。尽管ImageNet已由于其规模巨大并且对象类别丰富而变成驱动计算机视觉进步的最重要基准之一，但ImageNet的属性标注的规模小得多。来自我们的数据集的标注极大地丰富了关于ImageNet的语义描述。

第二，此数据库提供促进关于图像的外观变化的分析的标记。众所周知，类别内变化是影响对象检测和辨识的准确性的最重要因子之一。由于旋转变化、视点、部分变形、部分存在、背景复杂性、与其它对象的交互和其它因子，相同类别的对象的外观极其不同。关于Pascal VOC数据集，研究人员通过使用纵横比来推断视点改变和部分存在。然而，由于上文所提及的因子，相同纵横比的图像的外观可能会极其不同。揭露影响外观变化的因子的直接方式是明确地对其进行标注。因此，ImageNet对象检测数据用这些属性进行标注，这已最广泛地用于现如今的一般对象检测。

许多证据已经示出出，可以通过具有深度模型和图像分类任务的ImageNet学习到强大的一般特征表示。利用此数据库，可通过对属性的认识来引导特征学习。更有效的方式将是在训练期间向模型告知这些因子，以较佳地理清它们。

属性是相关的，例如旋转与部分位置相关，且应被联合地建模。样本被聚类为属性群组，这会产生不同属性混合类型。深度模型被训练以预测属性混合类型。

当存在描述对象的各个方面的很多属性时，难以识别哪些属性是影响外观变化的最重要属性。需要具有自动地识别外观变化的主要因子的方案。在本论文中，通过每次选择单个属性因子以供划分来构造分层集群树。从分层树的顶部到底部，易于对造成变化的属性因子的重要性分级。

在一些实施例中，提供一种属性标记系统，其研究促进关于图像的外观变化的分析的属性。众所周知，类别内变化是影响对象检测和辨识的准确性的最重要因子之一。所提供的属性是影响外观变化的因子。

在一些实施例中，提供一种特征学习系统，其允许我们从大规模属性数据集学习特征表示。所学习的特征接着用于检测对象。

对象的属性提供用于推理对象的外观变化的信息。对象的属性包含旋转、对象部分(轿车的车轮)的位置、图像中对象部分的存在和其它属性(鸟翅膀张开)。

从属性学习到的特征表示(representation)可较佳地描述对象。

在一些实施例中，根据本公开的系统2000可包括属性聚类单元201、第一预测单元202以及训练单元203和第二预测单元204，如图2所示。

属性聚类单元201

属性聚类单元201是用于实践本公开的属性聚类方法的一个个体单元(unity)。

在一些实施例中提供了一种属性聚类算法，该算法在图4中以计算机模拟语言予以阐释。如图所示，所述算法可包括：

i.最初，将相同类别的训练样本分组为一个集群。由V表示的集群集合仅含有该被分组成的集群。

ii.从待拆分的集群集合V挑选由C表示的集群，且接着从语义属性群组中挑选一个语义属性群组用于将C拆分为若干集群。

iii.重复步骤ii直到所有集群C满足两个条件中的一个条件：1)C中的样本数目小于阈值T，或2)集群C被划分达大于D次。

iv.将最终集群集合V用作训练样本的集群标记。

在一些实施例中，将对象划分为多于一个对象类别，且对每个对象类别单独地执行获得、汇总和拆分处理。

在一些实施例中，属性被汇总为以下语义因子中的一个或多个语义因子：

旋转属性，即，对象的平面内旋转；

视点属性，即，对象的平面外旋转；

共同属性，由所有对象类别共享；

类别特定属性，特定地用于单个类别或小类别群组；

对象部分位置和遮挡；以及

对象部分存在。

在一些实施例中，任何一个集群的、由用于从所有对象的集合获得集群的拆分次数所界定的深度不大于最大深度。

在一些实施例中，任何一个集群的、由集群中的对象数目所界定的大小不小于最小大小。

在一些实施例中，语义因子中的每个语义因子被选择为能够使得拆分具有最佳均一性。

在一些实施例中，可通过以下操作来选择语义因子中的每个语义因子：

使用语义因子中的每个语义因子来获得候选拆分；以及

从语义因子挑选用于获得具有最大评估得分的候选拆分的一个语义因子。

使用每个语义因子来获得候选拆分；

通过下式来计算第i候选拆分Sⁱ＝(C_1,i,…,C_N,i)的评估得分E(Sⁱ)

其中

|C_k,i|表示C_k,i中的元素数目，N表示一个候选拆分中的集群数目，k和

是求和中所使用的运转指数；

挑选产生具有最大评估得分的拆分的语义因子。

在一些实施例中，通过对有向图进行附聚聚类、吸引子传播、谱聚类或归一化分割来实现每次拆分。

在一些实施例中，通过对有向图进行附聚聚类来实现每次拆分，其中，

有向图是使用K最近邻而构造，其中每个对象是节点，来自第m节点的有向边缘用于测量第m样本与第n样本之间的相似性；且

集群的接近性量度是经由图上的入度(indegree)和出度(outdegree)而定义。

在一些实施例中，通过关于有向图的附聚聚类来实现拆分，其中

有向图是使用K最近邻(K-NN)而构造，其中每个对象是节点，来自第m节点的有向边缘用于测量第m样本与第n样本之间的相似性，如下：

其中σ²是所有

的均值欧几里得距离，

和

分别是第n和第m样本的第i属性因子；且

集群的接近性量度由有向图上的入度和出度定义。

在一些实施例中，本公开的系统进一步包括划分单元，其用于将对象划分为多于一个对象类别，且对每个对象类别单独地执行获得、汇总和拆分处理。

在一些实施例中，在汇总单元中，属性被汇总为以下语义因子中的一个或多个语义因子：

旋转属性，即，对象的平面内旋转；

视点属性，即，对象的平面外旋转；

共同属性，由所有对象类别共享；

类别特定属性，其特定地用于单个类别或小类别群组；

对象部分位置和遮挡；以及

对象部分存在。

在一些实施例中，选择器包括：

获得单元，使用语义因子中的每个语义因子来获得候选拆分；

计算单元，计算每个候选拆分的评估得分；以及

比较单元，比较评估得分以找到最大评估得分、和用于获得的具有最大评估得分的候选拆分的对应语义因子。

在一些实施例中，选择器包括：

获得单元，使用每个语义因子来获得候选拆分；

计算单元，通过下式来计算第i候选拆分Sⁱ＝(C_1,i,…,C_N,i)的评估得分E(Sⁱ)

其中

是求和中所使用的运转指数；

挑选单元，挑选产生具有最大评估得分的拆分的语义因子。

在一些实施例中，以下程序用于训练深度模型：

1.预训练用于M-类别(例如1000-类别)分类问题的深度模型。M-类别ImageNet分类和定位数据集用于预训练所述模型，这是因为它们被发现对于对象检测是有效的。

2.使用以下损失来微调用于属性估计和N-类别(N<M，例如200-类别)对象检测的深度模型：

其中L_o是用于将对象分类为200类别或背景中的一个的铰链损失(hinge loss)。w_o,c是对象类别c的分类器，h_n是来自第n样本的深度模型的特征。∑b_jL_a,j是属性估计的损失，b_j是损失∑b_jL_a,j的预定义权重。当标记y_j，n连续时，例如是部分位置，平方损失

在(1)中用于其针对第j属性损失和第n样本的预测

当标记y_j，n离散时，例如是部分存在或属性混合类型，使用交叉熵损失

当b_j＝0且其中j＝1,…,J时，深度模型退化到无属性的正常对象检测框架。当使用属性时，设置b_j＝1。在损失函数(1)中的情况下，深度模型不仅需要将损失Lo的对象类别与背景区分开来，而且需要从损失∑b_jL_a,j的属性预测标记。无属性标记的样本被约束为不具有损失L_a,j，使得其不会影响属性学习。

在一些实施例中，使用属性将对象类别的训练样本划分为许多属性混合类型。接着，使用深度模型以使用交叉熵损失来预测训练样本的属性混合类型。样本的属性被分组为多个(例如6个)语义因子f＝{f_i}_i＝1…6＝{f_rot,f_view,f_com,f_spec,f_loc,f_ext}。它们对应于六个因子。f_rot表示旋转，f_view表示视点，f_com表示共同属性，f_spec表示类别特定属性，f_loc表示对象部分位置和遮挡，f_ext表示对象部分存在。

在一些实施例中，对于对象类别的样本，建构分层聚类树。图4中概述了建构分层聚类树的算法。以分裂方式完成聚类，并且仅存在最初含有所有样本的一个集群。随着在分层树上向下移动而递归地执行拆分。在每个阶段时，挑选集群C以进行拆分，且接着从6个语义属性因子中挑选一个语义属性因子用于将C拆分为若干集群。接着，选择其它集群用于进一步拆分直到没有集群满足对集群中的深度和样本大小的要求。图5中示出针对类别公共汽车所获得的聚类结果。

在一些实施例中，因为不同对象类别的属性分布不同，所以针对每个类别单独地完成聚类，使得不同类别可挑选不同语义属性因子。

在一些实施例中，对于属性因子，将选定样本集合C拆分为若干集群，使得同一集群中的样本相比于其它集群中的样本彼此更相似(如图4所示出的算法中的行5-7)。用于将C拆分为N个集群的聚类方法使用K最近邻(K-NN)来构造有向图。在此图上，每个样本是节点，从第n节点到第m节点的有向边缘用于测量第m样本与第n样本之间的相似性，如下：

其中σ²是所有

的均值欧几里得距离，

和

分别是第n和第m样本的第i属性因子。集群的接近性量度是经由图上的入度和出度而定义。在一些实施例中，此方法是优选的。在其它实施例中，还可采用关于许多基准图像数据集的吸引子传播、谱聚类和归一化分割。

在一些实施例中，每个属性因子f_i用于获得候选拆分Sⁱ＝{C_1,i,…,C_N,i}。选择六个候选拆分{S¹,…,S⁶}当中具有最大评估得分E(Sⁱ)的候选拆分用于拆分C(图4中的行8-9)。在我们的实施方案中，E(Sⁱ)是拆分的熵，如下：

其中

|C_k,i|表示C_k,i中的元素数目。

在一些实施例中，E(S_i)测量候选拆分的质量。将样本划分为集群的原因是为了对外观相似的样本分组。针对小的集群内不相似性获得候选拆分。然而，集群的均一性很重要，但不予以考虑。举例来说，ImageNet分类数据集在用于训练的每个类别中几乎具有相同数目的样本(例如对于90％类别，1300个样本)。作为另一实例，训练样本被约束为不大于1000，用于训练关于ImageNet检测数据集的深度模型。我们的算法中使用熵用于测量集群大小的均一性。熵越大，则集群大小越均一，且因此所捕获的属性变化越好。举例来说，假定候选群组S₁将C拆分为具有百分比为30％、35％和35％的样本的集群，那么候选群组S₂将C拆分为百分比为90％、9％和1％的样本。候选群组S₂被视为差于S₁。S₂具有集群内的90％样本且不捕获主要变化因子。作为另一问题，具有S₂中的2％样本的集群具有太少的样本而不能被很好地学习，而具有90％样本的集群将在特征学习中占主导。因此，S₁是较佳选择且将在此状况下被我们的方法挑选。通过使用所描述的方法用于以相似因子聚类样本且接着选择具有最佳均一性的候选拆分，在我们的聚类算法中不仅考虑集群内的相似性而且考虑识别主要变化因子的能力。

在一些实施例中，存在不具有某些属性因子的变化的一些类别。举例来说，比如篮球的球类不具有平面内或平面外旋转。当使用这些属性因子来拆分集群时，返回的集群数目将为一且具有最小熵。因此，这些属性因子将不被选择用于聚类。

在一些实施例中，用于拆分的集群C被约束为具有多于M个样本和小于D的树深度。在我们的实验中，D＝4，M＝300，N＝3，且获得1372个子类别。D、M和N用于控制集群内的样本数目。如果集群内的样本数目太小，那么难以很好地训练。

训练单元203以及预测单元202和204

训练数据是三元组(I,y,a)，I表示输入图像，y表示图像的对象类别标记，a表示图像的属性。

在一些实施例中，对象的属性用作用于将相同类别的对象聚类为若干集群的特征。举例来说，公共汽车被聚类为三个集群：1)公共汽车具有水平视图且所有部分存在于图像中；2)公共汽车具有水平视图且仅前半部分存在于图像中；3)公共汽车具有倾斜视图且所有部分存在于图像中。输出是每个训练样本的集群标记。

在一些实施例中，在训练阶段，在给出图像的情况下，第一预测单元201预测对象类别标记和集群标记。

在一些实施例中，训练单元203使用从属性聚类单元获得的图像标记和从第一预测单元201预测的图像标记用于训练。

在一些实施例中，在测试阶段，从训练单元203训练的参数用于从给定图像提取特征。第二预测单元204使用所提取的特征来预测给定图像的类别标记。

在一些实施例中，属性聚类系统2000可被提供和用于利用属性的引导将对象类别聚类为若干集群。

在一些实施例中，向所提出的系统2000输入训练图像的属性标记。属性可被汇总为不同群组。

在一些实施例中，一个属性群组是旋转，其对应于对象的平面内旋转，如图3的(a)所示出。旋转被离散化为多个(例如8个)方向。

在一些实施例中，一个属性群组是视点，其对应于对象的平面外旋转，如图3的(b)所示。视点可以是多值的。举例来说，可看到轿车的前侧和左侧两者。对于平面内和平面外旋转，挑选参考对象定向，使得在大多数状况下对象在正视图中不经历旋转，且其大多数部分未自遮挡。视点具有关于人或动物是否面对相机的语义意义。

在一些实施例中，一个属性群组包含共同属性。这些属性由所有对象类别共享。这些属性的两个实例是：1)室内或室外，其是场景级别情境属性。2)复杂或简单背景，其是背景属性。3)紧凑拍摄(Tight shot)，其中相机非常接近于对象且导致立体图改变。在此状况下，通常大多数对象部分并不存在。4)内部拍摄(Internal shot)，其对于轿车中捕获的图像的场景为“true”，而对于轿车外捕获的图像的场景为“false”。5)几乎所有部分被遮挡，其中对象的大于70％在边界框中隐藏。6)与人的交互，其是比如拐杖、担架、马、口琴和弓的对象的重要情境。7)腐烂、损毁、破裂，其是引起外观变化的语义属性。8)柔性形状，其对于比如海星的对象的场景为“true”。9)多对象，其在边界框包含多个对象时，例如狮子拥抱其幼狮时为“true”。10)被切或被咬，其在苹果或柠檬被切成切片时为“true”。图3示出比如室外/室内、与人的交互的一些共同属性。

在一些实施例中，一个属性群组包含类别特定属性，其是指特定地用于单个类别或小类别群组的属性。挑选引起大外观变化的属性。举例来说，二进制属性“长耳”和“毛茸茸”用于狗，“嘴巴张开”用于河马，“接通屏幕上的内容”用于监视器，“翅膀张开”用于蜻蜓和鸟，“有很多书”用于书架，以及“在水上浮动”用于鲸。图3示出一些类别特定属性。总共定义314个类别特定属性。共同属性和类别特定属性提供用于描述对象的丰富语义信息。

在一些实施例中，一个属性群组包含对象部分位置和遮挡。不同对象类别具有不同部分。举例来说，对于如图3所示出的狮子和水獭，部分是嘴巴、脖子、臀和四肢。对于如图3所示出的轿车，部分是四个车轮和轿车车顶的四个拐角。部分位置的变化对应于对象部分的变形。在6个动物类别上发现部分位置监督是有帮助的。部分位置不仅可用于理清影响外观变化的因子，并且促进比如动作辨识、动画、基于内容的视频和图像检索的进一步应用。对象部分可被遮挡，这会引起对象的视觉提示的失真。因此，对象部分的遮挡被标注且由图3中的灰圆表示。

在一些实施例中，一个属性群组是对象部分存在。对于给定对象类别，其部分可能由于遮挡或定焦镜头而不在边界框中。对于图3中的实例，仅具有头部的狮子图像被标记为狮子，且具有完整身体的狮子图像也被标记为狮子。然而，这两个图像具有大外观变化。比如人的半个身体和完整身体的外观混合对应于不同对象部分存在。

在一些实施例中，属性聚类系统输出训练样本的集群标记。

在一些实施例中，在训练阶段，向预测单元输入训练图像，且其输出预测集群标记和对象类别标记。

在一些实施例中，在预测单元中，在步骤S601，借助边界框对输入图像进行裁剪且将输入图像扭曲为卷积神经网络所需的预定义大小；在步骤S602，在借助给定边界框裁剪的输入图像的情况下，从卷积神经网络提取特征；在步骤S603，将特征用于预测集群标记和对象类别标记。图6中示出训练阶段时的预测单元。

在一些实施例中，在测试阶段，向预测单元输入测试图像，且其输出预测集群标记和对象类别标记。如图7所示出，在S701，借助边界框对输入图像进行裁剪且将输入图像扭曲为卷积神经网络所需的预定义大小。在S702，在给出输入图像的情况下，从卷积神经网络提取特征。在S703，将特征用于预测集群标记和对象类别标记。

在一些实施例中，与训练阶段使用的预测单元相比较，测试阶段使用的单元不预测集群标记。

在一些实施例中，向训练单元输入图像、真值集群标记和对象类别标记，以及预测集群标记和集群标记。训练单元输出卷积神经网络的学习参数，以及最后由预测单元使用的训练参数。如图8所示，预测单元的训练步骤包括：

S801.对来自预定训练集的图像和对应的真值集群标记、对象类别标记进行取样；

S802.提取特征且使用预测单元来预测集群和类别标记；

S803.计算预测集群类别标记与真值集群类别标记之间的不相似性；

S804.学习从图像到不相似性的映射；以及

S805.如果所估计的集群类别标记未收敛到真值集群类别标记，那么重复步骤(i)-(iv)。

已经表明，属性可用于区分类别内变化以及改进特征学习。以属性作为监督而学习的深度表示(representation)改进了在大规模对象检测数据集上的对象检测准确性。通过广泛实验而研究了使用属性的不同方式发现，相比于直接预测属性，更有效的是通过预测属性混合类型来学习特征表示。

因子引导分层聚类构造了语义上有意义的属性混合类型。属性被分组为若干属性因子。在每个步骤，选择最佳地表示外观变化的属性因子用于将样本划分为集群。利用此聚类方法可对表示变化的属性的重要性分级。

本公开的方法和系统可体现在计算装置中。图13是示出了根据本公开的各种实施方案的示例性的计算装置900的框图。在非常基础的配置901中，计算装置900通常包含一个或多个处理器910和系统存储器920。存储器总线930可用于在处理器910与系统存储器920之间通信。

取决于所需的配置，系统存储器920可属于任何类型，包含但不限于易失性存储器(例如RAM)、非易失性存储器(例如ROM、快闪存储器等等)或其任何组合。系统存储器920通常包含操作系统921、一个或多个应用程序922和程序数据924。应用程序922可包含指令923，其被布置成执行如本文中所描述的功能，包含关于图2、4和6-8所示出的流程图所描述的动作。程序数据924可包含电修复(ER)数据925，例如电压、电压脉冲控制方案等等，并可用于实施指令923。在一些实例中，应用程序922可被布置成在操作系统921上与程序数据924一起操作，使得可提供如本文中所描述的本公开的实施方案。此所描述的基础配置在图9中由虚线901内的那些组件绘示。

计算装置900可具有额外特征或功能性和额外接口以促进基础配置901与任何所需装置和接口之间的通信。举例来说，总线/接口控制器940可用于经由存储接口总线941促进基础配置901与一个或多个数据存储装置950之间的通信。数据存储装置950可以是可装卸式存储装置951、非可装卸式存储装置952或其组合。可装卸式存储装置和非可装卸式存储装置的实例包含例如软磁盘驱动器和硬磁盘驱动器(HDD)的磁盘装置、例如紧密光盘(CD)驱动器或数字通用光盘(DVD)驱动器的光盘驱动器、固态驱动器(SSD)和磁带驱动器，在这里仅举这几个例子。示例性的计算机存储媒体可包含在任何方法或技术中实施用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性、可装卸式和非可装卸式媒体。

系统存储器920、可装卸式存储装置951和非可装卸式存储装置952全部是计算机存储媒体的实施例。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光学存储装置、盒式磁带、磁带、磁盘存储装置或其它磁性存储装置，或可用于存储所要信息且可由计算装置900存取的任何其它媒体。任何此类计算机存储媒体可以是装置900的一部分。

计算装置900还可包含接口总线942用于促进经由总线/接口控制器940从各种接口装置(例如，输出接口、外围接口和通信接口)到基础配置901的通信。示例性的输出接口960包含图形处理单元961和音频处理单元962，其可用于经由一个或多个A/V端口963向例如显示器或扬声器的各种外部装置通信。示例性的外围接口960包含串行接口控制器971或并行接口控制器972，其可用于经由一个或多个I/O端口973与例如输入装置(例如，键盘、鼠标、笔、语音输入装置、触摸输入装置等等)或其它外围装置(例如，打印机、扫描仪等等)的外部装置通信。示例性的通信接口980包含网络控制器981，其可被布置成促进经由一个或多个通信端口982经由网络通信与一个或多个其它计算装置990通信。网络通信连接是通信媒体的一个实例。

通信媒体通常可由计算机可读指令、数据结构、程序模块或其它数据在例如载波或其它传送机制的经调制数据信号中体现，且包含任何信息递送媒体。“经调制数据信号”可以是如下信号：其特性中的一个或多个特性是以例如对信号中的信息编码的方式被设置或改变。作为示例而非限制，通信媒体可包含：有线媒体，例如有线网络或直接有线连接；以及无线媒体，例如声学、射频(RF)、红外(IR)和其它无线媒体。如本文中所使用的术语计算机可读媒体可包含存储媒体和通信媒体两者。

计算装置900可被实施为小尺寸外型的便携式(或移动)电子装置的部分，所述电子装置是例如蜂窝电话、智能电话、个人数据助理(PDA)、个人媒体播放器装置、无线网络手表装置、个人头戴装置、应用特定装置，或包含以上功能中的任一个功能的混合装置。计算装置900还可被实施为包含膝上型计算机和非膝上型计算机配置两者的个人计算机，或实施在工作站或服务器配置中。

依据关于存储在例如计算机存储器的计算系统存储器内的数据位或二进制数字信号的操作的算法或符号表示而提供前述详细描述的一些部分。这些算法描述或表示是数据处理领域的一般技术人员用来向所属领域的其他技术人员传达其工作的实质内容的技术的实例。算法在这里并且通常被视为产生所要结果的操作或相似处理的自相一致序列。在此上下文中，操作或处理涉及对物理量的物理操纵。通常，虽然并非必须，这些量可呈能够被存储、传送、组合、比较或以其它方式操纵的电或磁性信号的形式。主要出于普遍使用的原因，已证实，有时将此类信号称为位、数据、值、元素、符号、字符、项、编号、数字等等是方便的。然而，应理解，所有这这些或相似术语应与适当物理量相关联且仅为方便的标记。除非另有特定陈述，如从以下论述显而易见，否则应了解，在整个本说明书中，利用例如“处理”、“计算”、“估算”、“确定”等等术语的论述是指计算装置的动作或过程，所述计算装置操纵或变换被表示为计算装置的存储器、寄存器或其它信息存储装置、发射装置或显示装置内的物理电子或磁性量的数据。

前述详细描述已经通过使用框图、流程图和/或实例而陈述了装置和/或过程的各种实施例。到此为止，这些框图、流程图和/或实例含有一个或多个功能和/或操作，所属领域的人员将了解到，这些框图、流程图或实例中的每个功能和/或操作都可以通过广泛范围的硬件、软件、固件或几乎其任何组合来个别地和/或共同地实施。在一个实施例中，本文中所描述的主题的若干部分可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其它集成形式来实施。然而，所属领域的技术人员将认识到，本文中所公开的实施例的一些方面可以完全地或部分地在集成电路中等效地被实施为在一个或多个计算机上运行的一个或多个计算机程序(例如，被实施为在一个或多个计算机系统上运行的一个或多个程序)、被实施为在一个或多个处理器上运行的一个或多个程序(例如，被实施为在一个或多个微处理器上运行的一个或多个程序)、被实施为固件，或被实施为几乎其任何组合，且根据本公开，设计电路和/或为软件和或固件撰写代码将是所属领域的技术人员非常熟练的。此外，所属领域的技术人员将理解，本文中所描述的主题的机制能够以多种形式分布为程序产品，且本文中所描述的主题的说明性实施例适用，而不管实际用于实行所述分布的信号承载媒体的特定类型。信号承载媒体的实例包含但不限于以下：可记录型媒体，例如软磁盘、硬盘驱动器(HDD)、压缩光盘(CD)、数字通用光盘(DVD)、数字磁带、计算机存储器等等；以及发射型媒体，例如数字和/或模拟通信媒体(例如，光缆、波导、有线通信链路、无线通信链路等等)。

所属领域的技术人员将认识到，所属领域内通常以本文陈述的方式描述装置和/或过程，并且其后使用工程化规范将此类所描述装置和/或过程集成到数据处理系统中。也就是说，本文中所描述的装置和/或过程的至少一部分可经由合理量的实验集成到数据处理系统中。所属领域的技术人员将认识到，典型的数据处理系统大体上包含以下中的一个或多个：系统单元外壳、视频显示装置、例如易失性和非易失性存储器的存储器、例如微处理器和数字信号处理器的处理器、例如操作系统、驱动程序、图形用户接口和应用程序的计算实体、例如触控板或屏幕的一个或多个交互装置，和/或包含反馈回路和控制马达(例如，用于感测位置和/或速度的反馈；用于移动和/或调整组件和/或量的控制马达)的控制系统。典型的数据处理系统可利用任何合适的市售组件来实施，例如通常在数据计算/通信和/或网络计算/通信系统中所见的那些组件。

本文中所描述的主题有时说明的是不同的其它组件内含有的不同组件或与不同的其它组件连接的不同组件。应理解，此类所描绘架构仅仅是示范性的，且实际上可实施实现相同功能性的许多其它架构。从概念意义上说，实现相同功能性的组件的任何布置实际上是“相关联的”，使得能实现所要功能性。因此，本文中经组合以实现特定功能性的任何两个组件都可以被视为彼此“相关联”，使得所希望的功能性得以实现，而不管架构或中间组件如何。同样地，如此相关联的任何两个组件也可以被视为彼此“以操作方式连接”或“以操作方式耦合”以实现所要功能性，并且能够如此相关联的任何两个组件也可以被视为彼此“能以可操作方式耦合”以实现所要功能性。能以可操作方式耦合的特定实例包含但不限于能在物理上配合和/或在物理上进行交互的组件，和/或能以无线方式交互和/或以无线方式进行交互的组件，和/或在逻辑上进行交互和/或能在逻辑上交互的组件。

关于实质上任何复数及/或单数术语在本文中的使用，所属领域的技术人员可按适于上下文及/或应用的方式从复数转换成单数及/或从单数转换成复数。为清晰起见，本文中可明确地阐述各种单数/复数排列。

所属领域的技术人员将理解，一般来说，本文中并且尤其在所附权利要求书(例如所附权利要求书主体)中所使用的术语通常意图为“开放性”术语(例如，术语“包含”应解释为“包含但不限于”，术语“具有”应解释为“至少具有”等等)。所属领域内的人员另外应理解，如果希望特定数目的所引入权利要求陈述，那么将在所述权利要求中明确陈述这一意图，并且在不存在这类陈述的情况下，不存在这种意图。举例来说，出于辅助理解，以下所附权利要求书可含有介绍性短语“至少一个”和“一个或多个”的使用，以介绍权利要求叙述。然而，此类短语的使用不应理解为暗示由不定冠词“一(a/an)”对权利要求叙述的引入将含有此所引入权利要求叙述的任何特定权利要求限制为仅含有一个此叙述的实施方案，即使在同一权利要求包含引入性短语“一个或多个”或“至少一个”以及例如“一”的不定冠词时也如此(例如，“一”通常应解释为意味着“至少一个”或“一个或多个”)；对于用于引入权利要求陈述的定冠词的使用，情况也是如此。另外，即使明确叙述特定数目的所引入权利要求叙述，所属领域的技术人员也将认识到，此类叙述通常应解释为意指至少所叙述的数目(例如，不具有其它修饰语的无修饰叙述“两个叙述”通常意指至少两个叙述或者两个或两个以上叙述)。此外，在使用类似于“A、B和C中的至少一个等等”惯例的那些例子中，大体来说，此类构造希望在所属领域的技术人员将理解所述惯例的意义上解释(例如，“具有A、B和C中的至少一个的系统”将包含但不限于单独具有A、单独具有B、单独具有C、具有A和B一起、具有A和C一起、具有B和C一起和/或具有A、B和C一起等等的系统)。在使用类似于“A、B或C中的至少一个等等”惯例的那些例子中，大体来说，此类构造希望在所属领域的技术人员将理解所述惯例的意义上解释(例如，“具有A、B或C中的至少一个的系统”将包含但不限于单独具有A、单独具有B、单独具有C、具有A和B一起、具有A和C一起、具有B和C一起和/或具有A、B和C一起等等的系统)。所属领域的技术人员将进一步理解，无论在说明书、权利要求书还是附图中，应将呈现两种或两种以上替代性术语的实际上任何分离性词语及/或短语理解为涵盖包含所述术语中的一个、所述术语中的任一个或两种术语的可能性。举例来说，短语“A或B”将被理解为包含“A”或“B”或“A与B”的可能性。

还应理解，术语“优化”可包含最大化和/或最小化。如本文中所使用的术语“最小化”等等可包含全局最小、局部最小、近似全局最小和/或近似局部最小。同样地，还应理解，如本文中所使用的术语“最大化”等等可包含全局最大、局部最大值、近似全局最大和/或近似局部最大。

说明书中对“实施方案”、“一个实施方案”、“一些实施方案”或“其它实施方案”的参考可意味着结合一个或多个实施方案而描述的特定特征、结构或特性可包含在至少一些实施方案中，但不一定在所有实施方案中。“实施方案”、“一个实施方案”或“一些实施方案”在先前描述中各处出现不必全部是指同一实施方案。

虽然本文中已使用各种方法或系统描述和示出了某些实例技术，但所属领域的技术人员应理解，在不脱离所要求的主题的情况下，可进行各种其它修改，且可用等效物取代。另外，在不脱离本文中所描述的中心概念的情况下，可进行许多修改以使特定情形适合于所要求的主题的教示。因此，希望所要求的主题不限于所公开的特定实例，而是此类所要求的主题还可包含所有属于所附权利要求书及其等效物的范围内的实施方案。

Claims

1.一种对标记有属性的对象进行聚类的方法，包括：

获得多个对象的属性；

将所获得的属性汇总为以下语义因子中的多个：

旋转属性，表示对象的平面内旋转；

视点属性，表示对象的平面外旋转；

共同属性，所有所述对象类别共享的属性；

类别特定属性，特定地用于单个类别或小类别群组；

对象部分位置和遮挡；以及

对象部分存在；

将所述对象拆分为多于一个的集群；以及

对至少一个所述集群拆分一次或多次，

其中，从所述语义因子中独立地选择一个语义因子以在每次对对象拆分期间拆分所述集群。

2.根据权利要求1所述的方法，其中，将所述对象划分为多于一个对象类别，且对每个对象类别单独地执行所述获得、所述汇总和所述拆分的处理。

3.根据权利要求1所述的方法，其中，任何一个所述集群的、由用于从所有对象的集合获得集群的拆分次数所界定的深度不大于最大深度。

4.根据权利要求1所述的方法，其中，任何一个所述集群的、由集群中的对象数目所界定的大小不小于最小大小。

5.根据权利要求1所述的方法，其中，每个所述语义因被选择使得所述拆分的处理具有最佳的均一性。

6.根据权利要求1所述的方法，其中，通过以下操作来独立地选择所述语义因子中的每个语义因子：

使用所述语义因子中的每个语义因子来获得候选拆分；

计算每个所述候选拆分的评估得分；以及

比较所述评估得分以找到：

最大评估得分，以及

用于获得具有所述最大评估得分的候选拆分的对应语义因子。

7.根据权利要求1所述的方法，其中，通过对有向图进行附聚聚类、吸引子传播、谱聚类或归一化分割来实现每次拆分。

8.根据权利要求1所述的方法，其中通过对有向图进行附聚聚类来实现每次拆分处理，其中

所述有向图使用K最近邻构造，在有向图中，每个对象是节点，来自第m节点的有向边缘用于测量第m样本与第n样本之间的相似性；且

所述集群的接近性量度经由所述有向图上的入度和出度定义。

9.一种特征学习方法，包括：

将标记有属性的对象划分为一个或多个对象类别以获得每个所述对象的对象类别标记；

根据权利要求1所述的方法将每个所述对象类别中的对象独立地聚类为不同集群以获得每个所述对象的对象集群标记；

获得所述给定图像的人工对象类别标记；以及

基于获得的人工对象类别标记、所获得的对象集群标记、所述预测对象类别标记和所述预测集群标记来训练图像特征。

10.一种用于对标记有属性的对象进行聚类的系统，包括：

获得单元，获得多个对象的属性；

汇总单元，与所述获得单元电通信，将所获得的属性汇总为以下语义因子中的多个：

旋转属性，表示对象的平面内旋转；

视点属性，表示对象的平面外旋转；

共同属性，所有所述对象类别共享的属性；

类别特定属性，特定地用于单个类别或小类别群组；

对象部分位置和遮挡；以及

对象部分存在；

拆分单元，与所述汇总单元电通信，将所述对象拆分为多于一个的集群；且

所述拆分单元进一步用于对所述集群中的至少一个拆分一次或多次；

其中，所述拆分单元包括选择器，所述选择器用于从所述语义因子中独立地选择一个语义因子以在每次拆分期间拆分所述集群。

11.根据权利要求10所述的系统，进一步包括：

划分单元，将所述对象划分为多于一个的对象类别，且针对每个对象类别单独地执行所述获得、所述汇总和所述拆分的处理。

12.根据权利要求10所述的系统，其中，任何一个所述集群的、由用于从所有对象的集合获得集群的拆分次数所界定的深度不大于最大深度。

13.根据权利要求10所述的系统，其中，任何一个所述集群的、由集群中的对象数目所界定的大小不小于最小大小。

14.根据权利要求10所述的系统，其中所述语义因子中的每个语义因子被选择使得所述拆分具有最佳的均一性。

15.根据权利要求10所述的系统，其中，所述选择器包括：

获得单元，使用所述语义因子中的每个语义因子来获得候选拆分；

计算单元，计算每个候选拆分的评估得分；以及

比较单元，比较所述评估得分以找到最大评估得分和用于获得具有所述最大评估得分的候选拆分的对应语义因子。

16.根据权利要求10所述的系统，其中，通过对有向图进行附聚聚类、吸引子传播、谱聚类或归一化分割来实现每次拆分。

17.根据权利要求10所述的系统，其中通过对有向图进行附聚聚类来实现每次拆分，其中

所述有向图使用K最近邻而构造，在所述有向图中每个对象是节点，来自第m节点的有向边缘用于测量第m样本与第n样本之间的相似性；且

集群的接近性量度经由所述有向图上的入度和出度定义。

18.一种特征学习系统，包括:

分类单元，将标记有属性的对象划分为一个或多个对象类别以获得每个所述对象的对象类别标记；

属性聚类单元，使用根据权利要求10所述的系统将每个所述对象类别中的对象独立地聚类为不同集群以获得每个对象的对象集群标记；

获得单元，获得所述给定图像的人工对象类别标记；以及

训练单元，基于获得的所述人工对象类别标记、获得的所述对象集群标记、所述预测对象类别标记和所述预测集群标记来训练图像特征。