CN106504255B

CN106504255B - 一种基于多标签多示例学习的多目标图像联合分割方法

Info

Publication number: CN106504255B
Application number: CN201610945584.9A
Authority: CN
Inventors: 孙正兴; 杨炜辰; 李博; 胡佳高
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2019-04-09
Anticipated expiration: 2036-11-02
Also published as: CN106504255A

Abstract

本发明公开了一种基于多标签多示例学习的图像多目标联合分割方法，包括以下步骤：首先对输入图像集进行对象检测以获得候选对象集，并对候选对象集进行分段式对象聚类以获得准确的对象标签；然后再对输入图像集进行显著度检测及二值分割以获得显著区域，并将候选对象集中的对象标签传递到显著区域中，同时对显著区域进行超像素分割，从而获得含标签的显著区域；最后利用一种基于特征随机选择的集成多示例多标签学习方法以获得显著区域中每一个超像素的对象标签，从而完成输入图像集的联合分割。

Description

一种基于多标签多示例学习的多目标图像联合分割方法

技术领域

本发明属于图像处理技术领域，特别涉及对数字图像的多目标联合分割处理方法。

背景技术

在数字图像处理领域，图像分割是一个基础性难题，图像分割对诸如图像检索、图像编辑以及图像分类等众多图像处理问题有着很大的影响。传统的图像分割方法，如文献1：文颖.一种鲁棒性的FCM图像分割方法.中国专利:CN105654453A,2016，文献2：胡海峰.基于视觉显著模型的图像分割方法.中国专利:CN105678797A,2016等，都是针对单幅图像进行分割，这种方式要么很难准确的分割图像，要么需要大量的人工交互，不适于大规模图像集的分割。

为了解决这些问题，联合分割做为一种重要的弱监督图像分割方法被提了出来，如文献3：李宏亮.一种基于图像复杂度的特征自适应图像共分割方法.中国专利:CN102982539A,2013，文献4：王正翔.多图像联合分割方法和装置.中国专利:CN104123713A,2014。图像的联合分割旨在从包含共同对象的多幅图像中同时分割出共同的前景对象。不同于传统的图像分割算法，联合分割方法是一种针对多幅图像的分割方法，相对于无监督的分割方法其分割精度更高，而相对于有监督的分割方法其人力成本更低。因此可广泛应用于多媒体处理及计算机视觉高层应用中。

为了使联合分割方法更好的满足应用的需要，在文献5：李宏亮,一种用于多前景共分割的前景谱图生成方法.中国专利:CN103268614A,2013，文献6：于慧敏.一种基于超像素和结构化约束的图像多目标协同分割方法.中国专利:CN105809672A,2016等中提出了多目标的联合分割方法。该方法假设图像组中的多个共同对象随机的出现在每一幅待分割图像中。相对于单目标的联合分割，它放宽了方法对图像集的限制，提高了方法的灵活性，使得方法具有了更加现实的应用背景。

纵观现有的联合分割领域的研究和应用可知，目前多目标联合分割方法存在着以下的不足：

(1)由于现有的方法往往无法获得准确的一致性信息，从而造成了分割结果中过分割的现象；

(2)由于现有的方法中主要采用了无监督的方法去利用一致性信息去指导最终的分割，从而造成了分割精度较低。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于多示例多标签学习的多目标图像联合分割方法，用于支持对大规模图像组的联合分割。

为了解决上述技术问题，本发明公开了一种基于多标签多示例学习的多目标图像联合分割方法，包括以下步骤：

步骤一，无监督的标签生成：从输入的图像集中获得候选对象集，并候选对象集中的对候选对象进行分类，从而得到对象标签；包括了单幅图像的对象检测和分段式对象聚类；

单幅图像的对象检测从输入图像集中的每一幅图像上提取出候选对象，从而组成整个图像集中所包含的候选对象集；

分段式对象聚类将对象检测中获得的候选对象集聚类成两类以上不同的对象，从而获得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量；

步骤二，显著区域伪标注：从输入的图像集中获得显著区域，并将步骤一中获得的对象标签传递到相应的显著区域上，包括了显著度检测及二值分割和标签传递及超像素分割：

显著度检测及二值分割首先获得每一幅图像的显著图，然后二值分割所述显著图，提取出每幅图像的显著区域，将显著区域外的部分做为图像的背景部分，背景部分不参与后续的分割；

标签传递及超像素分割通过判断一个候选对象的对象标签能否传递给一个显著区域，从而确定每一个显著区域所含的对象标签，同时利用超像素分割方法对显著区域进行分割，获得含标签的显著区域；

步骤三，集成多示例多标签学习，将每一个显著区域做为多示例多标签学习中的一个包，将显著区域中每一个超像素做为一个示例，将每个显著区域所具有的对象标签做为每个包的标签，利用集成多示例多标签学习方法来获得每一个示例的标签，即每一个超像素所具有的对象标签，进而获得图像的分割结果。

本发明步骤一中所述单幅图像的对象检测包括以下步骤：

步骤111，利用对象检测方法检测出图像上的对象窗口，通过筛选，将选中的对象窗口从图像中分割出来，获得图像的对象区域；

步骤112，从对象区域中提取出初始候选对象，通过筛选合并，从每一个对象区域中提取出一个候选对象，从而获得图像的候选对象集。

本发明步骤一中所述分段式对象聚类部分包括以下步骤：

步骤121，提取候选对象的特征，首先将候选对象网格化，形成正方形图块，接着利用低层视觉特征和高层语义特征两类特征来构建图块描述子，最后利用图块描述子来构建直方图做为获选对象的特征表示；

步骤122，采用置信传播替代传统谱聚类中的K均值，使得谱聚类算法适用于聚类数未知的情况，同时两次使用该种谱聚类算法，第一次以候选对象为聚类对象以获得初始聚类，第二次以初始聚类为聚类对象以获得最终的聚类结果。

本发明步骤121包括：

提取每一个候选对象的特征：将候选对象网格分割，形成边长为10像素的正方形图块；利用低层视觉特征和高层语义特征两类特征来构建图块描述子；将候选对象所在图像做为输入送入卷积神经网络模型中，得到该卷积神经网络模型中裁剪层(crop层)的输出，图像中每一个像素点对应于一个21维的指示向量，利用平均池化操作来获得图块的高层语义特征；将两类特征合并，得到了图块的描述子f(p)：

其中：N(·)表示归一化操作，f_l表示低层视觉特征，f_h表示高层语义特征，p表示一个图块；

根据图块的描述子利用谱聚类将所有图块分类，计算每一个候选对象中属于每一类的图块数量，从而构建一个直方图做为候选对象的特征表示，候选对象的特征向量表示为：

其中：h_m表示属于第m类的图块数量，表示图像I_n中第k个候选对象，d表示类的总数，m属于1～d。

本发明步骤122包括：

根据候选对象的特征表示，将候选对象聚类，从而获得每个候选对象的对象标签；第一阶段，分两种情况计算候选对象间的相似度矩阵，当两个候选对象来自于不同图像时，利用巴氏距离和高斯核去计算其之间的相似度，当两个候选对象来自于相同图像时，两者间的相似度记为0；根据得到的相似度矩阵，利用谱聚类方法获得初始的聚类结果C′＝{C′₁,C′₂,…,C′_t}，其中C′_m表示第m个初始聚类，t表示初始的聚类结果中的聚类数，m属于1～t；

第二阶段，将初始聚类的中心做为新的聚类样本，聚类样本特征表示为其中表示第m个聚类的聚类中心的特征，t表示初始的聚类结果中的聚类数，m属于1～t；利用巴氏距离和高斯核去计算初始聚类中心之间的相似度，使用谱聚类方法去获得最终的聚类结果C＝{C₁,C₂,…,C_v}，其中C_m表示第m个聚类，v表示最终聚类结果中的聚类数，m属于1～v；

根据得到的聚类数重新截取特征向量，循环迭代进行聚类，直到最后一次得到的聚类数和上次的聚类数相同，则聚类结束并返回聚类结果。

本发明步骤3包括：

提取每一个超像素的特征，构建出一个d维的特征向量，接着从d维的特征向量中随机抽取出一个d′＝0.6d维的子特征向量，重复抽取t次，构成一个特征向量集，d＝300，t＝50；

将显著区域做为包，超像素做为示例，显著区域的对象标签做为包的标签，训练出一组弱分类器{c_1b,c_2b,…,c_vb}，其中c_mb表示在b个子特征向量上训练出的第m类共同对象的分类器，v表示分类器的类数，m属于1～v；利用支持向量机学习出每一个弱分类器的权重，得到了强分类器{c₁,c₂,…,c_v}，其中c_m表示第m类共同对象的最终分类器，v表示分类器的类数，m属于1～v；利用强分类器确定每一个超像素的对象标签；对于每一幅图像中属于显著区域的部分，根据超像素所具有的不同的对象标签进行分割，不属于显著区域的部分统一分割为背景，从而完成了图像的分割。

本发明通过引入深层语义特征和提出一种分段式对象聚类来获得精确和富有语义信息的一致性信息来克服过分割现象；同时利用有监督的多示例多标签学习来替换原有方法中使用的无监督方法，在保证了本发明无需人工交互的基础上，大大提高了分割的精度。从而使得本发明有着较高的应用价值。

有益效果：本发明具有以下优点：首先，本发明基于对象检测引入深层语义特征和提出一种两段式对象聚类方法以获得准确而富含语义信息的对象标签；其次，本发明提出了一种标签传递方法将候选对象中的对象标签无监督的传递给显著区域，实现了将多目标联合分割问题转化为了有监督多示例多标签问题；最后，本发明提出一种基于特征随机选择的集成多示例多标签学习方法，克服了无监督方法所带来的模糊性和不确定性，提高了图像的分割精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的处理流程示意图。

图2是实施例的输入图像集示意图。

图3是对图2输入图像集进行多目标联合分割所得到的分割结果示意图。

图4a是对图2中第二幅图像对象检测后得到对象区域的结果示意图。

图4b是从图2中第二幅图像中提取出的候选对象集的结果示意图。

图5是对候选对象集进行分段式对象聚类得到的聚类结果的示意图。

图6是对图2输入图像集进行显著度检测和标签传递得到的含标签的显著区域结果示意图。

具体实施方式：

如图1所示，本发明公开的一种基于多示例多标签学习的多目标图像联合分割方法，包括以下步骤：

步骤一，无监督的标签生成：从输入的图像集中获得候选对象集，并对候选对象进行分类，从而得到对象标签。该步骤包括单幅图像的对象检测和分段式对象聚类两个子步骤：

单幅图像的对象检测从输入图像集中的每一幅图像上提取出准确并且少量的候选对象，从而组成整个图像集中所包含的候选对象集；

分段式对象聚类将对象检测中获得的候选对象集聚类成若干类不同的对象，从而获得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量，该聚类数有本发明自动计算得到；

步骤二，显著区域伪标注：从输入的图像集中获得显著区域，并将步骤一中获得的对象标签传递到相应的显著区域上。该步骤包括了显著度检测及二值分割和标签传递及超像素分割两个子步骤：

显著度检测及二值分割首先获得每一幅图像的显著图，然后二值分割显著图，提取出每幅图像的显著区域，将显著区域外的部分做为图像的背景部分，不再参与后续的分割；

标签传递及超像素分割首先对获得的显著区域进行超像素分割，同时利用一种标签传递方法以及步骤一中所获得的对象标签来确定每一个显著区域中所包含的对象标签；

步骤三，集成多示例多标签学习，将每一个显著区域做为多示例多标签学习中的一个包，将显著区域中每一个超像素做为一个示例，将每个显著区域所具有的对象标签做为每个包的标签，从而利用一种集成多示例多标签学习方法来获得每一个示例的标签，即每一个超像素所具有的对象标签，进而获得图像的分割结果。

本发明步骤一种所述单幅图像的对象检测还包括以下步骤：步骤111利用对象检测方法检测出图像上的对象窗口，通过筛选，将剩余的对象窗口从图像中分割出来，获得图像的对象区域。步骤112从对象区域中提取出初始候选对象，通过筛选合并，从每一个对象区域中提取出一个候选对象，从而获得图像的候选对象集。

本发明步骤一种所述单幅图像的分段式对象聚类还包括以下步骤：步骤121提取候选对象的特征，首先将候选对象网格化，形成正方形图块，接着利用低层视觉特征和高层语义特征两类特征来构建图块描述子，最后利用图块描述子来构建直方图做为获选对象的特征表示。步骤122采用置信传播替代传统谱聚类中的K均值，使得谱聚类算法适用于聚类数未知的情况，同时两次使用此谱聚类算法，第一次以候选对象为聚类对象以获得初始聚类，第二次以初始聚类为聚类对象以获得最终的聚类结果。

本发明的输入图像集为用户自由拍摄的自然图像，图像集中包含了未知数量的共同对象，且每一幅图像中所含共同对象的数量和类别未知。

下面具体介绍各个步骤的主要流程：

1.无监督的标签生成

从输入的图像集中获得候选对象集，并对候选对象进行分类，从而得到对象标签。该步骤包括单幅图像的对象检测和分段式对象聚类两个子步骤。

1.1.单幅图像的对象检测

单幅图像的对象检测从输入图像组I＝{I₁,I₂,…,I_m}中发现候选对象集P＝{P¹,P²,…,P^m}，其中，m为输入图像组中图像的数量，Pⁿ表示从n幅图像中获得的候选对象集，n属于1～m。过程如下：

1.1.1.为了发现候选对象集，首先利用文献7：Zitnick,C.L.,Dollar,P..Edgeboxes:Locating object proposals from edges.ECCV’14,pp.391–405.中的方法来检测每一幅图像I_n上的对象窗口，仅保留得分前100的对象窗口。接着为了降低后续处理的复杂性，当两个对象窗口的重合度大于一定阈值时，得分较低的一个窗口会被舍弃掉，本发明中该阈值取0.8。如果剩余的对象窗口数大于20个，那么仅保留得分前20的对象窗口，这些窗口记为其中l_n表示图像I_n中所含对象窗口的数量。最后根据这些对象窗口从图像中分割出相应的对象区域，记为其中l_n表示图像I_n中所含对象区域的数量。

1.1.2.利用文献8：Endres,I.,Hoiem,D..Category Independent ObjectProposals.ECCV’10,pp.575-588.从每一个对象区域中提取初始候选对象，仅保留得分前20的获选对象。然后分两种不同的情况来从初始候选对象中生成候选对象。如果一个对象区域中没有包含其他的对象区域，那么中得分最高的初始候选对象将做为候选对象；如果对象区域中包含其他的对象区域那么中的候选对象可以表示成：

其中：δ(·)表示delta函数，表示对象区域中第i个初始候选对象，和表示在内部和外部的面积，τ用于控制初始候选对象是否是候选对象的一部分。至此获得了图像I_n的候选对象集其中l_n表示图像I_n中所含候选对象的数量。在输入图像集的每一幅图像上重复步骤1.1.1和1.1.2，从而得到输入图像组的候选对象集。

1.2.分段式对象聚类

分段式对象聚类将对象检测中获得的候选对象集聚类成若干类不同的对象，从而获得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量，该聚类数有本发明自动计算得到。过程如下：

1.2.1.提取每一个候选对象的特征。为了获得准确的候选对象的特征，首先将候选对象网格分割，形成边长为10像素的正方形图块。接着利用低层视觉特征和高层语义特征两类特征来构建图块描述子。本发明采用文献9：Dalal,N.,Triggs,B..Histograms oforiented gradients for human detection.CVPR’13,pp.886-893.中提出的HOG描述子来表示低层视觉特征。同时本发明利用文献10：Long,J.,Shelhamer,E.,Darrell,T..Fullyconvolutional networks for semantic segmentation.CVPR’15,pp.3431–3440.中训练好的卷积神经网络(CNN)模型来提取图块的高层语义特征。将候选对象所在图像做为输入送入CNN模型中，得到CNN模型中裁剪层(crop层)的输出，图像中每一个像素点对应于一个21维的指示向量，再利用平均池化操作来获得图块的高层语义特征。将两类特征合并，得到了图块的描述子：

其中：N(·)表示一种归一化操作，f_l表示低层视觉特征，f_h表示高层语义特征，p表示一个图块。最后根据图块的描述子利用谱聚类将所有图块分为多类，再将计算每一个候选对象中属于每一类的图块数量，从而构建一个直方图做为候选对象的特征表示。每一个候选对象的特征向量表示为：

其中：h_m表示属于第m类的图块数量，d表示类的总数，m属于1～d。

1.2.2.根据候选对象的特征表示，将候选对象自动的聚为多类，从而获得每个候选对象的对象标签。本发明采用了一种两段式的对象聚类方法来实现这一目标。在第一阶段，候选对象间的相似度矩阵的计算分两种情况考虑，当两个候选对象来自于不同图像时，利用巴氏距离和高斯核去计算之间的相似度。当两个候选对象来自于相同图像时，两者间的相似度记为0。根据这一相似度矩阵，利用一种新的谱聚类方法获得初始的聚类结果C′＝{C′₁,C′₂,…,C′_t}，其中C′_m表示第m个初始聚类，t表示初始的聚类结果中的聚类数，m属于1～t。在第二阶段中，初始聚类的中心被做为新的聚类样本，其特征可以表示为其中表示第m个聚类的聚类中心的特征，t表示初始的聚类结果中的聚类数，m属于1～t。再利用巴氏距离和高斯核去计算初始聚类中心之间的相似度，最后仍然使用上述新的谱聚类方法去获得最终的聚类结果C＝{C₁,C₂,…,C_v}，其中C_m表示第m个聚类，v表示最终聚类结果中的聚类数，m属于1～v。新的谱聚类方法采用了文献11：Frey,B.J.,Dueck,D.Clustering by passing messages between data points.Science,2007,315(5814):972–976.中提出的置信传播算法取替代传统谱聚类中使用的K均值算法。和传统谱聚类方法一样获得拉普拉斯矩阵后，以全部的特征向量利用置信传播算法进行聚类，得到初步的聚类数，然后根据得到的聚类数重新截取特征向量，再次进行聚类，若此时得到的聚类数和上次的聚类数相同，则聚类结束并返回聚类结果，若不相同则返回继续执行。

2.显著区域伪标注

从输入的图像集中获得显著区域，并将步骤一中获得的对象标签传递到相应的显著区域上。该步骤包括了显著度检测及二值分割和标签传递及超像素分割两个子步骤：

2.1.显著度检测及二值分割

显著度检测及二值分割首先获得每一幅图像的显著图，首先本发明采用文献12：Zhu,W.,Liang,S.,Wei,Y.,Sun,J.Saliency optimization from robust backgrounddetection.CVPR’14,pp.2814–2821.中的显著度检测方法生成图像I_n的显著图S_n。由于文献13：Cheng,M.M.,Mitra,N.J.,Huang,X.,Torr,P.H.,Hu,S.M.Global contrast basedsalient region detection.IEEE TPAMI,2015,37(3):569–582.中的方法得到的结果具有很好的查全率而较差的查准率，因此本发明才用该方法二值化显著图S_n得到S_n′，其中S_n′表示图像I_n的二值化显著图。最后利用矩形窗口去包围每一个不连通的显著域并把它们分割出来，得到图像I_n中的显著区域其中h_n表示图像I_n中显著区域的数量。

2.2.标签传递及超像素分割

标签传递及超像素分割首先对获得的显著区域进行超像素分割，本发明采用了文献14：Achanta,R.,Shaji,A.,Smith,K.,Lucchi,A.,Fua,P.,Susstrunk,S.SLICsuperpixels com-pared to state-of-the-art superpixel methods.IEEE TPAMI,2012,34(11):2274–2282.中所述方法，保证了超像素中像素具有相同的对象标签。然后通过计算显著区域和候选对象之间的覆盖面积来确定对象标签是否传递，定义和分别表示候选对象P_t ⁿ在显著区域内部和外部的面积，其中P_t ⁿ表示图像I_n中第t个候选对象，而表示图像I_n中第k个显著区域，则若下式：

成立，则将候选对象P_t ⁿ所具有的对象标签传递给显著区域反之亦然，其中ρ表示控制标签传递的阈值。

3.集成多示例多标签学习

首先利用步骤1.2.1.的方法提取每一个超像素的特征，构建出一个d维的特征向量。接着从d维的特征向量中随机抽取出一个d′＝0.6d维的子特征向量，重复抽取t次，构成一个特征向量集，本发明中取d＝300而t＝50。然后将显著区域做为包，超像素做为示例，显著区域的对象标签做为包的标签，利用文献16：Briggs,F.,Fern,X.Z.,Raich,R.Rank-losssupport instance machines for MIML instance annotation.ACM SIGKDD’12,pp.534–542.中的方法训练出一组弱分类器{c_1b,c_2b,…,c_vb}，其中c_mb表示在b个子特征向量上训练出的第m类共同对象的分类器，v表示分类器的类数，m属于1～v。同时利用支持向量机学习出每一个弱分类器的权重，从而得到了强分类器{c₁,c₂,…,c_v}，其中c_m表示第m类共同对象的最终分类器，v表示分类器的类数，m属于1～v。再利用强分类器确定每一个超像素的对象标签。最后每一幅图像中属于显著区域的部分，根据超像素所具有的不同的对象标签进行分割，而不属于显著区域的部分统一分割为背景，从而完成了图像的分割。

实施例

本实施例中，如图2所示为输入图像，通过本发明所述的基于多标签多示例学习的多目标图像联合分割方法，可将图2中每一幅图像分割成如图3中所述不同的共同对象由不同颜色标识，且标注1～3分别表示3类共同对象。图中，标号1表示蓝衣服女孩，标号2表示红衣服女孩，标号3表示苹果和篮子。具体实施过程如下：

步骤一中，利用对象检测获得输入图像集的候选对象集，并对候选对象集进行聚类获得相应的对象标签。如图4所示为图2中第二幅图像经步骤1.1.的单幅图像的对象检测的结果，其中图4a为经步骤1.1.1.所得到的对象区域，而图4b为经步骤1.1.2所得到的候选对象集。如图5所示为步骤1.2.的分段式对象聚类算法根据由步骤1.2.1.所得候选对象特征对候选对象进行聚类的结果。

步骤二中，利用显著度检测及二值分割获得图像的显著区域，然后利用标签传递和步骤一中获得的对象标签确定显著区域所包含的对象标签，同时利用超像素分割方法对显著区域进行超像素分割，从而得到含标签的显著区域。如图6所示为图2中第二幅图像所得到的含标签的显著区域，其中图像下方的数字代表该显著区域的对象标签。步骤三中，利用一种集成多示例多标签学习方法获得显著区域中每一个超像素的对象标签，从而得到最后的分割结果如图3所示的标注结果。

本发明提供了一种基于多标签多示例学习的多目标图像联合分割方法的思路，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应做为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于多标签多示例学习的多目标图像联合分割方法，其特征在于，包括以下步骤：

步骤一，无监督的标签生成：从输入的图像集中获得候选对象集，并对候选对象集中的候选对象进行分类，从而得到对象标签；包括了单幅图像的对象检测和分段式对象聚类；

步骤二，显著区域伪标注：从输入的图像集中获得显著区域，并将步骤一中获得的对象标签传递到相应的显著区域上，显著区域伪标注包括了显著度检测及二值分割和标签传递及超像素分割：

显著度检测及二值分割首先获得每一幅图像的显著图，然后对所述显著图进行二值分割，提取出每幅图像的显著区域，将显著区域外的部分做为图像的背景部分，背景部分不参与后续的分割；

步骤三，集成多示例多标签学习，将每一个显著区域做为多示例多标签学习中的一个包，将显著区域中每一个超像素做为一个示例，将每个显著区域所具有的对象标签做为每个包的标签，利用集成多示例多标签学习方法来获得每一个示例的标签，即每一个超像素所具有的对象标签，进而获得图像的分割结果；

步骤一中所述单幅图像的对象检测包括以下步骤：

步骤112，从对象区域中提取出初始候选对象，通过筛选合并，从每一个对象区域中提取出一个候选对象，从而获得图像的候选对象集；

步骤一中所述分段式对象聚类部分包括以下步骤：

步骤122，采用置信传播替代传统谱聚类中的K均值，使得谱聚类算法适用于聚类数未知的情况，同时两次使用该种谱聚类算法，第一次以候选对象为聚类对象以获得初始聚类，第二次以初始聚类为聚类对象以获得最终的聚类结果；

步骤三包括：

2.根据权利要求1所述的方法，其特征在于，步骤121包括：

提取每一个候选对象的特征：将候选对象网格分割，形成边长为10像素的正方形图块；利用低层视觉特征和高层语义特征两类特征来构建图块描述子；将候选对象所在图像做为输入送入卷积神经网络模型中，得到该卷积神经网络模型中裁剪层的输出，图像中每一个像素点对应于一个21维的指示向量，利用平均池化操作来获得图块的高层语义特征；将两类特征合并，得到了图块的描述子f(p)：

3.据权利要求2所述的方法，其特征在于，步骤122包括：