CN110991543B

CN110991543B - 图像感兴趣区聚类方法和装置、计算设备、和存储介质

Info

Publication number: CN110991543B
Application number: CN201911251266.2A
Authority: CN
Inventors: 郭梓铿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2023-07-18
Anticipated expiration: 2039-12-09
Also published as: CN110991543A

Abstract

本发明涉及图像感兴趣区聚类方法及装置、计算设备和计算机可读存储介质。图像感兴趣区聚类方法包括：对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列；对于图像感兴趣区集合中的任意两个图像感兴趣区，基于两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定两个图像感兴趣区之间的秩序距离；并且基于所确定的秩序距离，对图像感兴趣区集合中的各个图像感兴趣区进行聚类。该方法可以降低聚类耗时并提高聚类准确率。

Description

图像感兴趣区聚类方法和装置、计算设备、和存储介质

技术领域

本发明涉及图像聚类技术，具体来说涉及一种图像感兴趣区聚类方法、图像感兴趣区聚类装置、计算设备和存储介质。

背景技术

聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一簇中的对象彼此相似，与其他簇中的对象相异。

随着计算机及网络技术的发展，我们常常需要面对大量的图像数据，并且常常希望将具有相同或相似对象的图像数据聚类到一起，诸如在相册图片管理等应用中。常规的聚类方法首先对图像中的感兴趣区进行特征提取，随后通过欧氏距离或余弦距离衡量特征的相似度来实现聚类。这类聚类方法运算量较大，在解决大规模复杂分布的聚类问题时耗时较多。并且这类聚类算法容易受到噪声干扰，常常将不包含感兴趣区的图像错误地聚类。

发明内容

有利的是，提供一种可以缓解、减轻或甚至消除上述问题中的一个或多个的机制。

根据本发明的第一方面，提供了一种图像感兴趣区聚类方法，包括：对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列，在该索引序列中，该图像感兴趣区和所述图像感兴趣区集合中除该图像感兴趣区以外的其他图像感兴趣区被顺序地索引，并且所述其他图像感兴趣区按照所述其他图像感兴趣区与该图像感兴趣区之间的相似性度量以降序排序；对于所述图像感兴趣区集合中的任意两个图像感兴趣区，基于所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定所述两个图像感兴趣区之间的秩序距离，其中所述各自的一组相邻图像感兴趣区根据该两个图像感兴趣区各自的索引序列中各图像感兴趣区的索引秩序而被确定；并且基于所确定的秩序距离，对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类。

在一些实施例中，所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度由所述两个图像感兴趣区之间的近似秩序距离来表示，所述近似秩序距离表明所述两个图像感兴趣区之一的所述一组相邻图像感兴趣区中，与所述两个图像感兴趣区中另一个图像感兴趣区不相邻的图像感兴趣区的数目。

在一些实施例中，所述确定所述两个图像感兴趣区之间的秩序距离包括：基于近似秩序距离D(a，b)和D(b，a)，确定所述秩序距离，其中，a和b分别表示所述两个图像感兴趣区，D(a，b)为图像感兴趣区a到图像感兴趣区b的近似秩序距离，其表明在图像感兴趣区a的所述一组相邻图像感兴趣区中，与图像感兴趣区b不相邻的图像感兴趣区的数目；D(b，a)为图像感兴趣区b到图像感兴趣区a的近似秩序距离，其表明在图像感兴趣区b的所述一组相邻图像感兴趣区中，与图像感兴趣区a不相邻的图像感兴趣区的数目。

在一些实施例中，所述确定所述秩序距离包括：将所述秩序距离定义为：

其中，t1＝min{Order_a(b)，min_dis}，Order_a(b)表示图像感兴趣区b在图像感兴趣区a的所述索引序列中的索引序列号，nin_dis为第一预设阈值，f_a(i)表示在图像感兴趣区a的所述索引序列中，按照所述相似性度量与图像感兴趣区a相似的第i个图像感兴趣区，i为索引序列号，Order_b(a)表示图像感兴趣区a在图像感兴趣区b的所述索引序列中的索引序列号，1{Order_b(f_a(i))≥min_dis}为指示函数，其中若Order_b(f_a(i))≥min_dis，则1{Order_b(f_a(i))≥min_dis}＝1，反之，1{Order_b(f_a(i))≥min_dis}＝0，/>

t2＝min{Order_b(a)，min_dis}，f_b(i)表示在图像感兴趣区b的所述索引序列中，按照所述相似性度量与图像感兴趣区b相似的第i个图像感兴趣区，i为索引序列号。

在一些实施例中，所述对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类包括：对于每个图像感兴趣区，创建该图像感兴趣区的邻近集合，其中该邻近集合包括所述图像感兴趣区集合中距该图像感兴趣区的秩序距离小于第二预设阈值的所有图像感兴趣区；初始化每个图像感兴趣区的类别；并且，对于每个图像感兴趣区，统计该图像感兴趣区的邻近集合中所有图像感兴趣区各自的邻近集合中的各个图像感兴趣区的类别，并且将出现次数最多的类别赋予该图像感兴趣区。

在一些实施例中，所述创建该图像感兴趣区的邻近集合包括：响应于所述图像感兴趣区集合中的另一图像感兴趣区距该图像感兴趣区的秩序距离小于所述第二预设阈值，将所述另一图像感兴趣区加入该图像感兴趣区的邻近集合中。

在一些实施例中，所述初始化每个图像感兴趣区的类别包括：将每个图像感兴趣区的类别初始化为距该图像感兴趣区的秩序距离最小的图像感兴趣区的类别。

在一些实施例中，该方法还包括：循环地执行所述统计和赋予的操作m次，其中m为大于或等于2的整数。

在一些实施例中，该方法还包括：根据所述图像感兴趣区集合中的图像感兴趣区的数目设定m的取值，其中m的取值随所述图像感兴趣区集合中的图像感兴趣区的数目而增大。

在一些实施例中，该方法还包括：输出所述图像感兴趣区集合中的各个图像感兴趣区的聚类结果。

在一些实施例中，所述相似性度量包括：L1范数距离、L2范数距离、曼哈顿距离、余弦距离或契比雪夫距离。

在一些实施例中，每个图像感兴趣区包括图像中的脸部区域。所述方法还包括：从包括两个或更多个图片的图片集中检测得到两个或更多个脸部区域以组成所述图像感兴趣区集合，并且根据对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类的结果，对所述图片集进行分类。

根据本发明的第二方面，提供了一种图像感兴趣区聚类装置，包括：序列创建模块，被配置成对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列，在该索引序列中，该图像感兴趣区和所述图像感兴趣区集合中除该图像感兴趣区以外的其他图像感兴趣区被顺序地索引，并且所述其他图像感兴趣区按照所述其他图像感兴趣区与该图像感兴趣区之间的相似性度量以降序排序；距离确定模块，被配置成对于所述图像感兴趣区集合中的任意两个图像感兴趣区，基于所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定所述两个图像感兴趣区之间的秩序距离，其中所述各自的一组相邻图像感兴趣区根据该两个图像感兴趣区各自的索引序列中各图像感兴趣区的索引秩序而被确定；以及聚类模块，被配置成基于所确定的秩序距离，对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类。

根据本发明的第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器被配置成在其上存储计算机程序指令，所述计算机程序指令当在所述处理器上执行时促使所述处理器执行根据本发明的第一方面所描述的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令当在处理器上执行时促使所述处理器执行根据本发明的第一方面所描述的方法。

本发明提供的方法及装置可以基于所定义的秩序距离对图像感兴趣区进行聚类。在一些实施例中，可以降低聚类所需的计算量，从而降低所述的计算耗时。另外，对于在常规聚类方法中容易引起错误聚类的不包含感兴趣区的图像，借助与其相似的图像可以很好的区分这些图像，从而提升聚类的准确率。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被公开，在附图中：

图1示出了根据本发明实施例的对图像感兴趣区进行聚类的示例应用场景；

图2示出了对图像感兴趣区进行特征提取的示例方法；

图3示出了相关技术中的图像感兴趣区聚类方法的示例流程图；

图4示出了根据本发明实施例的图像感兴趣区聚类方法的示例流程图；

图5示出了根据本发明实施例的秩序距离的确定方法的示意图；

图6示出了根据本发明实施例的对图像感兴趣区进行聚类的方法的示例流程图；

图7示出了根据本发明实施例的图像感兴趣区聚类装置的示意性框图；并且

图8示出了根据本发明实施例的计算系统的示意性框图。

具体实施方式

在描述本发明的实施例之前，解释说明本文中使用的若干术语。这些概念应当是本能领域的技术人员已知的，为了简洁起见，它们的详细描述在本文中被省略。

1、特征提取：将原始图片转换为一特征向量，特征向量能够减少数据的冗余，能发现更有意义的潜在的变量，帮助对数据产生更深入的了解。

2、卷积神经网络：一类包含计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，可以作为机器学习中的“特征提取器”。

下面结合附图详细描述本发明的实施例。

图1示出了根据本发明实施例的对图像感兴趣区进行聚类的示例应用场景100。示例性地，智能电话110中存储有大量包含不同人脸的照片，其可以根据本文提供的图像感兴趣区聚类方法对这些照片进行分类，将包含相同人脸的照片聚类到一起，而将包含不同人脸的照片分到不同类中，从而可以为诸如相册等中的照片的人脸添加标签或者将包含不同人脸的照片分到不同相册中等。在其他实施例中，智能电话110也可以是其他具有计算能力的设备，诸如台式计算机、膝上型计算机、平板电脑、服务器等。并且，该方法也可以用于其他领域等。此外，应理解，虽然在本实施例中以及后续的描述中均以人脸作为示例，但这仅仅是为了方便说明，实际上，本发明可以也可以用于针对动物面部或其他感兴趣区的聚类。

一般而言，在执行聚类时，要先对图像感兴趣区(诸如人脸区域)进行特征提取。图2以人脸特征提取为例示出了对图像感兴趣区进行特征提取的示例方法200。首先，利用检测算法从图片中检测人脸区域。可以使用任何适当的检测算法来完成人脸检测。然后，对所检测的人脸区域进行矫正对齐。可以使用任何适当的矫正算法来完成人脸区域的矫正。例如，如图所示地将倾斜的人脸矫正为直立。最后，利用神经网络对矫正之后的人脸区域进行特征提取，所提取的特征能排除各种干扰识别因素，诸如年龄、光照、遮挡物、面部表情等，从而专注于提取到有利于人脸识别的特征。特征提取也可以基于任何其他适当的方法，例如，基于结合特征和模板匹配的方法、基于子空间分析的方法、基于小波理论的方法、基于隐马尔可夫模型的方法、基于支持向量机的方法和基于三维模型的方法等等。上述过程可以实现从图像数据到对应于图像感兴趣区的特征向量的转化，从而为后续的聚类算法提供分析基础。

图3示出了相关技术中的图像感兴趣区聚类方法的示例流程图300。示例性地，假如要针对N个人脸图片进行聚类。在本文中，术语“人脸图片”与“人脸区域”可互换地使用。在步骤310处，执行如上关于图2描述的特征提取。随后，在步骤320处，使用所提取的特征向量创建特征向量集合F＝{fⁿ}，n∈{1，2，...，N}，fⁿ∈R^d，每个特征向量是k维。然后，在步骤330处，通过比较特征向量之间的相似性，将N个人脸图片分成M个类，其中，不同特征向量之间的相似度通常通过计算特征向量之间的欧氏距离(诸如L1范数距离、L2范数距离等)或余弦距离来衡量。在面对超大规模的特征向量时，这类聚类算法常常假定特征向量满足一定的分布要求，然而，在实际应用中，图像数据可以来源于各种场景，从其提取的特征向量往往难以满足所假定的分布要求。同时，这类聚类算法有时会将非感兴趣区的特征向量进行错误的聚类。

图4示出了根据本发明实施例的图像感兴趣区聚类方法的示例流程图400，图5以人脸图片为示例示出了根据本发明实施例的秩序距离的确定过程。现将结合图4和图5对本发明提出的图像感兴趣区聚类方法进行描述。

在步骤410处，对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列，在该索引序列中，该图像感兴趣区和图像感兴趣区集合中除该图像感兴趣区以外的其他图像感兴趣区被顺序地索引，并且所述其他图像感兴趣区按照所述其他图像感兴趣区与该图像感兴趣区之间的相似性度量以降序排序。

示例性地，假定在执行步骤410之前，已经从包括两个或更多个图片的图片集中检测得到两个或更多个脸部区域以组成所述图像感兴趣区集合，记为特征向量集合F＝{fⁿ}。该检测过程已经在前面关于图2进行了描述，在此不再重复。

对于每个人脸图片，计算其他人脸图片与该人脸图片的距离，例如诸如L1范数距离或L2范数距离的欧氏距离、曼哈顿距离、余弦距离或契比雪夫距离等，并依照所计算的距离由近及远的顺序(也即相似性从高到底的顺序)对相应人脸图片进行排序，从而可以创建一个相应的索引序列。例如，如图5中上方图片所示，在针对人脸图片a执行步骤410的过程时，可以用f_a(i)表示与人脸图片a的相似性度量排在第i位的人脸图片。进而，可以用Order_a表示人脸图片a的近似人脸图片形成的索引序列中的相应人脸图片的索引序列号。如图5中中间图片所示，定义Order_a(f_a(i))＝i，则以此类推。如图5所示，图片a在图片a的索引序列中的索引序列号为0，图片f_a(1)在图片a的索引序列中的索引序列号为1，图片f_a(2)在图片a的索引序列中的索引序列号为2，并且图片f_a(3)在图片a的索引序列中的索引序列号为3。这样，还可以根据各图片在图片a的索引序列中的排列次序，确定出图片a的一组相邻图片。例如，可以将索引序列号小于或等于一阈值(例如，5)的图片确定为图片a的相邻图片。

在步骤420处，对于图像感兴趣区集合中的任意两个图像感兴趣区，基于两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定两个图像感兴趣区之间的秩序距离，其中各自的一组相邻图像感兴趣区根据该两个图像感兴趣区各自的索引序列中各图像感兴趣区的索引秩序而被确定。应理解的是，此处术语“索引秩序”是指各图像感兴趣区在所述索引序列中的排列次序(即，索引序列号)，其在上下文中结合具体示例将是清楚明白的。

在一些实施例中，两个图像感兴趣区分别由a和b表示(诸如图5中下方图片中的人脸图片a和b)并且两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度由以下各项表示：

-图像感兴趣区a到图像感兴趣区b的近似秩序距离D(a，b)，其表明在图像感兴趣区a的所述一组相邻图像感兴趣区中，与图像感兴趣区b不相邻的图像感兴趣区的数目；和

-图像感兴趣区b到图像感兴趣区a的近似秩序距离D(b，a)，其表明在图像感兴趣区b的所述一组相邻图像感兴趣区中，与图像感兴趣区a不相邻的图像感兴趣区的数目。

其中，所述确定所述两个图像感兴趣区之间的秩序距离包括：基于近似秩序距离D(a，b)和D(b，a)，确定图像感兴趣区a和b之间的秩序距离。例如，可以将秩序距离定义为：

其中，t1＝min{Order_a(b)，min_dis}，Order_a(b)表示图像感兴趣区b在图像感兴趣区a的所述索引序列中的索引序列号，min_dis为第一预设阈值，f_a(i)表示在图像感兴趣区a的索引序列中，按照相似性度量与图像感兴趣区a相似的第i个图像感兴趣区，i为索引序列号，Order_b(a)表示图像感兴趣区a在图像感兴趣区b的索引序列中的索引序列号，1{Order_b(f_a(i))≥min_dis}为指示函数，其中若Order_b(f_a(i))≥min_dis，则1{Order_b(f_a(i))≥min_dis}＝1，反之，1{Order_b(f_a(i))≥min_dis}＝0；并且，/>t2＝min{Order_b(a)，min_dis}，f_b(i)表示在图像感兴趣区b的所述索引序列中，按照所述相似性度量与图像感兴趣区b相似的第i个图像感兴趣区，i为索引序列号。

针对图5示出的示例，假定第一预设阈值min_dis＝5，并且假定

Order_a(b)＝3，Order_b(a)＝3，

Order_b(f_a(1))＝7，Order_b(f_a(2))＝11，Order_b(f_a(3))＝Order_b(b)＝0。

首先，对于为人脸图片a创建的索引序列，计算近似秩序距离D(a，b)。根据上文近似秩序距离的计算公式，先计算t1：

t1＝min{Order_a(b)，min-dis}＝min{3，5}＝3；

然后，获取该索引序列中索引序列号不大于t1的人脸图片在为人脸图片b创建的索引序列中的索引序列号，并分别代入指示函数执行运算，再将运算结果累加，得到近似秩序距离D(a，b)。例如，对于索引序列中与人脸图片a相邻最近的人脸图片f_a(1)：Order_b(f_a(1))＝7＞min_dis，表明b与f_a(1)不相邻，D(a，b)＝1；对于f_a(2)：Order_b(f_a(2))＝11＞min_dis，表明b与f_a(2)不相邻，D(a，b)＝2；对于f_a(3)：Order_b(f_a(3))＝0＜min_dis，表明b与f_a(3)相邻，D(a，b)＝2。从而，D(a，b)＝2。可以看出，近似秩序距离D(a，b)表明了a的相邻图片中与b不相邻的人脸图片的个数。类似地，可以计算近似秩序距离D(b，a)，其表明b的相邻图片中与a不相邻的人脸图片的个数。而后，将近似秩序距离D(a,b)和D(b,a)代入秩序距离的计算公式，即可得到a和b之间的秩序距离。类似地，可以计算人脸图片集合中所有人脸图片两两之间的秩序距离。

应理解，本文使用的术语“相邻”可以指所涉及的两者在对应的索引序列中直接相邻或间接相邻(即存在中间项)。例如，“图像感兴趣区a与图像感兴趣区b相邻”可以指图像感兴趣区a与图像感兴趣区b直接相邻，或者在两者之间可以存在其他图像感兴趣区。进一步地，“图像感兴趣区a的一组相邻图片感兴趣区”可以包括与图像感兴趣区a直接或间接相邻的多个图片感兴趣区。

在步骤430处，基于所确定的秩序距离，对图像感兴趣区集合中的各个图像感兴趣区进行聚类。下文参考图6进一步详细描述该步骤。

在步骤431处，对于每个图像感兴趣区，创建该图像感兴趣区的邻近集合，其中该邻近集合包括图像感兴趣区集合中距该图像感兴趣区的秩序距离小于第二预设阈值的所有图像感兴趣区。在一些实施例中，创建该图像感兴趣区的邻近集合包括：响应于图像感兴趣区集合中的另一图像感兴趣区距该图像感兴趣区的秩序距离小于所述第二预设阈值，将另一图像感兴趣区加入该图像感兴趣区的邻近集合中。

示例性地，对于上述人脸图片的示例，可以设定第二预设阈值为T，针对人脸图片集合中的每个人脸图片i，分别判断集合中的所有其他人脸图片j与人脸图片i的秩序距离是否小于第二预设阈值T。如果/>则将人脸图片j加入i的邻近集合。由此，可以为每个人脸图片创建一个邻近集合：

在步骤432处，初始化每个图像感兴趣区的类别。在一些实施例中，每个图像感兴趣区的类别被初始化为距该图像感兴趣区的秩序距离最小的图像感兴趣区的类别。

示例性地，对于人脸图片集合中的每个人脸图片i，可以将集合中所有其他人脸图片j中与其秩序距离最小的人脸图片j的编号作为其的初始类别，即

应理解，步骤431和步骤432的顺序是可互换地，或者可以同时进行。

在步骤433处，对于每个图像感兴趣区，统计该图像感兴趣区的邻近集合中所有图像感兴趣区各自的邻近集合中的各个图像感兴趣区的类别，并且将出现次数最多的类别赋予该图像感兴趣区。

示例性地，对于人脸图片集合中的每个人脸图片i，统计其邻近集合中的所有人脸图片各自的邻近集合中的各个人脸图片的类别，并将其中出现次数最多的类别赋予人脸图片i，作为其更新的类别。

在一些实施例中，该方法还包括：循环地执行上述统计和赋予的操作m次，其中m为大于或等于2的整数。在一些实施例中，根据图像感兴趣区集合中的图像感兴趣区的数目设定m的取值，其中m的取值随图像感兴趣区集合中的图像感兴趣区的数目而增大。

例如，可以在步骤431或432处(图6中示出为在432处)，定义循环指示符times并将其初始化为1。然后在步骤434处，判断times是否小于m，若times小于m，则在步骤435处更新times为times+1，并返回到步骤433，进入下一个循环；否则，结束循环，进行至步骤436。其中，循环次数m可以根据经验依据集合中人脸图片的总数量预先设定，以便可以完成聚类任务，同时不会过分浪费计算资源和时间。

在步骤436处，输出所述图像感兴趣区集合中的各个图像感兴趣区的聚类结果。示例性地，输出循环m次之后各个人脸图片对应的类别，从而完成聚类。在一些实施例中，还可以进一步根据人脸区域的聚类结果，对包含这些人脸区域的图片或照片进行分类。例如，为诸如电子相册的图片集中的照片的人脸添加标签，并且将包含不同人脸的照片分类到不同相册中。

基于相似图像感兴趣区往往具有相似的相邻图像感兴趣区，本发明提出的图像感兴趣区聚类方法通过定义秩序距离，借助于图像感兴趣区的相邻图像感兴趣区来衡量图像感兴趣区之间的相似程度，并进而对图像感兴趣区进行聚类。这种方法可以适用于大规模复杂分布的图像感兴趣区聚类，并且可以有效去除其他聚类方法不易发现的噪声，从而大大提高聚类的准确率。

图7示出了根据本发明实施例的图像感兴趣区聚类装置700的示意性框图。如图7所示，图像感兴趣区聚类装置700包括序列创建模块710，被配置成对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列，在该索引序列中，该图像感兴趣区和图像感兴趣区集合中除该图像感兴趣区以外的其他图像感兴趣区被顺序地索引，并且所述其他图像感兴趣区按照所述其他图像感兴趣区与该图像感兴趣区之间的相似性度量以降序排序；距离确定模块720，被配置成对于图像感兴趣区集合中的任意两个图像感兴趣区，基于两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定两个图像感兴趣区之间的秩序距离，其中各自的一组相邻图像感兴趣区根据该两个图像感兴趣区各自的索引序列中各图像感兴趣区的索引秩序而被确定；以及聚类模块730，被配置成基于所确定的秩序距离，对图像感兴趣区集合中的各个图像感兴趣区进行聚类。

例如，序列创建模块710可以被配置为执行关于图4、图5描述的步骤410的操作，距离确定模块720可以被配置为执行关于图4、图5描述的步骤420的操作，聚类模块730可以被配置为执行关于图4、图6描述的步骤430的操作。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。另外，本文讨论的特定模块执行动作包括该特定模块本身执行动作，或者替换地该特定模块调用或以其他方式访问执行该动作的另一个组件或模块(或结合该特定模块一起执行动作)。因此，执行动作的特定模块可以包括执行动作的特定模块本身和/或执行动作的该特定模块调用或以其他方式访问的另一模块。

图8一般性地在800处图示了示例系统，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备810。计算设备810可以是例如服务提供商的服务器、与客户端(例如，客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面关于图7描述的图像感兴趣区聚类装置700可以采取计算设备810的形式。

如图示的示例计算设备810包括彼此通信耦合的处理系统811、一个或多个计算机可读介质812以及一个或多个I/O接口813。尽管未示出，但是计算设备810还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统811代表使用硬件执行一个或多个操作的功能。因此，处理系统811被图示为包括可被配置为处理器、功能块等的硬件元件814。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件814不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由(多个)半导体和/或晶体管(例如，电子集成电路(IC))组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质812被图示为包括存储器/存储装置815。存储器/存储装置815表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置815可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置815可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如，闪存、可移动硬盘驱动器、光盘等)。计算机可读介质812可以以下面进一步描述的各种其他方式进行配置。

一个或多个输入/输出(I/O)接口813代表允许向计算设备810传送命令和数据和从计算设备810接收命令和数据的功能。I/O接口813可以由任何适当的通信接口和通信协议实现。

计算设备810还包括图像感兴趣区聚类应用816。图像感兴趣区聚类应用816可以作为计算程序指令存储在存储器/存储装置815中。图像感兴趣区聚类应用816可以连同处理系统811、计算机可读介质812和I/O接口813一起实现关于图7描述的图像感兴趣区聚类装置700的各个模块的全部或部分功能。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备810访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备810的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件814和计算机可读介质812代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件814体现的一个或多个指令和/或逻辑。计算设备810可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件814，可以至少部分地以硬件来实现将模块实现为可由计算设备810作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如，一个或多个计算设备810和/或处理系统811)可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备810可以采用各种不同的配置。这些配置中的每一个包括可以具有一般不同的构造和能力的设备，并且因此可以根据不同设备类别中的一个或多个配置计算设备810。例如，计算设备810可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备810还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备810还可以实现为电视类设备，包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备810的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。计算设备810可以与作为系统平台的“云”820交互。在一些实施例中，计算设备810的功能还可以通过使用分布式系统、诸如通过如下所述的平台830在“云”820上全部或部分地实现。

云820包括和/或代表用于资源832的平台830。平台830抽象云820的硬件(例如，服务器)和软件资源的底层功能。资源832可以包括在远离计算设备810的服务器上执行计算机处理时可以使用的应用和/或数据。资源832还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台830可以抽象资源和功能以将计算设备810与其他计算设备连接。平台830还可以用于抽象资源的分级以提供遇到的对于经由平台830实现的资源832的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统800内。例如，功能可以部分地在计算设备810上以及通过抽象云820的功能的平台830来实现。

在本文的讨论中，描述了各种不同的实施例。应当领会和理解，本文描述的每个实施例可以单独使用或与本文所述的一个或多个其他实施例相关联地使用。

尽管已经以结构特征和/或方法动作特定的语言描述了主题，但是应当理解，所附权利要求中限定的主题不一定限于上述具体特征或动作。相反，上述具体特征和动作被公开为实现权利要求的示例形式通过研究附图、公开内容和所附的权利要求书，本领域技术人员在实践所要求保护的主题时，能够理解和实现对于所公开的实施例的变型。在权利要求书中，词语“包括”不排除其他元件或步骤，不定冠词“一”或“一个”不排除多个，并且“多个”意指两个或更多。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。

Claims

1.一种图像感兴趣区聚类方法，包括：

对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列，在该索引序列中，该图像感兴趣区和所述图像感兴趣区集合中除该图像感兴趣区以外的其他图像感兴趣区被顺序地索引，并且所述其他图像感兴趣区按照所述其他图像感兴趣区与该图像感兴趣区之间的相似性度量以降序排序；

对于所述图像感兴趣区集合中的任意两个图像感兴趣区，基于所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定所述两个图像感兴趣区之间的秩序距离，其中所述各自的一组相邻图像感兴趣区根据该两个图像感兴趣区各自的索引序列中各图像感兴趣区的索引秩序而被确定；并且

基于所确定的秩序距离，对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类；

其中所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度由所述两个图像感兴趣区之间的近似秩序距离来表示，所述近似秩序距离表明所述两个图像感兴趣区之一的所述一组相邻图像感兴趣区中，与所述两个图像感兴趣区中另一个图像感兴趣区不相邻的图像感兴趣区的数目；

其中所述确定所述两个图像感兴趣区之间的秩序距离包括：

基于近似秩序距离D(b，a)和D(b，a)，确定所述秩序距离，其中，a和b分别表示所述两个图像感兴趣区，D(b，a)为图像感兴趣区a到图像感兴趣区b的近似秩序距离，其表明在图像感兴趣区a的所述一组相邻图像感兴趣区中，与图像感兴趣区b不相邻的图像感兴趣区的数目；D(b，a)为图像感兴趣区b到图像感兴趣区a的近似秩序距离，其表明在图像感兴趣区b的所述一组相邻图像感兴趣区中，与图像感兴趣区a不相邻的图像感兴趣区的数目；

其中所述确定所述秩序距离包括：

将所述秩序距离定义为：

其中

t1＝min{Order_a(b)，min_dis}，

Order_a(b)表示图像感兴趣区b在图像感兴趣区a的所述索引序列中的索引序列号，min_dis为第一预设阈值，

f_a(i)表示在图像感兴趣区a的所述索引序列中，按照所述相似性度量与图像感兴趣区a相似的第i个图像感兴趣区，i为索引序列号，

Order_b(a)表示图像感兴趣区a在图像感兴趣区b的所述索引序列中的索引序列号，1{Order_b(f_a(i))≥min_dis}为指示函数，其中若Orde_b(f_a(i))≥min_dis，则1{Order_b(f_a(i))≥min_dis}＝1，反之，1{Order_b(f_a(i))≥min_dis}＝0，

t2＝min{Order_b(a)，min_dis}，

f_b(i)表示在图像感兴趣区b的所述索引序列中，按照所述相似性度量与图像感兴趣区b相似的第i个图像感兴趣区，i为索引序列号。

2.如权利要求1所述的方法，其中所述对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类包括：

对于每个图像感兴趣区，创建该图像感兴趣区的邻近集合，其中该邻近集合包括所述图像感兴趣区集合中距该图像感兴趣区的秩序距离小于第二预设阈值的所有图像感兴趣区；

初始化每个图像感兴趣区的类别；并且

对于每个图像感兴趣区，统计该图像感兴趣区的邻近集合中所有图像感兴趣区各自的邻近集合中的各个图像感兴趣区的类别，并且将出现次数最多的类别赋予该图像感兴趣区。

3.如权利要求2所述的方法，其中所述创建该图像感兴趣区的邻近集合包括：

响应于所述图像感兴趣区集合中的另一图像感兴趣区距该图像感兴趣区的秩序距离小于所述第二预设阈值，将所述另一图像感兴趣区加入该图像感兴趣区的邻近集合中。

4.如权利要求2所述的方法，其中所述初始化每个图像感兴趣区的类别包括：

将每个图像感兴趣区的类别初始化为距该图像感兴趣区的秩序距离最小的图像感兴趣区的类别。

5.如权利要求2所述的方法，还包括：

循环地执行所述统计和赋予的操作m次，

其中m为大于或等于2的整数。

6.如权利要求5所述的方法，还包括：

根据所述图像感兴趣区集合中的图像感兴趣区的数目设定m的取值，

其中m的取值随所述图像感兴趣区集合中的图像感兴趣区的数目而增大。

7.如权利要求2所述的方法，还包括：

输出所述图像感兴趣区集合中的各个图像感兴趣区的聚类结果。

8.如权利要求1所述的方法，其中所述相似性度量包括：L1范数距离、L2范数距离、曼哈顿距离、余弦距离或契比雪夫距离。

9.如权利要求1所述的方法，其中每个图像感兴趣区包括图像中的脸部区域，所述方法还包括：从包括两个或更多个图片的图片集中检测得到两个或更多个脸部区域以组成所述图像感兴趣区集合，并且根据对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类的结果，对所述图片集进行分类。

10.一种图像感兴趣区聚类装置，包括：

序列创建模块，被配置成对于图像感兴趣区集合中的每个图像感兴趣区，创建相应的索引序列，在该索引序列中，该图像感兴趣区和所述图像感兴趣区集合中除该图像感兴趣区以外的其他图像感兴趣区被顺序地索引，并且所述其他图像感兴趣区按照所述其他图像感兴趣区与该图像感兴趣区之间的相似性度量以降序排序；

距离确定模块，被配置成对于所述图像感兴趣区集合中的任意两个图像感兴趣区，基于所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度，确定所述两个图像感兴趣区之间的秩序距离，其中所述各自的一组相邻图像感兴趣区根据该两个图像感兴趣区各自的索引序列中各图像感兴趣区的索引秩序而被确定，其中所述两个图像感兴趣区各自的一组相邻图像感兴趣区彼此之间的重复度由所述两个图像感兴趣区之间的近似秩序距离来表示，

所述近似秩序距离表明所述两个图像感兴趣区之一的所述一组相邻图像感兴趣区中，与所述两个图像感兴趣区中另一个图像感兴趣区不相邻的图像感兴趣区的数目；以及

聚类模块，被配置成基于所确定的秩序距离，对所述图像感兴趣区集合中的各个图像感兴趣区进行聚类；

其中距离确定模块被配置：基于近似秩序距离D(a，b)和D(b，a)，确定所述秩序距离，其中，a和b分别表示所述两个图像感兴趣区，D(a，b)为图像感兴趣区a到图像感兴趣区b的近似秩序距离，其表明在图像感兴趣区a的所述一组相邻图像感兴趣区中，与图像感兴趣区b不相邻的图像感兴趣区的数目；D(b，a)为图像感兴趣区b到图像感兴趣区a的近似秩序距离，其表明在图像感兴趣区b的所述一组相邻图像感兴趣区中，与图像感兴趣区a不相邻的图像感兴趣区的数目；

其中所述秩序距离被定义为：

其中

t1＝min{Order_a(b)，min_dis}，

Order_b(a)表示图像感兴趣区a在图像感兴趣区b的所述索引序列中的索引序列号，1{Order_b(f_a(i))≥min_dis}为指示函数，其中若Order_b(f_a(i))≥min_dis，则1{Order_b(f_a(i))≥min_dis}＝1，反之，1{Order_b(f_a(i))≥min_dis}＝＝0，

t2＝min{Order_b(a)，min_dis}，

11.一种计算设备，包括存储器和处理器，所述存储器被配置成在其上存储计算机程序指令，所述计算机程序指令当在所述处理器上执行时促使所述处理器执行权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令当在处理器上执行时促使所述处理器执行权利要求1-9中任一项所述的方法。