CN111160463A

CN111160463A - 数据处理方法及装置、处理器、电子设备、存储介质

Info

Publication number: CN111160463A
Application number: CN201911392303.1A
Authority: CN
Inventors: 何悦; 黄厚钧; 李�诚; 王贵杰; 王子彬
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括：获取第一簇和第二簇；将所述第一簇中的点与所述第二簇中的点作为待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对；依据所述支持合并点对的数量和所述待确认点对的数量得到第一值；依据所述第一值合并所述第一簇和所述第二簇。

Description

数据处理方法及装置、处理器、电子设备、存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。

背景技术

聚类分析是数据挖掘和机器学习等领域的关键技术之一。聚类分析通过将数据集中的相似样本点汇聚至同一类簇，使不同类簇的样本点之间具有尽量小的视觉、模式识别等多个方面。目前的聚类分析技术主要包括划分聚类、合并聚类、基于密度聚类、网格聚类、谱聚类等几种。合并聚类因其概念简单、易于解释、聚类结果层次化和结构化明显等特点被广泛应用于各种领域。

发明内容

本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。

第一方面，提供了一种数据处理方法，所述方法包括：

获取第一簇和第二簇；所述第一簇中的点的类别相同，所述第二簇中的点的类别相同，且所述第一簇中的点的类别与所述第二簇中的点的类别不同；

将所述第一簇中的点与所述第二簇中的点组成待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对；

依据所述支持合并点对的数量和所述待确认点对的数量得到第一值；

依据所述第一值合并所述第一簇和所述第二簇。

该方面通过将第一簇中的一个点和第二簇的一个点作为一个待确认点对，并依据待确认点对中的两个点之间的相似度确定待确认点对是否为支持合并点对。若待确认点对中支持合并点对的占比达到合并预设值，表征第一簇中的点与第二簇中的点之间的相似度高，进而执行合并第一簇和第二簇的操作，可提高合并第一簇和第二簇的准确率。

结合本申请任一实施方式，在所述将所述第一簇中的点与所述第二簇中的点作为待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对之前，所述方法还包括：

确定所述第一簇中的第一点与所述第一簇中的第二点之间的第二相似度；

依据所述第二相似度，得到所述第一阈值；所述第一阈值与所述第二相似度呈正相关。

在该实施方式中，依据第一簇中的点之间的相似度确定第一阈值，可实现为不同种类的数据设置不同的第一阈值，进而提升合并准确率。

结合本申请任一实施方式，所述依据所述第一值合并所述第一簇和所述第二簇，包括：

在所述第一值大于或等于第二阈值的情况下，合并所述第一簇和所述第二簇。

结合本申请任一实施方式，所述在所述第一值大于或等于第二阈值的情况下，合并所述第一簇和所述第二簇之前，所述方法还包括：

在所述第一相似度小于或等于第三阈值的情况下，确定所述待确认点对为支持不合并点对；

依据所述支持不合并点对的数量与所述待确认点对的数量，得到第二值；

所述在所述第一值大于或等于第二阈值的情况下，合并所述第一簇和所述第二簇，包括：

在所述第一值大于或等于所述第二阈值的情况下，依据所述第二值合并所述第一簇和所述第二簇。

在该实施方式中，通过在判断是否合并两个簇的条件中增加支持不合并点对的数量确定第二值，将依据第二值作为判断是否合并第一簇和第二簇的条件，可进一步提高合并准确率。

结合本申请任一实施方式，所述在所述第一值大于或等于所述第二阈值的情况下，依据所述第二值合并所述第一簇和所述第二簇，包括：

在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于第四阈值的情况下，合并所述第一簇和所述第二簇。

结合本申请任一实施方式，所述在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于第四阈值的情况下，合并所述第一簇和所述第二簇之前，所述方法还包括：

确定所述第一簇的质心与所述第二簇的质心之间的第三相似度；

所述在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于第四阈值的情况下，合并所述第一簇和所述第二簇，包括：

在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于所述第四阈值，且所述第三相似度大于或等于第五阈值的情况下，合并所述第一簇和所述第二簇。

在实施方式中，通过在判断是否将第一簇和第二簇合并的条件中增加第一簇的质心和第二簇的质心之间的相似度是否大于或等于第五阈值的条件，可提高合并第一簇和第二簇的准确率。

结合本申请任一实施方式，所述依据所述支持合并点对的数量和所述待确认点对的数量得到第一值，包括：

确定所述支持合并点对的数量与所述待确认点对的数量的比值，作为所述第一值；

所述依据所述支持不合并点对的数量与所述待确认点对的数量，得到第二值，包括：

确定所述支持不合并点对的数量与所述待确认点对的数量的比值，作为所述第二值。

结合本申请任一实施方式，所述在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于所述第四阈值，且所述第三相似度大于或等于第五阈值的情况下，合并所述第一簇和所述第二簇，包括：

按所述第一相似度对所述待确认点对进行排序，得到待确认点对次序；

依次判断所述待确认点对次序中的所述待确认点对的所述第一相似度是否大于或等于所述第一阈值，得到所述待确认点对次序中所述第一相似度大于或等于所述第一阈值的待确认点对的数量，作为第一数量；

确定所述待确认点对次序中待确认点对的数量，作为第二数量；

在所述第一数量与所述第二数量的比值大于或等于所述第二阈值，且所述第二值小于或等于第四阈值，且所述第三相似度大于或等于第五阈值的情况下，合并所述第一簇和所述第二簇。

在该实施方式中，依次判断待确认点对次序中的所述待确认点对的第一相似度是否大于或等于第一阈值以确定第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值，可减少确定是否执行合并第一簇和第二簇所需的数据处理量，提高处理速度。

结合本申请任一实施方式，所述方法还包括：

在确定所述待确认点对次序中的所述待确认点对的所述第一相似度小于所述第一阈值，且所述第一数量与所述第二数量的比值小于所述第二阈值的情况下，确定不合并所述第一簇和所述第二簇。

结合本申请任一实施方式，所述获取第一簇和第二簇，包括：

获取至少两张人脸图像；

对所述至少两张人脸图像进行特征提取处理，得到至少两个特征数据；

对所述至少两个特征数据进行聚类处理，得到至少两个簇；

从所述至少两个簇中确定所述第一簇，从所述至少两个簇中除第一簇之外的簇中确定所述第二簇。

在该实施方式中，以人脸图像的特征数据构建第一簇和第二簇，实现对人脸图像的管理等功能。

结合本申请任一实施方式，在所述对所述至少两张人脸图像进行特征提取处理，得到至少两个特征数据之前，所述方法还包括：

依据预先设定的图像质量评价指标，得到所述至少两张人脸图像的质量评分；所述图像质量评价指标包括以下至少一个：图像中包含的人脸的数量、图像中人脸区域的清晰度、图像中人脸区域的遮挡情况；

所述对所述至少两张人脸图像进行特征提取处理，得到至少两个特征数据，包括：

对质量评分大于或等于第六阈值的人脸图像进行特征提取处理，得到所述至少两个特征数据。

在该实施方式中，依据图像质量评价指标确定人脸图像的质量评分，并依据人脸图像的质量评分确定人脸图像是否为噪声图像，以达到去除噪声图像的效果。

第二方面，提供了一种数据处理装置，所述装置包括：

获取单元，用于获取第一簇和第二簇；所述第一簇中的点的类别相同，所述第二簇中的点的类别相同，且所述第一簇中的点的类别与所述第二簇中的点的类别不同；

确定单元，用于将所述第一簇中的点与所述第二簇中的点组成待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对；

第一处理单元，用于依据所述支持合并点对的数量和所述待确认点对的数量得到第一值；

第二处理单元，用于依据所述第一值合并所述第一簇和所述第二簇。

结合本申请任一实施方式，所述确定单元，还用于：

在所述将所述第一簇中的点与所述第二簇中的点作为待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对之前，确定所述第一簇中的第一点与所述第一簇中的第二点之间的第二相似度；

结合本申请任一实施方式，所述第二处理单元用于：

结合本申请任一实施方式，所述确定单元，还用于：

在所述第一值大于或等于第二阈值的情况下，合并所述第一簇和所述第二簇之前，在所述第一相似度小于或等于第三阈值的情况下，确定所述待确认点对为支持不合并点对；

所述第一处理单元，还用于依据所述支持不合并点对的数量与所述待确认点对的数量，得到第二值；

所述第二处理单元，用于：

结合本申请任一实施方式，所述第二处理单元，用于：

结合本申请任一实施方式，所述确定单元，还用于：

在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于第四阈值的情况下，合并所述第一簇和所述第二簇之前，确定所述第一簇的质心与所述第二簇的质心之间的第三相似度；

所述第二处理单元，用于：

结合本申请任一实施方式，所述第一处理单元，用于：

结合本申请任一实施方式，所述第二处理单元，用于：

结合本申请任一实施方式，所述第二处理单元，还用于：

结合本申请任一实施方式，所述获取单元，用于：

获取至少两张人脸图像；

对所述至少两个特征数据进行聚类处理，得到至少两个簇；

结合本申请任一实施方式，所述装置还包括：

图像质量评价单元，用于在所述对所述至少两张人脸图像进行特征提取处理，得到至少两个特征数据之前，依据预先设定的图像质量评价指标，得到所述至少两张人脸图像的质量评分；所述图像质量评价指标包括以下至少一个：图像中包含的人脸的数量、图像中人脸区域的清晰度、图像中人脸区域的遮挡情况；

所述获取单元，用于：

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2a为本申请实施例提供的一种第一簇和第二簇的示意图；

图2b为本申请实施例提供的另一种第一簇和第二簇的示意图；

图3为本申请实施例提供的另一种数据处理方法的流程示意图；

图4为本申请实施例提供的另一种数据处理方法的流程示意图；

图5为本申请实施例提供的一种数据处理装置的结构示意图；

图6为本申请实施例提供的一种数据处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

合并聚类即将两个簇合并为一个簇，而在合并聚类过程中，判断两个簇是否应该合并为一个簇的条件(下文将称为合并策略)就变得非常重要。传统合并策略依据两个簇之间的距离指标判断是否执行合并操作。例如(例1)，假设距离指标为两个簇之间的最小距离是否小于或等于距离阈值：D，簇A与簇B之间的最小距离为簇A中的点a与簇B中的点b之间的距离：d，上述点a和点b均为数据。若d小于或等于D，则将簇A和簇B合并，若d大于D，则不合并簇A和簇B。

但传统合并策略易误将簇A和簇B合并，以例1为例(例2)，若点a和点b均为噪声，显然基于点a与点b之间的距离d小于或等于D将簇A和簇B合并并不合理。

此外，传统合并策略相当于将距离指标作为是否执行合并操作的触发条件，一旦两个簇之间的距离满足该距离指标(例如，两个簇之间的最小距离小于或等于距离阈值、两个簇之间的最远距离小于距或等于距离阈值、两个簇的质心之间的距离小于或等于距离阈值)，即执行将两个簇合并为一个簇的操作。由于不同类型的簇适用于不同的距离指标，如两个簇之间的最小距离小于或等于距离阈值就不适合作为判断例2中的簇A和簇B是否应该合并的距离指标，若距离质保选取不合适，易导致误将两个簇合并(下文将称为误合并)。当簇中的数据的数量较多时，误合并的情况将带来非常大影响。例如，簇A包含1万个数据，簇B包含2万个数据，若将簇A和簇B误合并，将导致至少有1万个数据的分类结果是错误的。

基于传统合并策略存在弊端，本申请实施例提供了一种合并策略，以降低误合并的情况发生的概率。下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请实施例提供的技术方案中的步骤的执行主体可以是第一终端，其中，第一终端可以是手机、计算机、服务器、平板电脑等。

请参阅图1，图1是本申请实施例(一)提供的一种数据处理方法的流程示意图。

101、获取第一簇和第二簇。

本申请实施例中，簇(包括第一簇和第二簇)为数据集合，且该集合内的数据的类别相同。集合内的数据可以为：图像、语句、语音、向量等。

举例来说(例3)，第一簇包含50张人脸图像，第二簇包含40张人脸图像，其中，第一簇中的50张人脸图像中的人物的身份均为A，第二簇中的40张人脸图像中的人物的身份均为B。

获取第一簇或第二簇的方式可以是接收用户通过输入组件输入的第一簇，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。获取第一簇或第二簇的方式也可以是接收第二终端发送的第一簇，其中，第二终端包括手机、计算机、服务器、平板电脑等。

102、将上述第一簇中的点与上述第二簇中的点作为待确认点对，在上述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定上述待确认点对为支持合并点对。

本申请实施例中，簇中的点(包括第一簇中的点和第二簇中的点)指簇中的数据，即簇中的一个点表示簇中的一个数据。如在例3中，第一簇中的一张人脸图像即为第一簇内的一个点，第二簇中的一张人脸图像即为第二簇内的一个点。

本申请实施例中，待确认点对指由第一簇中的一个点与第二簇中的一个点组成的点对。可选的，将第一簇中的一个点与第二簇中的一个点组成一个待确认点对，遍历第一簇中的每一个点和第二簇中的每一个点，得到至少一个所述待确认点对。举例来说(例4)，第一簇包含两个点，分别为：点a和点b，第二簇包含两个点，分别为点c和点d。那么第一簇和第二簇之间的待确认点对包括：点a和点c、点a和点d、点b和点c、点b和点d。

若待确认点对中的两个点之间的相似度(即第一相似度)大于或等于第一阈值，表征待确认点对中的两个点属于同一类，其中，第一阈值为小于或等于1的正数。若依据待确认点对判断是否应该合并两个簇，由于待确认点对中的两个点分属两个不同的簇，而待确认点对中的两个点属于同一类，可判断两个簇的类别属于同一类，因此可将两个簇合并。基于此，本申请实施例将两个点之间的第一相似度大于或等于第一阈值的待确认点对作为支持合并点对。

以例4为例，假设第一阈值为80％，点a和点c之间的相似度为85％，则由点a和点c组成的待确认点对为支持合并点对。

本申请实施例中，两个点之间的相似度(包括上述第一相似度和下文将提及的第二相似度和第三相似度)可以是：两个点之间的欧式距离(euclidean distance)、两个点之间的余弦相似度、两个点之间的马氏距离(mahalanobis distance)、两个点之间的皮尔逊相关系数(pearson correlation coefficient)、或两个点之间的汉明距离(hammingdistance)中的一种。

103、依据上述支持合并点对的数量和上述待确认点对的数量得到第一值。

本申请实施例中，待确认点对的数量＝第一簇中的点的数量与第二簇中点的数量的乘积。举例来说，第一簇包含的数据的数量为a，第二簇包含的数据的数量为b，则第一簇和第二簇中的待确认点对的数量＝a×b。

由于通过一个待确认点对中的两个点之间的第一相似度判断两个簇是否应该合并获得的合并准确率低，即一个待确认点对中的两个点之间的相似度不能表征两个簇之间的相似度。但若两个簇中的所有待确认点对中第一相似度大于或等于第一阈值的待确认点对的占比高，表征两个簇之间的相似度高，可视为两个簇的类别相同。为此，本申请实施例通过将待确认点对中支持合并点对的占比是否达到合并预设值作为判断是否将第一簇和第二簇合并的依据，其中，第二阈值为小于或等于1的正数。

本实施例中，上述第一值可用于表征待确认点对中支持合并点对的占比。

令支持合并点对的数量为n，待确认点对的数量为m，第一值为v₁。

在一种得到第一值的可能实现的方式中，v₁满足下式：

在另一种得到第一值的可能实现的方式中，v₁满足下式：

在又一种得到第一值的可能实现的方式中，v₁满足下式：

其中，c为绝对值小于1的实数。

在又一种得到第一值的可能实现的方式中，v₁满足下式：

在又一种得到第一值的可能实现的方式中，v₁满足下式：

其中，c为绝对值小于1的实数。

在又一种得到第一值的可能实现的方式中，v₁满足下式：

104、依据上述第一值合并上述第一簇和上述第二簇。

由步骤103可以看出，第一值可通过一个分式确定，且n和m分别属于分子和分母。由于n属于分子时的第一值与m属于分子时的第一值互为倒数(如公式(1)求得的第一值和公式(2)求得的第一值、公式(3)求得的第一值和公式(4)求得的第一值、公式(5)求得的第一值和公式(6)求得的第一值)，在n属于分子时判断两个簇之间的相似度高的依据与m属于分子时判断两个簇之间的相似度高的依据不同。

在一种可能实现的方式中，若n属于分子、m属于分母，在第一值大于或等于第二阈值的情况下，合并第一簇和第二簇。以例4为例，假设第二阈值为75％，第一簇和第二簇之间的待确认点对中，点a和点c、点a和点d、点b和点c均为支持合并点对，点b和点d非支持合并点对。那么在第一簇和第二簇中支持合并点对的数量为3，第一簇和第二簇中待确认点对的数量为4，即第一簇中支持合并点对的数量与待确认点对的数量的比值为75％。由于该比值等于第二阈值，可将第一簇和第二簇合并。

在另一种可能实现的方式中，若m属于分子、n属于分母，在第一值小于第七阈值的情况下，合并第一簇和第二簇，其中，第七阈值为正数。

本实施例通过将第一簇中的一个点和第二簇的一个点作为一个待确认点对，并依据待确认点对中的两个点之间的相似度确定待确认点对是否为支持合并点对。若待确认点对中支持合并点对的占比达到合并预设值，表征第一簇中的点与第二簇中的点之间的相似度高，进而执行合并第一簇和第二簇的操作，可提高合并第一簇和第二簇的准确率。

在实施例(一)中，依据第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值判断是否合并第一簇和第二簇，而判断待确认点对是否为支持合并点对的依据为待确认点对中的两个点之间的相似度是否大于或等于第一阈值。也就是说，在第一簇中的点、第二簇中的点以及第二阈值均是确定的情况下，第一阈值的取值将决定第一簇和第二簇中支持合并点对的数量，进而影响最终是否执行合并第一簇和第二簇的操作的结果。

显然，对于不同类型的簇，第一阈值的取值应该不同，若以固定取值的第一阈值判断任意两个簇中的待确认点对是否为支持点对是不合理的，进而也将导致合并准确率低。

举例来说(例5)，如图2a所示，第一簇包含点1、点2和点3，第二簇包含点4、点5和点6。如图2b所示，第一簇包含点7、点8和点9，第二簇包含点10、点11和点12。图2a中的点均为图像，图2b中的点均为语音数据，若判断两张图像是否属于同一类别的相似度阈值比判断两个语音数据属于同一类别的相似度阈值大，例如，在两张图像之间的相似度大于或等于90％时，确定两张图像属于同一类别(即属于同一个簇)。在两个语音数据之间的相似度大于或等于80％时，确定两个语音数据属于同一类别。显然，使用相同的第一阈值判断图2a中的待确认点对是否为支持合并点对以及判断图2b中的待确认点对是否为支持合并点对不合理。

考虑到第一阈值相当于判断两个点是否属于同一类别的依据，因此可依据第一簇中的点相似度确定两个点是否属于同一类别的相似度阈值(即第一阈值)。在一种可能实现的方式中，计算第一簇中的第一点与第一簇中的第二点之间的第二相似度。将第二相似度与相似度阈值系数相乘，得到第一阈值，其中，第一点为第一簇中的任意一点，第二点为第一簇中除第一点之外的任意一点，相似度阈值为正数。

可选的，计算第一簇中每两点之间的相似度，得到第一簇的相似度集。将第一簇的相似度集的均值作为上述第二相似度。

接着例5继续举例，假设：点1与点2之间的相似度为S₁，点1与点3之间的相似度为S₂，点2与点3之间的相似度为S₃，则图2a中的第一簇的相似度集包括S₁、S₂和S₃。第一簇的相似度集的均值为(S₁+S₂+S₃)/3，即为第二相似度。

可选的，在通过计算第一簇中每两点之间的相似度，得到第一簇的相似度集的基础上，可计算第二簇中每两点之间的相似度，得到第二簇的相似度集。将第一簇的相似度集与第二簇的相似度集的均值作为上述第二相似度。

接着例5继续举例，假设：点1与点2之间的相似度为S₁，点1与点3之间的相似度为S₂，点2与点3之间的相似度为S₃，点4与点5之间的相似度为S₄，点4与点6之间的相似度为S₅，点5与点6之间的相似度为S₆，则图2a中的第一簇的相似度集包括：S₁、S₂和S₃，图2a中的第二簇的相似度集包括：S₄、S₅和S₆。第一簇的相似度集与第二簇的相似度集的均值为(S₁+S₂+S₃+S₄+S₅+S₆)/6，即为第二相似度。

本实施例依据第一簇中的点之间的相似度确定第一阈值，可实现为不同种类的数据设置不同的第一阈值，进而提升合并准确率。

若两个点之间的相似度过小时，显然，这个两个点不应该被归为同一类(即归为同一簇)，下文将不应该被归为同一簇的两个点称为差异点对。将簇中任意两个点视为一个点对，显然，在一个簇的所有点对中差异点对的占比过大是不合理的。

为进一步提高合并准确率，在判断是否将第一簇和第二簇合并时，本申请实施例还将考虑待确认点对中支持不合并点对的占比，其中，支持不合并点对即为第一相似度小于或等于第三阈值的待确认点对。以例4为例，假设第三阈值为30％，点b和点d之间的第一相似度为25％，则由点b和点d组成的待确认点对为支持不合并点对。

因此，在第一簇和第二簇中的待确认点对中支持合并点对的占比需达到合并预设值，且待确认点对中支持不合并点对的占比需小于不合并预设值的情况下，合并第一簇和第二簇可提高合并准确率。

本实施例中，第二值可用于表征待确认点对中支持不合并点对的占比。

令支持不合并点对的数量为k，待确认点对的数量为m，第二值为v₂。

在一种得到第二值的可能实现的方式中，v₂满足下式：

在另一种得到第二值的可能实现的方式中，v₂满足下式：

在又一种得到第二值的可能实现的方式中，v₂满足下式：

其中，c为绝对值小于1的实数。

在又一种得到第二值的可能实现的方式中，v₂满足下式：

在又一种得到第二值的可能实现的方式中，v₂满足下式：

其中，c为绝对值小于1的实数。

在又一种得到第二值的可能实现的方式中，v₂满足下式：

从以上六种得到第二值的可能实现的方式中可以看出，第二值可通过一个分式确定，且k和m分别属于分子和分母。由于k属于分子时的第二值与m属于分子时的第二值互为倒数(如公式(7)求得的第二值和公式(8)求得的第二值、公式(9)求得的第二值和公式(10)求得的第二值、公式(11)求得的第二值和公式(12)求得的第二值)，在k属于分子时判断是否合并第一簇和第二簇的依据与m属于分子时判断是否合并第一簇和第二簇的依据不同。

在一种可能实现的方式中，若n属于分子、k属于分子、m属于分母，在第一值大于或等于第二阈值，且第二值小于或等于第四阈值的情况下，合并第一簇和第二簇。

举例来说，假设第一簇包含点1和点2，第二簇包含点3、点4和点5，点1和点3之间的第一相似度为80％，点1和点4之间的第一相似度为85％，点1和点5之间的第一相似度为10％，点2和点3之间的第一相似度为80％，点2和点4之间的第一相似度为90％，点2和点5之间的第一相似度为87％，第一阈值为80％，第三阈值为20％。那么点1和点3组成的待确认点对(下文将称为待确认点对1)为支持合并点对，点1和点4组成的待确认点对(下文将称为待确认点对2)为支持合并点对，点1和点5组成的待确认点对(下文将称为待确认点对3)为支持不合并点对，点2和点3组成的待确认点对(下文将称为待确认点对4)为支持合并点对，点2和点4组成的待确认点对(下文将称为待确认点对5)为支持合并点对，点2和点5组成的待确认点对(下文将称为待确认点对6)为支持合并点对。也就是说，第一簇和第二簇中包含5个支持合并点对，分别为：待确认点对1、待确认点对2、待确认点对4、待确认点对5、待确认点对6，第一簇和第二簇中包含1个支持不合并点对，分别为：待确认点对3。第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值为5/6，第一簇和第二簇中支持不合并点对的数量与待确认点对的数量的比值为1/6。若第二阈值为80％，第四阈值为18％。由于5/6大于80％，且1/6小于18％，可执行合并第一簇和第二的操作。

再举例来说，假设第一簇包含点1和点2，第二簇包含点3、点4和点5，点1和点3之间的第一相似度为80％，点1和点4之间的第一相似度为85％，点1和点5之间的第一相似度为10％，点2和点3之间的第一相似度为80％，点2和点4之间的第一相似度为90％，点2和点5之间的第一相似度为20％，第一阈值为80％，第三阈值为20％。那么点1和点3组成的待确认点对(下文将称为待确认点对1)为支持合并点对，点1和点4组成的待确认点对(下文将称为待确认点对2)为支持合并点对，点1和点5组成的待确认点对(下文将称为待确认点对3)为支持不合并点对，点2和点3组成的待确认点对(下文将称为待确认点对4)为支持合并点对，点2和点4组成的待确认点对(下文将称为待确认点对5)为支持合并点对，点2和点5组成的待确认点对(下文将称为待确认点对6)为支持不合并点对。也就是说，第一簇和第二簇中包含4个支持合并点对，分别为：待确认点对1、待确认点对2、待确认点对4、待确认点对5，第一簇和第二簇中包含2个支持不合并点对，分别为：待确认点对3、待确认点对6。第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值为4/6＝2/3，第一簇和第二簇中支持不合并点对的数量与待确认点对的数量的比值为2/6＝1/3。若第二阈值为65％，第四阈值为10％。由于1/3大于10％，不执行合并第一簇和第二的操作。

在另一种可能实现的方式中，若n属于分子、k属于分母、m属于分母，在第一值大于或等于第二阈值，且第二值大于第八阈值的情况下，合并第一簇和第二簇，其中，第八阈值为正数。

在又一种可能实现的方式中，若n属于分母、k属于分母、m属于分母，在第一值小于第七阈值，且第二值大于第八阈值的情况下，合并第一簇和第二簇。

在又一种可能实现的方式中，若n属于分母、k属于分子、m属于分母，在第一值小于第七阈值，且第二值小于或等于第四阈值的情况下，合并第一簇和第二簇。

本申请实施例通过在判断是否合并两个簇的条件中增加待确认点对中支持不合并点对的占比是否小于不合并预设值，可进一步提高合并准确率。

此外，两个簇的质心之间的相似度越小，表征两个簇属于同一个类别的概率越低，因此，在执行将两个簇合并的操作之前，还可考虑两个簇的质心之间的相似度，以提高合并准确率。在一种可能实现的方式中，确定第一簇的质心与第二簇的质心之间的第三相似度。在第一值大于或等于第二阈值，且第二值小于或等于第四阈值，且第三相似度大于或等于第五阈值的情况下，合并第一簇和第二簇。其中，第五阈值为小于1的正数。

举例来说，假设第五阈值为70％，第一值大于或等于第二阈值，且第二值小于或等于第四阈值。若一簇的质心与第二簇的质心之间的第三相似度为80％，由于第三相似度大于第五阈值，可执行合并第一簇和第二簇的操作。若一簇的质心与第二簇的质心之间的第三相似度为60％，由于第三相似度小于第五阈值，可不执行合并第一簇和第二簇的操作。

本申请实施例通过在判断是否将第一簇和第二簇合并的条件中增加第一簇的质心和第二簇的质心之间的相似度是否大于或等于第五阈值的条件，可提高合并第一簇和第二簇的准确率。

在判断是否需要将第一簇和第二簇时，需要确定第一簇和第二簇中支持合并点对的数量，为此本申请实施例还提供了一种确定第一簇和第二簇中支持合并点对的数量的方式，以减小数据处理量，提高处理速度。

请参阅图3，图3是本申请实施例(二)提供的另一种数据处理方法的流程示意图。

301、按上述第一相似度对上述待确认点对进行排序，得到待确认点对次序。

上述第一相似度为待确认点对中的两个点之间的相似度，可选的，可按第一相似度从大到小的顺序对第一簇和第二簇中所有的待确认点对排序，得到待确认点对次序。

举例来说(例6)，第一簇和第二簇包含5个待确认点对，分别为：待确认点对1，待确认点对2，待确认点对3，待确认点对4，待确认点对5。待确认点对1的第一相似度为75％，待确认点对2的第一相似度为85％，待确认点对3的第一相似度为60％，待确认点对4的第一相似度为88％，待确认点对5的第一相似度为40％。按第一相似度从大到小的顺序对第一簇和第二簇中所有的待确认点对排序得到的待确认点对次序为：1.待确认点对4；2.待确认点对2；3.待确认点对1；4.待确认点对3；5.待确认点对5。

可选的，还可按第一相似度从小到大的顺序对第一簇和第二簇中所有的待确认点对排序，得到待确认点对次序。

302、依次判断上述待确认点对次序中的上述待确认点对的上述第一相似度是否大于或等于上述第一阈值，得到上述待确认点对次序中第一相似度大于或等于上述第一阈值的待确认点对的数量，作为第一数量。

依次将待确认点对次序中的待确认点对的第一相似度与第一阈值进行比较。接着例6继续举例(例7)，首先将待确认点对4的第一相似度与第一阈值进行比较，再将待确认点对2的第一相似度与第一阈值进行比较，…，最后将待确认点对5的第一相似度与第一阈值进行比较。

若待确认点对的第一相似度大于或等于第一阈值，表征该待确认点对为支持合并点对，相应的，可使第一数量加1，其中，第一数量表征第一簇和第二簇中支持合并点对的数量。接着例7继续举例(例8)，假设第一阈值为70％，由于待确认点对4的第一相似度大于第一阈值，在将待确认点对4的第一相似度与第一阈值进行比较后，可将第一数量由0更新为1。再将待确认点对2的第一相似度与第一阈值进行比较，由于待确认点对2的第一相似度大于第一阈值，可将第一数量由1更新为0。

303、确定上述待确认点对次序中待确认点对的数量，作为第二数量。

304、在上述第一数量与上述第二数量的比值大于或等于上述第二阈值，且上述第二值小于或等于第四阈值，且上述第三相似度大于或等于第五阈值的情况下，合并上述第一簇和上述第二簇。

本实施例中，第一相似度大于或等于第一阈值的待确认点对为支持合并点对，即待确认点对次序中支持合并点对的数量即为第一数量。若待确认点对次序中第一相似度大于或等于第一阈值的待确认点对的数量与待确认点对次序中的待确认点对的数量的比值大于或等于第二阈值，即第一数量与第二数量的比值大于或等于第二阈值，表征第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值大于或等于第二阈值，可合并第一簇和第二簇。

需要理解的是，在实施例(一)中，需要通过将第一簇和第二簇中所有待确认点对的第一相似度与第一阈值进行比较，以确定第一簇和第二簇中支持合并点对的数量。在本实施例中，由于每一次只将一个待确认点对的第一相似度与第一阈值进行比较，因此，在第一数量与待确认点对次序中的待确认点对的数量的比值大于或等于第二阈值时，停止将待确认点对次序中的待确认点对的第一相似度与第一阈值进行比较。显然，本实施提供的技术方案可减小数据处理量，提高处理速度。

举例来说，第一簇和第二簇中有3个待确认点对，分别为：待确认点对1、待确认点对2和待确认点对3。假设：第一阈值为78％，第二阈值为60％，待确认点对1的第一相似度为80％，待确认点对2的第一相似度为86％，待确认点对3的第一相似度为60％，待确认点对的次序为：1.待确认点对2；2.待确认点对1；3.待确认点对3。若分别将待确认点对1的第一相似度、待确认点对2的第一相似度、待确认点对3的第一相似度与第一阈值进行比较，以确定第一簇和第二簇中支持合并点对的数量，也就是说，需要执行3次比较确定支持合并点对的数量，进而才能确定是否执行合并第一簇和第二簇的操作。在本实施例中，在依据待确认点对次序判断待确认点对是否为支持合并点对的过程中，在执行完待确认点对1的第一相似度与第一阈值的比较后，即可确定第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值为2/3，由于该比值大于第二阈值，可执行合并第一簇和第二簇的操作，并停止继续判断待确认点对是否为支持合并点。也就是说，基于本实施例提供的技术方案只需执行2次比较即可确定执行合并第一簇和第二簇的操作。

305、在确定待确认点对次序中的待确认点对的上述第一相似度小于上述第一阈值，且上述第一数量与上述第二数量的比值小于上述第二阈值的情况下，确定不合并上述第一簇和上述第二簇。

将待确认点对次序中已判断是否为支持合并点对的待确认点对称为已判断点对，将待确认点对次序中未判断是否为支持合并点对的待确认点对称为未判断点对，在确定待确认点对次序中的待确认点对的第一相似度小于第一阈值的情况下，表征待确认点对次序中未判断点对中不存在支持合并点对。因此，已判断点对中支持合并点对的数量(即第一数量)即为第一簇和第二簇中支持合并点对的数量。

若已判断点对中支持合并点对的数量与待确认点对次序中待确认点对的数量的比值小于第二阈值，表征第一簇和第二簇中支持合并点对的数量与待确认点对的数量的比值小于第二阈值，因此，可确定第一簇和第二簇不属于同一类别，即确定不合并第一簇和第二簇。

基于本实施提供的技术方案，可减少确定是否执行合并第一簇和第二簇所需的数据处理量，提高处理速度。

在数据量急剧扩增的时代，通过对数据进行分类可分析得到数据之间隐藏的关联和信息。因此，如何高效、准确的对数据分类具有非常重要的意义。例如，随着移动终端(如手机、平板电脑)的拍照功能越来越强大，越来越多的用户使用移动终端拍摄各种各样的图像，但随着图像的数量的增加，如何高效管理移动终端里的图像就变得非常有意义。

通过对移动终端里的图像进行聚类处理，实现对移动终端里的图像的分类可有效管理移动终端里的图像。基于本申请实施例提供的技术方案，可提高对移动终端里的图像的分类准确率。

请参阅图4，图4是本申请实施例(三)提供的一种基于本申请实施例提供的技术方案对人脸图像进行聚类的流程示意图。

401、获取至少两张人脸图像。

本实施例的执行主体为移动终端。

本实施例中，人脸图像指包含人脸区域的图像。

移动终端获取至少两张人脸图像的方式可以是通过移动终端的摄像头采集获得。移动终端获取至少两张人脸图像的方式可以是接收用户通过输入组件输入的至少两张人脸图像，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。获取至少两张人脸图像的方式也可以是接收第三终端发送的至少两张人脸图像，其中，第三终端包括手机、计算机、服务器、平板电脑等。

在一种可能实现的方式中，移动终端通过摄像头采集获得第一人脸图像和第二人脸图像，得到上述至少两张人脸图像。

402、对上述至少两张人脸图像进行特征提取处理，得到至少两个特征数据。

本实施例中，特征提取处理可通过预先训练好的神经网络实现，也可通过特征提取模型实现，本申请对此不作限定。通过特征提取处理得到的特征数据均包含用于识别人脸图像中的人物的身份的信息。

通过对人脸图像进行特征提取处理得到特征数据可以理解为人脸图像的更深层次的语义信息。在一些可能的实现方式中，通过多层任意堆叠的卷积层对人脸图像逐层进行卷积处理完成对人脸图像的特征提取处理，其中，每个卷积层提取出的特征内容及语义信息均不一样，具体表现为，特征提取处理一步步地将人脸图像的特征抽象出来，同时也将逐步去除相对次要的特征数据，因此，越到后面提取出的特征数据越小，内容及语义信息就越浓缩。通过多层卷积层逐级对人脸图像进行卷积处理，并提取相应的特征数据，这样，可在获得人脸图像主要内容信息(即人脸图像的特征数据)的同时，将人脸图像尺寸缩小，减小系统的计算量，提高运算速度。在一种可能实现的方式中，卷积处理的实现过程如下：卷积层对人脸图像做卷积处理，即利用卷积核在人脸图像上滑动，并将人脸图像上的像素与对应的卷积核上的数值相乘，然后将所有相乘后的值相加作为卷积核中间像素对应的图像上像素值，最终滑动处理完人脸图像中所有的像素，并提得到特征数据。

通过对至少两张人脸图像中的每一张人脸图像分别进行特征提取处理，得到每一张人脸图像的特征数据。

403、对上述至少两个特征数据进行聚类处理，得到至少两个簇。

本实施例中，可采用任意聚类算法实现上述聚类处理，如：k均值聚类算法(k-means clustering algorithm)、均值漂移聚类算法、凝聚层次聚类算法。

如步骤401所述，每个特征数据中均包含用于识别人脸图像中的人物的身份的信息，聚类算法可依据该信息对至少两个特征数据进行聚类，得到至少两个簇。

404、从上述至少两个簇中确定上述第一簇，从上述至少两个簇中除第一簇之外的簇中确定上述第二簇。

将上述至少两个簇中的任意一个簇作为第一簇，将上述至少两个簇中除第一簇之外的任意一个簇作为第二簇。

举例来说，至少两个簇包含：簇A、簇B和簇C，可将簇A作为第一簇，将簇B作为第二簇。也可将簇A作为第一簇，将簇C作为第二簇。还可将簇B作为第一簇，将簇A作为第二簇。还可将簇B作为第一簇，将簇C作为第二簇。还可将簇C作为第一簇，将簇A作为第二簇。还可将簇C作为第一簇，将簇B作为第二簇。

这样，第一簇中的点和第二簇中的点均为一个特征数据。第一簇中的一个特征数据与第二簇中的一个特征数据可作为第一簇和第二簇中的一个待确认点对，待确认点对中的两个特征数据之间的相似度即为待确认点对的第一相似度。

举例来说，至少两张人脸图像集包含3张人脸图像，分别为：人脸图像A、人脸图像B和人脸图像C。分别对每一张人脸图像进行特征提取处理，可得到人脸图像A的特征数据a、人脸图像B的特征数据b以及人脸图像C的特征数据c。通过对特征数据a、特征数据b和特征数据c进行聚类处理，得到两个簇，分别为簇a和簇b，其中，簇a包括特征数据a和特征数据b，簇b包括特征数据c。将簇a作为第一簇，将簇b作为第二簇。第一簇和第二簇中的待确认点对包括：由特征数据a和特征数据c组成的待确认点对1以及由特征数据b和特征数据c组成的待确认点对2。若特征数据a与特征数据c之间的第一相似度为85％，特征数据b与特征数据c之间的第一相似度为70％，则待确认点对1的第一相似度为85％，待确认点对2的第一相似度为70％。

依据实施例(一)及实施例(二)提供的技术方案可确定是否执行合并第一簇和第二簇的操作，进而实现对至少两张人脸图像的管理。

由于至少两张人脸图像中可能存在噪声图像，而噪声图像的存在将导致合并准确率低。可选的，在对至少两张人脸图像进行特征提取处理之前，可依据图像质量评价指标确定每一张人脸图像的质量评分，并依据人脸图像的质量评分确定人脸图像是否为噪声图像，以达到去除至少两张人脸图像中的噪声图像的效果。

本实施例中，图像质量评价指标包括以下至少一个：图像中包含的人脸的数量、图像中人脸区域的清晰度、图像中人脸区域的遮挡情况。

由于后续将对人脸图像中的人脸区域进行特征提取处理，因此人脸图像中的人脸区域的清晰度越高表征人脸图像的质量越高，人脸图像中被遮挡的人脸区域越小也表征人脸图像的质量越高。此外，由于需要依据人脸图像中的人脸的身份对人脸进行分类，人脸图像中的人脸的数量越多，对人脸图像的分类的难度越大，例如，人脸图像1中包含3个人脸，分别为：人脸A、人脸B、人脸C，其中，人脸A的身份为a，人脸B的身份为b，此时将人脸图像1划分为身份为a的簇中或将人脸图像1划分为身份为b的簇中均不合理。因此，还需确定人脸图像中人脸的数量，且人脸图像中的人脸数量有且仅有一张时表征人脸图像的质量高，反之，人脸图像中的人脸数量大于一张时表征人脸图像的质量低。

在一种可能实现的方式中，依据上述图像质量评价指标可对人脸图像的质量进行评分，如：若人脸图像中包含有至少两个人脸，则质量评分减2分。人脸图像中的人脸区域被遮挡的区域越大，质量评分减分越多，如：被遮挡的区域的面积小于或等于15％质量评分减0.5分，被遮挡的区域的面积大于15％小于或等于40％质量评分减1分，被遮挡的区域的面积大于40％小于或等于70％质量评分减2分，被遮挡的区域的面积大于70％质量评分减3.5分。还可依据人脸图像中人脸区域的清晰度获得相应的质量评分。可选的，可通过任意图像清晰度算法确定人脸图像中人脸区域的清晰度，如：灰度方差函数、灰度方差乘积函数、能量梯度函数，对此本申请不做具体限定。

本实施例将质量评分小于第六阈值的人脸图像视为噪声图像，进而可对至少两张人脸图像集中质量评分大于或等于第六阈值的人脸图像进行特征提取处理得到至少两个特征数据。后续可对至少两个特征数据进行聚类处理得到第一簇和第二簇。这样，第一簇和第二簇中将不包含噪声图像的特征数据，达到去除噪声图像的效果。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图5，图5为本申请实施例提供的一种数据处理装置的结构示意图，该装置1包括：获取单元11、确定单元12、第一处理单元13、第二处理单元14以及图像质量评价单元15，其中：

获取单元11，用于获取第一簇和第二簇；所述第一簇中的点的类别相同，所述第二簇中的点的类别相同，且所述第一簇中的点的类别与所述第二簇中的点的类别不同；

确定单元12，用于将所述第一簇中的点与所述第二簇中的点组成待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对；

第一处理单元13，用于依据所述支持合并点对的数量和所述待确认点对的数量得到第一值；

第二处理单元14，用于依据所述第一值合并所述第一簇和所述第二簇。

结合本申请任一实施方式，所述确定单元12，还用于：

结合本申请任一实施方式，所述第二处理单元14用于：

结合本申请任一实施方式，所述确定单元12，还用于：

所述第一处理单元13，还用于依据所述支持不合并点对的数量与所述待确认点对的数量，得到第二值；

所述第二处理单元14，用于：

结合本申请任一实施方式，所述第二处理单元14，用于：

结合本申请任一实施方式，所述确定单元12，还用于：

所述第二处理单元14，用于：

结合本申请任一实施方式，所述第一处理单元13，用于：

结合本申请任一实施方式，所述第二处理单元14，用于：

结合本申请任一实施方式，所述第二处理单元14，还用于：

结合本申请任一实施方式，所述获取单元11，用于：

获取至少两张人脸图像；

对所述至少两个特征数据进行聚类处理，得到至少两个簇；

结合本申请任一实施方式，所述装置1还包括：

图像质量评价单元15，用于在所述对所述至少两张人脸图像进行特征提取处理，得到至少两个特征数据之前，依据预先设定的图像质量评价指标，得到所述至少两张人脸图像的质量评分；所述图像质量评价指标包括以下至少一个：图像中包含的人脸的数量、图像中人脸区域的清晰度、图像中人脸区域的遮挡情况；

所述获取单元11，用于：

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图6为本申请实施例提供的一种数据处理装置的硬件结构示意图。该数据处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的第一簇和第二簇，又或者该存储器22还可用于存储通过处理器21获得相关数据等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图6仅仅示出了数据处理装置的简化设计。在实际应用中，数据处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的数据处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

依据所述第一值合并所述第一簇和所述第二簇。

2.根据权利要求1所述的方法，其特征在于，在所述将所述第一簇中的点与所述第二簇中的点作为待确认点对，在所述待确认点对中的两个点之间的第一相似度大于或等于第一阈值的情况下，确定所述待确认点对为支持合并点对之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述依据所述第一值合并所述第一簇和所述第二簇，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述第一值大于或等于第二阈值的情况下，合并所述第一簇和所述第二簇之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述第一值大于或等于所述第二阈值的情况下，依据所述第二值合并所述第一簇和所述第二簇，包括：

6.根据权利要求5所述的方法，其特征在于，所述在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于第四阈值的情况下，合并所述第一簇和所述第二簇之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述依据所述支持合并点对的数量和所述待确认点对的数量得到第一值，包括：

8.根据权利要求7所述的方法，其特征在于，所述在所述第一值大于或等于所述第二阈值，且所述第二值小于或等于所述第四阈值，且所述第三相似度大于或等于第五阈值的情况下，合并所述第一簇和所述第二簇，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1至9中任意一项所述的方法，其特征在于，所述获取第一簇和第二簇，包括：

获取至少两张人脸图像；

对所述至少两个特征数据进行聚类处理，得到至少两个簇；

11.根据权利要求10所述的方法，其特征在于，在所述对所述至少两张人脸图像进行特征提取处理，得到至少两个特征数据之前，所述方法还包括：

12.一种数据处理装置，其特征在于，所述装置包括：

13.一种处理器，其特征在于，所述处理器用于执行如权利要求1至11中任意一项所述的方法。

14.一种电子设备，其特征在于，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1至11中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行权利要求1至11中任意一项所述的方法。