CN113920353B

CN113920353B - 一种无监督的人脸图像二次聚类方法、装置、介质

Info

Publication number: CN113920353B
Application number: CN202111300505.6A
Authority: CN
Inventors: 齐战胜; 钟敏; 张李钦; 王志豪; 林淑强; 翟永强
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-07-29
Anticipated expiration: 2041-11-04
Also published as: CN113920353A

Abstract

本发明提出了一种无监督的人脸图像二次聚类方法、装置及存储介质，该方法包括：对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果；基于所述聚类结果中的每个簇中的图像数量分为离散簇和聚集簇；在选出每个簇的代表元后，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像。本发明创造性地提出了二次聚类的方式，在前后两次聚类中使用不同的相似度阈值，逐步求精；并且在聚类过程，针对聚类样本/聚类簇的特点对相似度计算作精细调整，最终实现高精确率和高归档率的人脸聚类。

Description

一种无监督的人脸图像二次聚类方法、装置、介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种无监督的人脸图像二次聚类方法、装置、介质。

背景技术

人脸聚类是重要的人脸识别下游任务，其基本流程是在获取手工设计或通过网络embedding得到的高维人脸特征向量的基础上，利用各种聚类方法进行人脸聚类。目前常见的人脸聚类方法大致分为两种：无监督聚类方法，例如K- Means、Spectral、DBSCAN等方法；有监督聚类方法，例如CDP、GCN等方法。

但是，上述聚类方法应用于真实场景，如安防抓拍场景下的聚类主要存在两个问题：一是抓拍图质量问题，由于抓拍人脸在角度，光照，姿态等方面的差异较大，存在较多低质量图像，此时人脸识别系统提取到的人脸特征不够充分，导致聚类困难；二是抓拍库的数量问题。应用于百万级甚至千万级人口城市的人脸聚类时，由于相似人脸很多，聚类算法中的相似度阈值选择十分困难，具体来说，阈值选择过大容易出现聚类遗漏，而阈值选择过小则容易出现聚类错误。因此，大规模人脸聚类时，聚类方案的选定、聚类阈值的设置以及如何保证低质量图像相似度计算的可靠性，是工程技术人员面临的技术难题。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种无监督的人脸图像二次聚类方法，该方法包括：

初次聚类步骤，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；

划分步骤，在初次聚类得到的初次聚类结果中，选出聚类簇中的最佳代表元 rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇；

二次聚类步骤，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像。

更进一步地，所述对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整的操作为：使用卷积神经网络获取n 张人脸图像的高维人脸归一化特征向量emb，并计算每一人脸图像的表示人脸特征质量的图像质量分数dp_score；计算n张人脸图像的1:n的余弦相似度并排序得到前top_k个相似度矩阵D，其中，D为n×top_k的矩阵；根据每一人脸图像的图像质量分数dp_score调整相似度矩阵D：如果两张人脸图像中任意一张的质量分dp_score小于第一阈值thres_1，则将它们之间的相似度置为0，如果否，则判断两张人脸图像的质量分dp_score是否都小于第二阈值thres_2，如果是，则在thres_1和thres_2之间，根据较低分图片的质量分，线性衰减二者之间的相似度，处理完毕后得到调整后的相似度矩阵D，其中， thres_1<thres_2。

更进一步地，所述基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果的操作为：设定初次聚类的余弦相似度阈值eps1；根据调整后的相似度矩阵D找到所有人脸图像的邻居neighbors，即与目标人脸图像相似度大于eps_1的即判定为它的邻居；如果一张人脸图像的邻居数量>＝2，则认为该人脸图像为核心点core_samples；根据neighbors和core_samples对所有人脸图像进行连通计算，得到所述初次聚类结果。

更进一步地，所述划分步骤的操作为：在初次聚类结果中选出每一个初始聚类簇中的最佳代表元rep，包括：选出每一个初始聚类簇内质量分数大于阈值 thres_2的所有m个人脸图像，如果m＝0或m＝2，将该每一个初始聚类簇内质量分数最高的图片设为代表元rep，否则，判断m>＝1且m≠2是否成立，如果是，则计算m个人脸图像的特征的平均作为该初始聚类簇的类中心，随后计算m个样本与类中心的余弦相似度，相似度最高的图片成为代表元rep；再根据每一个初始聚类簇内的人脸图像数量，将初始聚类簇进行划分，如果一个初始聚类簇内的人脸图像数大于1则为聚集簇，如果初始聚类簇内的人脸图像数为1的则为离散簇。

更进一步地，所述二次聚类步骤的操作为：使用代表元的特征和质量分代表聚类簇，分别计算离散簇与聚集簇之间的相似度D1,聚集簇之间的相似度D2，相似度计算和调整方式与初次聚类相同；离散簇与聚集簇间进行二次聚类，对相似度D1>eps2_less的部分，使用并查集方法进行簇间合并；聚集簇间进行二次聚类，该注意到，对聚集簇进行的簇间合并使用不同的相似度阈值，对样本数量多的簇，适当降低其相似度阈值，具体地，聚集簇i与聚集簇j的合并阈值按下式计算：

eps2_more_adj_ij＝eps2_more-min{0.01×log₂ C_ij,0.08}

式中C_ij为簇i和簇j包含人脸图像数量的乘积。

本发明还提出了一种无监督的人脸图像二次聚类装置，该装置包括：

初次聚类单元，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；

划分单元，在初次聚类得到的初次聚类结果中，选出聚类簇中的最佳代表元 rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇；

二次聚类单元，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像。

更进一步地，所述划分单元执行的操作为：在初次聚类结果中选出每一个初始聚类簇中的最佳代表元rep，包括：选出每一个初始聚类簇内质量分数大于阈值thres_2的所有m个人脸图像，如果m＝0或m＝2，将该每一个初始聚类簇内质量分数最高的图片设为代表元rep，否则，判断m>＝1且m≠2是否成立，如果是，则计算m个人脸图像的特征的平均作为该初始聚类簇的类中心，随后计算m 个样本与类中心的余弦相似度，相似度最高的图片成为代表元rep；再根据每一个初始聚类簇内的人脸图像数量，将初始聚类簇进行划分，如果一个初始聚类簇内的人脸图像数大于1则为聚集簇，如果初始聚类簇内的人脸图像数为1的则为离散簇。

更进一步地，所述二次聚类单元执行的操作为：使用代表元的特征和质量分代表聚类簇，分别计算离散簇与聚集簇之间的相似度D1,聚集簇之间的相似度D2，相似度计算和调整方式与初次聚类相同；离散簇与聚集簇间进行二次聚类，对相似度D1>eps2_less的部分，使用并查集方法进行簇间合并；聚集簇间进行二次聚类，该注意到，对聚集簇进行的簇间合并使用不同的相似度阈值，对样本数量多的簇，适当降低其相似度阈值，具体地，聚集簇i与聚集簇j的合并阈值按下式计算：

eps2_more_adj_ij＝eps2_more-min{0.01×log₂ C_ij,0.08}

式中C_ij为簇i和簇j包含人脸图像数量的乘积。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种无监督的人脸图像二次聚类方法、装置及存储介质，该方法包括：初次聚类步骤，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；划分步骤，在初次聚类得到了初始聚类簇的基础上，选出聚类簇中的最佳代表元 rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇；二次聚类步骤，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像。本发明创造性地提出了二次聚类的方式，避免了采用单一的阈值进行聚类。本发明中，基于计算出来的图像质量分数，对图像之间的相似度进行调整，设置了相应的阈值，即如果质量分低于保留阈值，就直接将二者的相似度设为0，如果质量分处在降分阈值范围，则进行相似度的微调，保证了后续聚类的准确性。本发明中，基于人脸图像的邻居及图像是否为核心点进行初始聚类，确保了初始聚类就是相对准确，为进一步准确的二次聚类奠定了良好的基础。本发明二次聚类过程中，提出并利用代表元机制来更好地表征聚类簇，并根据聚类簇的图像数量特点，提出阈值调整公式对合并相似度阈值进行动态调整。综上，本发明采用二次聚类的方式，在前后两次聚类中使用不同的相似度阈值，逐步求精；并且在聚类过程，针对聚类样本/聚类簇的特点对相似度计算作精细调整，最终实现高精确率和高归档率的人脸聚类。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种无监督的人脸图像二次聚类方法的流程图。

图2是根据本发明的实施例的一种无监督的人脸图像二次聚类装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种无监督的人脸图像二次聚类方法，该方法包括：

初次聚类步骤S101，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n 张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；

划分步骤S102，在初次聚类得到的初次聚类结果中，选出聚类簇中的最佳代表元rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇；

二次聚类步骤S103，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像。

本发明应用于真实工作场景，比如车站、码头等人流密集的场景，采集的人脸图像数量巨大，人脸图像可以是布设工作场景中摄像头进行抓拍的。

在一个实施例中，为了解决现有技术中的抓拍库的数量问题，即应用于百万级甚至千万级人口城市的人脸聚类时，由于相似人脸很多，聚类算法中的相似度阈值选择十分困难，具体来说，阈值选择过大容易出现聚类遗漏，而阈值选择过小则容易出现聚类错误。因此，本发明提出一种级联二次聚类的整体聚类方案，在前后两次聚类中使用不同的相似度阈值，逐步求精；并且在聚类过程，针对聚类样本/聚类簇的特点对相似度计算作精细调整，最终实现高精确率和高归档率的人脸聚类。这是本发明的一个重要发明点。

在一个实施例中，由于摄像头抓拍图像质量可能不高，比如由于抓拍人脸在角度，光照，姿态等方面的差异较大，存在较多低质量图像，此时人脸识别系统提取到的人脸特征不够充分，导致聚类困难。因此，运用本发明方案：所述对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整的操作为：使用卷积神经网络获取n张人脸图像的高维人脸归一化特征向量emb，并计算每一人脸图像的表示人脸特征质量的图像质量分数 dp_score；计算n张人脸图像的1:n的余弦相似度并排序得到前top_k个相似度矩阵D，其中，D为n×top_k的矩阵；根据每一人脸图像的图像质量分数 dp_score调整相似度矩阵D：如果两张人脸图像中任意一张的质量分dp_score 小于第一阈值thres_1，则将它们之间的相似度置为0，如果否，则判断两张人脸图像的质量分dp_score是否都小于第二阈值thres_2，如果是，则在thres_1 和thres_2之间(thres_1<thres_2)，根据较低分图片的质量分，线性衰减二者之间的相似度，比如设置线性衰减值的范围[limit_1,limit_2]，一般可设置为 [0，0.2]，处理完毕后得到调整后的相似度矩阵D。人脸识别的1：n的比对即系统采集了“我”的一张照片之后，从海量的人像数据库中找到与当前使用者人脸数据相符合的图像，并进行匹配，找出来“我是谁”。

本发明中，为提高相似度计算的可靠性和准确性，基于计算出来的图像质量分数，设置了相应的阈值，即如果质量分低于保留阈值，就直接将二者的相似度设为0，如果质量分处在降分阈值范围，则进行相似度的微调，保证了后续聚类的准确性，这是本发明的另一个重要发明点。

在一个实施例中，所述基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果的操作为：设定初次聚类的余弦相似度阈值eps1；根据调整后的相似度矩阵D找到所有人脸图像的邻居neighbors，即与目标人脸图像相似度大于eps_1的即判定为它的邻居；如果一张人脸图像的邻居数量>＝2，则认为该人脸图像为核心点core_samples；根据neighbors和core_samples对所有人脸图像进行连通计算，得到所述初次聚类结果，比如，可利用DBSCAN方法进行连通计算，即得到所述初次聚类结果。

本发明中，基于人脸图像的邻居及图像是否为核心点进行初始聚类，确保了初始聚类就是相对准确，为进一步准确的二次聚类奠定了良好的基础，这是本发明的另一个重要发明点。

在一个实施例中，所述划分步骤的操作为：在初次聚类结果中选出每一个初始聚类簇中的最佳代表元rep，包括：选出每一个初始聚类簇内质量分数大于阈值thres_2的所有m个人脸图像，如果m＝0或m＝2，将该每一个初始聚类簇内质量分数最高的图片设为代表元rep，否则，判断m>＝1且m≠2是否成立，如果是，则计算m个人脸图像的特征的平均作为该初始聚类簇的类中心，随后计算m 个样本与类中心的余弦相似度，相似度最高的图片成为代表元rep；再根据每一个初始聚类簇内的人脸图像数量，将初始聚类簇进行划分，如果一个初始聚类簇内的人脸图像数大于1则为聚集簇，如果初始聚类簇内的人脸图像数为1的则为离散簇。

本发明对初始聚类结果进行处理，即根据图像质量分数确定每个簇中的代表元，并根据每个簇中的图像数量将簇进行分类，以便于后续的簇间聚类，并提出了具体的确定代表元的方法，这是本发明的另一个重要发明点。

在一个实施例中，所述二次聚类步骤的操作为：使用代表元的特征和质量分代表聚类簇，分别计算离散簇与聚集簇之间的相似度D1,聚集簇之间的相似度 D2，相似度计算和调整方式与初次聚类相同；离散簇与聚集簇间进行二次聚类，对相似度D1>eps2_less的部分，使用并查集方法进行簇间合并；聚集簇间进行二次聚类，该注意到，对聚集簇进行的簇间合并使用不同的相似度阈值，对样本数量多的簇，适当降低其相似度阈值，具体地，聚集簇i与聚集簇j的合并阈值按下式计算：

eps2_more_adj_ij＝eps2_more-min{0.01×log₂ C_ij,0.08}

式中C_ij为簇i和簇j包含人脸图像数量的乘积。判断相似度D2是否大于eps2_more_adj_ij，如果是，则使用并查集方法进行簇间合并，根据并查集结果为同父节点的聚类簇所含人脸图像分配相同聚类标签，完成人脸图像的最终聚类。

本发明中的各阈值的关系为阈值eps1>eps2_less>eps2_more，例如取0.58/0.56/0.55。

本发明在二次聚类的过程中，提出并利用代表元机制来更好地表征聚类簇，并根据聚类簇的图像数量特点，提出阈值调整公式对合并相似度阈值进行动态调整，这是本发明的另一个重要发明点。

图2示出了本发明的一种无监督的人脸图像二次聚类装置，该装置包括：

初次聚类单元201，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n 张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；

划分单元202，在初次聚类得到的初次聚类结果中，选出聚类簇中的最佳代表元rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇；

二次聚类单元203，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到聚类后的人脸图像。

在一个实施例中，所述划分单元的操作为：在初次聚类结果中选出每一个初始聚类簇中的最佳代表元rep，包括：选出每一个初始聚类簇内质量分数大于阈值thres_2的所有m个人脸图像，如果m＝0或m＝2，将该每一个初始聚类簇内质量分数最高的图片设为代表元rep，否则，判断m>＝1且m≠2是否成立，如果是，则计算m个人脸图像的特征的平均作为该初始聚类簇的类中心，随后计算m 个样本与类中心的余弦相似度，相似度最高的图片成为代表元rep；再根据每一个初始聚类簇内的人脸图像数量，将初始聚类簇进行划分，如果一个初始聚类簇内的人脸图像数大于1则为聚集簇，如果初始聚类簇内的人脸图像数为1的则为离散簇。

在一个实施例中，所述二次聚类单元的操作为：使用代表元的特征和质量分代表聚类簇，分别计算离散簇与聚集簇之间的相似度D1,聚集簇之间的相似度 D2，相似度计算和调整方式与初次聚类相同；离散簇与聚集簇间进行二次聚类，对相似度D1>eps2_less的部分，使用并查集方法进行簇间合并；聚集簇间进行二次聚类，该注意到，对聚集簇进行的簇间合并使用不同的相似度阈值，对样本数量多的簇，适当降低其相似度阈值，具体地，聚集簇i与聚集簇j的合并阈值按下式计算：

eps2_more_adj_ij＝eps2_more-min{0.01×log₂ C_ij,0.08}

式中C_ij为簇i和簇j包含人脸图像数量的乘积，判断相似度D2是否大于eps2_more_adj_ij，如果是，则使用并查集方法进行簇间合并，根据并查集结果为同父节点的聚类簇所含人脸图像分配相同聚类标签，

为了描述的方便，本发明对以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过对以上实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种无监督的人脸图像二次聚类方法，其特征在于，该方法包括：

初次聚类步骤，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，操作为：使用卷积神经网络获取n张人脸图像的高维人脸归一化特征向量emb，并计算每一人脸图像的表示人脸特征质量的图像质量分数dp_score；计算n张人脸图像的1: n的余弦相似度并排序得到前top_k个相似度矩阵D，其中，D为n×top_k的矩阵；根据每一人脸图像的图像质量分数dp_score调整相似度矩阵D：如果两张人脸图像中任意一张的质量分dp_score小于第一阈值thres_1，则将它们之间的相似度置为0，如果否，则判断两张人脸图像的质量分dp_score是否都小于第二阈值thres_2，如果是，则在thres_1和thres_2之间，根据较低分图片的质量分，线性衰减二者之间的相似度，处理完毕后得到调整后的相似度矩阵D，其中，thres_1<thres_2，基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；

划分步骤，在初次聚类得到的初次聚类结果中，选出聚类簇中的最佳代表元rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇，包括：选出每一个初始聚类簇内质量分数大于阈值thres_2的所有m个人脸图像，如果m=0或m=2，将该每一个初始聚类簇内质量分数最高的图片设为代表元rep，否则，判断m>=1且m≠2是否成立，如果是，则计算m个人脸图像的特征的平均作为该初始聚类簇的类中心，随后计算m个样本与类中心的余弦相似度，相似度最高的图片成为代表元rep；再根据每一个初始聚类簇内的人脸图像数量，将初始聚类簇进行划分，如果一个初始聚类簇内的人脸图像数大于1则为聚集簇，如果初始聚类簇内的人脸图像数为1的则为离散簇；

二次聚类步骤，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像，所述二次聚类步骤的操作为：使用代表元的特征和质量分代表聚类簇，分别计算离散簇与聚集簇之间的相似度D1, 聚集簇之间的相似度D2，相似度计算和调整方式与初次聚类相同；离散簇与聚集簇间进行二次聚类，对相似度D1> eps2_less的部分，使用并查集方法进行簇间合并；聚集簇间进行二次聚类，对聚集簇进行的簇间合并使用不同的相似度阈值，对样本数量多的簇，适当降低其相似度阈值，聚集簇i与聚集簇j的合并阈值按下式计算：

式中C _ij为簇i和簇j包含人脸图像数量的乘积。

2.根据权利要求1所述的方法，其特征在于，所述基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果的操作为：设定初次聚类的余弦相似度阈值eps1；根据调整后的相似度矩阵D找到所有人脸图像的邻居neighbors，即与目标人脸图像相似度大于eps_1的即判定为它的邻居；如果一张人脸图像的邻居数量>=2，则认为该人脸图像为核心点core_samples；根据neighbors和core_samples对所有人脸图像进行连通计算，得到所述初次聚类结果。

3.一种无监督的人脸图像二次聚类装置，其特征在于，该装置包括：

初次聚类单元，对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整，基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果，其中n≥2；所述对获取的n张人脸图像计算相似度矩阵和图像质量分数，并基于图像质量分数对相似度矩阵进行调整的操作为：使用卷积神经网络获取n张人脸图像的高维人脸归一化特征向量emb，并计算每一人脸图像的表示人脸特征质量的图像质量分数dp_score；计算n张人脸图像的1: n的余弦相似度并排序得到前top_k个相似度矩阵D，其中，D为n×top_k的矩阵；根据每一人脸图像的图像质量分数dp_score调整相似度矩阵D：如果两张人脸图像中任意一张的质量分dp_score小于第一阈值thres_1，则将它们之间的相似度置为0，如果否，则判断两张人脸图像的质量分dp_score是否都小于第二阈值thres_2，如果是，则在thres_1和thres_2之间，根据较低分图片的质量分，线性衰减二者之间的相似度，处理完毕后得到调整后的相似度矩阵D，其中，thres_1<thres_2；

划分单元，在初次聚类得到的初次聚类结果中，选出聚类簇中的最佳代表元rep，并根据每个聚类簇中的图像数量分为离散簇和聚集簇；包括：选出每一个初始聚类簇内质量分数大于阈值thres_2的所有m个人脸图像，如果m=0或m=2，将该每一个初始聚类簇内质量分数最高的图片设为代表元rep，否则，判断m>=1且m≠2是否成立，如果是，则计算m个人脸图像的特征的平均作为该初始聚类簇的类中心，随后计算m个样本与类中心的余弦相似度，相似度最高的图片成为代表元rep；再根据每一个初始聚类簇内的人脸图像数量，将初始聚类簇进行划分，如果一个初始聚类簇内的人脸图像数大于1则为聚集簇，如果初始聚类簇内的人脸图像数为1的则为离散簇；

二次聚类单元，利用并查集算法先将满足条件的离散簇合并至聚集簇，再进行聚集簇之间的合并，得到二次聚类后的人脸图像，所述二次聚类单元执行的操作为：使用代表元的特征和质量分代表聚类簇，分别计算离散簇与聚集簇之间的相似度D1, 聚集簇之间的相似度D2，相似度计算和调整方式与初次聚类相同；离散簇与聚集簇间进行二次聚类，对相似度D1 > eps2_less的部分，使用并查集方法进行簇间合并；聚集簇间进行二次聚类，对聚集簇进行的簇间合并使用不同的相似度阈值，对样本数量多的簇，适当降低其相似度阈值，聚集簇i与聚集簇j的合并阈值按下式计算：

式中C _ij为簇i和簇j包含人脸图像数量的乘积。

4.根据权利要求3所述的装置，其特征在于，所述基于调整后的相似度矩阵对n张人脸图像进行初次聚类得到初次聚类结果的操作为：设定初次聚类的余弦相似度阈值eps1；根据调整后的相似度矩阵D找到所有人脸图像的邻居neighbors，即与目标人脸图像相似度大于eps_1的即判定为它的邻居；如果一张人脸图像的邻居数量>=2，则认为该人脸图像为核心点core_samples；根据neighbors和core_samples对所有人脸图像进行连通计算，得到所述初次聚类结果。

5.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，当所述计算机程序被处理器执行时以实现权利要求1-2任一项的方法。