CN110232373B

CN110232373B - 人脸聚类方法、装置、设备和存储介质

Info

Publication number: CN110232373B
Application number: CN201910737332.0A
Authority: CN
Inventors: 杨东泉; 丁保剑; 秦伟; 刘伟; 李德紘; 张少文
Original assignee: PCI Suntek Technology Co Ltd
Current assignee: PCI Technology Group Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2020-01-03
Anticipated expiration: 2039-08-12
Also published as: WO2021027193A1; CN110232373A

Abstract

本发明实施例公开了一种人脸聚类方法、装置、设备和存储介质，该方法包括通过人脸数据集进行训练得到训练后的残差网络；对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量；计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合；将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。本方案提高了人脸聚类的效率以及准确度。

Description

人脸聚类方法、装置、设备和存储介质

技术领域

本申请实施例涉及人脸识别技术领域，尤其涉及一种人脸聚类方法、装置、设备和存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

人脸聚类指将人脸根据身份进行分组，通常人脸聚类通过将集合内所有的人脸两两之间做人脸比对，再根据比对得到的相似度值将属于同一个身份的人划分到一个分组中实现聚类。

人脸聚类计算通常包括两个步骤，人脸特征提取以及对提取的特征利用聚类算法进行聚类。关于人脸特征提取，传统的特征提取方法通常是人为定义一些人脸的关键点，然后从图片中提取出这些关键点的值作为人脸的特征，关于聚类算法，常见的有K-means和DBSCAN或者其它聚类算法。其中，人为定义人脸特征点的方式工作量大且引入了大量人的先验经验，通用的聚类算法在做一般数值型的聚类任务时往往会取得比较好的效果，但在人脸聚类这个特定的业务场景下效果较差，适用度较低。

发明内容

本发明实施例提供了一种人脸聚类方法、装置、设备和存储介质，提高了人脸聚类的效率以及准确度。

第一方面，本发明实施例提供了一种人脸聚类方法，该方法包括：

通过人脸数据集进行训练得到训练后的残差网络；

对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量；

根据公式

计算每个人脸特征向量和其它人脸特征向量的向量距离，其中，

和

分别代表两张不同的人脸图片，

和

分别为每张图片对应的人脸特征向量，根据公式

对所述向量距离进行归一化处理，将处理结果中小于第一预设阈值的人脸图片确定为邻居人脸集合，其中N代表样本数量，为大于1的正整数；

将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。

第二方面，本发明实施例还提供了一种人脸聚类装置，该装置包括：

残差网络训练模块，用于通过人脸数据集进行训练得到训练后的残差网络；

特征提取模块，用于对所述残差网络进行处理得到人脸特征提取器；

特征向量确定模块，用于将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量；

向量距离计算模块，用于根据公式

和

分别代表两张不同的人脸图片，

和

分别为每张图片对应的人脸特征向量，根据公式

合并模块，用于将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所述的人脸聚类方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的人脸聚类方法。

本发明实施例中，通过人脸数据集进行训练得到训练后的残差网络，对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量，计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合，将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并，与传统的人脸特征提取方法相比，通过残差网络提取人脸特征，通过数据驱动，无需引入人的先验经验，解决了人为定义特征的局限性，本方案中的聚类方式计算量小，迭代过程的收敛速度快，同时没有损失计算精度。

附图说明

图1为本发明实施例提供的一种人脸聚类方法的流程图；

图1a为本发明实施例提供的一种残差网络的结构示意图；

图1b为本发明实施例提供的一种残差网络内部结构图；

图1c为本发明实施例提供的一种人脸特征提取器的结构图；

图2为本发明实施例提供的另一种人脸聚类方法的流程图；

图3为本发明实施例提供的另一种人脸聚类方法的流程图；

图4为本发明实施例提供的另一种人脸聚类方法的流程图；

图5为本发明实施例提供的一种人脸聚类装置的结构框图；

图6为本发明实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

图1为本发明实施例提供的一种人脸聚类方法的流程图，本实施例可适用于人脸聚类，该方法可以由计算设备如服务器、计算机来执行，具体包括如下步骤：

步骤S101、通过人脸数据集进行训练得到训练后的残差网络。

在一些实施例中，训练使用的人脸数据集可以是人脸识别领域常用的公开数据集，如LFW数据集，该人脸数据集研究非限制环境下的人脸识别问题而建立，包含超过13000张人脸图像，均采集于网络，每个人脸均被标记了一个人名，其中，大约1680个人包含两个以上的人脸。还可利用其他如IJB-B、CASIA-Webface以及VGG-Face等进行残差网络的训练，本方案不做限定。

在一些实施例中，首先构建一个特定的残差网络，该残差网络如图1a所示，图1a为本发明实施例提供的一种残差网络的结构示意图，利用公开的人脸数据集对该特定的残差网络进行学习训练，得到训练后的残差网络，该训练后的残差网络可用于执行人脸分类任务。由图1a所示，该特定的残差网络由input（输入）、N个ResNet块、全连接层以及softmax（归一化层）组成，其中，ResNet块的内部结构如图1b所示，图1b为本发明实施例提供的一种残差网络内部结构图。其中，conv（1*1）代表使用卷积层且卷积核的大小是1*1，BN层用于进行批量归一化，Relu为常用的神经网络激活函数，符号“+”表示执行向量的加法操作。其中，全连接层使用1024个神经网络节点，通过使用该训练后的残差网络能够更加高效便捷的学习到人脸特征，且易于在常规的网络架构如tensorflow、pytorch和caffe等框架上实现。

步骤S102、对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量。

在一些实施例中，将该残差网络的归一化层进行去除得到人脸特征提取器，如图1c所示，图1c为本发明实施例提供的一种人脸特征提取器的结构图。其中，input对应输入的人脸图片，该全连接层有1024个节点，即每输入一张图片相应输出1024个数值的向量作为该人脸图片对应的人脸特征向量。

步骤S103、计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合。

在一些实施例中，根据下述公式计算每个人脸特征向量和其它人脸特征向量的向量距离：

其中，

和分别代表两张不同的人脸图片，

和

分别为每张图片对应的人脸特征向量，上述公式既考虑了人脸特征向量的方向相似性，又考虑了人脸特征向量数值之间的差异，使向量距离度量结果更加合理。需要说明的是，本方案还可使用其他现有的向量距离计算公式，但计算效果不如上述公式。

在一些实施例中，依据向量距离确定每张人脸图片的邻居人脸集合的过程可以是：根据公式

对向量距离进行归一化处理，将处理结果中小于第一预设阈值的人脸图片确定为邻居人脸集合，第一预设阈值包括0.25（该第一预设阈值可根据实际计算需要进行调整），其中N代表样本数量，为大于1的正整数。

步骤S104、将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。

在一些实施例中，该预设条件可以是簇间相似度大于第二预设阈值，示例性的，根据公式

计算得到不同簇之间的簇间相似度，将簇间相似度大于第二预设阈值的两个簇进行合并，第二预设阈值包括0.7，其中，A和B分别表示两个不同的簇对应的集合，

表示A集合中元素的个数，

表示B集合中元素的个数，

表示集合A和集合B的交集的元素个数。

在一些实施例中，在确定出每张人脸图片的邻居人脸集合后，进行簇的初始化，即每张人脸图片的邻居人脸集合确定为一个簇，示例性的，可将这些单独的簇组成一个簇列表。具体的合并过程可以是：从簇列表中取出一个簇，计算该簇和簇列表中其他簇之间的簇间相似度，如果满足合并条件则进行合并，并计算该合并后的簇和簇列表中其他簇的簇间相似度，依次类推直至簇列表中的所有簇遍历完毕。取出簇列表中的第二个簇，如果该簇已经合并过，则取出簇列表中的下一个簇，直至取出到未合并过的簇，再依次计算其和簇列表中其他簇的簇间相似度并确定是否满足合并条件，如果满足则进行合并，重复上述合并步骤，直至一轮迭代中簇的个数减少数量小于未迭代时的5%时，判定聚类完成。

由上述方案可知，与传统的人脸特征提取办法相比利用残差网络提取的人脸特征由数据驱动，无需人的先验经验，且残差网络可以很容易的发现数据的特性，而人为定义特征无法做到。人为定义的特征是有限的，且定义的特征越多越精细所耗费的精力越多，而对残差网络而言只需增加节点数就可以高效的获得更多的特征。本方案中的聚类方式的优势在于计算量小，且在迭代的过程中收敛速度快，结果精度高，具体的，本方案中初始化时是以每个样本为中心，选择邻居人脸，也就是说本方法初始化了N（样本数量）个中心，后续过程会逐渐减少簇的个数，原因在于初始过程中，不能确定人脸集合中人的个数，并未引入先验经验，在元素重复上，本方法中初始时一个元素可以出现在多个簇中，找到N个簇重叠区域，并根据其重叠区域的情况决定是否能把它们合在一起。相比于《Clustering Millionsof Faces by Identity》，其计算过程中损失了计算结果的精度，聚类效果不如本方案，而相比于《A Rank-Order Distance based Clustering Algorithm for Face Tagging 》，其计算复杂度要高于本方案，在中等规模和大规模人脸聚类的场景下，其极度耗时，甚至可能无法得出结果。本方案提出的人脸聚类方法兼顾准确性和效率，无论是在小规模的人脸聚类还是大规模的人脸聚类均能取得较好的结果。

图2为本发明实施例提供的另一种人脸聚类方法的流程图，给出了一种优化的得到人脸特征向量的方法。如图2所示，技术方案具体如下：

步骤S201、通过人脸数据集进行训练得到训练后的残差网络。

步骤S202、对所述残差网络进行处理得到人脸特征提取器，将每张待分类的人脸图片进行图片截取得到多张第一增强图片，对所述第一增强图片进行左右翻转得到第二增强图片。

在一些实施例中，将每张待分类的人脸图片调整到300*300像素，然后对齐4个角分别取240*240像素的截图框得到4张截图，在待分类图片中心区域再截取240*240大小的图片，由此共得到5张图片，该5张图片即为第一增强图片，其中，再对每张第一增强图片进行左右翻转得到第二增强图片。

步骤S203、将所述第一增强图片和所述第二增强图片输入所述人脸特征提取器，将输出的结果求平均值得到每张人脸图片对应的人脸特征向量。

在一些实施例中，将由待分类的人脸图片进行处理后得到对应的多张第一增强图片和所述第二增强图片输入人脸特征提取器，将输出的结果求平均值得到每张人脸图片对应的人脸特征向量。如采取上述图片增强的方式，即针对每一张待分类的人脸图片可以得到10个1024维的人脸特征向量，将得到的10个人脸特征向量对应的位置的值求和计算平均值，保存为新的1024维的向量，将该向量确定为该张待分类人脸图片的人脸特征向量。

步骤S204、计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合。

步骤S205、将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。

由上述方案可知，通过对待分类的人脸图片进行处理后，输入人脸特征提取器并计算平均值，提高了得到的人脸特征向量的准确性，避免了由于个别人脸图片存在偏差导致人脸特征向量精准度较差的问题。

图3为本发明实施例提供的另一种人脸聚类方法的流程图，给出了一种优化的进行簇合并的方案。如图3所示，技术方案具体如下：

步骤S301、通过人脸数据集进行训练得到训练后的残差网络。

步骤S302、对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量。

步骤S303、计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合，将每张人脸图片的邻居人脸集合分别确定为一个簇。

步骤S304、判断当前比对的两个簇是否为子集关系，如果是，则执行步骤S306，否则执行步骤S305。

在一些实施例中，在计算簇间相似度之前，先判断当前比对的两个簇是否满足子集关系，如果满足，则直接进行合并，如果不满足则进行后续比对过程。

步骤S305、判断当前比对的两个簇中的元素数量是否满足预设比值，如果是则执行步骤S307，如果否，则执行步骤S308。

在一些实施例中，当确定出当前比对的两个簇不满足子集条件时，进一步确定当前比对的两个簇中的元素数量是否满足预设比值，其中，该预设比值的取值范围可以是大于等于2或小于等于0.5。

步骤S306、将当前比对的两个簇进行合并。

步骤S307、不进行当前比对的簇的合并。

步骤S308、计算当前比对的两个簇的簇间相似度，判断计算结果是否大于第二预设阈值，如果是则执行步骤S306，否则执行步骤S307。

由上述方案可知，在计算簇间相似度之前优先判断当前比对的簇是否满足子集关系以及是否相差悬殊，如果满足子集关系则直接进行合并，如果相差悬殊则不进行后续簇间相似度的计算，不进行簇的合并，进一步完善了簇合并机制，提高了人脸聚类的运算效率。

图4为本发明实施例提供的另一种人脸聚类方法的流程图，给出了一种优化的人脸聚类合并方式。如图4所示，技术方案具体如下：

步骤S401、通过人脸数据集进行训练得到训练后的残差网络。

步骤S402、对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量。

步骤S403、计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合。

步骤S404、将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。

步骤S405、确定合并后的簇中出现的重复人脸图片，将出现在非最大簇中的重复人脸图片进行删除。

在一些实施例中，完成簇合并后，进行重复人脸图片的删除。具体的，当确定出重复人脸图片时，获取该重复人脸图片的编号，确定出所有包含该编号的簇，同时找出包含该编号的最大簇，保留该最大簇中的重复人脸图片，删除其余簇中的该编号的人脸图片，重复执行该操作直到所有重复人脸图片删除完毕为止。可选的，如删除重复人脸图片后出现元素为空的簇，则相应的删除该簇。

由上述方案可知，在进行人脸聚类过程中，在聚类完毕后将重复人脸图片进行删除，保证了聚类结果中人脸图片的单一性，进一步完善了聚类结果。

图5为本发明实施例提供的一种人脸聚类装置的结构框图，该装置用于执行上述实施例提供的人脸聚类方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置具体包括：残差网络训练模块101、特征提取模块102、特征向量确定模块103、向量距离计算模块104和合并模块105，其中，

残差网络训练模块101，用于通过人脸数据集进行训练得到训练后的残差网络；

特征提取模块102，用于对所述残差网络进行处理得到人脸特征提取器；

特征向量确定模块103，用于将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量；

向量距离计算模块104，用于计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合；

合并模块105，用于将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并。

由上述方案可知，通过人脸数据集进行训练得到训练后的残差网络，对所述残差网络进行处理得到人脸特征提取器，将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量，计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合，将每张人脸图片的邻居人脸集合分别确定为一个簇，将满足预设条件的簇进行合并，与传统的人脸特征提取方法相比，通过残差网络提取人脸特征，通过数据驱动，无需引入人的先验经验，解决了人为定义特征的局限性，本方案中的聚类方式计算量小，迭代过程的收敛速度快，同时没有损失计算精度。

在一个可能的实施例中，所述特征向量确定模块103具体用于：

将每张待分类的人脸图片进行图片截取得到多张第一增强图片；

对所述第一增强图片进行左右翻转得到第二增强图片；

将所述第一增强图片和所述第二增强图片输入所述人脸特征提取器，将输出的结果求平均值得到每张人脸图片对应的人脸特征向量。

在一个可能的实施例中，所述人脸特征向量包括1024个数值，所述向量距离计算模块104具体用于：

根据公式

和

分别代表两张不同的人脸图片，

和

分别为每张图片对应的人脸特征向量。

在一个可能的实施例中，所述向量距离计算模块104具体用于：

根据公式

对所述向量距离进行归一化处理，将处理结果中小于第一预设阈值的人脸图片确定为邻居人脸集合，所述第一预设阈值包括0.25，其中N代表样本数量，为大于1的正整数。

在一个可能的实施例中，所述合并模块105具体用于：

根据公式

计算得到不同簇之间的簇间相似度，将簇间相似度大于第二预设阈值的两个簇进行合并，所述第二预设阈值包括0.7，其中，A和B分别表示两个不同的簇对应的集合，

表示A集合中元素的个数，

表示B集合中元素的个数，

表示集合A和集合B的交集的元素个数。

在一个可能的实施例中，所述合并模块105还用于：

确定当前比对的两个簇是否为子集关系，如果是，则进行簇的合并；如果否，则进一步确定当前比对的两个簇中的元素数量是否满足预设比值，如果满足预设比值则不进行簇的合并，如果不满足预设比值则计算相似度以判断是否合并。

在一个可能的实施例中，所述合并模块105还用于：

在将满足预设条件的簇进行合并之后，确定合并后的簇中出现的重复人脸图片；将出现在非最大簇中的重复人脸图片进行删除。

图6为本发明实施例提供的一种设备的结构示意图，如图6所示，该设备包括处理器201、存储器202、输入装置203和输出装置204；设备中处理器201的数量可以是一个或多个，图6中以一个处理器201为例；设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器202作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的人脸聚类方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的人脸聚类方法。

存储器202可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器202可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置203可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种人脸聚类方法，该方法包括：

通过人脸数据集进行训练得到训练后的残差网络；

计算每个人脸特征向量和其它人脸特征向量的向量距离，依据所述向量距离确定每张人脸图片的邻居人脸集合；

在一个可能的实施例中，所述将待分类的人脸图片输入所述人脸特征提取器得到每张人脸图片对应的人脸特征向量包括：

对所述第一增强图片进行左右翻转得到第二增强图片；

在一个可能的实施例中，所述人脸特征向量包括1024个数值，所述计算每个人脸特征向量和其它人脸特征向量的向量距离包括：

根据公式

和

分别代表两张不同的人脸图片，和

分别为每张图片对应的人脸特征向量。

在一个可能的实施例中，所述依据所述向量距离确定每张人脸图片的邻居人脸集合包括：

根据公式

在一个可能的实施例中，所述将满足预设条件的簇进行合并包括：

根据公式

表示A集合中元素的个数，

表示B集合中元素的个数，

表示集合A和集合B的交集的元素个数。

在一个可能的实施例中，在计算得到不同簇之间的簇间相似度之前，还包括：

确定当前比对的两个簇是否为子集关系，如果是，则进行簇的合并，如果否，则确定当前比对的两个簇中的元素数量是否满足预设比值；

相应的，所述计算得到不同簇之间的簇间相似度包括：

计算确定出的不满足所述预设比值的簇之间的簇间相似度。

在将满足预设条件的簇进行合并之后，还包括：

确定合并后的簇中出现的重复人脸图片；

将出现在非最大簇中的重复人脸图片进行删除。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明实施例可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory, ROM）、随机存取存储器（Random Access Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明实施例各个实施例所述的方法。

值得注意的是，上述人脸聚类装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

注意，上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明实施例不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明实施例构思的情况下，还可以包括更多其他等效实施例，而本发明实施例的范围由所附的权利要求范围决定。