CN110516586A

CN110516586A - 一种人脸图像聚类方法、系统、产品及介质

Info

Publication number: CN110516586A
Application number: CN201910784939.4A
Authority: CN
Inventors: 朱金华; 陈婷; 蔡振伟; 何俊豪; 王赟; 裴卫斌
Original assignee: Shenzhen Liwei Zhilian Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen Liwei Zhilian Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-29
Anticipated expiration: 2039-08-23
Also published as: CN110516586B

Abstract

一种人脸图像聚类方法，首先获取M张目标人脸图像，分别提取M张目标人脸图像的人脸特征向量和时空特征，时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者，然后根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行粗聚类划分以得到N个分区，最后基于所述M张目标人脸图像的信息特征，根据各个分区对应的预设基础索引进行聚类，得到K个图像集。由于预设基础索引包括预设时空逻辑，用于在各个分区中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类，达到高效高质量的聚类。

Description

一种人脸图像聚类方法、系统、产品及介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种人脸图像聚类方法、系统、产品及介质。

背景技术

目前，很多场合下均需要用到人脸聚类技术，人脸聚类是图像处理技术中的重要内容，在图像检索任务中，常规的方法是对海量被检索图片数据集提取特征，创建索引并对待检索图片提取特征根据特征在索引中进行图像的检索；在轨迹分析，模型碰撞等任务中需要对摄像头拍摄下的路人的历史轨迹进行分析；人脸识别的训练集需要大量标注数据，但标注数据不容易获得；以上这些场景下都需要对图像数据集进行聚类，将相似的图像按特征赋予相同的虚拟/融合ID，进而加快检索速度，或支持轨迹分析碰撞功能，或对大量数据进行自动标注。

在数据量有限下图像处理效率尚可，但是对于安防领域抓拍的路人库，数据量巨大，人与人的类间距离变小，很难单纯依靠人脸特征进行检索。在安防领域，对路边或公共区域摄像头拍摄的大量未知身份的人进行标注需要耗费大量人力及运算力。目前，提供的图像聚类方法为：终端对视频或照片中的多个人脸图像进行识别，对各原始图片进行人脸检测，定位出人脸区域，然后对定位出的各人脸区域进行关键点定位和特征提取等，得到该多个人脸图像的人脸特征，基于该多个人脸图像的人脸特征，对该多个人脸图像进行聚类，以将同一人脸图像聚合到同一图像集中，即将属于同一个人的图片聚类在一起。然而，由于视频中出现的人物通常较多，从而导致视频中包含的多个人脸图像的人脸特征可能较为相似，时常会有不同人的相似度高于同一人在不同时间、环境及表情下的相似度。

发明内容

本发明主要解决的技术问题是如何提高人脸图像聚类的准确性。

根据第一方面，一种实施例中提供一种人脸图像聚类方法，包括：

获取M张目标人脸图像，其中，M为大于或等于1的自然数；

分别提取所述M张目标人脸图像的信息特征；其中目标人脸图像的信息特征包括目标人脸图像的人脸特征向量和时空特征，目标人脸图像的时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者；

根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行聚类，得到N个分区；所述N为大于或等于1且小于或等于所述M的自然数；

基于所述M张目标人脸图像的信息特征，根据各个分区对应的预设基础索引进行聚类，得到K个图像集，所述K为大于或等于1且小于或等于所述M的自然数，其中，所述预设基础索引包括预设时空逻辑，用于在各个分区中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类。

在其中一种可能实现方式中，所述各个分区对应的预设基础索引通过如下方式获取：

获取H张测试人脸图像的信息特征和N个分区；所述N为大于或等于1且小于或等于所述H的自然数；

对所述N个分区建立初始索引，得到初始索引结果；

基于所述初始索引结果，在各个分区中进行传递生长策略的初始聚类；

对各个分区的初始聚类结果根据预设时空逻辑进行时空信息融合，得到融合特征；

基于所述融合特征构建各个分区的预设基础索引。

在其中一种可能实现方式中，所述基于所述初始索引结果，在各个分区中进行传递生长策略的初始聚类包括：

在各个分区中，判断某个类中的某一特征向量与另一个类中的特征向量是否满足预设传递相似性条件；

若满足，则将该类中的特征向量与该另一类中的特征向量划归为同一类。

在其中一种可能实现方式中，所述预设传递相似性条件包括：

在各个分区中，某个类中的某一特征向量与另一个类中的任意一个特征向量或某一特定特征向量或所有特征向量的相似度达到预设阈值；

或者，

在各个分区中，对于某个类中的某一特征向量与另一个类中的特征向量，将该另一个类中的特征向量总数与预设比较数进行比较；

若该另一个类中的特征向量总数大于或等于预设比较数，且该某个类中的某一特征向量与该另一个类中的预设比较数的特征向量的相似度达到预设阈值；

或者，

若该另一个类中的特征向量总数小于预设比较数，且该某个类中的某一特征向量与该另一个类中的所有特征向量的相似度达到预设阈值；所述预设比较数为大于1个的整数个数。

在其中一种可能实现方式中，所述对各个分区的初始聚类结果根据预设时空逻辑进行时空信息融合，得到融合特征包括：

对于某两个判断为同一类的特征向量，该两个特征向量对应图像的拍摄时间差为t，该两个特征向量对应图像的拍摄地距离为d；

该两个特征向量的余弦相似度为s，或者该两个特征向量的欧氏距离为r，或者该两个特征向量的余弦距离为p，；

令第一参考时间差为t1，令第二参考时间差为t2，令第一参考距离为d1，令第一参考速度为v1，令第二参考速度为v2；

令第三参考时间差为t3；

令第一余弦相似度参考阈值为s1，或令第一欧式距离参考阈值为r1，或令第一余弦距离参考阈值为p1；令第二余弦相似度参考阈值为s2，或令第二欧式距离参考阈值为r2，或令第二余弦距离参考阈值为p2；

判断若d≥d1且d/t>v1，则认定该两个特征向量不聚为同一类；若d≥d1且d/t≤v1，则认定该两个特征向量可聚为同一类；

或者，判断若d≥d1且t<t1，则认定该两个特征向量不聚为同一类；若d≥d1且t≥t1，则认定该两个特征向量可聚为同一类；

或者，若该两个特征向量对应图像的拍摄地摄像头类别为交通中转站，判断若d≥d2且d/t>v2，则认定该两个特征向量不聚为同一类；若d≥d2且d/t≤v2，则认定该两个特征向量可聚为同一类；

或者，若该两个特征向量对应图像的拍摄地摄像头类别为交通中转站，判断若d≥d2且t<t2，则认定该两个特征向量不聚为同一类；若d≥d2且t≥t2，则认定该两个特征向量可聚为同一类；

或者，若该两个特征向量对应图像由一个摄像头在时间范围t内拍摄，判断若t≤t3，并且s<s1或r>r1或p>p1，则认定该两个特征向量不聚为同一类；若t≤t3，并且s>s1或r<r1或p<p1，则认定该两个特征向量可聚为同一类，得到融合特征；

或者，若该两个特征向量对应图像由大范围的多个摄像头在时间范围t内拍摄，判断若t≤t3，并且s<s2或r>r2或p>p2，则认定该两个特征向量不聚为同一类；若t≤t3，并且s>s2或r<r2或p<p2，则认定该两个特征向量可聚为同一类；

获取最终的聚类结果，得到融合特征。

在其中一种可能实现方式中，所述人脸特征向量通过以下方法提取：

对所述人脸目标图像进行特征提取，得到高维特征向量；

对所述高维特征向量进行降维，得到人脸特征向量；其中，所述降维包括线性降维和/或非线性降维。

在其中一种可能实现方式中，还包括：

根据新的测试人脸图像重新构建各个分区对应的预设基础索引；

或者，获取各个分区对应的旧的预设基础索引；

基于新的测试人脸图像，根据所述旧的预设基础索引进行聚类，对于某一新的测试人脸图像，在判断其为所述预设基础索引中的一类时，将其归为该类，在其不为所述预设基础索引中的任一类时，将其设置为一个新的类。

根据第二方面，一种实施例中提供一种人脸图像聚类系统，包括相互连接的图像获取模块、特征提取模块、分区模块和聚类模块；

所述图像获取模块用于获取M张目标人脸图像，其中，M为大于或等于1的自然数；

所述特征提取模块用于分别提取所述M张目标人脸图像的信息特征；其中目标人脸图像的信息特征包括目标人脸图像的人脸特征向量和时空特征，目标人脸图像的时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者；

所述分区模块用于根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行聚类，得到N个分区；所述N为大于或等于1且小于或等于所述M的自然数；

所述聚类模块用于基于所述M张目标人脸图像的信息特征，根据各个分区对应的预设基础索引进行聚类，得到K个图像集，所述K为大于或等于1且小于或等于所述M的自然数，其中，所述预设基础索引包括预设时空逻辑，用于在各个分区中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类。

根据第三方面，一种实施例中提供一种人脸图像聚类产品，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如上任一项所述的方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如上任一项所述的方法。

依据上述实施例的一种人脸图像聚类方法，首先获取M张目标人脸图像，分别提取M张目标人脸图像的人脸特征向量和时空特征，时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者，然后根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行粗聚类划分以得到N个分区，最后基于所述M张目标人脸图像的信息特征，根据各个分区对应的预设基础索引进行聚类，得到K个图像集。由于预设基础索引包括预设时空逻辑，用于在各个分区中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类，因此在利用人脸特征向量聚类的基础上综合利用摄像头的位置、拍摄的时间以及摄像头的属性类别对人脸目标图像进行进一步聚类，提高了聚类的准确性和效率，达到高效高质量的聚类。

附图说明

图1为本发明实施例的一种人脸图像聚类系统；

图2为本发明实施例的一种预设基础索引创建方法流程示意图；

图3为本发明实施例的另一种预设基础索引创建方法流程示意图；

图4为本发明实施例的另一种预设基础索引创建方法流程示意图；

图5为本发明实施例的一种人脸特征向量提取方法流程示意图；

图6为本发明实施例的一种维度信息贡献率示意图；

图7为本发明实施例的一种传递生长策略的初始聚类方法流程示意图；

图8为本发明实施例的一种人脸图像聚类方法流程示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。(也可根据情况省略)

如背景技术中所述，对安防领域抓拍的路人库进行人脸图像聚类，其要处理的数据量巨大，面对庞大的数据量一开始就要将其很精准的划分出每一个人对应的类，这个过程的运算量很大，耗费的资源也很多。为此发明人考虑针对海量人脸数据的聚类，可以先对海量人脸数据进行划分，得到各个区域，然后针对各个区域，在指定区域之内聚类，但实际情况下一个人的多个特征有可能分散在不同区域中，必须将所有区域最终合并到一起才能最终确保相似特征合并到一起，可以通过降低划分的区域数量，避免区域划分太细导致同一个人的多个特征分在不同的区域内。如背景所述，使用传统的聚类算法对大数据量的聚类效果不好，耗用资源及时间超出系统允许程度，另外传统的聚类算法均基于某种数据分布假设，例如KMeans要求一类数据基本成团簇状，每一类的方差值相似，类间距大，但对于人脸数据来说各特征经常混在一起，不同人的相似度高于同一人在不同时间、环境及表情下的相似度，类内间距经常大于类间距。由此，仅靠特征向量的聚类存在将特征相似但实为不同人的特征聚成一类，同时，在相同时间距离很远的摄像头抓拍数据其相似度比较是没有意义的，为此发明思考在对每个区域内进行聚类时可以综合考虑摄像头网络的时空信息，增加时空信息作为聚类的辅助依据。通过对已采集的海量数据进行初聚类得到特征分布，并进一步在初聚类后缩小的区域内进行精细聚类，在进行精细聚类时综合利用是时空信息，在提高了聚类效率的基础上还能提供高质量的聚类。

实施例一

请参考图1，本发明实施例的一种人脸图像聚类系统，包括相互连接的图像获取模块1、特征提取模块2、分区模块3和聚类模块4；

所述图像获取模块1用于获取M张目标人脸图像，其中，M为大于或等于1的自然数；

所述特征提取模块22用于分别提取所述M张目标人脸图像的信息特征；其中目标人脸图像的信息特征包括目标人脸图像的人脸特征向量和时空特征，目标人脸图像的时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者；

所述分区模块3用于根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行聚类，得到N个分区；所述N为大于或等于1且小于或等于所述M的自然数；

所述聚类模块4用于基于所述M张目标人脸图像的信息特征，根据各个分区对应的预设基础索引进行聚类，得到K个图像集，所述K为大于或等于1且小于或等于所述M的自然数，其中，所述预设基础索引包括预设时空逻辑，用于在各个分区中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类。

在本发明实施例中，所述人脸图像聚类系统可用于实施人脸图像聚类方法。

实施例二

请参考图2，预设基础索引是实施例一人脸图像聚类系统的关键技术，目标人脸图像根据所述预设基础索引进行聚类，所述的预设基础索引的建立过程如下：

S00、获取H张测试人脸图像，即如图3和图4中的原始海量数据001。

需要说明的是，所述测试人脸图像的来源可以是公共区域摄像头拍摄到的路人图像也可以是网上的人脸库中的图像，对于公共区域摄像头拍摄到的路人图像，基于拍摄到的一张照片中会存在多个人脸，为此可以将一张照片中的多个人脸进行人脸识别提取出各个人脸图像，以作为测试人脸图像，所述测试人脸图像对应的都是某一个人的人脸图像。

S01、分别提取所述H张测试人脸图像的信息特征，所述信息特征包括测试人脸图像的人脸特征向量和时空特征，所述时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者。

在其中一种可能实现方式中，请参考图5，所述人脸特征向量通过以下方法提取：

S10、对所述人脸目标图像进行特征提取，得到高维特征向量。

在本发明实施例中，人脸特征向量可以采用卷积神经网络提取，将人脸图片映射到高维特征向量中，一张人脸图像对应一个人脸特征向量及一组人脸结构化信息，结构化信息可以包括是否带眼镜、性别、年龄、摄像头位置、俯仰角度、是否睁眼、是否张嘴、拍摄时间、肤色、胡须、发色等，本发明对此不作具体限定。

一个人脸的结构化信息例如可以表示为

"person_id":"0",

"person_name":"",

"camera_id":"64010600...",

"camera_name":"BK0001鼓楼地下通道外南人脸布控",

"leave_time":"2018-05-13T10:40:18.000Z",

"duration_time":4,

"office_id":"64010620002",

"office_name":"智慧XX人脸布控",

"op_time":"2018-05-13T10:40:27.000Z",

"frame_index":293079,

"task_idx":"1514535250101",

"track_idx":"293079",

"rt_feature":"PN0LvPgzqbxEdCK7SRfou0CTUz10gB...",

"img_width":75,

"img_height":132,

"img_url":"793fc790133...",

"quality_score":0.21000008,

"left_pos":408,

"top":308,

"right_pos":482,

"bottom":440,

"yaw":6.93894,

"pitch":2.14817,

"roll":10.84787,

"similarity":0,

"birth":"",

"gender":2,

"glass":0,

"mask":0,

"race":0,

"beard":0,

"emotion":1,

"eye_open":1,

"mouth_open":0,

"big_picture_uuid":"1aa0d7f082...",

"control_event_id":"",

"camera_type":0,

"lib_id":0,

"age":24,

"is_alarm":"0",

"gps_xy":"38.464874,106.28172",

"coarse_id":"29",

"uuid":"1b81dda4-a7fc-4...",

"enter_time":"2018-05-13T10:40:15.000Z"

S11、对所述高维特征向量进行降维，得到人脸特征向量；其中，所述降维包括线性降维和/或非线性降维。

对预采集的人脸图像数据做特征值的分析，发现数据有一定的特征冗余。图6中横轴表述维度，纵轴代表贡献度的和。示例性地，人脸特征为512维度，而统计其每隔32个维度增量的特征主成分方差贡献率，发现在100维度左右即可达到80％的区分度，在224维可达到95％的区分度，在384维可达到99％的区分度。如表1所示。

特征值权重top维数
				0	0.0	256	0.9668483282255574
32	0.37634393676908734	288	0.9753631754263956
				64	0.5854812485440981	320	0.9817609631690276
96	0.7276542587546433	352	0.9868588567870656
				128	0.8247554399373918	384	0.9909426178999269
160	0.8895385070182296	416	0.9941834743929554
				192	0.9294012182043029	448	0.9967630152987117
224	0.9532025151742091	480	0.9987321981051048

表1

随着特征表达能力的提升，真实特征向量的维度可以是512维、256维或128维等，即每一张人脸图片可以映射为512个(256个或128个等)浮点数数组，在经过神经网络提取出来得到一些高维特征向量后，对所有高维特征向量整体进行分析，可以通过根据场景的容忍要求将维度压缩至预设的低维数，如200维、320维或384维，大大降低了维度信息，但基本不损失其区分能力。得到图3中降维后数据002即人脸特征向量。如图3中所示用Dim代表压缩到的维数，压缩到200维或384维。

在本发明实施例中，线性降维包括PCA(主成分分析)、ICA(独立成分分析)及LDA(线性判别分析)；非线性降维包括：基于核函数的方法和基于特征值的方法。通过对高维特征向量进行降维，可以降低时间的复杂度和空间复杂度，节省提取不必要特征的开销，去掉数据集中夹杂的噪音，达到特征选择和特征提取的目的。

示例性的，以PCA(主成分分析)进行降维，将原始数据中的每一个样本都用向量表示，把所有样本组合起来构成样本矩阵，通常对样本矩阵进行中心化处理，得到中心化样本矩阵，然后求中心化后的样本矩阵的协方差，求协方差矩阵的特征值和特征向量，将求出的特征值从大到小的顺序排列，并将其对应的特征向量按照此顺序组合成一个映射举证，根据指定的PCA保留的特征个数取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对数据进行映射，达到数据降维的目的。即假设全量特征数据为D，为m*512的矩阵，即数据量为m，维数为512，将其划分为D1，D2，D3，...，Dn，分别为(count(Di),512)的矩阵，其中count(Di)为Di的行数，或Di中的特征数量，预训练的降维模型为X，X为(512，200)的矩阵，降维过程描述为R(Di)＝Di*X，即将Di变为了(count(Di)，200)的矩阵。

例如，本实施例中所提取的向量为512维，经过降维后，a1、a2、a3…这些512维的特征向量全部降为200维。例如，所得到的人脸特征向量为：

a1＝[0.00243601,0.03713042,0.13248972,0.03669344,-0.00551992,-0.01203403,-0.06996243,0.00954465,-0.00161638,0.00336217,-0.01124122,0.01977986,-0.08331161,-0.01234601,0.05977719,0.01809132,-0.03593138,-0.00158847,0.04356468,0.03766246,.....]，

a2＝[0.00145601,0.09715049,0.55948979,0.04669544,-0.00551999,-0.01905405,-0.06996945,0.00954465,-0.00161658,0.00556917,-0.01194199,0.01977986,-0.08551161,-0.01954601,0.05977719,0.01809159,-0.05595158,-0.00158847,0.04556468,0.05766946,.....]，

a3＝[0.00845604,0.05745048,0.45848978,0.05669544,-0.00554998,-0.04805405,-0.06996845,0.00954465,-0.00464658,0.00556847,-0.04484488,0.04977986,-0.08554464,-0.04854604,0.05977749,0.04809458,-0.05595458,-0.00458847,0.04556468,0.05766846,.....]，

本领域技术人员应当理解，类似“a1、a2、a3…”这样的表达形式虽然采用了省略号“…”，但显然特征向量的总个数是有限的。

在本发明实施例中，要获取时空特征，在获取相应的测试人脸图像时就可以得到，例如在摄像头拍摄了某一张照片时，在将此照片上传时可以读取其拍摄的时间，预先为每个摄像头编号，根据摄像头编号可以知道摄像头的地理位置，相应的也可以根据预设的摄像头编号得知所述摄像头是什么属性类别的，例如是在地铁输出入的摄像头、公交站站牌附近的摄像头或者是人行道上的摄像头。

需要说明的是，现在的手机在拍摄照片时都会把记录拍摄某一张照片时的时间以及对应的地址，由此对于时空特征的提取可以通过记录相应摄像头的拍摄该人脸图像时的时间、地点以及拍摄该人脸图像对应的摄像头的属性类别。

S02、获取H张测试人脸图像的N个分区003；所述N为大于或等于1且小于或等于所述H的自然数。

在步骤S01将预先采集的海量人脸照片高维特征向量经X降维函数降维后的数据进行粗聚类的训练，预设N个聚类中心(如36个)，然后按照R(Di)中数据距离这些聚类中心的远近划分到最近的聚类中心所对应的类中去，以此完成数据分区的重新划分。记此过程为repartition(R(Di))，经过该过程，则每个新数据分区中都是近似相似的人但不一定是同一个人，或者说相似的人基本都在同一个粗分类分区中了，即将降维后的人脸数据经过粗分类模型得到每个人脸特征的粗分类ID，根据粗分类ID将人脸特征数据分发到对应的分区中。

在对所有人脸特征向量进行粗聚类，即将数据粗略分成指定个数(即N个)的类簇(即N个分区)。具体地，给定粗聚类训练的N个聚类中心，将满足预设粗聚类相似条件的特征向量归为同一分区，例如识别所有特征向量与N个聚类中心的相似度，将与某聚类中心达到一定相似度的各特征向量划归到同一个分区，例如设定一个粗聚类中心相似度阈值(如0.5)，将与某粗聚类中心的相似度大于粗聚类中心相似度阈值的那些特征向量划归到一个分区。例如a1、a4、a9…与第一粗聚类中心相似度最高，即a1、a4、a9…分别与第一粗聚类中心的相似度均大于粗聚类中心相似度阈值，则a1、a4、a9…划归为一个分区D1；a2、a8、a20…与第二粗聚类中心相似度最高，则a2、a8、a20…划归为一个分区D2；……；a101、a763、a900…与第N粗聚类中心相似度最高，则a101、a763、a900…划归为一个分区DN。该过程尚未将不同人区分开，只要求属于同一人的数据相对集中，分区间距离尽量大，分区内距离尽量小，使得同一个人的多张照片对应的特征向量分布在同一个分区中，当然一个分区中可能包括多个人的特征向量。其中，该粗聚类训练的中心可以通过之前对该地区大量对象特征进行训练得到，具有代表性。

据此，将所有的人脸特征向量a1、a2、a3…划分成N个分区即D1、D2、D3、…DN，其中，D1包括a1、a4、a9…，D2包括a2、a8、a20…，D3包括a3、a5、a35…，…，DN包括a101、a763、a900…。

本领域技术人员应当理解，类似“D1包括a1、a4、a9…”这样的表达形式虽然采用了省略号“…”，但显然D1所包含的特征向量的个数是有限的。本文中采用了省略号“…”的表达方式中，所省略的数量都是有限的。

需要说明的是，根据预设的聚类中心数N对所述H张测试人脸图像的人脸特征向量进行聚类，得到N个分区，其起到一个大致划分归属的作用，例如，全国14亿人口，按家庭分成一簇簇(举例子，忽略一家多地等情况)，那我拿个海南人跟东北人看他是不是一家没意义，全量比较没意义，可以先按省份划分成33个分区，每个分区内再划分。人脸来说，可以把空间分成N分，每个分区有个中心，就理解为聚类中心，通过比较每个人脸特征与他们的距离粗略划分一个归属，以便限定比较范围。

所有分区003中，每个分区中的人脸特征向量被认为是可能相似的即属于同一人，也可能认为是不相似的，这样只需在分区003内进行再聚类，分区间无需再聚类，可提高聚类的速度。

S03、对所述N个分区003建立初始索引，得到初始索引结果。

依次在每一个分区中创建ANN索引即最近邻索引，并进行分区聚类，每个分区中的人脸特征分布在高维球体或高维锥体中，可以采用余弦相似度计算其相似性，如果进一步对其进行L2归一化，则其特征分布在高维球面中，这时可以利用L2距离计算其相似度。

余弦相似度计算式为：

cosθ＝a·b/a·b＝a·b (1)

即在L2归一化下余弦相似度用向量点积计算，余弦距离定义为：

1-cosθ＝1-a·b (2)

两个归一化后向量的欧式距离与余弦相似度的换算公式可以根据其定义推算出为：

Eucl_dist(a,b)＝sqrt(2-2cosθ)＝sqrt(2-2*a·b) (3)

据此，针对降维后的人脸特征向量的聚类，向量间的相似度参数可以根据需要使用欧式距离、余弦距离或余弦相似度，其中欧式距离值越小越相似，距离为0时完全一样；特征向量之间的余弦相似度取值为[-1,1]，相似度越接近1则表示两个特征向量越相似。

本过程将满足预设初始相似条件的特征向量归为同一类，本领域技术人员应当理解，S02过程粗聚类的预设相似条件要比S03过程的预设初始相似条件更为宽松，即，预设粗聚类相似条件的要求不高，a61和a62虽然属于不同人但仍然可能归到一个分区，预设初始相似条件更高，S03过程中a61和a62属于不同人则可能不会被归为同一类。

在本发明实施例中，将ANN(近似最近邻)技术结合传统的聚类算法进行聚类，ANN(近似最近邻)技术通过建立树划分方法，或哈希方法，或矢量量化方法对空间建立索引，加快相似向量的检索性能，结合了高维特征向量检索技术ANN，将快速找到在指定数据中的最相似类作为聚类，得到初始索引。

以下例举几种可行的分区聚类方式：

方式一：

进行初始聚类的方式采用余弦相似度。

例如，D1这个分区包括a1、a4、a9、…，则在D1分区中，编号为a1的人脸特征向量查找到预定个数(例如5个，预定个数即最近邻向量个数)最近邻后结果表示为：

((a1,a1,1.0)，(a1,a4,0.9)，(a1,a9,0.8)，(a1,a15,0.6)，(a1,a23,0.5))，

其中，余弦相似度分别为1.0、0.9、0.8、0.6、0.5。

其中，(a1,a1,1.0)表示，编号为a1的人脸特征向量与自己的相似度为1.0；(a1,a4,0.9)表示，编号为a1的人脸特征向量与编号为a4的人脸特征向量相似度为0.9。

编号为a4的人脸特征向量查找5个最近邻后结果表示：

((a4,a4,1.0)，(a4,a12,0.98)，(a4,a32,0.7)，(a4,a40,0.67)，(a4,a54,0.3))，

……

将预设余弦相似度阈值设置为0.8，则编号a1、a4、a9聚为同一类(a15、a23被过滤掉)，编号a4、a12聚为同一类……

或者，将邻近向量个数设置为6，将相似度阈值设置为0.7，则在D1分区中，编号为a1的人脸特征向量查找到6个最近邻后结果表示为：

((a1,a1,1.0)，(a1,a4,0.9)，(a1,a9,0.8)，(a1,a15,0.6)，(a1,a23,0.5)，(a1,a58,0.4))，

其中，余弦相似度分别为1.0、0.9、0.8、0.6、0.5、0.4；

编号为a4的人脸特征向量查找到6个最近邻后结果表示为：

((a4,a4,1.0)，(a4,a12,0.98)，(a4,a32,0.7)，(a4,a40,0.67)，(a4,a54,0.3)，(a4,a77,0.3))，

……

则编号a1、a4、a9聚为同一类，编号a4、a12、a32聚为同一类……

从而得到完成分区聚类后的所有分区004。

方式二：

进行分区聚类的方式采用欧式距离并将欧氏距离换算成相似度。

例如，D2这个分区包括a2、a8、a20、…，则在D2分区中，与序号a2特征相似度最高的排名为

2(8,11,25,...)，

其欧式距离为

2(0.141421,0.244948,0.959166,...)，

转换为相似度则排名依次为

2(0.99,0.97,0.54,...)，

最近邻向量的个数(即预定个数)可以自行设定，例如设置为3，则与此a2号特征相似度最高的依次为a8号、a11号、a25号。相似度依次为0.99、0.97、0.54，如果以预设相似度阈值0.9作为区分是否同一个人，则依据特征相似度，a2与a8号、a11号为同一个人，与a25号则不能聚成一个人。

方式三：

进行分区聚类的方式采用欧式距离。

例如，D2这个分区包括a2、a8、a20、a25…，最近邻向量的个数(即预定个数)设定为5，则在D2分区中，与序号a2特征相似度最高的排名为

2(8,11,25,94,102...)，

其欧式距离为

2(0.141421,0.244948,0.959166,0.968152,0.993007...)，

则与此a2号特征欧式距离最小的依次为a8号、a11号、a25号、a94号…，预设欧式距离阈值设定为0.969，则依据欧式距离，a2与a8号、a11号、a25、a94为同一个人，与a102号则不能聚成一个人。

方式四：

进行分区聚类的方式采用余弦距离，其运算原理与欧氏距离类似，故不再赘述。

在经过上述四种方式聚类后，即可以得到相应的索引。索引是一种单独的、物力的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，根据目录中指示的页码可以快速找到所需的内容。根据上述的分区聚类结果就可以得到了初始索引。

S04、基于所述初始索引结果，在各个分区004中进行传递生长策略的初始聚类。

在步骤S04中，为了实现ab相似，bc相似，cd相似时能将abcd聚在一起的功能，通过将前述近似最近邻表得到达标的样本点之间的关系，并依次将相似性传递。

在其中一种可能实现方式中，请参考图7，所述基于所述初始索引结果，在各个分区004中进行传递生长策略的初始聚类包括：

S20、在各个分区中，判断某个类中的某一特征向量与另一个类中的特征向量是否满足预设传递相似性条件；

S21、若满足，则将该类中的特征向量与该另一类中的特征向量划归为同一类。

或者，

在各个分区004中，根据ANN索引检索出的最近邻关系，进行传递生长策略的聚类。传递生长策略的聚类在于，在各个分区中，判断某个类中的某一特征向量与另一个类中的特征向量是否满足预设传递相似性条件；若满足，则将该类中的特征向量与该另一类中的特征向量划归为同一类。不断重复进行该操作，将相似性判断进行传递，从而将更多原本属于不同类的特征向量向划归为同一类。

预设传递相似性条件可以设计为：特征向量之间的余弦相似度大于预设余弦相似度阈值，或特征向量之间的欧氏距离小于预设欧式距离阈值，或特征向量之间的余弦距离小于预设余弦距离阈值，或特征向量之间的欧氏距离换算成的相似度大于预设相似度阈值等。

以某一分区中的任意几个类为例，例如D1分区中编号a1、a4、a9聚为第一类，编号a4、a12聚为第二类，编号a12、a31、a49聚为第三类，编号a4、a31、a9聚为第四类，编号a4、a31、a9、a50、a102、a231聚为第五类，编号a52聚为第六类……

传递生长策略的初始聚类可以采取多种方式：

方式一：

在一个分区中，判断某个类中的某一特征向量与另一个类中的任意一个特征向量是否满足预设传递相似性条件；若满足，则将该类中的特征向量与该另一类中的特征向量划归为同一类，并将相似性判断进行传递。

例如，第一类中的a1与第二类中的a4满足预设传递相似性条件，则可认为a1、a4、a9、a12同属一类即a1、a4、a9、a12成为新类，第一类与第二类合并；进一步，新类中的a12与第三类中的a12也满足预设传递相似性条件，则可认为a1、a4、a9、a12、a31、a49属于同一类即成为新类；…将相似性判断继续传递，即可最大程度减少该分区中类的个数，将属于同一人的各特征向量都归为一类。例如，最终，该分区中a1、a4、a9、a12、a31、a49、a67、a99、a102、a131、a249成为一类，并且该类的特征向量都属于同一个人。

“某个类中的某一人脸特征向量”指该某个类中的任何一个人脸特征向量，本实施例仅是以第一类中的a1为例，技术人员也可以根据实际需求灵活选择某一类中的任何一个特征向量或满足某种要求的特征向量，例如，还可以选择用第一类中的a9去与其他类的特征向量进行相似性条件的比对。另外，当某个类中的某个人脸特征向量于另一个类的人脸特征向量比对完毕，还可以取该某个类中的另一个人脸特征向量于另一个类的人脸特征向量比对。例如，本实施例仅是以第一类中的a1为例，若a1于第二类的特征向量比对完毕且判断第一类于第二类不合并，此时还可以继续用第一类中的a4去与第二类的特征向量进行比对。该解释适用于下述方式二、方式三和方式四，故下文不再赘述。

这样，原本D1分区004中经过分区聚类后得到14个类，再经过本步骤传递生长策略的初始聚类后，得到3个类，即D1分区004中实际上识别出了3个不同的人，这样就把人像识别的效果发挥到了最佳状态。

方式二：

在一个分区004中，判断某个类中的某一人脸特征向量与另一个类中的某一人脸特定特征向量是否满足预设传递相似性条件；若满足，则将该类中的人脸特征向量与该另一类中的人脸特征向量划归为同一类，并将相似性判断进行传递。

例如，设置“该另一个类中的某一特定人脸特征向量”为该另一个类中相似度最低的那个人脸特征向量。

第一类中的a1与第二类中相似度最低的a2不满足预设传递相似性条件，则第一类与第二类不合并；进一步，第一类中的a1与第三类中相似度最低的a49不满足预设传递相似性条件；进一步，第一类中的a1与第四类中相似度最低的a9满足预设传递相似性条件，则可认为a1、a4、a9，a31属于同一类即成为新类；…将相似性判断继续传递。

该方式还可以要求，在得到的新类中，需要一定数量的特征向量点在新特征向量点的最近邻中，即双向最近邻限制。

方式三：

在一个分区004中，判断某个类中的某一特征向量与另一个类中的所有特征向量是否满足预设传递相似性条件；若满足，则将该类中的特征向量与该另一类中的特征向量划归为同一类，并将相似性判断进行传递。

例如，第一类中的a1与第二类中的a12不满足预设传递相似性条件故第一类与第二类不能合为同一类；进一步，第一类中的a1与第三类的a12、a31、a49均不满足预设传递相似性条件，故第一类与第三类不能合为同一类…将相似性判断继续传递。

方式四：

在一个分区004中，对于某个类中的某一人脸特征向量与另一个类中的人脸特征向量，将该另一个类中的人脸特征向量总数与预设比较数进行比较；

若该另一个类中的人脸特征向量总数大于或等于预设比较数，则判断该某个类中的某一人脸特征向量与该另一个类中的预设比较数的人脸特征向量是否满足预设传递相似性条件；若满足，则将该类中的人脸特征向量与该另一类中的人脸特征向量划归为同一类，并将相似性判断进行传递；

若该另一个类中的人脸特征向量总数小于预设比较数，则判断该某个类中的某一人脸特征向量与该另一个类中的所有人脸特征向量是否满足预设传递相似性条件；若满足，则将该类中的人脸特征向量与该另一类中的人脸特征向量划归为同一类，并将相似性判断进行传递。

例如，设置“预设比较数”为2个。

第二类中的任意2个人脸特征向量无法同时与第一类中的a1满足预设传递相似性条件，故第一类与第二类不能合为同一类；进一步，第三类中的任意2个人脸特征向量无法同时与第一类中的a1满足预设传递相似性条件，故第一类与第三类不能合为同一类…第五类中的a4、a9与第一类中的a1满足预设传递相似性条件，故第一类与第五类可以合并为同一类，即a1、a4、a31、a9、a50、a102、a231聚为同一类；进一步，第六类中只一个人脸特征向量a52即第六类的特征向量总数小于2，则只需将第一类中的a1与第六类中的该单个人脸特征向量a52进行比较，a1与a52不满足预设传递相似性条件，故第一类与第六类不能合并为同一类，或者说新类a1、a4、a31、a9，a50、a102、a231与第六类不能合并为同一类；将相似性判断进行传递。

该方式还可以要求，在得到的新类中，需要一定数量的人脸特征向量点在新特征向量点的最近邻中，即双向最近邻限制。

根据所要求的场景的不同，用户可以采取上述不同的方式，根据不同的规则所得出的聚类结果及效果也不相同。

S05、对各个分区004的初始聚类结果根据预设时空逻辑进行时空信息融合，得到融合特征。

在各个分区004中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空要求的特征向量，或者将其中不符合预设时空要求的特征向量取出并聚为另一类，既避免不必要计算，又可降低错误融合的情况。

仅靠特征向量的聚类可能发生将特征相似但实为不同人的特征向量聚成一类，同时，在相同时间点距离很远的摄像头抓拍的数据其相似度对比是没有意义的，同一摄像头在不同时间的数据进行相似度比较具有一定意义。综合考虑，除仅靠人脸特征外，有必要增加其他时空信息作为聚类辅助依据。

对于抓拍记录提取的其他结构化信息，例如摄像头位置、摄像头类型、时间、带眼镜、性别等，这部分信息中带眼镜、性别的提取值是相对稳定的，在聚类中可以用作参考，用于分隔并减少需要比较的特征的个数，提升计算性能。

摄像头的地理信息可以结合时间进行处理，摄像头位置同时具备GPS信息，可以计算其距离，因而两个较近时间位于距离较远的摄像头捕获的人脸特征即使相似度极高也不应聚类成同一个人。即认为一个人短时间内从A地摄像头下到达合理的B地摄像头下是可能的，但到达极远的C地摄像头下是不可能的。例如对于路面抓拍行人，一个人在1分钟内到数公里外的地方是不合理的。1分钟内的数据按摄像头的地理位置分组内部聚类即可。

考虑到存在乘坐交通工具短时间内从A地到达B地的情形，可以只对5分钟为限定进行处理，并进一步依据摄像头类型进行处理，例如对地铁站附近摄像头，如果距离较远且超出地铁在该时间段内合理行程，则该距离两端的摄像头采集的数据不能认为是同一人。

本领域技术人员可以通过设置多种选项根据场景及关注点决定时空信息融合的宽松程度。

对于某两个判断为同一类的人脸特征向量，该两个人脸特征向量对应图像的拍摄时间差为t，该两个人脸特征向量对应图像的拍摄地距离为d(即GPS坐标距离)；该两个人脸特征向量的余弦相似度为s(或者该两个特征向量的欧氏距离为r，或者该两个特征向量的余弦距离为p)。

令第一参考时间差为t1，令第二参考时间差为t2，令第一参考距离为d1，令第一参考速度为v1，令第二参考速度为v2，其中，v2>v1。

令第三参考时间差为t3，令第一余弦相似度参考阈值为s1(或令第一欧式距离参考阈值为r1，或令第一余弦距离参考阈值为p1)；令第二余弦相似度参考阈值为s2(或令第二欧式距离参考阈值为r2，或令第二余弦距离参考阈值为p2)，其中，s1<s2(或r1>r2，或p1>p2)。

时空信息融合的方式可以设置为：

方式一：

若d≥d1且d/t>v1，则该两个特征向量不聚为同一类，该两个人移动速度过快不合常理；若d≥d1且d/t≤v1，则该两个特征向量可聚为同一类，一个人的移动速度在合理范围内。从而得到完成传递生长聚类及时空信息融合后的所有分区005。

方式二：

若d≥d1且t<t1，则该两个特征向量不聚为同一类，该两个人移动速度过快；若d≥d1且t≥t1，则该两个特征向量可聚为同一类，一个人的移动速度在合理范围。从而得到完成传递生长聚类及时空信息融合后的所有分区005。

方式三：

若该两个特征向量对应图像的拍摄地摄像头类别为交通中转站(例如地铁站、公交站、共享单车锁车站等)，若d≥d2且d/t>v2，则该两个特征向量不聚为同一类，该两个人移动速度过快不合常理；若d≥d2且d/t≤v2，则该两个特征向量可聚为同一类，一个人的移动速度在合理范围。从而得到完成传递生长聚类及时空信息融合后的所有分区005。

方式四：

若该两个特征向量对应图像的拍摄地摄像头类别为交通中转站，若d≥d2且t<t2，则该两个特征向量不聚为同一类，该两个人移动速度过快；若d≥d2t≥t2，则该两个特征向量可聚为同一类，一个人的移动速度在合理范围。从而得到完成传递生长聚类及时空信息融合后的所有分区005。

方式五：

若该两个特征向量对应图像由一个摄像头在时间范围t内拍摄，则可以采用适当小点的相似度作为阈值(或采用适当大点的欧式距离/余弦距离作为阈值)，若t≤t3且s<s1(或r>r1，或p>p1)，则该两个特征向量不聚为同一类；若t≤t3且s>s1(或r<r1，或p<p1)，则该两个特征向量可聚为同一类，例如s1＝0.6。从而得到完成传递生长聚类及时空信息融合后的所有分区005。

方式六：

若该两个特征向量对应图像由更大范围的多个摄像头在时间范围t内拍摄，长时间内人数众多，人与人之间特征更加相似，则可以采用适当大点的相似度作为阈值(或采用适当小点的欧式距离/余弦距离作为阈值)，若t≤t3且s<s2(或r>r2，或p>p2)，则该两个特征向量不聚为同一类；若t≤t3且s>s2(或r<r2，或p<p2)，则该两个特征向量可聚为同一类，例如s2＝0.8。该情形中，特征向量的余弦相似度需要高一点才能认为是同一人，不然有可能把略有差异的不同人聚成一类。从而得到完成传递生长聚类及时空信息融合后的所有分区005。

S06、基于所述融合特征构建各个分区的预设基础索引。

经过上述过程，形成了对海量预采集信息针对人的聚类。其中的每个类会有唯一的融合ID及融合特征。此为预采集数据的聚类结果，此融合特征数量已经大大减少。基于此融合特征可以构建各分区005的基础索引，用于后续新增数据的聚类融合基础供增量数据使用。

例如，原先初始聚类后得到100万个类，经传递生长聚类之后变为了10万个，那么这10万个类中每个类的中心特征即融合特征，由这一类里面的诸多成员特征贡献而成，譬如按权重求取平均值。

这10万个融合特征需要再建立索引，从而使得其他已有的或新来的特征能够快速找到其归属于这10万个融合特征对应的哪一类。该操作得到完成融合特征进行ANN建索引后的分区006。

在其中一种可能实现方式中，还包括：

或者，获取各个分区对应的旧的预设基础索引；

定时或定量对人脸识别系统进行更新，即更新预设的基础索引，以便反应最新的类簇分布，系统中的类数会随着数据的加入约来越多。预设基础索引由海量数据经过聚类得到，在短时间内可以认为具有代表性，因此短期内可以保持基础索引不变，但随着新特征的变化，同一人的特征聚类中心也会略有改变，需要定时或定量更新预设基础索引。可以利用最新数据采用上述预设基础索引创建方法，构建新的预设基础索引，相当于对预设基础索引进行重建。

或者，定时更新基础索引系统，如设定每周更新一次，更新方法为，将每周的数据输入到粗聚类模型(即预处理模块)，得到对应的粗分类ID，然后分发到粗分类ID所对应的分区中，在分区内对分发来的周数据建立ANN索引，将周数据的ANN索引与该分区内的基础索引进行融合更新。

实施例二：

请参考图8，下面介绍根据上述的预设基础索引进行的一种人脸图像聚类方法，下面具体说明：

S101、获取M张目标人脸图像，其中，M为大于或等于1的自然数。

在本发明实施例中，所述M张目标人脸图像就是要进行聚类的人脸图像，其可以在进行逃犯追踪时，根据逃犯出现的区域，将该区域内的摄像头所拍摄的人脸图像作为需要聚类检测的人脸图像，已将逃犯的人脸图像聚类起来，查找出其行动轨迹。

S102、分别提取所述M张目标人脸图像的信息特征；其中目标人脸图像的信息特征包括目标人脸图像的人脸特征向量和时空特征，目标人脸图像的时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者。

需要说明的是，目标人脸图像的信息特征提取方法和测试人脸图像的信息特征提取方法相似，在此不再赘述。

S103、根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行聚类，得到N个分区；所述N为大于或等于1且小于或等于所述M的自然数。

需要说明的是，对根据预设的聚类中心数N对所述M张目标人脸图像的人脸特征向量进行聚类得到N个分区，与根据预设的聚类中心数N对所述H张测试人脸图像的人脸特征向量进行聚类得到N个分区方法相似，在此不再赘述。

S104、基于所述M张目标人脸图像的信息特征，根据各个分区对应的预设基础索引进行聚类，得到K个图像集，所述K为大于或等于1且小于或等于所述M的自然数，其中，所述预设基础索引包括预设时空逻辑，用于在各个分区中，对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类。

在本发明实施例中，在经过步骤S103进行一个分区后，在各个分区内进行细聚类，具体是根据各个分区对应的预设基础索引进行聚类，即融合时空特征对于聚为同一类的若干人脸特征向量，去除其中不符合预设时空逻辑的人脸特征向量，或者将其中不符合预设时空逻辑的人脸特征向量取出并聚为另一类。

实施本发明实施例具有如下特点：

传统的聚类算法时间及空间复杂度极高，对于大数据量的聚类效果不好，耗用的资源与时间往往超出系统的允许程度。基础聚类算法指常规的无监督机器学习算法如kmeans、dbscan等，适用于低维的记录数有限的数据处理。高维海量数据则无法运行，或者时间、空间(内存及存储)不可接受。本申请利用ANN索引技术、数据分区迭代技术，对数据在小批量进行聚类并逐步融合形成全局，本申请的聚类算法结合了高维特征向量检索技术ANN，将快速找到在指定数据中的最相似类作为聚类的基本步骤，即本申请是一种综合利用ANN与基础聚类算法的过程，一种将降维、粗聚类、ANN、相似度关系传递生长等机制达到高效高质量的聚类，可以高效准确自适应的对安防相机抓拍的数据进行聚类，聚类结果中对每个聚类ID，可以检索其行动轨迹、绘制轨迹路线以及行人关系等模式挖掘，并进一步应用于模型挖掘等场景，扩展了人脸安防系统的应用。

本申请可解决安防领域路人检索、人脸标注、人脸聚类难的问题，针对其数据海量、特征维度高、特征分布不规则等难点提出一种在利用特征信息聚类基础上综合利用摄像头位置、时间、位移距离、人脸其他附属特征等信息对路人库进行聚类的技术方案，通过对已采集的海量数据进行粗聚类得到特征分布，并进一步在缩小的区域内进行精细聚类和创建索引并提供检索支持的系统，极大提高了路人库的检索及聚类标注效率。

本申请对数据进行降维处理，在不降低区分度的基础上降低数据维度，减少高维数据聚类的难度。

本申请根据最近邻索引ANN对聚类时的相似度查找起到加速作用，避免暴力比较。

本申请采用特征相似度的传递生长机制，传递的准则可以依据场景进行调整，使得平稳移动过程的特征可以聚在一起，对密度不均场景自适应，效果极好。

本申请结合时空信息进行聚类的约束，避免了采用低相似度阈值时关联无关人员，也避免了采用高相似度时把同一人分成了很多类，且大大减少了相似度比较的计算量。

本申请将ANN应用于粗聚类各分区中并通过传递生长构建聚类，通过聚类后的融合特征构建该分区的基础索引，对增量数据能快速检索其归属或产生新聚类ID。

本申请各分区的基础索引执行定时或定量的更新，在新增融合特征达一定量时更新其基础索引，避免后续新来数据找不到聚类而进一步产生新的聚类ID。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种人脸图像聚类方法，其特征在于，包括：

获取M张目标人脸图像，其中，M为大于或等于1的自然数；

分别提取所述M张目标人脸图像的信息特征；其中目标人脸图像的信息特征包括目标人脸图像的人脸特征向量和时空特征，所述目标人脸图像的时空特征包括拍摄目标人脸图像的摄像头的空间位置、摄像头类别及拍摄时刻中的任意一者或多者；

2.如权利要求1所述的方法，其特征在于，所述各个分区对应的预设基础索引通过如下方式获取：

对所述N个分区建立初始索引，得到初始索引结果；

基于所述融合特征构建各个分区的预设基础索引。

3.如权利要求2所述的方法，其特征在于，所述基于所述初始索引结果，在各个分区中进行传递生长策略的初始聚类包括：

4.如权利要求3所述的方法，其特征在于，所述预设传递相似性条件包括：

或者，

5.如权利要求2所述的方法，其特征在于，所述对各个分区的初始聚类结果根据预设时空逻辑进行时空信息融合，得到融合特征包括：

令第三参考时间差为t3；

获取最终的聚类结果，得到融合特征。

6.如权利要求1所述的方法，其特征在于，所述人脸特征向量通过以下方法提取：

对所述人脸目标图像进行特征提取，得到高维特征向量；

7.如权利要求2所述的方法，其特征在于，还包括：

或者，获取各个分区对应的旧的预设基础索引；

8.一种人脸图像聚类系统，其特征在于，包括相互连接的图像获取模块、特征提取模块、分区模块和聚类模块；

9.一种人脸图像聚类产品，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的方法。