CN115497124A

CN115497124A - 身份识别方法和装置及存储介质

Info

Publication number: CN115497124A
Application number: CN202211317076.8A
Authority: CN
Inventors: 袁梦婷; 刘洋; 刘雨婷
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2022-12-20
Also published as: WO2024087519A1

Abstract

本公开提出一种身份识别方法和装置及存储介质，涉及计算机领域。身份识别方法包括：获取数据集，所述数据集包括多条数据记录，每条数据记录包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征；将关联人脸特征的数据记录选作核心点，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录，以便将所述数据集划分为各个簇；对每个簇标记人员身份。从而，实现基于人脸特征约束的人体特征密度聚类方法，降低人体特征波动和干扰带来的不利影响，提高聚类效果和人员身份识别的准确性。

Description

身份识别方法和装置及存储介质

技术领域

本公开涉及计算机领域，尤其涉及视频监控领域，特别涉及一种身份识别方法和装置及存储介质。

背景技术

通过视频监控数据，可以对视频监控区域中的人员进行身份识别，进而对人员的时空活动轨迹进行监控。

在一些相关技术中，从各个视频监控图像中提取人体特征，采用基于密度的聚类算法，对各个人体特征进行聚类，将属于同一人员的各个人体特征聚为一个簇。从而，将不同摄像头在不同时间采集的属于同一人员的不同视频监控图像识别出来，并标记为同一个人员身份标识。

上述方法基于人体特征进行密度聚类，由于人体特征受姿态、遮挡物等影响会有波动，并且身材和服饰相似会给人体特征带来干扰，这些势必会影响聚类效果，进而降低人员身份识别的准确性。

发明内容

本公开实施例提出一种基于人脸特征约束的人体特征密度聚类方法，相对于单纯的人体特征密度聚类方法，可以降低人体特征波动和干扰带来的不利影响，提高聚类效果和人员身份识别的准确性。

本公开一些实施例提出一种身份识别方法，包括：

获取数据集，所述数据集包括多条数据记录，每条数据记录包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征；

将关联人脸特征的数据记录选作核心点，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录，以便将所述数据集划分为各个簇；

对每个簇标记人员身份。

在一些实施例中，将所述数据集划分为各个簇包括：

将所述数据集中关联人脸特征且未访问的第一数据记录选作第一核心点，将第一数据记录标记为已访问，根据数据记录之间的人体特征的相似度基于第一核心点进行第一邻域范围扩展，并从第一邻域范围中删除与第一核心点的人脸特征的相似度不满足要求的数据记录，以得到第一集合；

从第一集合中选择关联人脸特征且未访问的第二数据记录作为第二核心点，将第二数据记录标记为已访问，根据数据记录之间的人体特征的相似度基于第二核心点进行第二邻域范围扩展，并从第二邻域范围中删除与第二核心点的人脸特征的相似度不满足要求的数据记录，以得到第二集合；

将第二集合的数据记录加入到第一集合，以得到簇。

在一些实施例中，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展包括：

将与所述核心点的人体特征的相似度满足要求的数据记录加入到所述核心点的邻域范围。

在一些实施例中，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

在一些实施例中，如果第一邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第一邻域范围中的全部数据记录归为第一集合；如果第二邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第二邻域范围中的全部数据记录归为第二集合。

在一些实施例中，针对所述数据集中未归类到簇的第一数据集，将所述第一数据集中的数据记录选作核心点，根据所述第一数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

在一些实施例中，还包括：

针对所述第一数据集中未归类到簇的第二数据集，设置簇的第二最小点数，簇的第二最小点数小于簇的第一最小点数；

将所述第二数据集中的关联人脸特征的数据记录选作核心点，根据所述第二数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录；

如果邻域范围中的全部数据记录的数量大于或等于簇的第二最小点数，将邻域范围中的全部数据记录归为一个簇。

在一些实施例中，还包括：针对所述第二数据集中未归类到簇的第三数据集，将所述第三数据集中的数据记录选作核心点，根据所述第三数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展；

在一些实施例中，还包括：将所述第三数据集中未归类到簇的每条数据记录分别归为一个簇。

在一些实施例中，所述数据集为存量数据集或增量数据集；所述方法还包括：

计算增量数据集中的各个簇与存量数据集中的各个簇之间的距离；

计算增量数据集中的各个簇与存量数据集中的各个簇之间的平均人脸相似度；

根据增量数据集中的第一簇与存量数据集中的第二簇之间的距离，并基于第一簇与第二簇之间的平均人脸相似度的约束，对增量数据集中的第一簇标记人员身份。

在一些实施例中，对增量数据集中的第一簇标记人员身份包括：

如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度大于相似度阈值，将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份。

如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度不大于相似度阈值，将增量数据集中的第一簇与存量数据集中的第二簇之间的距离更新为预设的足够大的距离值，用于表征第一簇与第二簇对应不同的人员身份，将增量数据集中的第一簇标记为新的人员身份。

本公开一些实施例提出一种身份识别方法，包括：

将存量数据集中的多条数据记录划分为各个簇，将增量数据集中的多条数据记录划分为各个簇，每条数据记录包括人员图像的特征；

如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离不小于距离阈值，将增量数据集中的第一簇标记为新的人员身份。

在一些实施例中，所述增量数据集的人员图像从各个摄像头的时序视频流数据中抽取的一定时间窗口内的视频图像帧获取。

本公开一些实施例提出一种身份识别装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行身份识别方法。

本公开一些实施例提出一种身份识别装置，包括：

数据获取单元，被配置为获取数据集，所述数据集包括多条数据记录，每条数据记录包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征；

数据聚类单元，被配置为将关联人脸特征的数据记录选作核心点，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录，以便将所述数据集划分为各个簇；

身份标记单元，被配置为对每个簇标记人员身份。

本公开一些实施例提出一种身份识别装置，包括：

数据聚类单元，被配置为将存量数据集中的多条数据记录划分为各个簇，将增量数据集中的多条数据记录划分为各个簇，每条数据记录包括人员图像的特征；

距离计算单元，被配置为计算增量数据集中的各个簇与存量数据集中的各个簇之间的距离；

人脸相似度计算单元，被配置为计算增量数据集中的各个簇与存量数据集中的各个簇之间的平均人脸相似度；

身份标记单元，被配置为根据增量数据集中的第一簇与存量数据集中的第二簇之间的距离，并基于第一簇与第二簇之间的平均人脸相似度的约束，对增量数据集中的第一簇标记人员身份。

在一些实施例中，所述身份标记单元，被配置为：

如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度大于相似度阈值，将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份；

或者，

如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度不大于相似度阈值，将增量数据集中的第一簇与存量数据集中的第二簇之间的距离更新为预设的足够大的距离值，用于表征第一簇与第二簇对应不同的人员身份，将增量数据集中的第一簇标记为新的人员身份；

或者，

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现身份识别方法的步骤。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一些实施例的身份识别方法的流程示意图。

图2示出本公开一些实施例的将数据集划分为各个簇的流程示意图。

图3示出本公开一些实施例的身份识别方法的流程示意图。

图4示出本公开一些实施例的身份识别装置的结构示意图。

图5示出本公开一些实施例的身份识别装置的结构示意图。

图6示出本公开一些实施例的身份识别装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非特别说明，否则，本公开中的“第一”“第二”等描述用来区分不同的对象，并不用来表示大小或时序等含义。

图1示出本公开一些实施例的身份识别方法的流程示意图。

如图1所示，该实施例的身份识别方法包括以下步骤。

在步骤110，获取数据集，所述数据集包括多条数据记录，每条数据记录包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征。每条数据记录可以视为一个数据点。

在一些实施例中，获取数据集的方法包括：从摄像头拍摄的视频中抽取图像帧，使用人体检测算法对图像帧进行检测获取人体区域，人体区域包括头部、颈部、躯干和四肢等，使用人脸检测算法对图像帧进行检测获取人脸区域，将人体区域图像进行向量化处理得到人体特征(或称人体特征向量)，将人脸区域图像进行向量化处理得到人脸特征(或称人脸特征向量)，其中，将同一人体区域获得的人体特征和人脸特征进行关联。

下面对人脸检测算法进行描述。

(1)基于模板匹配的人脸检测方法：模板分为二维模板和三维模板，主要是利用人的脸部特征规律建立一个立体可调的模型框架，在定位出人的脸部位置后用模型框架定位和调整人的脸部特征部位，解决人脸识别过程中的观察角度、遮挡和表情变化等因素影响。

(2)基于奇异值特征的人脸检测方法：人脸图像矩阵的奇异值特征反映了图像的本质属性，可以利用它来进行分类识别。

(3)子空间分析的人脸检测方法：子空间分析法具有描述性强、计算代价小、易实现及可分性好等特点，被广泛地应用于人脸特征提取，成为了当前人脸识别的主流方法之一。

(4)局部保持投影(Locality Preserving Projections，LPP)的人脸检测方法：LPP是一种新的子空间分析方法，它是非线性方法Laplacian Eigenmap(拉普拉斯映射)的线性近似，既解决了主成分分析等传统线性方法难以保持原始数据非线性流形的缺点，又解决了非线性方法难以获得新样本点低维投影的缺点。

(5)基于主成分分析(Principal Component Analysis，PCA)的人脸检测方法。

(6)其他人脸检测方法包括但不限于：弹性匹配方法、人工神经网络法、支持向量机法、基于积分图像特征法、基于概率模型法。

下面对人体检测算法进行描述。

第一类人体检测算法：针对图像中所有可能的子窗口(subwindows)，顺序的利用分类器，比如：哈尔小波(Haar wavelet)的支持向量机(support vector machine，SVM)，用Adboost选择最有分辨力特征，多个分类器进行级联，任何一个不满足，则可以判定为负样本。

其中，Adaboost是一种迭代算法，其针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

第二类人体检测算法：检测人体的各个部分，并根据每个部分的几何约束，总成人体模型。

需要说明的是，根据摄像头拍摄角度的不同，有些人体特征关联有人脸特征，有些人体特征未关联人体特征。例如，通过拍摄到人员正面的图像帧，可以获得人体特征及其关联的人脸特征；通过拍摄到人员背面或侧面的图像帧或者远距离拍摄的图像帧，可以获得人体特征，由于没有拍摄到或没有清晰拍摄到人员的面部图像，因此获取不到人员的人脸特征。

不同摄像头在不同时间可以采集到同一人员多个视频监控图像，通过多个视频监控图像可以获取到同一人员的多条数据记录，每条数据记录包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征。通常情况下，同一人员的特征(人体特征/人脸特征)具有较高的相似度。相似度例如可以余弦相似度。

数据集的多条数据记录可能涉及一个或多个人员，通常情况下，特别是通过公共区域的摄像头获得的数据集，数据集的多条数据记录通常涉及多个人员。

在步骤120，将关联人脸特征的数据记录选作核心点，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录，以便将数据集划分为各个簇。

在一些实施例中，将关联人脸特征的数据记录选作核心点，将与所述核心点的人体特征的相似度满足要求的数据记录加入到所述核心点的邻域范围，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇，从而基于人脸特征约束的人体特征密度聚类方法，将数据集划分为各个簇。

在一些实施例中，如图2所示，将数据集划分为各个簇包括步骤120-1～120-3，根据需要还可以包括步骤120-4～120-7中的一个或多个步骤。

在步骤120-1，将所述数据集中关联人脸特征且未访问的第一数据记录选作第一核心点，将第一数据记录标记为已访问，根据数据记录之间的人体特征的相似度基于第一核心点进行第一邻域范围扩展，并从第一邻域范围中删除与第一核心点的人脸特征的相似度不满足要求的数据记录，以得到第一集合。

其中，第一邻域范围扩展包括：将与第一核心点的人体特征的相似度满足要求的数据记录加入到第一核心点的邻域范围。

其中，如果第一邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第一邻域范围中的全部数据记录归为第一集合。

在步骤120-2，从第一集合中选择关联人脸特征且未访问的第二数据记录作为第二核心点，将第二数据记录标记为已访问，根据数据记录之间的人体特征的相似度基于第二核心点进行第二邻域范围扩展，并从第二邻域范围中删除与第二核心点的人脸特征的相似度不满足要求的数据记录，以得到第二集合。

其中，第二邻域范围扩展包括：将与第二核心点的人体特征的相似度满足要求的数据记录加入到第二核心点的邻域范围。

其中，如果第二邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第二邻域范围中的全部数据记录归为第二集合。

在步骤120-3，将第二集合的数据记录加入到第一集合，以得到簇。

从而，基于每个第一核心点得到一个簇，基于多个第一核心点可以得到多个簇。

在步骤120-4，针对所述数据集中未归类到簇的第一数据集，将所述第一数据集中的数据记录选作核心点，根据所述第一数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

从而，针对未归类的数据点，基于人体特征密度聚类方法继续聚类。如果通过步骤120-1～120-3，全部数据点均已经归类，则步骤120-4及其后续步骤可以不再执行。

在步骤120-5，针对所述第一数据集中未归类到簇的第二数据集，设置簇的第二最小点数，簇的第二最小点数小于簇的第一最小点数；将所述第二数据集中的关联人脸特征的数据记录选作核心点，根据所述第二数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录；如果邻域范围中的全部数据记录的数量大于或等于簇的第二最小点数，将邻域范围中的全部数据记录归为一个簇。

从而，若还有未归类的数据点，调小簇的最小数量，基于人脸特征约束的人体特征密度聚类方法继续聚类。如果通过步骤120-1～120-4，全部数据点均已经归类，则步骤120-5及其后续步骤可以不再执行。

在步骤120-6，针对所述第二数据集中未归类到簇的第三数据集，将所述第三数据集中的数据记录选作核心点，根据所述第三数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展；如果邻域范围中的全部数据记录的数量大于或等于簇的第二最小点数，将邻域范围中的全部数据记录归为一个簇。

从而，若还有未归类的数据点，调小簇的最小数量，基于人体特征密度聚类方法继续聚类。如果通过步骤120-1～120-5，全部数据点均已经归类，则步骤120-6及其后续步骤可以不再执行。

在步骤120-7，将所述第三数据集中未归类到簇的每条数据记录分别归为一个簇。

从而，针对最后剩余的零星数据点，每个数据点单独归为一个簇，使得数据集的全部数据点均划分到各个簇。

下面描述步骤120的基于人脸特征约束的人体特征密度聚类方法的算法实现过程。

下面介绍一些该算法相关的定义。

定义1-Eps邻域：给定某数据点p，其半径Eps范围称为点p的Eps邻域。对于点p的Eps邻域内的任意一点q都有dist(p,q)≤Eps，表示点p和点q之间的距离小于或等于半径Eps。

定义2-核心点：给定某数据点p，其Eps邻域内数据点数量超过预设的簇的最小点数MinPts，点p为核心点。

定义3-簇的最小点数MinPts：核心点邻域内的数据点数量必须不少于MinPts。MinPts可以预设设置。根据需要可以设置多级MinPts，例如，设置簇的第一最小点数MinPts1和簇的第二最小点数MinPts2，其中，MinPts2小于MinPts1。

定义4-边界点：不是核心点，但在核心点的邻域内的数据点。

定义5-噪声点：既不是核心点也不是边界点的其它点。

定义6-直接密度可达：数据点q在数据点p的Eps邻域内，且数据点p是核心点，则称p到q是直接密度可达的。

定义7-密度可达：给定一串数据点p1,p2…pn，p＝p1,q＝pn,假如pi从pi-1直接密度可达，i＝2,3,…,n，那么q从p密度可达。

定义8-密度相连：对某数据点z，若z到数据点p和q都是密度可达的，则称p和q是密度相连的。

其中，任意两个数据点，若其密度相连，则在同一个簇中。

定义9-约束：两个数据点的人脸相似度小于相似度阈值，视为满足约束，否则，视为不满足约束。

基于上述定义下面描述步骤120的基于人脸特征约束的人体特征密度聚类方法的算法实现过程。

输入算法：数据集；其中，数据集中的每条数据记录视为一个数据点。

算法输出：数据集被划分成的各个簇。

算法执行过程如下：

(1)初始化所有数据点为未访问数据点；

(2)重复执行(3)-(14)：

(3)从关联人脸特征且未访问的数据点中随机选择一个数据点p；

(4)将p标记为已访问的数据点；

(5)根据数据点之间的人体特征的相似度，计算p的Eps邻域内数据点集合NEps0(p)；

(6)从NEps0(p)中删除与p不满足约束的数据点，即删除人脸相似度低的数据点，得到数据点集合NEps(p)，NEps(p)∈NEps0(p)，NEps(p)即第一集合；

(7)如果|NEps(p)|≥MinPts1，其中|NEps(p)|表示集合NEps(p)中数据点的数量，执行(8)；

(8)定义一个新的簇C，并将p归类为簇C；

(9)然后，重复执行(10)-(14)：

(10)取出NEps(p)中关联人脸特征且未访问的数据点q；

(11)标记q为已访问的数据点；

(12)根据(5)-(6)的方法，计算NEps(q)；

也即，根据数据点之间的人体特征的相似度，计算q的Eps邻域内数据点集合NEps0(q)；从NEps0(q)中删除与q不满足约束的数据点，即删除人脸相似度低的数据点，得到数据点集合NEps(q)，NEps(q)∈NEps0(q)，NEps(q)即第二集合。

(13)如果|NEps(q)|≥MinPts1，其中|NEps(q)|表示集合NEps(q)中数据点的数量，执行(14)；

(14)将NEps(q)中的数据点加入到NEps(p)中，以得到簇；

直至(10)-(14)的循环执行的条件不再满足，例如，没有满足条件的数据点q，则执行(15)。

(15)删除所有已分类的数据点，如果有未分类数据点，对未分类数据点基于人体特征密度聚类方法继续聚类。

也即，针对未分类数据点进行如下处理：选择一个未分类数据点作为核心点，根据各未分类数据点之间的人体特征的相似度基于所述核心点进行邻域范围扩展，如果邻域范围中的全部数据点的数量大于或等于MinPts1，将邻域范围中的全部数据点归为一个簇。

(16)删除所有已分类的数据点，如果仍有未分类数据点，考虑多阶密度，减小簇的最小点数，采用MinPts2重复(2)-(15)继续进行聚类，MinPts2<MinPts1；

(17)删除所有已分类的数据点，如果还有未分类数据点，这些未分类数据点为噪音点，将每个未分类数据点标记为一个簇。

通过上述算法，将数据集输入算法，算法将数据集划分成各个簇，输出各个簇。

在步骤130，对每个簇标记人员身份(identity，id)。

每个簇对应一个人员，标记一个人员身份。不同的簇对应不同的人员，标记不同的人员身份。

根据需要，可以以簇为单位，创建人员档案。每个人员的档案中记录该人员被拍摄到的所有记录信息，例如，该人员在不同时间被不同摄像头拍摄的图像，拍摄时间，摄像头标识(能够表征人员当时所在的地理位置)，人员特征，人员身份等信息。

图3示出本公开一些实施例的身份识别方法的流程示意图。

如图3所示，该实施例的身份识别方法包括以下步骤。

在步骤310，将各摄像头拍摄产生的时序视频流数据存储到数据库，形成包括多条数据记录的数据集，形成数据集的方法可以参考步骤110中的描述，其中，已产生的离线数据集称为存量数据集，新产生的在线数据集称为增量数据集。

在一些实施例中，可以用滑动窗口的方法产生增量数据集。例如，根据视频的时序，将滑动窗口当前时间范围内的视频产生的数据集作为增量数据集。随着窗口的滑动，不断产生新的增量数据集。

其中，每条数据记录包括人员图像的特征，人员图像的特征包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征。

在步骤320a，将存量数据集中的多条数据记录划分为各个簇。

可以采用步骤120的基于人脸特征约束的人体特征密度聚类方法，或者采用其他聚类方法，例如，k-means、Mean-shift、人体特征密度聚类方法等，将存量数据集中的多条数据记录划分为各个簇。

在步骤320b，将增量数据集中的多条数据记录划分为各个簇。

可以采用步骤120的基于人脸特征约束的人体特征密度聚类方法，或者采用其他聚类方法，例如，k-means、Mean-shift、人体特征密度聚类方法等，将增量数据集中的多条数据记录划分为各个簇。

在步骤330，计算增量数据集中的各个簇与存量数据集中的各个簇之间的距离。

在一些实施例中，通过计算两个簇的中心点之间的距离，来计算增量数据集中的各个簇与存量数据集中的各个簇之间的距离。

在步骤340，计算增量数据集中的各个簇与存量数据集中的各个簇之间的平均人脸相似度。

在一些实施例中，计算增量数据集的簇中的每条数据记录的人脸特征与存量数据集的簇中的每条数据记录的人脸特征之间的相似度，将各个相似度的平均值作为这两个簇之间的平均人脸相似度。

在步骤350，根据增量数据集中的第一簇与存量数据集中的第二簇之间的距离，并基于第一簇与第二簇之间的平均人脸相似度的约束，对增量数据集中的第一簇标记人员身份。

350a，如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度大于相似度阈值，将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份。从而，基于平均人脸相似度的约束，更准确地进行簇关联和身份标记。

350b，如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度不大于相似度阈值，将增量数据集中的第一簇与存量数据集中的第二簇之间的距离更新为预设的足够大的距离值，用于表征第一簇与第二簇对应不同的人员身份，将增量数据集中的第一簇标记为新的人员身份。从而，基于平均人脸相似度的约束，更准确地区分不同的簇和进行身份标记。

350c，如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离不小于距离阈值，将增量数据集中的第一簇标记为新的人员身份。

下面描述步骤330-350的层次凝聚聚类的搜索关联方法的算法实现过程。

输入算法：存量数据集的各个簇以及人员身份，增量数据集的各个簇，距离阈值，相似度阈值；

算法输出：增量数据集的人员身份。

算法执行过程如下：

(1)计算增量数据集中的各个簇与存量数据集中的各个簇之间的距离，可形成距离矩阵；

(2)重复执行(3)-(12)：

(3)从距离矩阵中查找增量数据集与存量数据集距离最小的两个簇，获取其距离d，计算这两个簇的平均人脸相似度f，假设找到的这两个簇为增量数据集中的第一簇和存量数据集中的第二簇；

(4)如果满足d<d_min，继续执行(5)；

(5)如果满足f>f_min，说明两个簇对应同一人员，继续执行(6)-(9)；

(6)将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份；

(7)删除距离矩阵中的第一簇和第二簇对应的距离数据；

(8)更新第一簇和第二簇对应的距离数据；

(9)如果不满足f>f_min，说明两个簇对应不同人员，继续执行(10)；

(10)将第一簇和第二簇的距离d设置为无穷大；

(11)如果不满足d<d_min，继续执行(12)；

(12)跳出本次循环，开始下一循环，即再次执行(2)，直至距离矩阵中的数据遍历完，然后执行(13)；

(13)将增量数据集中未标记身份的簇标记为新身份；

(14)输出标记的增量数据集的人员身份。

通过上述算法，将存量数据集的各个簇以及人员身份、增量数据集的各个簇、距离阈值和相似度阈值输入算法，算法输出增量数据集的人员身份。

本公开实施例提出一种层次凝聚聚类的搜索关联方法，在存量/增量数据集的两个簇的距离基础上，增加平均人脸相似度的约束，进行簇关联和身份标记，提高簇关联和身份标记的准确性，并且每次只需要处理增量数据，提高了实时性。

图4示出本公开一些实施例的身份识别装置的结构示意图。

如图4所示，该实施例的身份识别装置400包括：

数据获取单元410，被配置为获取数据集，所述数据集包括多条数据记录，每条数据记录包括人员图像的人体特征，所述人员图像的人体特征关联或者未关联所述人员图像的人脸特征。

数据聚类单元420，被配置为将关联人脸特征的数据记录选作核心点，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，也即，将与所述核心点的人体特征的相似度满足要求的数据记录加入到所述核心点的邻域范围，并从邻域范围中删除与所述核心点的人脸特征的相似度不满足要求的数据记录，以便将所述数据集划分为各个簇。其中，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

身份标记单元430，被配置为对每个簇标记人员身份。

在一些实施例中，数据聚类单元420，被配置为:

将所述数据集中关联人脸特征且未访问的第一数据记录选作第一核心点，将第一数据记录标记为已访问，根据数据记录之间的人体特征的相似度基于第一核心点进行第一邻域范围扩展，并从第一邻域范围中删除与第一核心点的人脸特征的相似度不满足要求的数据记录，以得到第一集合，其中，如果第一邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第一邻域范围中的全部数据记录归为第一集合；

从第一集合中选择关联人脸特征且未访问的第二数据记录作为第二核心点，将第二数据记录标记为已访问，根据数据记录之间的人体特征的相似度基于第二核心点进行第二邻域范围扩展，并从第二邻域范围中删除与第二核心点的人脸特征的相似度不满足要求的数据记录，以得到第二集合，其中，如果第二邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第二邻域范围中的全部数据记录归为第二集合；

将第二集合的数据记录加入到第一集合，以得到簇。

在一些实施例中，数据聚类单元420，还被配置为:针对所述数据集中未归类到簇的第一数据集，将所述第一数据集中的数据记录选作核心点，根据所述第一数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

在一些实施例中，数据聚类单元420，还被配置为:

针对所述第二数据集中未归类到簇的第三数据集，将所述第三数据集中的数据记录选作核心点，根据所述第三数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展；

在一些实施例中，数据聚类单元420，还被配置为:将所述第三数据集中未归类到簇的每条数据记录分别归为一个簇。

在一些实施例中，所述数据集为存量数据集或增量数据集；数据聚类单元420，还被配置为:

其中，对增量数据集中的第一簇标记人员身份包括：

如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度大于相似度阈值，将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份；或者，

图5示出本公开一些实施例的身份识别装置的结构示意图。

如图5所示，该实施例的身份识别装置500包括：

数据聚类单元510，被配置为将存量数据集中的多条数据记录划分为各个簇，将增量数据集中的多条数据记录划分为各个簇，每条数据记录包括人员图像的特征；

距离计算单元520，被配置为计算增量数据集中的各个簇与存量数据集中的各个簇之间的距离；

人脸相似度计算单元530，被配置为计算增量数据集中的各个簇与存量数据集中的各个簇之间的平均人脸相似度；

身份标记单元540，被配置为根据增量数据集中的第一簇与存量数据集中的第二簇之间的距离，并基于第一簇与第二簇之间的平均人脸相似度的约束，对增量数据集中的第一簇标记人员身份。

在一些实施例中，身份标记单元540，被配置为：

或者，

图6示出本公开一些实施例的身份识别装置的结构示意图。

如图6所示，该实施例的身份识别装置600包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一些实施例中的身份识别方法。

(1)一种身份识别方法，包括：

对每个簇标记人员身份。

(2)如(1)所述的方法，将所述数据集划分为各个簇包括：

将第二集合的数据记录加入到第一集合，以得到簇。

(3)如(1)所述的方法，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展包括：

(4)如(1)所述的方法，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

(5)如(2)所述的方法，如果第一邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第一邻域范围中的全部数据记录归为第一集合；如果第二邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第二邻域范围中的全部数据记录归为第二集合。

(6)如(4)所述的方法，还包括：针对所述数据集中未归类到簇的第一数据集，将所述第一数据集中的数据记录选作核心点，根据所述第一数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

(7)如(6)所述的方法，还包括：

(8)如(7)所述的方法，还包括：

(9)如(8)所述的方法，还包括：将所述第三数据集中未归类到簇的每条数据记录分别归为一个簇。

(10)如(1)所述的方法，所述数据集为存量数据集或增量数据集；所述方法还包括：

(11)如(10)所述的方法，对增量数据集中的第一簇标记人员身份包括：

(12)如(10)所述的方法，对增量数据集中的第一簇标记人员身份包括：

(13)一种身份识别方法，包括：

(14)如(13)所述的方法，对增量数据集中的第一簇标记人员身份包括：如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度大于相似度阈值，将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份。

(15)如(13)所述的方法，对增量数据集中的第一簇标记人员身份包括：

(16)如(13)所述的方法，对增量数据集中的第一簇标记人员身份包括：

(17)如(10-16所述的方法，所述增量数据集的人员图像从各个摄像头的时序视频流数据中抽取的一定时间窗口内的视频图像帧获取。

其中，存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

其中，处理器620可以用通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。

身份识别装置600还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630，640，650以及存储器610和处理器620之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。总线660可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线、微通道体系结构(Micro ChannelArchitecture，MCA)总线、外围组件互连(Peripheral Component Interconnect，PCI)总线。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现各实施例的身份识别方法的步骤。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种身份识别方法，包括：

对每个簇标记人员身份。

2.根据权利要求1所述的方法，将所述数据集划分为各个簇包括：

将第二集合的数据记录加入到第一集合，以得到簇。

3.根据权利要求1所述的方法，根据数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展包括：

4.根据权利要求1所述的方法，其中，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

5.根据权利要求2所述的方法，其中：

如果第一邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第一邻域范围中的全部数据记录归为第一集合；

如果第二邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将第二邻域范围中的全部数据记录归为第二集合。

6.根据权利要求4所述的方法，还包括：

针对所述数据集中未归类到簇的第一数据集，将所述第一数据集中的数据记录选作核心点，根据所述第一数据集中的数据记录之间的人体特征的相似度基于所述核心点进行邻域范围扩展，如果邻域范围中的全部数据记录的数量大于或等于簇的第一最小点数，将邻域范围中的全部数据记录归为一个簇。

7.根据权利要求6所述的方法，还包括：

8.根据权利要求7所述的方法，还包括：

9.根据权利要求8所述的方法，还包括：

将所述第三数据集中未归类到簇的每条数据记录分别归为一个簇。

10.根据权利要求1所述的方法，其中，所述数据集为存量数据集或增量数据集；

所述方法还包括：

11.根据权利要求10所述的方法，对增量数据集中的第一簇标记人员身份包括：

12.根据权利要求10所述的方法，对增量数据集中的第一簇标记人员身份包括：

13.一种身份识别方法，包括：

14.根据权利要求13所述的方法，对增量数据集中的第一簇标记人员身份包括：

15.根据权利要求13所述的方法，对增量数据集中的第一簇标记人员身份包括：

16.根据权利要求13所述的方法，对增量数据集中的第一簇标记人员身份包括：

17.根据权利要求10-16任一项所述的方法，其中，所述增量数据集的人员图像从各个摄像头的时序视频流数据中抽取的一定时间窗口内的视频图像帧获取。

18.一种身份识别装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-17中任一项所述的身份识别方法。

19.一种身份识别装置，包括：

身份标记单元，被配置为对每个簇标记人员身份。

20.一种身份识别装置，包括：

21.根据权利要求20所述的装置，所述身份标记单元，被配置为如果增量数据集中的第一簇与存量数据集中的第二簇之间的距离小于距离阈值、且平均人脸相似度大于相似度阈值，将增量数据集中的第一簇相应的人员身份标记为存量数据集中的第二簇的人员身份；

或者，

22.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-17中任一项所述的身份识别方法的步骤。