CN106446797B

CN106446797B - 图像聚类方法及装置

Info

Publication number: CN106446797B
Application number: CN201610791647.XA
Authority: CN
Inventors: 李绍欣; 张亿皓; 于佳骏; 陈志博; 李季檩; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2019-05-07
Anticipated expiration: 2036-08-31
Also published as: CN106446797A

Abstract

本发明公开了一种聚类方法及装置，属于计算机领域。所述方法包括：从视频中获取N个目标人脸图像，N个目标人脸图像分别为N个不同人脸的图像，N为大于或等于1的自然数；分别提取N个目标人脸图像的图像特征，各个目标人脸图像的图像特征包括各个目标人脸图像的人脸特征和时空特征，各个目标人脸图像的时空特征用于指示各个目标人脸图像在视频中出现的时间和各个目标人脸图像在视频画面中的空间位置；基于N个目标人脸图像的图像特征，对N个目标人脸图像进行聚类，得到K个目标人脸图像集，K为大于或等于1且小于或等于N的自然数。本发明可以避免仅基于人脸特征进行聚类时的不准确性，从而提高该N个目标人脸图像的聚类准确度。

Description

图像聚类方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种图像聚类方法及装置。

背景技术

随着计算机技术的快速发展，智能手机、摄像机等具有拍摄功能的终端逐渐走入用户的生活中，用户可以通过这些终端进行拍摄得到视频，且为了便于分辨视频中出现的人物，往往需要对视频中包含的人脸图像进行身份标注。用户在对视频中包含的人脸图像进行身份标注时，可以先对视频中包含的多个人脸图像进行聚类，进而根据已聚类的多个人脸图像来进行身份标注，以提高标注效率。

目前，提供的图像聚类方法为：终端对视频中的多个人脸图像进行识别，得到该多个人脸图像的人脸特征，基于该多个人脸图像的人脸特征，对该多个人脸图像进行聚类，以将同一人脸图像聚合到同一图像集中。然而，由于视频中出现的人物通常较多，从而导致视频中包含的多个人脸图像的人脸特征可能较为相似，因此，基于人脸图像的人脸特征来对该多个人脸图像进行聚类的准确度较低。

发明内容

为了解决相关技术的问题，本发明实施例提供了一种图像聚类方法及装置。所述技术方案如下：

一方面，提供了一种图像聚类方法，所述方法包括：

从视频中获取N个目标人脸图像，所述N个目标人脸图像分别为N个不同人脸的图像，所述N为大于或等于1的自然数；

分别提取所述N个目标人脸图像的图像特征，各个目标人脸图像的图像特征包括所述各个目标人脸图像的人脸特征和时空特征，所述各个目标人脸图像的时空特征用于指示所述各个目标人脸图像在所述视频中出现的时间和所述各个目标人脸图像在视频画面中的空间位置；

基于所述N个目标人脸图像的图像特征，对所述N个目标人脸图像进行聚类，得到K个目标人脸图像集，所述K为大于或等于1且小于或等于所述N的自然数。

另一方面，提供了一种图像聚类装置，所述装置包括：

第一获取模块，用于从视频中获取N个目标人脸图像，所述N个目标人脸图像分别为N个不同人脸的图像，所述N为大于或等于1的自然数；

第二获取模块，用于分别提取所述N个目标人脸图像的图像特征，各个目标人脸图像的图像特征包括所述各个目标人脸图像的人脸特征和时空特征，所述各个目标人脸图像的时空特征用于指示所述各个目标人脸图像在所述视频中出现的时间和所述各个目标人脸图像在视频画面中的空间位置；

聚类模块，用于基于所述N个目标人脸图像的图像特征，对所述N个目标人脸图像进行聚类，得到K个目标人脸图像集，所述K为大于或等于1且小于或等于所述N的自然数。

本发明实施例提供的技术方案带来的有益效果是：在本发明实施例中，从视频中获取N个目标人脸图像，并分别提取该N个目标人脸图像的图像特征，之后，基于该N个目标人脸图像的图像特征，对该N个目标人脸图像进行聚类，得到K个目标人脸图像集，由于该目标人脸图像的图像特征包括目标人脸图像的人脸特征和时空特征，因此，即使在各个目标人脸图像的人脸特征较为相似的情况下，本发明实施例也可以以各个目标人脸图像的时空特征，也即是以各个目标人脸图像在该视频中出现的时间和该目标人脸图像在视频画面中的位置作为依据，来对该N个目标人脸图像进行准确聚类，从而可以避免仅基于人脸特征进行聚类时的不准确性，提高该N个目标人脸图像的聚类准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明实施例提供的一种图像聚类方法流程图；

图1B是本发明实施例提供的另一种图像聚类方法流程图；

图2A是本发明实施例提供的一种图像聚类装置结构示意图；

图2B是本发明实施例提供的一种第一获取模块结构示意图；

图2C是本发明实施例提供的一种聚类模块结构示意图；

图3是本发明实施例提供的另一种图像聚类装置结构示意图；

图4是本发明实施例提供的又一种图像聚类装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例的应用场景予以说明。为了便于用户分辨视频中出现的人物，往往需要对该视频中包含的人脸图像进行身份标注，且为了提高标注效率，在对该视频中包含的人脸图像进行身份标注之前，可以先对该视频中包含的人脸图像进行聚类，进而根据聚类得到的多个人脸图像集来完成身份标注。相关技术中，在进行图像聚类时，仅基于人脸图像的人脸特征来进行聚类，然而，当该视频中出现的人物较多时，该视频中包含的多个人脸图像的人脸特征可能较为相似，从而导致仅基于人脸图像的人脸特征来对该多个人脸图像进行聚类的准确度较低。因此，本发明实施例提供了一种图像聚类方法，来提高人脸图像的聚类准确度。

需要说明的是，本发明实施例提供的图像聚类方法可以应用于图像聚类装置中，该图像聚类装置可以为终端或者服务器，该终端可以是移动电话、计算机、消息收发设备、平板设备、个人数字助理等，该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群等，本发明实施例对此不做具体限定。

图1A是本发明实施例提供的一种图像聚类方法流程图。该方法用于图像聚类装置中，参见图1A，该方法包括：

步骤101：确定视频包括的每一帧图像中的动态区域。

需要说明的是，当需要对某一视频包含的人脸图像进行聚类时，可以先确定该视频包括的每一帧图像中的动态区域，以便后续可以基于该视频包括的每一帧图像的动态区域来对该视频进行人脸检测与跟踪。

具体地，确定视频包括的每一帧图像中的动态区域的操作可以包括如下步骤(1)-(2)：

(1)、对于该视频包括的每一帧图像，从该视频中获取与该帧图像相邻的上一帧图像，确定该帧图像中每个像素点的像素值与该上一帧图像中对应位置上的像素点的像素值之间的像素差，得到多个像素差。

其中，可以通过如下第一公式来确定该帧图像中每个像素点的像素值与该上一帧图像中对应位置上的像素点的像素值之间的像素差；

第一公式为：ΔI(x,y)＝|I_t(x,y)-I_t-1(x,y)|

需要说明的是，I_t为该帧图像，I_t-1为该上一帧图像，ΔI(x,y)为I_t中每个像素点的像素值与I_t-1中对应位置上的像素点的像素值之间的像素差，I_t(x,y)为I_t中每个像素点的像素值，I_t-1(x,y)为I_t-1中每个像素点的像素值，|I_t(x,y)-I_t-1(x,y)|为I_t(x,y)减去I_t-1(x,y)得到的数值的绝对值。

(2)、基于该多个像素差，确定该帧图像中的动态区域。

具体地，确定多个第一个数和多个第二个数，该多个第一个数中的每个第一个数为该多个像素差中每列大于或等于第一阈值的像素差的个数，该多个第二个数中的每个第二个数为该多个像素差中每行大于或等于第一阈值的像素差的个数；确定多个第一比例和多个第二比例，该多个第一比例为该多个第一个数分别与该多个像素差中大于或等于第一阈值的像素差的总个数之间的比例，该多个第二比例为该多个第二个数分别与该多个像素差中大于或等于第一阈值的像素差的总个数之间的比例；基于该多个第一比例，生成第一投影直方图，并确定该第一投影直方图的双侧α分位数，该α大于或等于0且小于1；基于该多个第二比例，生成第二投影直方图，并确定该第二投影直方图的双侧α分位数；将该第一投影直方图的双侧α分位数与该第二投影直方图的双侧α分位数组成的区域确定为该帧图像中的动态区域。

其中，可以通过如下第二公式来确定第一比例，通过如下第三公式来确定该第一投影直方图的双侧α分位数；通过如下第四公式来确定第二比例，通过如下第五公式来确定该第二投影直方图的双侧α分位数；

第二公式为：

第三公式为：

第四公式为：

第五公式为：

需要说明的是，H_X(x)为第一投影直方图，H_Y(y)为第二投影直方图，为第一个数，为第二个数，为该多个像素差中大于或等于σ₁的像素差的总个数，I(ΔI(x,y)≥σ₁)用于指示在ΔI(x,y)≥σ₁时I加1，σ₁为第一阈值，x1和x2为H_X(x)的双侧α分位数，y1和y2为H_Y(y)的双侧α分位数，此时该帧图像的动态区域为[x1,x2]×[y1,y2]。

另外，第一阈值可以预先设置，本发明实施例对此不做具体限定。α在实际应用中可以设置的比较小，以保证确定的动态区域的准确性，例如，α可以设置为0.02、0.05等，本发明实施例对此不做具体限定。

值得说明的是，本发明实施例可以通过像素差来快速而准确地确定该视频包括的每一帧图像中的动态区域，从而可以快速过滤掉该视频包括的大量无人脸图像的静态视频段，并快速定位可能存在人脸图像的动态区域，后续可以仅对该动态区域进行人脸检测，从而加快人脸检测速度。

步骤102：基于该视频包括的每一帧图像中的动态区域，对该视频进行人脸检测与跟踪，得到多个人脸跟踪片段。

具体地，对于该视频包括的每一帧图像，可以对该帧图像的动态区域进行人脸检测；当在该帧图像的动态区域检测到人脸图像时，对检测到的人脸图像进行识别，得到该帧图像包含的人脸图像的人脸特征；获取与该帧图像相邻的上一帧图像包含的人脸图像的人脸特征；当该帧图像包含的人脸图像的人脸特征与该上一帧图像包含的人脸图像的人脸特征之间的距离小于第一指定距离时，将该帧图像与该上一帧图像组成一个人脸跟踪片段，或者，将该帧图像中包含有人脸图像的区域图像与该上一帧图像中包含有人脸图像的区域图像组成一个人脸跟踪片段。当然，实际应用中，也可以通过其它方式来基于该视频包括的每一帧图像中的动态区域，对该视频进行人脸检测与跟踪，得到多个人脸跟踪片段，本发明实施例对此不做具体限定。

需要说明的是，第一指定距离可以预先设置，本发明实施例对此不做具体限定。

其中，对该帧图像的动态区域进行人脸检测时，可以通过参考模板法、人脸规则法、样品学习法、肤色模型法、特征子脸法等来对该帧图像的动态区域进行人脸检测，本发明实施例对此不做具体限定。

其中，对检测到的人脸图像进行识别时，可以通过主成分分析法、线性判别分析法等来对检测到的人脸图像进行识别，本发明实施例对此不做具体限定。

其中，该帧图像包含的人脸图像的人脸特征与该上一帧图像包含的人脸图像的人脸特征之间的距离可以为该帧图像包含的人脸图像的人脸特征与该上一帧图像包含的人脸图像的人脸特征之间的欧式距离、马氏距离等，本发明实施例对此不做具体限定。

值得说明的是，本发明实施例在获取人脸跟踪片段时，可以仅对该视频包括的每一帧图像中的动态区域进行人脸检测，从而加快人脸检测速度，进而加快人脸跟踪片段的获取速度，且由于无需对该视频包括的每一帧图像的所有区域进行人脸检测，因此，可以大大节省处理资源。

步骤103：将该多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段，以得到N个人脸跟踪片段，该N为大于或等于1的自然数。

其中，将该多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段的过程，也即是对该多个人脸跟踪片段进行断点重连的过程，具体地，对于该多个人脸跟踪片段中的每个人脸跟踪片段，当该人脸跟踪片段的最后一张图像的拍摄时间小于目标人脸跟踪片段的第一张图像的拍摄时间，且该人脸跟踪片段的最后一张图像的拍摄时间与该目标人脸跟踪片段的第一张图像的拍摄时间之差小于第二阈值，且该人脸跟踪片段的最后一张图像的人脸位置与该目标人脸跟踪片段的第一张图像的人脸位置之间的距离小于第三阈值时，将该人脸跟踪片段与该目标人脸跟踪片段合并为一个人脸跟踪片段，该目标人脸跟踪片段为该多个人脸跟踪片段中除该人脸跟踪片段之外的人脸跟踪片段。

需要说明的是，第二阈值和第三阈值均可以预先设置，本发明实施例对此不做具体限定。

另外，人脸跟踪片段可以由R来进行表示，该R＝{(x_i,y_i,t_i)|t_i＞t_i-1，i＝1,2,3,…,M}，其中，x_i和y_i为人脸跟踪片段R中每张图像的人脸位置，ti为该人脸跟踪片段R中每张图像的拍摄时间，M为大于或等于1的自然数。此时上述对该多个人脸跟踪片段进行断点重连的操作可以为：当该人脸跟踪片段与该目标人脸跟踪片段满足如下第六公式时，将该人脸跟踪片段与该目标人脸跟踪片段合并为一个人脸跟踪片段；

第六公式为：

P.t_M＜Q.t₁且|Q.t₁-P.t_M|＜σ₂且

需要说明的是，P为该人脸跟踪片段，Q为目标人脸跟踪片段，P.t_M为该P的最后一张图像的拍摄时间，Q.t₁为该Q的第一张图像的拍摄时间，为该P的最后一张图像的人脸位置与该Q的第一张图像的人脸位置之间的距离，Q.x₁和Q.y₁为该Q的第一张图像的人脸位置，P.x_M和P.y_M为该P的最后一张图像的人脸位置，σ₂为第二阈值，σ₃为第三阈值。

由于当该人脸跟踪片段与该目标人脸跟踪片段满足第六公式时，表明该人脸跟踪片段的最后一张图像包含的人脸图像与该目标人脸跟踪片段的第一张图像包含的人脸图像在时间上连续且在位置上邻近，因此，此时可以确定该人脸跟踪片段与该目标人脸跟踪片段中包含有同一人脸图像，则可以将该人脸跟踪片段与该目标人脸跟踪片段合并为一个人脸跟踪片段。

步骤104：将该N个人脸跟踪片段中每个人脸跟踪片段包含的人脸图像确定为目标人脸图像。

具体地，对于该N个人脸跟踪片段中的每个人脸跟踪片段，可以获取该人脸跟踪片段中的任一张图像包含的人脸图像，将该获取的人脸图像确定为目标人脸图像。

由于每个人脸跟踪片段中的每张图像包含的人脸图像相同，因此，该人脸跟踪片段中的任一张图像均能够较好地表征该人脸跟踪片段包含的人脸图像，所以此时可以将该获取的人脸图像确定为目标人脸图像。

进一步地，为了避免从该人脸跟踪片段中的任一张图像中获取的人脸图像出现模糊不清的现象，在获取该人脸跟踪片段包含的人脸图像之前，还可以对该人脸跟踪片段中的模糊图像进行去除，从而提高该人脸跟踪片段的图像质量，进而保证后续获取的人脸图像的质量。

需要说明的是，本发明实施例可以通过上述步骤101-104来从该视频中获取N个目标人脸图像，此时由于该N个目标人脸图像是从该N个人脸跟踪片段中分别获取得到的，因此，相比于相关技术中直接从该视频中获取多个人脸图像来进行聚类的方式，本发明实施例可以大大减少需要进行聚类的人脸图像数量，进而可以大大减少后续聚类操作所需的处理资源。

当然，实际应用中，也可以通过除上述步骤101-104所述方式之外的其它方式来从该视频中获取N个目标人脸图像，本发明实施例对此不做具体限定。其中，该N个目标人脸图像分别为N个不同人脸的图像。另外，在获取该N个目标人脸图像后，还可以通过如下步骤105-106来对该N个目标人脸图像进行聚类。

步骤105：分别提取该N个目标人脸图像的图像特征。

需要说明的是，各个目标人脸图像的图像特征包括该各个目标人脸图像的人脸特征和时空特征，该各个目标人脸图像的时空特征用于指示该各个目标人脸图像在该视频中出现的时间和该各个目标人脸图像在视频画面中的空间位置。

另外，该N个目标人脸图像的图像特征可以表示为F_j，该F_j＝(x_j,y_j,t_j,f_j)|j＝1,2,3,…,N，其中，f_j为目标人脸图像的人脸特征，x_j、y_j和t_j为目标人脸图像的时空特征，x_j和y_j为目标人脸图像在视频画面中的空间位置，t_j为目标人脸图像在视频中出现的时间。

其中，分别提取N个目标人脸图像的人脸特征时，对于该N个目标人脸图像中的每个目标人脸图像，可以通过第一深度学习网络来提取该目标人脸图像的人脸特征，此时提取的人脸特征具有更为丰富的内在信息，提取的人脸特征更为准确，当然，实际应用中，也可以通过其它方式来提取该目标人脸图像的人脸特征，本发明实施例对此不做具体限定。

需要说明的是，第一深度学习网络用于提取人脸特征，且该第一深度学习网络可以预先设置，如该第一深度学习网络可以为CNN(Convolutional Neural Network，卷积神经网络)等，本发明实施例对此不做具体限定。

步骤106：基于该N个目标人脸图像的图像特征，对该N个目标人脸图像进行聚类，得到K个目标人脸图像集，该K为大于或等于1且小于或等于N的自然数。

具体地，基于该N个目标人脸图像的图像特征，对该N个目标人脸图像进行聚类的操作可以包括如下步骤(1)-(5)：

(1)、基于该N个目标人脸图像的图像特征，确定K个聚类特征，该K个聚类特征中的每个聚类特征包括人脸特征和时空特征。

具体地，可以从该N个目标人脸图像的图像特征中选取K个图像特征，将选取的K个图像特征确定为K个聚类特征，或者，可以基于该N个目标人脸图像的图像特征，通过层次聚类算法或Canopy算法进行对该N个目标人脸图像进行初始聚类，得到多个类簇，从该多个类簇中选取K个类簇，将选取的K个类簇的中心特征作为该K个聚类特征，当然，实际应用中，也可以通过其它方式基于该N个目标人脸图像的图像特征，确定K个聚类特征，本发明实施例对此不做具体限定。

需要说明的是，层次聚类算法可以为BIRCH(Balanced Iterative Reducing andClustering using Hierarchies，使用层次结构的平衡迭代减少和聚类)、ROCK(RObustClustering using linKs，使用链接的鲁棒聚类)等，本发明实施例对此不做具体限定。

另外，该K个聚类特征可以表示为Z_s，该Z_s＝(f_s,T_s)|s＝1,2,3,…,K，其中，f_s为人脸特征，T_s为时空特征。

(2)、将该N个目标人脸图像，以该K个聚类特征为聚类中心进行聚类，得到K个图像集。

具体地，对于该N个目标人脸图像中的每个目标人脸图像，分别确定该目标人脸图像的图像特征与该K个聚类特征之间的距离，将该目标人脸图像聚合到以目标聚类特征为聚类中心的图像集中，该目标聚类特征为该K个聚类特征中与该目标人脸图像的图像特征之间的距离最小的聚类特征。

由于当目标聚类特征为该K个聚类特征中与该目标人脸图像的图像特征之间的距离最小的聚类特征时，该目标聚类特征即是该K个聚类特征中与该目标人脸图像的图像特征最相似的聚类特征，因此，此时可以将该目标人脸图像聚合到以该目标聚类特征为聚类中心的图像集中，以实现对该目标人脸图像的聚类。

其中，分别确定该目标人脸图像的图像特征与该K个聚类特征之间的距离时，对于该K个聚类特征中的每个聚类特征，可以确定该目标人脸图像的人脸特征与该聚类特征包括的人脸特征之间的距离，得到第一距离；确定该目标人脸图像的时空特征与该聚类特征包括的时空特征之间的距离，得到第二距离；将该第一距离与指定数值倍的该第二距离相加，得到该目标人脸图像的图像特征与该聚类特征之间的距离。

需要说明的是，指定数值可以预先设置，本发明实施例对此不做具体限定。

其中，确定该目标人脸图像的时空特征与该聚类特征包括的时空特征之间的距离时，如果该聚类特征包括的时空特征的个数为0，则确定该目标人脸图像的时空特征与该聚类特征包括的时空特征之间的距离为0，如果该聚类特征包括的时空特征的个数为1，则将该目标人脸图像的时空特征与该聚类特征包括的这一个时空特征之间的距离确定为该目标人脸图像的时空特征与该聚类特征包括的时空特征之间的距离，如果该聚类特征包括的时空特征的个数大于1，则分别确定该目标人脸图像的时空特征与该聚类特征包括的每个时空特征之间的距离，得到至少两个第三距离，从该至少两个第三距离中选择大于0的第三距离，将选择的第三距离中的最小距离确定为该目标人脸图像的时空特征与该聚类特征包括的时空特征之间的距离。

其中，可以通过如下第七公式来确定该目标人脸图像的图像特征与该聚类特征之间的距离；

第七公式为：D(F_j,Z_s)＝D_f(F_j,Z_s)+β·D_T(F_j,Z_s)

其中，D_f(F_j,Z_s)＝||f_j-f_s||；

需要说明的是，D(F_j,Z_s)为该目标人脸图像的图像特征与该聚类特征之间的距离，D_f(F_j,Z_s)为该目标人脸图像的人脸特征与该聚类特征包括的人脸特征之间的距离，即第一距离，D_T(F_j,Z_s)为该目标人脸图像的时空特征与该聚类特征包括的时空特征之间的距离，即第二距离，β为指定数值，|T_s|为T_s中包括的时空特征的个数。

其中，对于该聚类特征包括的任意一个时空特征，确定该时空特征与该目标人脸图像的时空特征之间的距离的操作可以为：确定该时空特征包括的空间位置与该目标人脸图像的时空特征包括的空间位置之间的距离；确定该时空特征包括的时间与该目标人脸图像的时空特征包括的时间之差；将该时空特征包括的空间位置与该目标人脸图像的时空特征包括的空间位置之间的距离与γ倍的该时空特征包括的时间与该目标人脸图像的时空特征包括的时间之差相加，或者将δ倍的该时空特征包括的空间位置与该目标人脸图像的时空特征包括的空间位置之间的距离与该时空特征包括的时间与该目标人脸图像的时空特征包括的时间之差相加，或者将ε倍的该时空特征包括的空间位置与该目标人脸图像的时空特征包括的空间位置之间的距离与θ倍的该时空特征包括的时间与该目标人脸图像的时空特征包括的时间之差相加，得到该时空特征与该目标人脸图像的时空特征之间的距离。

需要说明的是，γ、δ、ε和θ均可以预先设置，本发明实施例对此不做具体限定。

(3)、确定该K个图像集的聚类特征。

具体地，当该N个目标人脸图像是从N个人脸跟踪片段中分别获取得到时，对于该K个图像集中的每个图像集，将该图像集包括的每个目标人脸图像的人脸特征与该目标人脸图像所属的人脸跟踪片段的播放时长相乘得到的数值进行累加，得到第一数值；将该图像集包括的每个目标人脸图像所属的人脸跟踪片段的播放时长进行累加，得到第二数值；将该第一数值除以该第二数值，得到该图像集的人脸特征；将该图像集的人脸特征和该图像集包括的目标人脸图像的时空特征确定为该图像集的聚类特征。

其中，可以通过第八公式来确定该K个图像集的聚类特征；

第八公式为：

需要说明的是，L_s为该目标人脸图像所属的人脸跟踪片段的播放时长，为第一数值，为第二数值。

值得说明的是，本发明实施例在确定K个图像集的聚类特征时，采用加权方式来进行确定，即将人脸跟踪片段的长度作为权重来确定该K个图像集的聚类特征，从而提高了确定K个图像集的聚类特征时的准确度，进而可以提高后续基于该K个图像集的聚类特征对该N个目标人脸图像进行聚类时的准确度。

(4)、判断该K个图像集的聚类特征中是否存在未收敛的聚类特征。

具体地，对于该K个图像集的聚类特征中每个图像集的聚类特征，如果该K个聚类特征中存在与该图像集的聚类特征相同的聚类特征，则确定该图像集的聚类特征收敛，如果该K个聚类特征中不存在与该图像集的聚类特征相同的聚类特征，则确定该图像集的聚类特征未收敛。

(5)、当该K个图像集的聚类特征中存在未收敛的聚类特征时，将该K个聚类特征设置为该K个图像集的聚类特征，并返回步骤(2)，直至该K个图像集的聚类特征均收敛为止，将以该均收敛的K个图像集的聚类特征为聚类中心进行聚类得到的K个图像集确定为该K个目标人脸图像集。

由于当该K个图像集的聚类特征均收敛时，表明此次聚类操作的聚类特征将不再发生变化，也即是，此时此次聚类操作的聚类结果将不再发生变化，因此，可以将以该均收敛的K个图像集的聚类特征为聚类中心进行聚类得到的K个图像集确定为该K个目标人脸图像集，以得到该N个目标人脸图像的聚类结果。

值得说明的是，在得到该均收敛的K个图像集的聚类特征后，后续如果需要对某一视频包含的人脸图像进行聚类，则可以直接以该均收敛的K个图像集的聚类特征为聚类中心进行聚类，从而可以提高该人脸图像的聚类速度以及聚类准确度。

需要说明的是，上述步骤106中的步骤(1)-(5)中基于该N个目标人脸图像的图像特征，对该N个目标人脸图像进行聚类的操作在实际应用中可以根据K均值(k-means)算法实现，本发明实施例对此不做具体限定。另外，相比于相关技术中仅基于人脸特征进行聚类的方式，本发明实施例基于人脸特征和时空特征来进行聚类，可以大大提高聚类准确度。

另外，在对该N个目标人脸图像进行聚类，得到K个目标人脸图像集之后，还可以基于该K个目标人脸图像集完成对该视频中包含的人脸图像的身份标注，从而便于用户分辨该视频中出现的人物。且由于该N个目标人脸图像的聚类准确度较高，也即是，该K个目标人脸图像集的集合质量较高，因此，可以降低后续进行身份标注时的难度，节省后续进行身份标注时的时间。

具体地，将基于该K个目标人脸图像集完成对该视频中包含的人脸图像的身份标注的过程分为如下三个方面进行说明：

一方面，为了提高标注效率，在得到该K个目标人脸图像集之后，可以直接对该K个目标人脸图像集进行身份标注，具体地，对于该K个目标人脸图像集中的每个目标人脸图像集，当接收到针对该目标人脸图像集的标注指令时，基于该标注指令中携带的身份信息，对该目标人脸图像集进行标注。

需要说明的是，标注指令用于对该目标人脸图像集进行标注，且该标注指令可以由用户触发，该用户可以通过指定操作触发，该指定操作可以为单击操作、双击操作、语音操作等，本发明实施例对此不做具体限定。

另一方面，为了提高标注准确度，在得到该K个目标人脸图像集之后，可以先对该K个目标人脸图像集中的每个目标人脸图像集进行聚类提纯，再对该已经过聚类提纯的K个目标人脸图像集进行身份标注。

其中，该聚类提纯是指将该每个目标人脸图像集中彼此较为相似的目标人脸图像保留，将该每个目标人脸图像集中与其它目标人脸图像均具有较大差异的目标人脸图像去除，以提高该K个目标人脸图像集的集合质量，具体地，对于该K个目标人脸图像集中每个目标人脸图像集中的每个目标人脸图像，可以当接收到针对该目标人脸图像的删除指令时，将该目标人脸图像从该目标人脸图像集中删除。

需要说明的是，删除指令用于指示对该目标人脸图像进行删除，且该删除指令可以由用户触发，用户可以通过指定操作触发，本发明实施例对此不做具体限定。

再一方面，为了进一步地提高标注准确度，在得到该K个目标人脸图像集之后，可以先对该K个目标人脸图像集中的每个目标人脸图像集进行聚类提纯，再对该已进行聚类提纯的K个目标人脸图像集进行聚类合并，得到V个目标人脸图像集，之后，对该V个目标人脸图像集进行身份标注，该V为大于或等于1且小于或等于K的自然数。

其中，该聚类合并是指将该已进行聚类提纯的K个目标人脸图像集中具有同一人脸图像的目标人脸图像集合并为一个目标人脸图像集，具体地，对于该已进行聚类提纯的K个目标人脸图像集中的第一目标人脸图像集和第二目标人脸图像集，当第一目标人脸图像集的聚类特征与第二目标人脸图像集的聚类特征之间的距离小于第二指定距离，且第一目标人脸图像集中的第一目标人脸图像的拍摄时间小于目标人脸跟踪片段的第二目标人脸图像的拍摄时间，且第一目标人脸图像的拍摄时间与第二目标人脸图像的拍摄时间之差小于第二阈值，且该第一目标人脸图像的人脸位置与该第二目标人脸图像的人脸位置之间的距离小于第三阈值时，将该第一目标人脸图像集与该第二目标人脸图像集合并为一个目标人脸图像集。

需要说明的是，第一目标人脸图像集为已进行聚类提纯的K个目标人脸图像集中的任一目标人脸图像集，第一目标人脸图像为该第一目标人脸图像集中的任一目标人脸图像。第二目标人脸图像集为已进行聚类提纯的K个目标人脸图像集中除第一目标人脸图像集之外的任一目标人脸图像集，第二目标人脸图像为该第二目标人脸图像集中的任一目标人脸图像。另外，第二指定距离可以预先设置，本发明实施例对此不做具体限定。

由于本发明实施例是基于该N个目标人脸图像的图像特征，对该N个目标人脸图像进行聚类，此时该N个目标人脸图像的图像特征对聚类结果有较大影响，因此，为了提高后续对某一视频包含的人脸图像进行聚类时的准确度，可以当步骤104中的该N个目标人脸图像的人脸特征是基于第一深度学习网络确定得到时，使用该K个目标人脸图像集、该已经过聚类提纯的K个目标人脸图像集、该V个目标人脸图像集或最后已经过标注的目标人脸图像集来对该第一深度学习网络进行训练，得到第二深度学习网络，再用该第二深度学习网络对第一深度学习网络进行替换，从而当后续再次使用该图像聚类方法对人脸图像进行聚类时，可以通过该第二深度学习网络提取到更为准确地人脸特征，进而得到更为准确地聚类结果。

值得说明的是，当该第二深度学习网络是由已经过标注的目标人脸图像集训练得到时，后续如果需要对某一视频包含的人脸图像进行身份标注，则可以直接将从该视频中获取的人脸图像直接输入到该第二深度学习网络中，此时该第二深度学习网络将可以直接输出该人脸图像的身份标注，从而可以提高标注速度。

进一步地，结合图1B来对本发明实施例提供的图像聚类方法的整体流程进行说明。参见图1B，该整体流程包括如下步骤110-190。

在步骤110中，对视频进行动态区域检测，也即是，确定该视频包括的每一帧图像中的动态区域；在步骤120中，基于该视频包括的每一帧图像中的动态区域，对该视频进行人脸检测与跟踪，得到多个人脸跟踪片段；在步骤130中，对该多个人脸跟踪片段进行断点重连，也即是，将该多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段，以得到N个人脸跟踪片段；在步骤140中，去除该N个人脸跟踪片段中的模糊图像；在步骤150中，分别从该N个人脸跟踪片段中获取N个目标人脸图像；在步骤160中，对该N个目标人脸图像进行聚类，得到K个目标人脸图像集；在步骤170中，对该K个目标人脸图像集中的每个目标人脸图像集进行聚类提纯；在步骤180中，对该已进行聚类提纯的K个目标人脸图像集进行聚类合并，得到V个目标人脸图像集；在步骤190中，对该V个目标人脸图像集进行身份标注。

其中，上述步骤110-190中，步骤110、120、130、140、150、160和180均为自动流程，也即是，此时图像聚类装置可以在无需用户参与的情况下自动实现步骤110、120、130、140、150、160和180中的操作；步骤170和190均为人工流程，也即是，此时图像聚类装置可以基于用户触发的相关指令来实现步骤170和步骤180中的操作。

需要说明的是，上述步骤110-190中的操作均已在上述步骤101-106中进行具体说明，本发明实施例对此不再赘述。

在本发明实施例中，从视频中获取N个目标人脸图像，并分别提取该N个目标人脸图像的图像特征，之后，基于该N个目标人脸图像的图像特征，对该N个目标人脸图像进行聚类，得到K个目标人脸图像集，由于该目标人脸图像的图像特征包括目标人脸图像的人脸特征和时空特征，因此，即使在各个目标人脸图像的人脸特征较为相似的情况下，本发明实施例也可以以各个目标人脸图像的时空特征，也即是以各个目标人脸图像在该视频中出现的时间和该目标人脸图像在视频画面中的位置作为依据，来对该N个目标人脸图像进行准确聚类，从而可以避免仅基于人脸特征进行聚类时的不准确性，提高该N个目标人脸图像的聚类准确度。

参见图2A，本发明实施例提供了一种图像聚类装置，该装置包括第一获取模块201，第二获取模块202和聚类模块203。

第一获取模块201，用于从视频中获取N个目标人脸图像，N个目标人脸图像分别为N个不同人脸的图像，N为大于或等于1的自然数；

第二获取模块202，用于分别提取N个目标人脸图像的图像特征，各个目标人脸图像的图像特征包括各个目标人脸图像的人脸特征和时空特征，各个目标人脸图像的时空特征用于指示各个目标人脸图像在视频中出现的时间和各个目标人脸图像在视频画面中的空间位置；

聚类模块203，用于基于N个目标人脸图像的图像特征，对N个目标人脸图像进行聚类，得到K个目标人脸图像集，K为大于或等于1且小于或等于N的自然数。

可选地，参见图2B，该第一获取模块201包括：

第一确定单元2011，用于确定视频包括的每一帧图像中的动态区域；

跟踪单元2012，用于基于视频包括的每一帧图像中的动态区域，对视频进行人脸检测与跟踪，得到多个人脸跟踪片段；

合并单元2013，用于将多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段，以得到N个人脸跟踪片段；

第二确定单元2014，用于将N个人脸跟踪片段中每个人脸跟踪片段包含的人脸图像确定为目标人脸图像。

可选地，该第一确定单元2011包括：

获取子单元，用于对于视频包括的每一帧图像，从视频中获取与帧图像相邻的上一帧图像；

第一确定子单元，用于确定帧图像中每个像素点的像素值与上一帧图像中对应位置上的像素点的像素值之间的像素差，得到多个像素差；

第二确定子单元，用于基于多个像素差，确定帧图像中的动态区域。

可选地，该第二确定子单元用于：

确定多个第一个数和多个第二个数，多个第一个数中的每个第一个数为多个像素差中每列大于或等于第一阈值的像素差的个数，多个第二个数中的每个第二个数为多个像素差中每行大于或等于第一阈值的像素差的个数；

确定多个第一比例和多个第二比例，多个第一比例为多个第一个数分别与多个像素差中大于或等于第一阈值的像素差的总个数之间的比例，多个第二比例为多个第二个数分别与多个像素差中大于或等于第一阈值的像素差的总个数之间的比例；

基于多个第一比例，生成第一投影直方图，并确定第一投影直方图的双侧α分位数，α大于或等于0且小于1；

基于多个第二比例，生成第二投影直方图，并确定第二投影直方图的双侧α分位数；

将第一投影直方图的双侧α分位数与第二投影直方图的双侧α分位数组成的区域确定为帧图像中的动态区域。

可选地，参见图2C，该聚类模块203包括：

第三确定单元2031，用于基于N个目标人脸图像的图像特征，确定K个聚类特征，K个聚类特征中的每个聚类特征包括人脸特征和时空特征；

聚类单元2032，用于将N个目标人脸图像，以K个聚类特征为聚类中心进行聚类，得到K个图像集；

第四确定单元2033，用于确定K个图像集的聚类特征；

判断单元2034，用于判断K个图像集的聚类特征中是否存在未收敛的聚类特征；

触发单元2035，用于当K个图像集的聚类特征中存在未收敛的聚类特征时，将K个聚类特征设置为K个图像集的聚类特征，并触发聚类单元2032将N个目标人脸图像，以K个聚类特征为聚类中心进行聚类，得到K个图像集，直至K个图像集的聚类特征均收敛为止；

第五确定单元2036，用于将以均收敛的K个图像集的聚类特征为聚类中心进行聚类得到的K个图像集确定为K个目标人脸图像集。

可选地，该聚类单元2032包括：

第三确定子单元，用于对于N个目标人脸图像中的每个目标人脸图像，分别确定目标人脸图像的图像特征与K个聚类特征之间的距离；

聚合子单元，用于将目标人脸图像聚合到以目标聚类特征为聚类中心的图像集中，目标聚类特征为K个聚类特征中与目标人脸图像的图像特征之间的距离最小的聚类特征。

可选地，该第三确定子单元用于：

对于K个聚类特征中的每个聚类特征，确定目标人脸图像的人脸特征与聚类特征包括的人脸特征之间的距离，得到第一距离；

确定目标人脸图像的时空特征与聚类特征包括的时空特征之间的距离，得到第二距离；

将第一距离与指定数值倍的第二距离相加，得到目标人脸图像的图像特征与聚类特征之间的距离。

可选地，该第四确定单元2033包括：

第一计算子单元，用于当N个目标人脸图像是从N个人脸跟踪片段中分别获取得到时，对于K个图像集中的每个图像集，将图像集包括的每个目标人脸图像的人脸特征与目标人脸图像所属的人脸跟踪片段的播放时长相乘得到的数值进行累加，得到第一数值；

第二计算子单元，用于将图像集包括的每个目标人脸图像所属的人脸跟踪片段的播放时长进行累加，得到第二数值；

第三计算子单元，用于将第一数值除以第二数值，得到图像集的人脸特征；

第四确定子单元，用于将图像集的人脸特征和图像集包括的目标人脸图像的时空特征确定为图像集的聚类特征。

需要说明的是：上述实施例提供的图像聚类装置在图像聚类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像聚类装置与图像聚类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述提到本发明实施例的执行主体为图像聚类装置，且该图像聚类装置可以为服务器，也可以为终端。下面针对这两种情况分别进行说明。

当该图像聚类装置为服务器时，图3是本发明实施例提供的一种用于图像聚类的服务器结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器300包括中央处理单元(CPU)301、包括随机存取存储器(RAM)302和只读存储器(ROM)303的系统存储器304，以及连接系统存储器304和中央处理单元301的系统总线305。服务器300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)306，和用于存储操作系统313、应用程序314和其他程序模块315的大容量存储设备307。

基本输入/输出系统306包括有用于显示信息的显示器308和用于用户输入信息的诸如鼠标、键盘之类的输入设备309。其中显示器308和输入设备309都通过连接到系统总线305的输入输出控制器310连接到中央处理单元301。基本输入/输出系统306还可以包括输入输出控制器310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器310还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备307通过连接到系统总线305的大容量存储控制器(未示出)连接到中央处理单元301。大容量存储设备307及其相关联的计算机可读介质为服务器300提供非易失性存储。也就是说，大容量存储设备307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器304和大容量存储设备307可以统称为存储器。

根据本发明的各种实施例，服务器300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器300可以通过连接在系统总线305上的网络接口单元311连接到网络312，或者说，也可以使用网络接口单元311来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的如图1A所示的图像聚类方法的指令。

当该图像获取装置为终端时，图4是本发明实施例提供的一种用于图像聚类的终端结构示意图。参见图4，终端400可以包括通信单元410、包括有一个或一个以上计算机可读存储介质的存储器420、输入单元430、显示单元440、传感器450、音频电路460、WIFI(Wireless Fidelity，无线保真)模块470、包括有一个或者一个以上处理核心的处理器480、以及电源490等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

通信单元410可用于收发信息或通话过程中，信号的接收和发送，该通信单元410可以为RF(Radio Frequency，射频)电路、路由器、调制解调器、等网络通信设备。特别地，当通信单元410为RF电路时，将基站的下行信息接收后，交由一个或者一个以上处理器480处理；另外，将涉及上行的数据发送给基站。通常，作为通信单元的RF电路包括但不限于天线、K个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoise Amplifier，低噪声放大器)、双工器等。此外，通信单元410还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General PacketRadio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access，宽带码分多址)、LTE(Long TermEvolution，长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、K个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如K个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器480和输入单元430对存储器420的访问。

输入单元430可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地，输入单元430可包括触敏表面431以及其他输入设备432。触敏表面431，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面431上或在触敏表面431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面431。除了触敏表面431，输入单元430还可以包括其他输入设备432。优选地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及终端400的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元440可包括显示面板441，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板441。进一步的，触敏表面431可覆盖显示面板441，当触敏表面431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中，触敏表面431与显示面板441是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面431与显示面板441集成而实现输入和输出功能。

终端400还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在终端400移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与终端400之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经通信单元410以发送给比如另一终端，或者将音频数据输出至存储器420以便进一步处理。音频电路460还可能包括耳塞插孔，以提供外设耳机与终端400的通信。

为了实现无线通信，该终端上可以配置有无线通信单元470，该无线通信单元470可以为WIFI模块。WIFI属于短距离无线传输技术，终端400通过无线通信单元470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元470，但是可以理解的是，其并不属于终端400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是终端400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行终端400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理核心；优选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

终端400还包括给各个部件供电的电源490(比如电池)，优选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源460还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端400还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，终端还包括有一个或者一个以上的程序，这一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，所述一个或者一个以上程序包含用于进行本发明实施例提供的如图1A所示的图像聚类方法的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像聚类方法，其特征在于，所述方法包括：

确定视频包括的每一帧图像中的动态区域；

基于所述视频包括的每一帧图像中的动态区域，对所述视频进行人脸检测与跟踪，得到多个人脸跟踪片段；

将所述多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段，以得到N个人脸跟踪片段；

将所述N个人脸跟踪片段中每个人脸跟踪片段包含的人脸图像确定为目标人脸图像，以得到N个目标人脸图像，所述N个目标人脸图像分别为N个不同人脸的图像，所述N为大于或等于1的自然数；

基于所述N个目标人脸图像的图像特征，对所述N个目标人脸图像进行聚类，得到K个目标人脸图像集，所述K为大于或等于1且小于或等于所述N的自然数；

其中，所述确定视频包括的每一帧图像中的动态区域，包括：

对于所述视频包括的每一帧图像，从所述视频中获取与所述帧图像相邻的上一帧图像；

确定所述帧图像中每个像素点的像素值与所述上一帧图像中对应位置上的像素点的像素值之间的像素差，得到多个像素差；

确定多个第一个数和多个第二个数，所述多个第一个数中的每个第一个数为所述多个像素差中每列大于或等于第一阈值的像素差的个数，所述多个第二个数中的每个第二个数为所述多个像素差中每行大于或等于所述第一阈值的像素差的个数；

确定多个第一比例和多个第二比例，所述多个第一比例为所述多个第一个数分别与所述多个像素差中大于或等于所述第一阈值的像素差的总个数之间的比例，所述多个第二比例为所述多个第二个数分别与所述多个像素差中大于或等于所述第一阈值的像素差的总个数之间的比例；

基于所述多个第一比例，生成第一投影直方图，并确定所述第一投影直方图的双侧α分位数，所述α大于或等于0且小于1；

基于所述多个第二比例，生成第二投影直方图，并确定所述第二投影直方图的双侧α分位数；

将所述第一投影直方图的双侧α分位数与所述第二投影直方图的双侧α分位数组成的区域确定为所述帧图像中的动态区域。

2.如权利要求1所述的方法，其特征在于，所述基于所述N个目标人脸图像的图像特征，对所述N个目标人脸图像进行聚类，得到K个目标人脸图像集，包括：

基于所述N个目标人脸图像的图像特征，确定K个聚类特征，所述K个聚类特征中的每个聚类特征包括人脸特征和时空特征；

将所述N个目标人脸图像，以所述K个聚类特征为聚类中心进行聚类，得到K个图像集；

确定所述K个图像集的聚类特征；

判断所述K个图像集的聚类特征中是否存在未收敛的聚类特征；

当所述K个图像集的聚类特征中存在未收敛的聚类特征时，将所述K个聚类特征设置为所述K个图像集的聚类特征，并返回所述将所述N个目标人脸图像，以所述K个聚类特征为聚类中心进行聚类，得到K个图像集的步骤，直至所述K个图像集的聚类特征均收敛为止；

将以所述均收敛的K个图像集的聚类特征为聚类中心进行聚类得到的K个图像集确定为所述K个目标人脸图像集。

3.如权利要求2所述的方法，其特征在于，所述将所述N个目标人脸图像，以所述K个聚类特征为聚类中心进行聚类，得到K个图像集，包括：

对于所述N个目标人脸图像中的每个目标人脸图像，分别确定所述目标人脸图像的图像特征与所述K个聚类特征之间的距离；

将所述目标人脸图像聚合到以目标聚类特征为聚类中心的图像集中，所述目标聚类特征为所述K个聚类特征中与所述目标人脸图像的图像特征之间的距离最小的聚类特征。

4.如权利要求3所述的方法，其特征在于，所述分别确定所述目标人脸图像的图像特征与所述K个聚类特征之间的距离，包括：

对于所述K个聚类特征中的每个聚类特征，确定所述目标人脸图像的人脸特征与所述聚类特征包括的人脸特征之间的距离，得到第一距离；

确定所述目标人脸图像的时空特征与所述聚类特征包括的时空特征之间的距离，得到第二距离；

将所述第一距离与指定数值倍的所述第二距离相加，得到所述目标人脸图像的图像特征与所述聚类特征之间的距离。

5.如权利要求2所述的方法，其特征在于，所述确定所述K个图像集的聚类特征，包括：

当所述N个目标人脸图像是从N个人脸跟踪片段中分别获取得到时，对于所述K个图像集中的每个图像集，将所述图像集包括的每个目标人脸图像的人脸特征与所述目标人脸图像所属的人脸跟踪片段的播放时长相乘得到的数值进行累加，得到第一数值；

将所述图像集包括的每个目标人脸图像所属的人脸跟踪片段的播放时长进行累加，得到第二数值；

将所述第一数值除以所述第二数值，得到所述图像集的人脸特征；

将所述图像集的人脸特征和所述图像集包括的目标人脸图像的时空特征确定为所述图像集的聚类特征。

6.一种图像聚类装置，其特征在于，所述装置包括：

聚类模块，用于基于所述N个目标人脸图像的图像特征，对所述N个目标人脸图像进行聚类，得到K个目标人脸图像集，所述K为大于或等于1且小于或等于所述N的自然数；

其中，所述第一获取模块包括：

第一确定单元，用于确定所述视频包括的每一帧图像中的动态区域；

跟踪单元，用于基于所述视频包括的每一帧图像中的动态区域，对所述视频进行人脸检测与跟踪，得到多个人脸跟踪片段；

合并单元，用于将所述多个人脸跟踪片段中包含同一人脸图像的人脸跟踪片段合并为一个人脸跟踪片段，以得到N个人脸跟踪片段；

第二确定单元，用于将所述N个人脸跟踪片段中每个人脸跟踪片段包含的人脸图像确定为所述目标人脸图像；

其中，所述第一确定单元包括：

获取子单元，用于对于所述视频包括的每一帧图像，从所述视频中获取与所述帧图像相邻的上一帧图像；

第一确定子单元，用于确定所述帧图像中每个像素点的像素值与所述上一帧图像中对应位置上的像素点的像素值之间的像素差，得到多个像素差；

第二确定子单元，用于确定多个第一个数和多个第二个数，所述多个第一个数中的每个第一个数为所述多个像素差中每列大于或等于第一阈值的像素差的个数，所述多个第二个数中的每个第二个数为所述多个像素差中每行大于或等于所述第一阈值的像素差的个数；确定多个第一比例和多个第二比例，所述多个第一比例为所述多个第一个数分别与所述多个像素差中大于或等于所述第一阈值的像素差的总个数之间的比例，所述多个第二比例为所述多个第二个数分别与所述多个像素差中大于或等于所述第一阈值的像素差的总个数之间的比例；基于所述多个第一比例，生成第一投影直方图，并确定所述第一投影直方图的双侧α分位数，所述α大于或等于0且小于1；基于所述多个第二比例，生成第二投影直方图，并确定所述第二投影直方图的双侧α分位数；将所述第一投影直方图的双侧α分位数与所述第二投影直方图的双侧α分位数组成的区域确定为所述帧图像中的动态区域。

7.如权利要求6所述的装置，其特征在于，所述聚类模块包括：

第三确定单元，用于基于所述N个目标人脸图像的图像特征，确定K个聚类特征，所述K个聚类特征中的每个聚类特征包括人脸特征和时空特征；

聚类单元，用于将所述N个目标人脸图像，以所述K个聚类特征为聚类中心进行聚类，得到K个图像集；

第四确定单元，用于确定所述K个图像集的聚类特征；

判断单元，用于判断所述K个图像集的聚类特征中是否存在未收敛的聚类特征；

触发单元，用于当所述K个图像集的聚类特征中存在未收敛的聚类特征时，将所述K个聚类特征设置为所述K个图像集的聚类特征，并触发所述聚类单元将所述N个目标人脸图像，以所述K个聚类特征为聚类中心进行聚类，得到K个图像集，直至所述K个图像集的聚类特征均收敛为止；

第五确定单元，用于将以所述均收敛的K个图像集的聚类特征为聚类中心进行聚类得到的K个图像集确定为所述K个目标人脸图像集。

8.如权利要求7所述的装置，其特征在于，所述聚类单元包括：

第三确定子单元，用于对于所述N个目标人脸图像中的每个目标人脸图像，分别确定所述目标人脸图像的图像特征与所述K个聚类特征之间的距离；

聚合子单元，用于将所述目标人脸图像聚合到以目标聚类特征为聚类中心的图像集中，所述目标聚类特征为所述K个聚类特征中与所述目标人脸图像的图像特征之间的距离最小的聚类特征。

9.如权利要求8所述的装置，其特征在于，所述第三确定子单元用于：

10.如权利要求7所述的装置，其特征在于，所述第四确定单元包括：

第一计算子单元，用于当所述N个目标人脸图像是从N个人脸跟踪片段中分别获取得到时，对于所述K个图像集中的每个图像集，将所述图像集包括的每个目标人脸图像的人脸特征与所述目标人脸图像所属的人脸跟踪片段的播放时长相乘得到的数值进行累加，得到第一数值；

第二计算子单元，用于将所述图像集包括的每个目标人脸图像所属的人脸跟踪片段的播放时长进行累加，得到第二数值；

第三计算子单元，用于将所述第一数值除以所述第二数值，得到所述图像集的人脸特征；

第四确定子单元，用于将所述图像集的人脸特征和所述图像集包括的目标人脸图像的时空特征确定为所述图像集的聚类特征。