CN112883875A

CN112883875A - 图像聚类方法、装置、服务器及存储介质

Info

Publication number: CN112883875A
Application number: CN202110199084.6A
Authority: CN
Inventors: 邱迪
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-01
Anticipated expiration: 2041-02-22
Also published as: CN112883875B

Abstract

本申请提供了一种图像聚类方法、装置、服务器及存储介质，属于图像识别技术领域。该方法包括：确定多个第一图像的特征向量，以及确定多个第二图像的特征向量；确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离，基于第一距离，得到多个第一图像集合；对于每个第一图像集合，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离，以及基于第二距离，对第一图像集合进行调整，得到多个第二图像集合，确定多个第二图像集合的图像标签。由于在对未标注的图像进行聚类时，借助于已标注的图像，基于未标注的图像与已标注的图像之间的距离，来对未标注的图像进行聚类，进而降低了图像聚类的复杂度，所以提高了聚类的效率。

Description

图像聚类方法、装置、服务器及存储介质

技术领域

本申请涉及图像识别技术领域，特别涉及一种图像聚类方法、装置、服务器及存储介质。

背景技术

目前，人脸识别技术的应用越来越广泛。例如，人脸支付、门禁解锁、手机解锁等。在应用人脸识别技术时，需要基于人脸数据集中的人脸图像进行模型训练，得到人脸识别模型，基于该人脸识别模型进行人脸识别。而由于人脸数据集中的人脸图像包括已标注标签的人脸图像和未标注标签的人脸图像，如何对人脸数据集中未标注标签的人脸图像进行聚类，以确定人脸图像的类别标签已成为业界关注的重点。

发明内容

本申请实施例提供了一种图像聚类方法、装置、服务器及存储介质，能够提高图像聚类的效率。所述技术方案如下：

根据本申请实施例的一方面，提供了一种图像聚类方法，所述方法包括：

确定多个第一图像的特征向量，以及确定多个第二图像的特征向量，所述多个第一图像为未标注图像标签的图像，所述多个第二图像为已标注图像标签的图像；

确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离，基于所述第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合；

对于每个第一图像集合，确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离，以及基于所述第二距离，对所述第一图像集合进行调整，得到多个第二图像集合；

基于所述多个第二图像的图像标签，确定所述多个第二图像集合的图像标签。

在一种可能的实现方式中，所述基于所述第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合，包括：

对于每个第一图像，基于所述第一距离，确定距离最近的预设数量个第二图像，将所述第一图像和所述预设数量个第二图像聚类为第三图像集合；

将包含相同第二图像的第三图像集合进行合并，得到第四图像集合，将所述第四图像集合中的多个第一图像聚类为所述第一图像集合，得到多个第一图像集合。

在另一种可能的实现方式中，所述确定多个第一图像的特征向量，包括：

对于每个第一图像，在所述第一图像中确定目标对象所在的图像区域；

对所述第一图像中的图像区域进行目标对象的矫正，得到第三图像；

确定所述第三图像的特征向量。

在另一种可能的实现方式中，所述对于每个第一图像集合，确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离，包括：

对于每个第一图像集合中任意两个第一图像，获取每个第一图像的特征向量中的多个向量分量；

根据每个第一图像的特征向量中的多个向量分量，确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离。

在另一种可能的实现方式中，所述确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离之前，所述方法还包括：

对于每个第一图像集合中的每个第一图像，将所述第一图像的特征向量进行降维处理。

在另一种可能的实现方式中，所述基于所述第二距离，对所述第一图像集合进行调整，得到多个第二图像集合，包括：

基于所述第二距离，确定所述第一图像集合中任意两个第一图像之间的配对关系；

通过所述配对关系，利用宽度优先搜索算法对所述第一图像集合进行调整，得到多个第二图像集合。

在另一种可能的实现方式中，所述基于所述第二距离，确定所述第一图像集合中任意两个第一图像之间的配对关系，包括：

响应于所述第二距离小于预设阈值，确定所述任意两个第一图像配对，响应于所述第二距离大于所述预设阈值，确定所述任意两个第一图像不配对。

在另一种可能的实现方式中，所述通过所述配对关系，利用宽度优先搜索算法对所述第一图像集合进行调整，得到多个第二图像集合，包括：

从所述第一图像集合中选取任一第一图像，通过所述配对关系，确定与所述第一图像配对的多个第五图像，对所述第一图像和所述多个第五图像进行标记；

对于每个第五图像，通过所述配对关系，从所述第一图像集合中未标记的图像中选取与所述第五图像配对的多个第六图像，对所述多个第六图像进行标记；

直至与所述第五图像配对的多个第六图像均已标记，将已标记的所述第一图像、已标记的所述多个第五图像和已标记的所述多个第六图像聚类为第二图像集合，得到多个第二图像集合。

在另一种可能的实现方式中，所述方法还包括：

确定所述多个第一图像集合中未标记的第七图像，将所述第七图像聚类为第三图像集合，对所述第三图像集合添加标签。

在另一种可能的实现方式中，所述基于所述多个第二图像的图像标签，确定所述多个第二图像集合的图像标签，包括：

基于所述多个第二图像的图像标签，确定所述第二图像集合中每个第一图像的图像标签；

根据所述每个第一图像的图像标签，确定每种图像标签的数量，将数量最多的图像标签作为所述第二图像集合的图像标签，得到所述多个第二图像集合的图像标签。

根据本申请实施例的另一方面，提供了一种图像聚类装置，所述装置包括：

第一确定模块，用于确定多个第一图像的特征向量，以及确定多个第二图像的特征向量，所述多个第一图像为未标注图像标签的图像，所述多个第二图像为已标注图像标签的图像；

聚类模块，用于确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离，基于所述第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合；

调整模块，用于对于每个第一图像集合，确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离，以及基于所述第二距离，对所述第一图像集合进行调整，得到多个第二图像集合；

第二确定模块，用于基于所述多个第二图像的图像标签，确定所述多个第二图像集合的图像标签。

在一种可能的实现方式中，所述聚类模块，用于对于每个第一图像，基于所述第一距离，确定距离最近的预设数量个第二图像，将所述第一图像和所述预设数量个第二图像聚类为第三图像集合；将包含相同第二图像的第三图像集合进行合并，得到第四图像集合，将所述第四图像集合中的多个第一图像聚类为所述第一图像集合，得到多个第一图像集合。

在另一种可能的实现方式中，所述第一确定模块，用于对于每个第一图像，在所述第一图像中确定目标对象所在的图像区域；对所述第一图像中的图像区域进行目标对象的矫正，得到第三图像；确定所述第三图像的特征向量。

在另一种可能的实现方式中，所述调整模块，用于对于每个第一图像集合中任意两个第一图像，获取每个第一图像的特征向量中的多个向量分量；根据每个第一图像的特征向量中的多个向量分量，确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离。

在另一种可能的实现方式中，所述装置还包括：

降维处理模块，用于对于每个第一图像集合中的每个第一图像，将所述第一图像的特征向量进行降维处理。

在另一种可能的实现方式中，所述调整模块，包括：

确定单元，用于对于每个第一图像集合，基于所述第二距离，确定所述第一图像集合中任意两个第一图像之间的配对关系；

调整单元，用于通过所述配对关系，利用宽度优先搜索算法对所述第一图像集合进行调整，得到多个第二图像集合。

在另一种可能的实现方式中，所述确定单元，用于响应于所述第二距离小于预设阈值，确定所述任意两个第一图像配对，响应于所述第二距离大于所述预设阈值，确定所述任意两个第一图像不配对。

在另一种可能的实现方式中，所述调整单元，用于从所述第一图像集合中选取任一第一图像，通过所述配对关系，确定与所述第一图像配对的多个第五图像，对所述第一图像和所述多个第五图像进行标记；对于每个第五图像，通过所述配对关系，从所述第一图像集合中未标记的图像中选取与所述第五图像配对的多个第六图像，对所述多个第六图像进行标记；直至与所述第五图像配对的多个第六图像均已标记，将已标记的所述第一图像、已标记的所述多个第五图像和已标记的所述多个第六图像聚类为第二图像集合，得到多个第二图像集合。

在另一种可能的实现方式中，所述聚类模块，还用于确定所述多个第一图像集合中未标记的第七图像，将所述第七图像聚类为第三图像集合，对所述第三图像集合添加标签。

在另一种可能的实现方式中，所述第二确定模块，用于对于基于所述多个第二图像的图像标签，确定所述第二图像集合中每个第一图像的图像标签；根据所述每个第一图像的图像标签，确定每种图像标签的数量，将数量最多的图像标签作为所述第二图像集合的图像标签，得到所述多个第二图像集合的图像标签。

根据本申请实施例的另一方面，提供了一种服务器，所述服务器包括：处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述任一可能实现方式所述的图像聚类方法中的操作。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并具有以实现如所述图像聚类方法中所执行的操作。

根据本申请实施例的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备执行以实现上述任一可能实现方式所述的图像聚类方法中的操作。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例提供了一种图像聚类方法，在对未标注的图像进行聚类时，借助于已标注的图像，基于未标注的图像与已标注的图像之间的距离，来对未标注的图像进行聚类，从而实现基于图像之间的距离，实现图像聚类，而确定图像之间的距离的计算量较小，进而降低了图像聚类的复杂度，所以提高了聚类的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种图像聚类方法的流程图；

图3是本申请实施例提供的一种图像聚类方法的流程图；

图4是本申请实施例提供的一种人脸图像聚类方法的示意图；

图5是本申请实施例提供的一种多个第一图像集合对应的分类图的示意图；

图6是本申请实施例提供的一种图像聚类装置的结构框图；

图7是本申请实施例提供的一种图像聚类装置的结构框图；

图8是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境中包括终端101和服务器102。

终端101和服务器102之间通过无线或者有线网络连接。并且，终端101上可以安装有服务器102提供服务的客户端，终端101对应的用户可以通过该客户端与服务器102之间实现例如数据传输、消息交互等功能。客户端可以为终端101上安装的包括图像识别功能的客户端。例如，该客户端可以为购物应用、金融应用、锁屏应用、社交应用或者游戏应用等。

终端101可以为电脑、手机、平板电脑或者其他电子设备。服务器102可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

需要说明的一点是，相关技术中，通过K均值聚类方法对人脸数据集中未标注的人脸图像进行聚类。K均值聚类方法包括：从未标注的人脸图像中选取K个人脸图像，得到K个初始聚类；对于每个未标注的人脸图像，计算该人脸图像与K个初始聚类之间的距离，把该人脸图像分配给距离最小的初始聚类；确定被分配的初始聚类内的质心，将初始聚类的位置调整为质心位置；响应于未标注的人脸图像分配结束，聚类完成。

但是，由于每分配一次未标注的人脸图像，都需要根据初始聚类内包括的所有的人脸图像的质心，调整初始聚类的位置，因此人脸数据集中未标注的人脸图像的数量越多，初始聚类的位置需要调整的次数越多，对人脸图像进行聚类的时间越长，所以通过K均值聚类方法对人脸数据集中未标注的人脸图像进行聚类的效率低。

而本申请实施例提供的图像聚类方法，在对未标注的图像进行聚类时，借助于已标注的图像，基于未标注的图像与已标注的图像之间的距离，通过K近邻算法来对未标注的图像进行聚类，从而实现基于图像之间的距离，实现图像聚类，而确定图像之间的距离的计算量较小，所以降低了图像聚类的复杂度，提高了图像聚类的效率。

并且，本申请实施例中的图像聚类方法可以广泛地应用在各种实际应用场景中，以下结合三种示例性应用场景对本申请实施例的实际技术效果进行阐述：

(1)可以应用在人脸识别支付场景的场景中：终端101上安装有支付类应用。终端101获取人脸图像，基于该支付类应用向服务器102发送获取的人脸图像，服务器102接收终端101发送的人脸图像，通过图像聚类方法对图像进行聚类，得到图像标签。服务器102将图像标签返回终端101，终端101根据返回的图像标签，确定人脸图像是否符合支付条件。

(2)可以应用在图像识别搜索场景中：终端101上安装有搜索类应用。终端101获取图像，基于该搜索类应用向服务器102发送获取的图像，服务器102接收终端101发送的图像，通过图像聚类方法对图像进行聚类，得到图像标签。服务器102将图像标签返回终端101，终端101根据返回的图像标签，确定与图像对应的搜索内容。

(3)可以应用在图像识别购物场景的场景中：终端101上安装有购物类应用。终端101获取图像，基于该购物类应用向服务器102发送获取的图像，服务器102接收终端101发送的图像，通过图像聚类方法对图像进行聚类，得到图像标签。服务器102将图像标签返回终端101，终端101根据返回的图像标签，确定与图像对应的商品。

图2是本申请实施例提供的一种图像聚类方法的流程图。参见图2，该方法包括以下步骤：

201、确定多个第一图像的特征向量，以及确定多个第二图像的特征向量，多个第一图像为未标注图像标签的图像，多个第二图像为已标注图像标签的图像。

202、确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离，基于第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合。

203、对于每个第一图像集合，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离，以及基于第二距离，对第一图像集合进行调整，得到多个第二图像集合。

204、基于多个第二图像的图像标签，确定多个第二图像集合的图像标签。

在一种可能的实现方式中，基于第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合，包括：

对于每个第一图像，基于第一距离，确定距离最近的预设数量个第二图像，将第一图像和预设数量个第二图像聚类为第三图像集合；

将包含相同第二图像的第三图像集合进行合并，得到第四图像集合，将第四图像集合中的多个第一图像聚类为第一图像集合，得到多个第一图像集合。

在另一种可能的实现方式中，确定多个第一图像的特征向量，包括：

对于每个第一图像，在第一图像中确定目标对象所在的图像区域；

对第一图像中的图像区域进行目标对象的矫正，得到第三图像；

确定第三图像的特征向量。

在另一种可能的实现方式中，对于每个第一图像集合，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离，包括：

根据每个第一图像的特征向量中的多个向量分量，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离。

在另一种可能的实现方式中，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离之前，该方法还包括：

对于每个第一图像集合中的每个第一图像，将第一图像的特征向量进行降维处理。

在另一种可能的实现方式中，基于第二距离，对第一图像集合进行调整，得到多个第二图像集合，包括：

基于第二距离，确定第一图像集合中任意两个第一图像之间的配对关系；

通过配对关系，利用宽度优先搜索算法对第一图像集合进行调整，得到多个第二图像集合。

在另一种可能的实现方式中，基于第二距离，确定第一图像集合中任意两个第一图像之间的配对关系，包括：

基于第二距离，响应于第二距离小于预设阈值，确定任意两个第一图像配对，响应于第二距离大于预设阈值，确定任意两个第一图像不配对。

在另一种可能的实现方式中，通过配对关系，利用宽度优先搜索算法对第一图像集合进行调整，得到多个第二图像集合，包括：

从第一图像集合中选取任一第一图像，通过配对关系，确定与第一图像配对的多个第五图像，对第一图像和多个第五图像进行标记；

对于每个第五图像，通过配对关系，从第一图像集合中未标记的图像中选取与第五图像配对的多个第六图像，对多个第六图像进行标记；

直至与第五图像配对的多个第六图像均已标记，将已标记的第一图像、已标记的多个第五图像和已标记的多个第六图像聚类为第二图像集合，得到多个第二图像集合。

在另一种可能的实现方式中，该方法还包括：

确定多个第一图像集合中未标记的第七图像，将第七图像聚类为第三图像集合，对第三图像集合添加标签。

在另一种可能的实现方式中，基于多个第二图像的图像标签，确定多个第二图像集合的图像标签，包括：

基于多个第二图像的图像标签，确定第二图像集合中每个第一图像的图像标签；

根据每个第一图像的图像标签，确定每种图像标签的数量，将数量最多的图像标签作为第二图像集合的图像标签，得到多个第二图像集合的图像标签。

图3是本申请实施例提供的一种图像聚类方法的流程图。参见图3，该方法包括以下步骤：

301、服务器确定多个第一图像的特征向量，以及确定多个第二图像的特征向量，多个第一图像为未标注图像标签的图像，多个第二图像为已标注图像标签的图像。

图像标签用于表示第一图像的类别。图像标签包括类别信息、身份信息、图像名中的至少一项。第一图像和第二图像为用于图像识别的图像。

例如，第一图像和第二图像为用于人脸图像识别的人脸图像。多个第一图像为1000个未标注人脸图像；多个第二图像为10000个已标注的人脸图像，10000个人脸图像对应1000个图像标签；其中，一个图像标签对应10个图像，10个图像包括该图像标签不同表情、不同姿态和不同季节的图像。

在一种可能的实现方式中，服务器获取到多个第一图像后直接进行特征提取。可选的，服务器通过特征提取模型对第一图像进行特征提取，相应的，服务器确定多个第一图像的特征向量的步骤为：服务器对于每个第一图像，通过特征提取模型对第一图像进行特征提取，得到第一图像的特征向量。

例如，参见图4，特征提取模型为使用公开人脸数据集预先训练好的卷积神经网络模型，通过卷积神经网络模型获取人脸图像的特征向量。

在另一种可能的实现方式中，服务器可以先对第一图像进行矫正，然后再对矫正后的第一图像进行特征提取，相应的，服务器确定多个第一图像的特征向量的步骤为：服务器对于每个第一图像，在第一图像中确定目标对象所在的图像区域；对第一图像中的图像区域进行目标对象的矫正，得到第三图像；确定第三图像的特征向量。

目标对象是用于区别不同第一图像的特征。在一种可能的实现方式中，服务器根据第一图像的关键点坐标，对第一图像进行矫正。相应的，服务器对于每个第一图像，在第一图像中确定目标对象所在的图像区域；对第一图像中的图像区域进行目标对象的矫正，得到第三图像的步骤为：服务器对于每个第一图像，在第一图像中确定目标对象所在的关键点坐标；对第一图像中的关键点坐标进行矫正，得到第三图像。

在一种可能的实现方式中，继续参见图4，第一图像为人脸图像，第一图像中包括人脸区域和非人脸区域，目标对象为人脸图像中的人脸区域。服务器对于未标注图像标签的人脸图像，识别人脸图像中的人脸区域。相应的，服务器对于每个第一图像，在第一图像中确定目标对象所在的图像区域的步骤为：服务器对于每个第一图像，通过人脸检测模型获取第一图像中的人脸区域以及人脸区域对应的关键点坐标。人脸区域可以为五官对应的关键点坐标，关键点坐标包括眼睛对应的坐标、眉毛对应的坐标、鼻子对应的坐标、嘴巴对应的坐标、耳朵对应的坐标中的一个或多个。

在一种可能的实现方式中，服务器对关键点坐标进行仿射变换来对关键点坐标进行矫正。相应的，服务器对第一图像中的关键点坐标进行矫正，得到第三图像的步骤为：服务器对第一图像中的关键点坐标进行仿射变换，得到矫正坐标；根据矫正坐标，对第一图像进行矫正，得到第三图像。

需要说明的一点是，第一图像中的人脸区域分为正脸和侧脸两种情况；响应于第一图像的人脸区域为侧脸，服务器对第一图像进行矫正。第三图像为第一图像矫正后的图像，第三图像中的人脸区域为正脸。例如，继续参见图4，服务器对人脸图像中的人脸区域进行矫正。

可选的，多个第一图像中的人脸区域的尺寸不同，服务器对第一图像进行矫正，得到第三图像的人脸区域的尺寸相同，第三图像为第一图像对应的标准化图像。

在本申请实施例中，服务器通过对第一图像进行矫正，得到标准化图像，进而通过标准化图像得到的特征向量的精确性高；并且，对于不同标准化图像的特征向量的维数相同，降低了计算特征向量之间的距离的运算量，进而提高了聚类图像的效率。

在本步骤中，服务器确定多个第二图像的特征向量的方法与确定多个第一图像的特征向量的方法相同，在此不再进行赘述。

302、服务器确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离，基于第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合。

在一种可能的实现方式中，服务器确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离的步骤为：服务器对于任一第一图像，根据第一图像的特征向量以及每个第二图像的特征向量；确定第一图像和第二图像之间的第一余弦相似度，将第一余弦相似度作为第一图像的特征向量与第二图像的特征向量之间的第一距离。

在一种可能的实现方式中，第一图像的特征向量包括多个向量分量，第二图像的特征向量包括多个向量分量，且第一图像的特征向量的维数与第二图像的维数相同。相应的，服务器确定第一图像和第二图像之间的第一余弦相似度的步骤为：服务器根据第一图像的特征向量的向量分量以及第二图像的特征向量的向量分量，通过以下公式一，确定第一图像和第二图像之间的第一余弦相似度；

公式一：

其中，cos(θ₁)表示第一余弦相似度；x_i表示第一图像的特征向量的第i个向量分量，y_i表示第二图像的特征向量的第i个向量分量，n表示特征向量的维数。

需要说明的一点是，第一余弦相似度的数值介于0与1之间；第一余弦相似度越接近1，则第一图像和第二图像之间的相似度越高，距离越近；余弦相似度越接近0，则第一图像和第二图像之间的相似度越低，距离越远。

在一种可能的实现方式中，继续参见图4，服务器通过K近邻算法确定第一图像集合。相应的，服务器基于第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合的步骤为：服务器对于每个第一图像，基于第一距离，确定与第一图像距离最近的预设数量个第二图像，将第一图像和预设数量个第二图像聚类为第三图像集合；将包含相同第二图像的第三图像集合进行合并，得到第四图像集合，将第四图像集合中的多个第一图像聚类为第一图像集合，得到多个第一图像集合。

预设数量可以是5至50之间的任一数值，例如，15、18、20。在本申请实施例中，对预设数量的数值不作具体限定，可以根据需要进行设定并修改。

例如，预设数量为5，服务器对于每个第一图像A，基于第一距离，确定与该第一图像距离最近的5个第二图像B，将第一图像A和5个第二图像B聚类为第三图像集合。

需要说明的一点是，对于包含相同第二图像的第三图像集合，相同第二图像的数量至少为一个。在一种可能的实现方式中，服务器将包含相同第二图像的第三图像集合进行合并，得到第四图像集合的步骤为：服务器对于任意两个第三图像集合，响应于包含相同第二图像，则对两个第三图像集合进行合并，得到第四图像集合。

例如，对于两个第三图像集合，一个第三图像集合包括：A1、B1、B2、B3、B4、B5；另一个第三图像集合包括：A2、B4、B5、B6、B7、B8；这两个第三图像集合包括相同的第二图像B4、B5；则将这两个第三图像集合进行合并，得到第四图像集合；将第四图像集合中的A1和A2聚类为第一图像集合。

在一种可能的实现方式中，参见图5，服务器将第一图像的特征向量类比为一个点，将第一图像集合中的多个点连接在一起，得到多个第一图像集合对应的类别图。

303、服务器对于每个第一图像集合，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离，以及基于第二距离，对第一图像集合进行调整，得到多个第二图像集合。

在一种可能的实现方式中，服务器对于每个第一图像集合，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离的步骤为：服务器对于每个第一图像集合中任意两个第一图像，根据该两个第一图像的特征向量，确定该两个第一图像的特征向量之间的第二距离，得到任意两个第一图像的特征向量之间的第二距离。

在一种可能的实现方式中，第一图像的特征向量包括多个向量分量，第一图像集合中任意两个第一图像的特征向量的维数相同。服务器根据两个第一图像的特征向量，确定该两个第一图像的特征向量之间的第二距离的步骤为：服务器获取每个第一图像的特征向量中的多个向量分量；根据每个第一图像的特征向量中的多个向量分量，确定两个第一图像的特征向量之间的第二距离。

在一种可能的实现方式中，服务器根据每个第一图像的特征向量中的多个向量分量，确定两个第一图像的特征向量之间的第二距离的步骤为：服务器根据每个第一图像的特征向量中的多个向量分量，确定两个第一图像之间的第二余弦相似度，确定第二余弦相似度为两个第一图像的特征向量之间的第二距离。

可选的，服务器根据每个第一图像的特征向量中的多个向量分量，通过以下公式二，确定两个第一图像之间的第二余弦相似度；

公式二：

其中，cos(θ₂)表示第二余弦相似度，x_i表示一个第一图像的特征向量的第i个向量分量，y_i表示另一个第一图像的特征向量的第i个向量分量，n表示第一图像的特征向量的维数。

需要说明的一点是，第二余弦相似度的数值介于0与1之间；第二余弦相似度越接近1，则两个第一图像之间的相似度越高，距离越近；余弦相似度越接近0，则两个第一图像之间的相似度越低，距离越远。

在本申请实施例中，由于第一图像集合中的多个第一图像是根据多个第二图像进行聚合的，当第二图像的图像标签不同时，两个第一图像之间的相似度较低，因此服务器对第一图像集合进行调整，能够除去一些相似度较低的第一图像，进而提高了聚类图像的准确性。

在一种可能的实现方式中，服务器基于第二距离，对第一图像集合进行调整，得到多个第二图像集合的步骤为：服务器基于第二距离，确定第一图像集合中任意两个第一图像之间的配对关系；通过配对关系，利用宽度优先搜索算法对第一图像集合进行调整，得到多个第二图像集合。

在一种可能的实现方式中，服务器基于第二距离，确定第一图像集合中任意两个第一图像之间的配对关系的步骤为：服务器响应于第二距离小于预设阈值，确定任意两个第一图像配对，响应于第二距离大于预设阈值，确定任意两个第一图像不配对。

预设阈值为0.5至1之间的任意数值，例如，0.6、0.7、0.8。在本申请实施例中，对预设阈值的数值不作具体限定，可以根据需要进行设定并修改。

在一种可能的实现方式中，继续参见图4，服务器通过配对关系，利用宽度优先搜索算法对第一图像集合进行调整，得到多个第二图像集合的步骤为：服务器从第一图像集合中选取任一第一图像，通过配对关系，确定与第一图像配对的多个第五图像，对第一图像和多个第五图像进行标记；对于每个第五图像，通过配对关系，从第一图像集合中未标记的图像中选取与第五图像配对的多个第六图像，对多个第六图像进行标记；直至与第五图像配对的多个第六图像均已标记，将已标记的第一图像、已标记的多个第五图像和已标记的多个第六图像聚类为第二图像集合，得到多个第二图像集合。

在本申请实施例中，由于利用宽度优先搜索算法对第一图像集合进行调整，而宽度优先搜索算法对于多个图像不用重复确定图像之间的配对关系，这样就减少了确定配对关系的第一图像的数量，所以提高了聚类图像的效率。

需要说明的一点是，对于第一图像集合未标记的第一图像，服务器可以对未标记的第一图像进行聚类。相应的，服务器对未标记的第一图像进行聚类的步骤为：服务器确定多个第一图像集合中未标记的第七图像，将第七图像聚类为第三图像集合，对第三图像集合添加标签。

需要说明的另一点是，当第一图像的特征向量的维数较大时，为了降低服务器的计算量，在服务器确定第一图像集合中任意两个第一图像的特征向量之间的第二距离之前，可以先对第一图像的特征向量进行降维处理。

在一种可能的实现方式中，继续参见图4，服务器对第一图像的特征向量进行降维处理的步骤为：服务器获取第一图像的特征向量的多个向量分量，确定多个向量分量的第一特征值；根据多个向量分量的第一特征值，从多个向量分量中选取预设比例的向量分量。其中，预设比例为0.1至1之间的任意数值，例如，0.25、0.5、0.8。在本申请实施例中，对预设比例的数值不作具体限定，可以根据需要进行设定并修改。

在一种可能的实现方式中，预设比例为0.5。相应的，服务器使用公开人脸数据集预先训练好的卷积神经网络模型对未标注的人脸图像提取特征，对于每个未标注的人脸图像，输出一个512维度的特征向量，得到512*N的特征矩阵，其中，N表示未标注的人脸图像的数量；利用PCA(Principal Component Analysis，主分量分析)对特征矩阵进行将维处理，得到256*N的特征矩阵。

在本申请实施例中，服务器通过对第一图像的特征向量进行降维处理，降低了第一图像集合中任意两个第一图像的特征向量之间第二距离的运算量，进而降低了通过第二距离进行聚类的复杂度，进而降低了运算所占用的内存，所以提高了聚类的效率。

304、服务器基于多个第二图像的图像标签，确定第二图像集合中每个第一图像的图像标签。

在一种可能的实现方式中，第一图像和预设数量个第二图像聚类为第三图像集合。服务器根据第三图像集合中预设数量个第二图像的图像标签，确定第一图像的图像标签。相应的，本步骤为：服务器对于每个第一图像，基于多个第二图像的图像标签，确定第一图像所在的第三图像集合中预设数量个第二图像的图像标签；根据第三图像集合中预设数量个第二图像的图像标签，确定数量最多的图像标签为第一图像的图像标签。

例如，第三图像集合中包括第一图像和5个第二图像，5个第二图像的图像标签为A、A、A、A、B，则服务器确定数量最多的图像标签A作为第一图像的图像标签。

305、服务器根据每个第一图像的图像标签，确定每种图像标签的数量，将数量最多的图像标签作为第二图像集合的图像标签，得到多个第二图像集合的图像标签。

在一种可能的实现方式中，对于多个第二图像集合，服务器随机选取第二图像集合，确定该第二图像集合的图像标签。在另一种可能的实现方式中，对于多个第二图像集合，服务器根据第二图像集合中第一图像的数量，依次选取数量最多或者数量最少的第二图像集合，确定第二图像集合的图像标签。

在一种可能的实现方式中，服务器确定第二图像集合的图像标签的步骤为：服务器根据第二图像集合中每个第一图像的图像标签，对每种图像标签进行分别统计，得到每种图像标签的数量，将数量最多的图像标签作为该第二图像集合的图像标签。

例如，第二图像集合中包括5个第一图像，5个第一图像的图像标签为A、A、A、A、B，则服务器图像标签A和图像标签B进行分别统计，得到图像标签A的数量为4，图像标签B的数量为1，将数量最多的图像标签A作为第二图像集合的图像标签。

图6是本申请实施例提供的一种图像聚类装置的结构示意图。参见图6，该装置包括：

第一确定模块601，用于确定多个第一图像的特征向量，以及确定多个第二图像的特征向量，多个第一图像为未标注图像标签的图像，多个第二图像为已标注图像标签的图像；

聚类模块602，用于确定任一第一图像的特征向量与每个第二图像的特征向量之间的第一距离，基于第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合；

调整模块603，用于对于每个第一图像集合，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离，以及基于第二距离，对第一图像集合进行调整，得到多个第二图像集合；

第二确定模块604，用于基于多个第二图像的图像标签，确定多个第二图像集合的图像标签。

在一种可能的实现方式中，聚类模块602，用于对于每个第一图像，基于第一距离，确定距离最近的预设数量个第二图像，将第一图像和预设数量个第二图像聚类为第三图像集合；将包含相同第二图像的第三图像集合进行合并，得到第四图像集合，将第四图像集合中的多个第一图像聚类为第一图像集合，得到多个第一图像集合。

在另一种可能的实现方式中，第一确定模块601，用于对于每个第一图像，在第一图像中确定目标对象所在的图像区域；对第一图像中的图像区域进行目标对象的矫正，得到第三图像；确定第三图像的特征向量。

在另一种可能的实现方式中，调整模块603，用于对于每个第一图像集合中任意两个第一图像，获取每个第一图像的特征向量中的多个向量分量；根据每个第一图像的特征向量中的多个向量分量，确定第一图像集合中任意两个第一图像的特征向量之间的第二距离。

在另一种可能的实现方式中，参见图7，该装置还包括：

降维处理模块605，用于对于每个第一图像集合中的每个第一图像，将第一图像的特征向量进行降维处理。

在另一种可能的实现方式中，继续参见图7，调整模块603，包括：

确定单元6031，用于对于每个第一图像集合，基于第二距离，确定第一图像集合中任意两个第一图像之间的配对关系；

调整单元6032，用于通过配对关系，利用宽度优先搜索算法对第一图像集合进行调整，得到多个第二图像集合。

在另一种可能的实现方式中，确定单元6031，用于响应于第二距离小于预设阈值，确定任意两个第一图像配对，响应于第二距离大于预设阈值，确定任意两个第一图像不配对。

在另一种可能的实现方式中，调整单元6032，用于从第一图像集合中选取任一第一图像，通过配对关系，确定与第一图像配对的多个第五图像，对第一图像和多个第五图像进行标记；对于每个第五图像，通过配对关系，从第一图像集合中未标记的图像中选取与第五图像配对的多个第六图像，对多个第六图像进行标记；直至与第五图像配对的多个第六图像均已标记，将已标记的第一图像、已标记的多个第五图像和已标记的多个第六图像聚类为第二图像集合，得到多个第二图像集合。

在另一种可能的实现方式中，聚类模块602，还用于确定多个第一图像集合中未标记的第七图像，将第七图像聚类为第三图像集合，对第三图像集合添加标签。

在另一种可能的实现方式中，第二确定模块604，用于对于基于多个第二图像的图像标签，确定第二图像集合中每个第一图像的图像标签；根据每个第一图像的图像标签，确定每种图像标签的数量，将数量最多的图像标签作为第二图像集合的图像标签，得到多个第二图像集合的图像标签。

本申请实施例提供了一种图像聚类装置，在对未标注的图像进行聚类时，借助于已标注的图像，基于未标注的图像与已标注的图像之间的距离，来对未标注的图像进行聚类，从而实现基于图像之间的距离，实现图像聚类，而确定图像之间的距离的计算量较小，进而降低了图像聚类的复杂度，所以提高了聚类的效率。

需要说明的是：上述实施例提供的图像聚类装置在进行图像聚类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像聚类装置与图像聚类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)801和一个或一个以上的存储器802，其中，存储器802中存储有至少一条指令，至少一条指令由处理器801加载并执行以实现上述各个方法实施例提供的图像聚类方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，该至少一条指令由处理器加载并具有以实现上述实施例的图像聚类方法中所具有的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行以实现上述实施例的图像聚类方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一距离，将距离最近的多个第一图像聚类为第一图像集合，得到多个第一图像集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定多个第一图像的特征向量，包括：

确定所述第三图像的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述对于每个第一图像集合，确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述第一图像集合中任意两个第一图像的特征向量之间的第二距离之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二距离，对所述第一图像集合进行调整，得到多个第二图像集合，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第二距离，确定所述第一图像集合中任意两个第一图像之间的配对关系，包括：

8.根据权利要求6所述的方法，其特征在于，所述通过所述配对关系，利用宽度优先搜索算法对所述第一图像集合进行调整，得到多个第二图像集合，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述基于所述多个第二图像的图像标签，确定所述多个第二图像集合的图像标签，包括：

11.一种图像聚类装置，其特征在于，所述装置包括：

12.一种服务器，其特征在于，所述服务器包括：

处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现权利要求1至10任一项所述的图像聚类方法中的操作。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至10任一项权利要求所述的图像聚类方法中所执行的操作。