CN111291827B

CN111291827B - 图像聚类方法、装置、设备及存储介质

Info

Publication number: CN111291827B
Application number: CN202010131490.4A
Authority: CN
Inventors: 杨磊; 陈大鹏; 詹晓航; 赵瑞; 吕健勤; 林达华
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-12-22
Anticipated expiration: 2040-02-28
Also published as: CN111291827A

Abstract

本申请公开了一种图像聚类方法、装置、设备及存储介质，所述方法包括：获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点；通过将每个节点与其多个近邻点进行连接，获得连接节点的多个边；获取所述节点与所述多个近邻点属于同一类别的置信度；根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度；根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果。

Description

图像聚类方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术，尤其涉及一种图像聚类方法、装置、设备及存储介质。

背景技术

由于标注数据的爆发式增长，人脸识别对于标注数据的需求导致了难以承受的标注成本。为了利用将互联网以及监控视频中存在的大量无标签人脸数据，需要通过聚类的方式赋予无标签数据伪标签后，将无标签数据和伪标签一同加入监督学习的框架中进行训练。

目前的聚类方式难以实现对大量无标签人脸数据的高速、高精度聚类，因此亟需开发效率和准确率更高的聚类方法。

发明内容

本公开实施例提供了一种图像聚类方案。

根据本公开的一方面，提供一种图像聚类方法，所述方法包括：获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点；通过将每个节点与其多个近邻点进行连接，获得连接节点的多个边；获取所述节点与所述多个近邻点属于同一类别的置信度；根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度；根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果。

结合本公开提供的任一实施方式，所述节点的近邻点包括与所述节点相似度最高的K个节点，其中，K为正整数。

结合本公开提供的任一实施方式，所述根据各个节点的置信度和各个边的连接度，对于与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果，包括：获取所述节点与目标近邻点之间的边，其中，所述近邻点包含目标近邻点，且所述目标近邻点的置信度大于所述节点，且所述目标近邻点与所述节点之间的边具有最大连接度；根据所述节点与目标近邻点之间的边形成的连通域，得到一个或多个节点聚类集合；根据所述一个或多个节点聚类集合，得到所述多个待处理图像的聚类结果。

结合本公开提供的任一实施方式，所述节点与所述近邻点属于同一类别的置信度为第一相似度与第二相似度的差值，其中，所述第一相似度为所述节点与其近邻点属于同一类别的相似度总和，所述第二相似度为所述节点与其近邻点属于不同类别的相似度总和。

结合本公开提供的任一实施方式，所述获取所述节点与所述多个近邻点属于同一类别的置信度，包括：根据所述节点对应的特征信息，获得多个节点对应的特征信息矩阵；根据每两个节点之间的相似度值，获得相似度矩阵；将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络，得到所述节点与所述近邻点属于同一类别的置信度。

结合本公开提供的任一实施方式，在将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络步骤之前，所述方法还包括，利用样本图像集对所述第一神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；所述利用样本图像集对所述第一神经网络进行训练，包括：获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；确定所述样本节点与近邻点属于同一类别的置信度，并对所述样本节点标注置信度值；将样本特征信息矩阵和样本相似度矩阵输入于所述第一神经网络，预测得到各个样本节点的置信度值，所述样本特征信息矩阵包括各个样本节点的特征信息，所述样本相似度矩阵包括每两个样本节点之间的相似度值；根据对各个样本节点预测的置信度值和标注的置信度值之间的差异，对所述第一神经网络的网络参数进行调整，得到训练后的第一神经网络。

结合本公开提供的任一实施方式，所述确定所述节点与近邻点之间的边的连接度，包括：对于每个节点确定候选集，所述候选集包括所述节点的近邻点中，置信度大于所述节点的近邻点；将所述候选集输入至预先训练的第二神经网络，所述第二神经网络输出所述节点与所这候选集中每个近邻点之间的边的连接度。

结合本公开提供的任一实施方式，在将所述候选集输入至预先训练的第二神经网络之前，所述方法还包括，利用样本图像集对所述第二神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；所述利用样本图像集对所述第二神经网络进行训练，包括：获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；对于每个样本节点获取样本候选集，所述候选集包括所述样本节点的近邻点中，置信度大于所述节点的近邻点；将所述样本节点与所述候选集中的每个近邻点进行连接得到样本边；根据所述样本节点的类别以及所述近邻点的类别，确定所述样本边的连接度值，并对所述样本边进行标注；将所述候选集输入至所述第二神经网络，预测得到各个边的连接度值；根据对各个样本边预测的连接度值和标注的连接度值之间的差异，对所述第二神经网络的网络参数进行调整，得到训练后的第二神经网络。

结合本公开提供的任一实施方式，所述待处理图像为人脸图像；所述多个待处理图像的聚类结果包括一个或多个对象的人脸图像集合。

根据本公开的一方面，提供一种图像聚类装置，所述装置包括：特征获取单元，用于获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点；边获取单元，用于通过将每个节点与其多个近邻点进行连接，获得连接节点的多个边；置信度获取单元，用于获取所述节点与所述多个近邻点属于同一类别的置信度；连接度确定单元，用于根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度；聚类单元，用于根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果。

结合本公开提供的任一实施方式，所述聚类单元具体用于：获取所述节点与目标近邻点之间的边，其中，所述近邻点包含目标近邻点，且所述目标近邻点的置信度大于所述节点，且所述目标近邻点与所述节点之间的边具有最大连接度；根据所述节点与目标近邻点之间的边形成的连通域，得到一个或多个节点聚类集合；根据所述一个或多个节点聚类集合，得到所述多个待处理图像的聚类结果。

结合本公开提供的任一实施方式，所述置信度获取单元具体用于：根据所述节点对应的特征信息，获得多个节点对应的特征信息矩阵；根据每两个节点之间的相似度值，获得相似度矩阵；将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络，得到所述节点与所述近邻点属于同一类别的置信度。

结合本公开提供的任一实施方式，所述装置还包括第一神经网络训练单元，用于在将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络步骤之前，利用样本图像集对所述第一神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；所述第一神经网络训练单元在用于利用样本图像集对所述第一神经网络进行训练时，具体用于：获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；确定所述样本节点与近邻点属于同一类别的置信度，并对所述样本节点标注置信度值；将样本特征信息矩阵和样本相似度矩阵输入于所述第一神经网络，预测得到各个样本节点的置信度值，所述样本特征信息矩阵包括各个样本节点的特征信息，所述样本相似度矩阵包括每两个样本节点之间的相似度值；根据对各个样本节点预测的置信度值和标注的置信度值之间的差异，对所述第一神经网络的网络参数进行调整，得到训练后的第一神经网络。

结合本公开提供的任一实施方式，所述连接度确定单元具体用于：对于每个节点确定候选集，所述候选集包括所述节点的近邻点中，置信度大于所述节点的近邻点；将所述候选集输入至预先训练的第二神经网络，所述第二神经网络输出所述节点与所这候选集中每个近邻点之间的边的连接度。

结合本公开提供的任一实施方式，所述装置还包括第二神经网络训练单元，用于在将所述候选集输入至预先训练的第二神经网络之前，利用样本图像集对所述第二神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；所述第二神经网络训练单元具体用于：所述利用样本图像集对所述第二神经网络进行训练，包括：获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；对于每个样本节点获取样本候选集，所述候选集包括所述样本节点的近邻点中，置信度大于所述节点的近邻点；将所述样本节点与所述候选集中的每个近邻点进行连接得到样本边；根据所述样本节点的类别以及所述近邻点的类别，确定所述样本边的连接度值，并对所述样本边进行标注；将所述候选集输入至所述第二神经网络，预测得到各个边的连接度值；根据对各个样本边预测的连接度值和标注的连接度值之间的差异，对所述第二神经网络的网络参数进行调整，得到训练后的第二神经网络。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的图像聚类方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的图像聚类方法。

本公开实施例的图像聚类方法、装置、设备及存储介质，通过将多个待处理图像的特征信息作为节点，将每个节点与近邻点进行连接获得多个边，通过确定所述节点的置信度和所述边的连接度，对所述节点对应的多个待处理图像进行聚类，将聚类问题转换为对节点的置信度和边的连接度预测的问题，提高了聚类的速度和准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开至少一个实施例示出的聚类方法的流程图；

图2A是本公开至少一个实施例示出的聚类方法中所构建的邻接图；

图2B是对图2A标注了节点置信度后的邻接图；

图2C是对图2A、2B中节点聚类后的聚类结果局部示意图；

图3是本公开至少一个实施例示出的聚类装置的示意图；

图4是本公开至少一个实施例示出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1是本公开至少一个实施例示出的一种图像聚类方法的流程图。如图1所示，该方法包括步骤101～步骤105。

在步骤101中，获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点。

其中，所述待处理图像可以是通过网络获取的图像，也可以是通过摄像头获取的图像或者视频流中的一帧。所述待处理图像可以是人脸图像，也可以是其他类别的图像。

在一个示例中，可以将多个待处理图像作为一个数据集进行处理。对于数据集中的每一个待处理图像，可以利用预先训练的卷积神经网络(Convolutional NeuralNetworks，CNN)获得特征集合其中，f_i为第i个图像的特征信息，也即第i个节点的特征信息，/>D表示特征的维度，N为数据集中待处理图像的数目。

在步骤102中，通过将每个节点与其近邻点进行连接，获得连接节点的多个边。

节点的近邻点可以根据节点之间的相似度(affinity)，例如余弦相似度来确定，也可以根据节点之间的距离，例如欧式距离来确定，本公开对此不进行限定。

在一个示例中，对于每个节点，确定与所述节点的相似度最高的K个节点，作为所述节点的近邻点。其中，K的数值可以根据进行聚类的图像数量来确定。通过对每一个节点都与所对应的近邻点进行连接，可以获得多个边，其中一个边连接两个节点。

例如，第i个节点和第j个节点之间的相似度可以表示为a_i，j，其例如可以是f_i和f_j之间的余弦相似度。基于节点之间的相似度，可以将数据集表示为邻接图其中每个节点属于/>每个节点连接至近邻点所形成的边属于ε。所构建的邻接图可以表示为节点特征矩阵/>和相似度矩阵/>其中矩阵A中的元素为a_i，j，在第i个节点和第j个节点之间没有边的情况下a_i，j＝0。

根据多个待处理图像所构建的邻接图如图2A所示，在所述邻近图中，每个节点对应一张待处理图片，所述待处理图像的特征信息即为该节点所对应的特征信息，而两个节点之间的边则表示对应的两张图片的邻接关系。

在步骤103中，获取所述节点与所述近邻点属于同一类别的置信度。

在本公开实施例中，所述置信度表征所述节点属于一个特定类别的确信度(certainty)，也即度量所述节点和邻域之间是否紧密并且属于同一个类别。在本公开实施例中，邻域是指每个节点的近邻点所形成的范围。

举例来说，置信度高的节点确定有其他节点与自己是属于同一类别，即置信度高的节点对于自己属于某一个类别的确信度是高的；而置信度低的节点则不确定是否有其他节点与自己属于同一类别，也即置信度低的节点对于自己归属于一个特定类别的确信度是低的。

参见图2B所示的标注了节点置信度的邻接图，利用不同的灰度代表不同的置信度大小，灰度值越高则表示置信度越大。由图可见，更高置信度的节点处于密集分布的区域并且有着紧密且干净的连接，而低置信度的节点通常连接稀疏或者处于多个类别(多个簇)的交界处。

在一个示例中，所述节点与所述近邻点属于同一类别的置信度为第一相似度与第二相似度的差值，其中，所述第一相似度为所述节点的近邻点与所述节点属于同一类别的相似度总和，所述第二相似度为所述节点的近邻点与所述节点属于不同类别的相似度总和，可以用公式(1)表示：

其中，是节点v_i的近邻点v_j的集合，/>表示/>的模，也即表示近邻点的数量，也可以称为邻域内的节点集合；y_i是节点v_i的真实标签，y_j是节点v_j的真实标签，/>表示在y_j＝y_i的情况下/>的值为1，在y_j≠y_i的情况下/>的值为0；a_i，j为节点v_i与节点v_j之间的相似度。

对于未知类别的节点，可以利用预先训练的第一神经网络来预测所述节点的置信度，具体方法容后详述。

在步骤104中，根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度。

具有高连接度的边表示所连接的两个节点属于同一类别的概率越高。例如，可以将所连接的两个节点属于同一类别的概率为100％的边的连接度设置为1；将所连接的两个节点属于同一类别的概率为0的边的连接度设置为0。两个未知类别的节点之间的边的连接度的数值在0和1之间，可以利用预先训练的第二神经网络来预测所述边的连接度，具体方法容后详述。

在步骤105中，根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果。

对于已知节点的置信度和边的连接度的邻接图，可以根据设定规则对所述多个节点对应的多个待处理图像进行聚类。

在一个示例中，可以获取所述节点与目标近邻点之间的边，其中，所述近邻点包含目标近邻点，且所述目标近邻点的置信度大于所述节点，且所述目标近邻点与所述节点之间的边具有最大连接度。也即，对于每个节点，所获取的边需要满足以下条件：所述边是置信度大于所述节点的近邻点与所述节点之间形成的，且所述边在所有近邻点与所述节点所形成的边中具有最大连接度。可以将所获取的边称为具有强连接的边。

根据所述节点与目标近邻点之间的边形成的连通域，对所述节点对应的待处理图像进行聚类，得到一个或多个节点聚类集合，也即获得一个或多个簇。其中，每个所述连通域表示一个类别，也即每个节点聚类集合对应于一个类别。根据所述一个或多个节点聚类集合，即可以得到所述多个待处理图像的聚类结果。

图2C为对于图2A所示的邻接图，根据图2B所示的节点的置信度以及所确定的各个边的连接度，以上述设定规则进行聚类后所得到的聚类结果。其中，各个虚线表述聚类所获得的多个簇，其中，每个簇对应于一个类别。

在本公开实施例中，通过将多个待处理图像的特征信息作为节点，将每个节点与近邻点进行连接获得多个边，通过确定所述节点的置信度和所述边的连接度，对所述节点对应的多个待处理图像进行聚类，将聚类问题转换为对节点的置信度和边的连接度预测的问题，提高了聚类的速度和准确度。

在一些实施例中，可以利用预先训练的第一神经网络来预测数据集中每个节点的置信度。

首先，根据所述节点对应的特征信息，获得多个节点对应的特征信息矩阵F。所述特征信息矩阵F中的元素为v_i，i＝1,2,…,N，N为待处理图像的数目。

接下来，根据每两个节点之间的相似度值，获得相似度矩阵A。所述相似度矩阵A中的元素为a_i，j，为第i个节点和第j个节点的特征信息之间的相似度。

之后，将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络，得到所述节点与所述近邻点属于同一类别的置信度。

所述第一神经网络例如可以是图卷积网络(Graph Conventional Network，GCN)，所述图卷积网络可以包括L个卷积层，并且每层可以通过以下公式进行计算：

其中，其中，/>为对角度矩阵(diagonal degree matrix)，输入层特征F₀为特征信息矩阵F，F_l包括在第l层的隐藏层特征；W_l为可训练的矩阵，用于将隐藏层特征转换到另一个维度的隐空间；σ为非线性激活函数，例如可以是ReLU。

基于第L个卷积层的输出层特征F_L，可以利用全连接层来预测节点的置信度，如公式(3)所示：

c'＝F_LW+b (3)

其中，W为可训练的回归因子，b为可训练的偏置。所预测的v_i的置信度可以通过相应的c'获得，表示为c_i'。

在一些实施例中，可以利用样本图像集对所述第一神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别。

首先，对于样本图像集，确定其中的每个样本图像所对应的置信度。

与前述图像聚类方法相似，对于样本图像集，获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点。对于每个样本节点，确定所述样本节点与近邻点属于同一类别的置信度，例如可以利用公式(1)计算得到每个样本节点的置信度，并对所述样本节点标注置信度。

接下来，根据所述样本节点对应的特征信息，获得多个样本节点对应的样本特征信息矩阵，并根据每两个样本节点之间的相似度值，获得样本相似度矩阵。将所述样本特征信息矩阵和所述样本相似度矩阵输入于所述第一神经网络，预测得到各个样本节点的置信度值。根据对各个样本节点预测的置信度值和标注的置信度值之间的差异，对所述第一神经网络的网络参数进行调整。在迭代达到设定次数时，完成对所述第一神经网络的训练，得到训练后的第一神经网络。

训练所述第一神经网络所采用的损失函数如下所示：

其中，L_·V为预测的置信度c'_i和标注的置信度c_i之间的损失。

在本公开实施例中，进行置信度预测的计算损耗主要在于图卷积操作。由于相似度矩阵A是稀疏矩阵，通过稀疏矩阵与稠密矩阵的相乘，可以实现高效的图卷积操作。本公开提出的图像聚类方法利用上述置信度预测方法，能够对大规模的无标签数据集进行处理，高效地确定各个节点的置信度。

在一些实施例中，可以利用预先训练的第二神经网络来预测所述数据集中每个节点与它的每个近邻点之间的边连接度。

首先，对于每个节点确定候选集，所述候选集包括所述节点的近邻点中，置信度大于所述节点的近邻点。对于预测得到的置信度为c'_i的节点，候选集可以根据如下公式定义：

C_i＝{v_j|c'_j＞c'_i,v_j∈N_i} (5)

其中，c'_j为邻域中的近邻点的置信度，N_i为节点v_i的近邻点。

邻域中的近邻点的置信度大于所述节点的置信度，表示所述近邻点更可能属于一个特定类别。为了将节点分配到特征类别，本公开实第施例提出一种将所述节点连接至置信度高于它的近邻点，针对所述节点确定候选集的方法。然而，被选择的近邻点与所述节点并不一定属于相同的类别，因此引入了边的连接度的度量。

接下来，将所述候选集输入至预先训练的第二神经网络，所述第二神经网络测量图结构中的成对关系，输出所述节点与所这候选集中每个最近邻点之间的边的连接度。

第二神经网络的结构与第一神经网络的结构相似，区别在于，第一神经网络是对整个的邻接图进行操作，而第二神经网络是对于由候选集构成的子邻接图进行操作；所述第二神经网络对于候选集中的每个近邻点输出，表明所述近邻点与所述节点属于相同类别的可能性。

在一些实施例中，可以利用样本图像集对所述第二神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别。

首先，获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；并对于每个样本节点获取样本候选集，所述候选集包括所述样本节点的近邻点中，置信度大于所述节点的近邻点。

接下来将所述样本节点与所述候选集中的每个近邻点进行连接得到样本边；根据所述样本节点的类别以及所述近邻点的类别，确定所述样本边的连接度值，并对所述样本边进行标注。在所述样本节点与所述近邻点的类别相同时，将二者之间的边的连接度确定为1；在所述样本节点与所述近邻点的类别不同时，将二者之间的连接度确定为0。

之后，将所述候选集输入至所述第二神经网络，预测得到各个边的连接度值；根据对各个样本边预测的连接度值和标注的连接度值之间的差异，对所述第二神经网络的网络参数进行调整。在迭代达到设定次数时，完成对所述第二神经网络的训练，得到训练完成的第二神经网络。

训练所述第二神经网络所采用的损失函数如下所示：

其中，L_·E为预测的连接度o'_i,j和标注的置信度o_i,j之间的损失。

在本公开实施例中，对于候选集中的边预测连接度，对于每个节点减少了近邻点的数量，并且能够将计算资源集中在具有高置信度的少量节点上，提高了计算的效率。

在本公开实施例中，所述待处理图像可以是人脸图像。在对人脸图像进行聚类的情况下，所得到的聚类结果包括一个或多个对象的人脸图像集合，每个人脸图像集合对应于一个类别(属于同一个人)。也即，通过以上任一实施例所提出的图像聚类方法，能够将多个无标签的人脸图像划分为互不相交的多个类别，每个类别中的人脸属于同一个人，而不同类别中的人脸图像则属于不同的人。

图3为本公开至少一个实施例提供的图像聚类装置，所述装置包括：特征获取单元301，用于获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点；边获取单元302，用于通过将每个节点与其多个近邻点进行连接，获得连接节点的多个边；置信度获取单元303，用于获取所述节点与所述多个近邻点属于同一类别的置信度；连接度确定单元304，用于根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度；聚类单元305，用于根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果。

在一些实施例中，所述节点的近邻点包括与所述节点相似度最高的K个节点，其中，K为正整数。

在一些实施例中，聚类单元305具体用于：获取所述节点与目标近邻点之间的边，其中，所述近邻点包含目标近邻点，且所述目标近邻点的置信度大于所述节点，且所述目标近邻点与所述节点之间的边具有最大连接度；根据所述节点与目标近邻点之间的边形成的连通域，得到一个或多个节点聚类集合；根据所述一个或多个节点聚类集合，得到所述多个待处理图像的聚类结果。

在一些实施例中，所述节点与所述近邻点属于同一类别的置信度为第一相似度与第二相似度的差值，其中，所述第一相似度为所述节点与其近邻点属于同一类别的相似度总和，所述第二相似度为所述节点与其近邻点属于不同类别的相似度总和。

在一些实施例中，置信度获取单元303具体用于：根据所述节点对应的特征信息，获得多个节点对应的特征信息矩阵；根据每两个节点之间的相似度值，获得相似度矩阵；将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络，得到所述节点与所述近邻点属于同一类别的置信度。

在一些实施例中，所述装置还包括第一神经网络训练单元，用于在将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络步骤之前，利用样本图像集对所述第一神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；所述第一神经网络训练单元在用于利用样本图像集对所述第一神经网络进行训练时，具体用于：获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；确定所述样本节点与近邻点属于同一类别的置信度，并对所述样本节点标注置信度值；将样本特征信息矩阵和样本相似度矩阵输入于所述第一神经网络，预测得到各个样本节点的置信度值，所述样本特征信息矩阵包括各个样本节点的特征信息，所述样本相似度矩阵包括每两个样本节点之间的相似度值；根据对各个样本节点预测的置信度值和标注的置信度值之间的差异，对所述第一神经网络的网络参数进行调整，得到训练后的第一神经网络。

在一些实施例中，连接度确定单元304具体用于：对于每个节点确定候选集，所述候选集包括所述节点的近邻点中，置信度大于所述节点的近邻点；将所述候选集输入至预先训练的第二神经网络，所述第二神经网络输出所述节点与所这候选集中每个近邻点之间的边的连接度。

在一些实施例中，所述装置还包括第二神经网络训练单元，用于在将所述候选集输入至预先训练的第二神经网络之前，利用样本图像集对所述第二神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；所述第二神经网络训练单元具体用于：所述利用样本图像集对所述第二神经网络进行训练，包括：获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；对于每个样本节点获取样本候选集，所述候选集包括所述样本节点的近邻点中，置信度大于所述节点的近邻点；将所述样本节点与所述候选集中的每个近邻点进行连接得到样本边；根据所述样本节点的类别以及所述近邻点的类别，确定所述样本边的连接度值，并对所述样本边进行标注；将所述候选集输入至所述第二神经网络，预测得到各个边的连接度值；根据对各个样本边预测的连接度值和标注的连接度值之间的差异，对所述第二神经网络的网络参数进行调整，得到训练后的第二神经网络。

在一些实施例中，所述待处理图像为人脸图像；所述多个待处理图像的聚类结果包括一个或多个对象的人脸图像集合。

图4为本公开至少一个实施例提供的电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实现方式所述的图像聚类方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实现方式所述的图像聚类方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开中所述的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”包括三种方案：A、B、以及“A和B”。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种图像聚类方法，其特征在于，所述方法包括：获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点；

通过将每个节点与其多个近邻点进行连接，获得连接节点的多个边；

获取所述节点与所述多个近邻点属于同一类别的置信度；

根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度；

根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果，包括：获取所述节点与目标近邻点之间的边，其中，所述近邻点包含目标近邻点，且所述目标近邻点的置信度大于所述节点，且所述目标近邻点与所述节点之间的边具有最大连接度；根据所述节点与目标近邻点之间的边形成的连通域，得到一个或多个节点聚类集合；根据所述一个或多个节点聚类集合，得到所述多个待处理图像的聚类结果。

2.根据权利要求1所述的方法，其特征在于，所述节点的近邻点包括与所述节点相似度最高的K个节点，其中，K为正整数。

3.根据权利要求1所述的方法，其特征在于，所述节点与所述近邻点属于同一类别的置信度为第一相似度与第二相似度的差值，其中，所述第一相似度为所述节点与其近邻点属于同一类别的相似度总和，所述第二相似度为所述节点与其近邻点属于不同类别的相似度总和。

4.根据权利要求1所述的方法，其特征在于，所述获取所述节点与所述多个近邻点属于同一类别的置信度，包括：

根据所述节点对应的特征信息，获得多个节点对应的特征信息矩阵；

根据每两个节点之间的相似度值，获得相似度矩阵；

将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络，得到所述节点与所述近邻点属于同一类别的置信度。

5.根据权利要求4所述的方法，其特征在于，在将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络步骤之前，所述方法还包括，利用样本图像集对所述第一神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；

所述利用样本图像集对所述第一神经网络进行训练，包括：

获取每个样本图像的特征信息，并以每个样本图像的特征信息作为一个样本节点；

确定所述样本节点与近邻点属于同一类别的置信度，并对所述样本节点标注置信度值；

将样本特征信息矩阵和样本相似度矩阵输入于所述第一神经网络，预测得到各个样本节点的置信度值，所述样本特征信息矩阵包括各个样本节点的特征信息，所述样本相似度矩阵包括每两个样本节点之间的相似度值；

根据对各个样本节点预测的置信度值和标注的置信度值之间的差异，对所述第一神经网络的网络参数进行调整，得到训练后的第一神经网络。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述确定所述节点与近邻点之间的边的连接度，包括：

对于每个节点确定候选集，所述候选集包括所述节点的近邻点中，置信度大于所述节点的近邻点；

将所述候选集输入至预先训练的第二神经网络，得到所述节点与所这候选集中每个近邻点之间的边的连接度。

7.根据权利要求6所述的方法，其特征在于，在将所述候选集输入至预先训练的第二神经网络之前，所述方法还包括，利用样本图像集对所述第二神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；

所述利用样本图像集对所述第二神经网络进行训练，包括：

对于每个样本节点获取样本候选集，所述候选集包括所述样本节点的近邻点中，置信度大于所述节点的近邻点；

将所述样本节点与所述候选集中的每个近邻点进行连接得到样本边；

根据所述样本节点的类别以及所述近邻点的类别，确定所述样本边的连接度值，并对所述样本边进行标注；

将所述候选集输入至所述第二神经网络，预测得到各个边的连接度值；

根据对各个样本边预测的连接度值和标注的连接度值之间的差异，对所述第二神经网络的网络参数进行调整，得到训练后的第二神经网络。

8.根据权利要求1所述的方法，其特征在于，所述待处理图像为人脸图像；所述多个待处理图像的聚类结果包括一个或多个对象的人脸图像集合。

9.一种图像聚类装置，其特征在于，所述装置包括：

特征获取单元，用于获取多个待处理图像的特征信息，并以每个待处理图像的特征信息作为一个节点；

边获取单元，用于通过将每个节点与其多个近邻点进行连接，获得连接节点的多个边；

置信度获取单元，用于获取所述节点与所述多个近邻点属于同一类别的置信度；

连接度确定单元，用于根据所连接的两个节点属于同一类别的概率确定所述节点与每个近邻点之间的边的连接度；

聚类单元，用于根据各个节点的置信度和各个边的连接度，对与所述多个待处理图像一一对应的多个节点进行聚类，得到多个待处理图像的聚类结果；

所述聚类单元具体用于：

获取所述节点与目标近邻点之间的边，其中，所述近邻点包含目标近邻点，且所述目标近邻点的置信度大于所述节点，且所述目标近邻点与所述节点之间的边具有最大连接度；

根据所述节点与目标近邻点之间的边形成的连通域，得到一个或多个节点聚类集合；

根据所述一个或多个节点聚类集合，得到所述多个待处理图像的聚类结果。

10.根据权利要求9所述的装置，其特征在于，所述节点的近邻点包括与所述节点相似度最高的K个节点，其中，K为正整数。

11.根据权利要求9所述的装置，其特征在于，所述节点与所述近邻点属于同一类别的置信度为第一相似度与第二相似度的差值，其中，所述第一相似度为所述节点与其近邻点属于同一类别的相似度总和，所述第二相似度为所述节点与其近邻点属于不同类别的相似度总和。

12.根据权利要求9所述的装置，其特征在于，所述置信度获取单元具体用于：根据所述节点对应的特征信息，获得多个节点对应的特征信息矩阵；

根据每两个节点之间的相似度值，获得相似度矩阵；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括第一神经网络训练单元，用于在将所述特征信息矩阵和所述相似度矩阵输入至预先训练的第一神经网络步骤之前，利用样本图像集对所述第一神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；

所述第一神经网络训练单元在用于利用样本图像集对所述第一神经网络进行训练时，具体用于：

14.根据权利要求9至13任一项所述的装置，其特征在于，所述连接度确定单元具体用于：

将所述候选集输入至预先训练的第二神经网络，所述第二神经网络输出所述节点与所这候选集中每个近邻点之间的边的连接度。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括第二神经网络训练单元，用于在将所述候选集输入至预先训练的第二神经网络之前，利用样本图像集对所述第二神经网络进行训练，其中，所述样本图像集中的每个样本图像标注有类别；

所述第二神经网络训练单元具体用于：

所述利用样本图像集对所述第二神经网络进行训练，包括：

16.根据权利要求9所述的装置，其特征在于，所述待处理图像为人脸图像；所述多个待处理图像的聚类结果包括一个或多个对象的人脸图像集合。

17.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述的方法。