CN113762376A

CN113762376A - 图像聚类的方法、装置、电子设备及存储介质

Info

Publication number: CN113762376A
Application number: CN202111016144.2A
Authority: CN
Inventors: 夏苏哲; 邓自立; 朱雷
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-07

Abstract

本公开实施例涉及一种图像聚类的方法、装置、电子设备及存储介质，其中，图像聚类的方法包括：获取待聚类的目标图像，所述目标图像的类型包括脸部图像和身体图像；获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息；基于所述每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类。本公开实施例在进行图像聚类时，不仅考虑了图像的向量特征信息，还考虑了图像的时空特征信息，以此来综合判断图像组合中的图像是否为同一类别，有利于提高图像聚类的准确度。

Description

图像聚类的方法、装置、电子设备及存储介质

技术领域

本公开涉及图像聚类及视觉大数据技术领域，尤其涉及一种图像聚类的方法、装置、电子设备及存储介质。

背景技术

对海量的多维特征向量进行聚类，是计算机视觉、视觉大数据、数据挖掘等领域的一项重要的信息处理手段。图像聚类能够将图像数据集中多个图像的特征向量分为若干个簇，同一个簇内的特征向量距离尽可能的小，不同簇之间的特征向量距离尽可能的大。

目前常用的图像聚类方法中，通常根据图像之间的向量距离特征进行聚类，但是由于拍摄角度、光照、摄像头与被拍摄对象的距离、摄像头的像素等原因，使得拍摄的图像质量参差不齐，导致实际为同一对象的图像，向量距离不一定接近，从而仅根据向量距离无法将其聚为一类，聚类准确度差。并且，目前常用的图像聚类方法仅能对脸部图像进行聚类，对于实际场景中未被抓拍到脸部但是有身体的图像，则无法进行聚类。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种图像聚类的方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种图像聚类的方法，包括：

获取待聚类的目标图像，所述目标图像的类型包括脸部图像和身体图像；

获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；

针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息；

基于所述每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类。

第二方面，本公开实施例还提供了一种用于图像聚类的分类器的训练方法，包括：

获取用于训练的目标图像，所述目标图像的类型包括脸部图像和身体图像；

针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息，以及获取每个图像组合的聚类标注结果；

基于所述每个图像组合的组合特征信息，以及每个图像组合的聚类标注结果，对所述分类器进行训练。

第三方面，本公开实施例还提供了一种聚类数据集的合并方法，包括：

获取第一聚类数据集和第二聚类数据集，所述第一聚类数据集包括多个第一特征向量，以及所述多个第一特征向量用于进行聚类得到的至少一个第一聚类标识，所述第二聚类数据集包括所述多个第一特征向量和至少一个第二特征向量，以及所述多个第一特征向量和所述至少一个第二特征向量用于进行聚类得到的至少一个第二聚类标识；

基于所述至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，所述聚类受影响的特征向量组包括至少一个第一特征向量；

基于所述至少一个第二特征向量，以及所述聚类受影响的特征向量组，对所述第二聚类数据集中的第二聚类标识进行更新处理，以得到合并后的第三聚类数据集。

第四方面，本公开实施例还提供了一种图像聚类的装置，包括：

图像获取模块，用于获取待聚类的目标图像，所述目标图像的类型包括脸部图像和身体图像；

图像特征获取模块，用于获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；

组合特征获取模块，用于针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息；

聚类模块，用于基于所述每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类。

第五方面，本公开实施例还提供了一种用于图像聚类的分类器的训练装置，包括：

训练图像获取模块，用于获取用于训练的目标图像，所述目标图像的类型包括脸部图像和身体图像；

特征信息获取模块，用于获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；

组合标注模块，用于针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息，以及获取每个图像组合的聚类标注结果；

训练模块，用于基于所述每个图像组合的组合特征信息，以及每个图像组合的聚类标注结果，对所述分类器进行训练。

第六方面，本公开实施例还提供了一种聚类数据集的合并装置，包括：

数据集获取模块，用于获取第一聚类数据集和第二聚类数据集，所述第一聚类数据集包括多个第一特征向量，以及所述多个第一特征向量用于进行聚类得到的至少一个第一聚类标识，所述第二聚类数据集包括所述多个第一特征向量和至少一个第二特征向量，以及所述多个第一特征向量和所述至少一个第二特征向量用于进行聚类得到的至少一个第二聚类标识；

扩散处理模块，用于基于所述至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，所述聚类受影响的特征向量组包括至少一个第一特征向量；

更新模块，用于基于所述至少一个第二特征向量，以及所述聚类受影响的特征向量组，对所述第二聚类数据集中的第二聚类标识进行更新处理，以得到合并后的第三聚类数据集。

第七方面，本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；存储器，用于存储所述处理器可执行指令；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现本公开实施例提供的任一所述的图像聚类的方法，或者实现本公开实施例提供的任一所述的用于图像聚类的分类器的训练方法，或者实现本公开实施例提供的任一所述的聚类数据集的合并方法。

第八方面，本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开实施例提供的任一所述的图像聚类的方法，或者执行本公开实施例提供的任一所述的用于图像聚类的分类器的训练方法，或者执行本公开实施例提供的任一所述的聚类数据集的合并方法。

第九方面，本公开实施例还提供了一种计算机程序产品，所述计算机程序产品用于执行本公开实施例提供的任一所述的图像聚类的方法，或者执行本公开实施例提供的任一所述的用于图像聚类的分类器的训练方法，或者执行本公开实施例提供的任一所述的聚类数据集的合并方法。

本公开实施例提供的技术方案与现有技术相比至少具有如下优点：在本公开实施例中，获取待聚类的目标图像，包括脸部图像和身体图像，并获取目标图像的图像特征信息，包括向量特征信息和时空特征信息，进而针对任意两个目标图像构成的图像组合，基于各目标图像的图像特征信息获取每个图像组合的组合特征信息，并基于每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类，从而，在进行图像聚类时，不仅考虑了图像的向量特征信息，还考虑了图像的时空特征信息，以此来综合判断图像组合中的图像是否为同一类别，有利于提高图像聚类的准确度。并且，结合图像的时空特征信息进行图像聚类，可以将实际为同一对象的脸部和身体进行关联，不仅能够提升图像聚类的聚合度，还可以提升图像中目标对象分析的精确度。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开一实施例提供的图像聚类的方法的流程示意图；

图2为本公开实施例提供的分类器预测结果示意图；

图3为本公开一实施例提供的用于图像聚类的分类器的训练方法的流程示意图；

图4为本公开实施例的一种支持视觉目标分析能力的装置架构图；

图5为本公开一实施例提供的聚类数据集的合并方法的流程示意图；

图6为第一聚类数据集和第二聚类数据集的示意图；

图7为第一聚类数据集和第二聚类数据集进行合并的结果示意图；

图8为本公开一实施例提供的图像聚类的装置的结构示意图；

图9为本公开一实施例提供的用于图像聚类的分类器的训练装置的结构示意图；

图10为本公开一实施例提供的聚类数据集的合并装置的结构示意图；

图11为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

图像聚类是一项应用广泛、实用价值高的重要技术。图像聚类可以将多个摄像头抓拍到的脸部图像聚合起来，并将同一个对象(比如动物)的脸部图像聚为一类。在短时空范围内，通过脸部图像聚类可以提高视觉目标分析的能力，目标分析距离更长；在长时空(例如跨天)范围内，可以利用聚类结果，进一步分析出目标对象的行为轨迹、关联对象等信息。图像聚类可以应用于多个场景，例如对野生动物保护地的动物轨迹追踪，了解野生动物的生活规律方面等，就可以通过图像聚类的方式分析动物的活动轨迹。

目前常用的图像聚类方法中，通常根据图像之间的向量距离特征进行聚类，然而，摄像头采集的图像由于距离远，且受光照、角度、像素等影响，使得采集的图像质量参差不齐，难以从图像中提取到有效的视觉特征，如果仅依靠图像的向量距离特征来判断是否为同一对象，会使实际为同一对象的图像，因向量距离特征存在较大差异而无法聚为一类，从而无法召回类似遮挡、低头、低质量的图像，聚类准确度低。

并且，常用的图像聚类方法仅能对单一数据源(即脸部图像)进行聚类，对于实际场景中很多未被抓拍到脸部但有身体的图像，则无法进行聚类，聚类数据源单一，不利于进行目标分析。

针对上述问题，本公开提供了一种图像聚类的方法，通过获取待聚类的目标图像，包括脸部图像和身体图像，以及获取目标图像的图像特征信息，包括向量特征信息和时空特征信息，进而针对任意两个目标图像构成的图像组合，基于各目标图像的图像特征信息获取每个图像组合的组合特征信息，并基于每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类，从而，实现了融合向量特征信息和时空特征信息的图像聚类，并且在聚类时考虑了脸部图像和身体图像两种数据源，实现了将实际为同一对象的脸部和身体进行关联，不仅能提升图像聚类的召回率(即聚合度)，还可以提升图像中目标对象分析的精确度。

图1为本公开一实施例提供的图像聚类的方法的流程示意图，可以适用于对包含脸部和/或身体的图像进行聚类、对目标对象进行分析的情况。该图像聚类的方法可以由图像聚类的装置执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如服务器、云端服务器、智能手机、摄像头等终端设备上。

如图1所示，本公开实施例提供的图像聚类的方法可以包括：

S101、获取待聚类的目标图像，所述目标图像的类型包括脸部图像和身体图像。

其中，脸部图像可以是包含聚类对象的脸部特征的图像，身体图像可以是包含聚类对象的身体特征的图像，聚类对象比如可以是动物，也可以是其他具有脸部和身体的对象。以聚类对象为动物为例，本公开实施例中，身体图像可以是未拍摄到动物的脸部的图像，比如，当动物低头时采集的图像、动物的脸部被遮挡物遮挡时采集的图像等，身体图像也可以是包含动物的脸部但因清晰度不够而无法识别出脸部特征的图像，本公开对此不作限制。

本公开实施例中，可以从摄像头采集的图像、视频中获取待聚类的目标图像。比如，可以从摄像头采集的所有图像中筛选出包含聚类对象的脸部或身体的图像作为目标图像。又比如，可以从摄像头采集的视频中，截取最近一个周期(可以是一天、一周、一个月等)的视频片段，从视频片段中获取包含聚类对象的脸部或身体的视频帧图像作为目标图像。

S102、获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息。

其中，向量特征信息可以是根据目标图像中的图像目标确定的向量特征，图像目标可以是聚类对象的脸部或者身体，时空特征信息可以包括但不限于图像的拍摄时间、拍摄目标图像的摄像头的经度、纬度等。

本公开实施例中，对于脸部图像和身体图像，可以获取向量特征信息和时空特征信息作为脸部图像的图像特征信息。此外，由于拍摄角度、遮挡等原因，根据不同图像中的身体确定的特征向量之间的向量距离的置信度不高，同一聚类对象的身体的特征向量之间的向量距离也不一定接近，因此对于身体图像，也可以不考虑向量特征信息，将时空特征信息作为身体图像的图像特征信息。通过获取目标图像的拍摄时间、摄像头经纬度等时空特征信息，方便了将身体图像与脸部图像关联，比如，同一摄像头采集的拍摄时间相邻的两张图像(比如一张身体图像和一张脸部图像)中，身体图像中的聚类对象与脸部图像中的聚类对象属于同一对象的概率会很大，即使身体图像的向量特征信息与脸部图像的向量特征信息之间存在较大差异，但结合图像的时空特征信息，也可能将身体图像和脸部图像判断为一个聚类对象，从而在进行图像聚类时考虑时空特征信息，有利于提高聚类准确度。

示例性地，脸部图像的向量特征信息可以通过预先训练好的神经网络模型获取，将脸部图像输入至训练好的神经网络模型中，神经网络模型的卷积核能够提取脸部图像中脸部的特征，进而从卷积核可以获取脸部图像的向量特征信息。目标图像的时空特征信息则可以直接获取，比如，对于目标图像的拍摄时间，则可以根据目标图像的采集时间直接确定，通常，摄像头采集的图像上会添加采集时间水印，可以根据该采集时间水印确定目标图像的拍摄时间；对于摄像头的经度和纬度，则可以根据摄像头的安装位置确定。

S103、针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息。

本公开实施例中，对于待聚类的目标图像，可以将所有的目标图像进行两两任意组合，得到多个图像组合，并针对任一目标图像，基于各目标图像的图像特征信息，确定每个图像组合的组合特征信息。

其中，组合特征信息可以包括但不限于向量特征信息之间的图像特征向量距离、图像目标的结构化类型组合、拍摄时间差异、摄像头位置差异等中的至少一种。图像目标的结构化类型组合包括三种，分别为脸部与脸部组合、脸部与身体组合、身体与身体组合。

本公开实施例中，当某个图像组合中的两张图像中的图像目标均为脸部时，可以确定该图像组合对应的图像目标的结构化类型为脸部与脸部组合，根据该图像组合中两张目标图像分别对应的向量特征信息，基于已有的向量距离计算方式，可以确定该图像组合对应的图像特征向量距离。当图像组合中包含身体图像时，则不计算该图像组合的图像特征向量距离。

示例性地，当本公开的方案应用于对动物进行聚类分析的场景时，聚类对象为动物，图像目标的结构化类型组合可以分为动物脸部与动物面部组合、动物脸部与动物身体组合、动物身体与动物身体组合三种组合形式。其中，动物可以是但不限于是老虎、黑猩猩、孔雀、熊猫、梅花鹿等。

S104、基于所述每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类。

其中，分类器可以预先训练得到，具体的训练过程将在后续实施例中进行描述，此处不作赘述。训练得到的分类器可以用于预测图像组合中的两张图像中的图像目标是否为同一对象。

本公开实施例中，基于每个图像组合的组合特征信息以及预先训练的分类器，可以进行图像聚类。

示例性地，可以将每个图像组合的组合特征信息输入至预先训练的分类器中，分类器能够输出图像组合中的两张目标图像中的图像目标是否为同一个对象，比如，当聚类对象为动物时，分类器能够输出图像组合中的两张目标图像中的图像目标是否为同一动物。进一步地，若图像组合中的两张目标图像中的图像目标为同一个对象，则将图像组合中的两张目标图像标注相同的标识，若非同一个对象，则将图像组合中的两张目标图像标注不同的标识。利用分类器判断图像组合中的两张图像中的图像目标是否为同一个对象，相当于对图像组合中的两张图像进行聚类。

进而，根据每个图像组合中两张目标图像是否为同一个对象的预测结果，可以对所有的目标图像进行聚类，将同一个对象的目标图像归为一类，生成图像聚类结果。

示例性地，假设包含一张相同的目标图像的多个图像组合中，两张目标图像中的图像目标为同一个对象时标注的标识相同，则在图像聚类时，可以将相同的标识归为一类，生成图像聚类结果。

举例而言，假设聚类对象为黑猩猩，对于多个图像组合(图像A，图像B)、(图像A，图像C)、(图像D，图像A)和(图像A，图像E)，其中，图像A、图像B图像D和图像E中的图像目标为同一只黑猩猩，在图像组合(图像A，图像B)、图像D，图像A)和(图像A，图像E)中每张图像标注的标识相同，均为gID1，则在进行图像聚类时，可以将标识均为gID1的目标图像聚为一类。其中，在聚类时，可以用目标图像的向量特征信息来表征目标图像。

示例性地，假设包含一张相同的目标图像的多个图像组合中，两张目标图像中的图像目标为同一个对象时标注的标识不相同，则在图像聚类时，可以根据图像目标是否为同一个对象的预测结果进行聚类，并采用同一标识来表示该聚类中的图像目标。

举例而言，如图2所示，假设聚类对象为老虎，对于图像组合(图像A，图像B)、(图像A，图像E)和(图像B，图像C)，利用分类器确定的聚类结果为图像A-同一老虎-图像B、图像A-同一老虎-图像E和图像B-同一老虎-图像C，其中，对于图像组合(图像A，图像B)，图像A和图像B对应的标识为gID1,对于图像组合(图像A，图像E)，图像A和图像E对应的标识为gID2，对于图像组合(图像B，图像C)，图像B和图像C对应的标识为gID3。由于图像A和图像B为同一老虎，图像A和图像E为同一老虎，图像B和C也为同一老虎，则可以将图像A、图像B、图像C和图像E聚为一类，并将包含图像A、图像B、图像C和图像E的聚类结果标注为标识gID1，或者也可以标注为gID2或gID3，本公开对此不作限制。

本公开实施例中，通过将待聚类的目标图像进行两两组合构成多个图像组合，基于每个图像组合的组合特征信息和预先训练的分类器进行图像聚类，将聚类问题转化为了若干个二分类问题，使得算法复杂度大幅降低，但性能和聚类效果却得到显著提升。通过利用分类器来预测图像组合之间的同对象关系，再将用于表征两张目标图像中图像目标之间关系的三元组(如图像B-同一老虎-图像C)拼成关系网(例如图2所示)，最终根据这张关系网可以将目标图像划分为不同的类，这种方式可解释性强，运行速度快，并且降低了标注数据的难度，实验证明，最终的聚类效果有显著提升。

在本公开实施例中，获取待聚类的目标图像，包括脸部图像和身体图像，并获取目标图像的图像特征信息，包括向量特征信息和时空特征信息，进而针对任意两个目标图像构成的图像组合，基于各目标图像的图像特征信息获取每个图像组合的组合特征信息，并基于每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类，从而，在进行图像聚类时，不仅考虑了图像的向量特征信息，还考虑了图像的时空特征信息，以此来综合判断图像组合中的图像是否为同一类别，有利于提高图像聚类的准确度。并且，结合图像的时空特征信息进行图像聚类，可以将实际为同一对象的脸部和身体进行关联，不仅能够提升图像聚类的聚合度，还可以提升图像中目标对象分析的精确度。

通常，动物园区、道路上等区域安装的摄像头采集的是视频流，在本公开的一种可选实施方式中，可以从视频片段中抽取包含聚类对象的脸部或身体的脸部图像和身体图像以获取待聚类的目标图像。其中，视频片段可以是摄像头采集的视频流，也可以是从摄像头采集的视频流中截取的一部分片段。从视频片段中抽取脸部图像和身体图像时，可以从视频片段包含的视频帧中识别出视频帧内包含的脸部特征或身体特征，裁剪出聚类对象的脸部或身体所在的区域作为脸部图像或身体图像。能够理解的是，当一个视频帧中包含多个脸部或身体时，可以从一个视频帧中获取多个脸部图像或身体图像。

在本公开的一种可选实施方式中，在构建图像组合时，可以选择任意两个目标图像构建图像组合，其中，每个图像组合中的两个目标图像的拍摄时间差小于第一时间阈值，和/或，每个图像组合中两个图像的拍摄位置差小于第一距离阈值。

其中，图像的拍摄位置可以用摄像头的位置(摄像头的经纬度)表示，同一摄像头拍摄的两张图像的拍摄位置相同。第一时间阈值和第一距离阈值可以预先设定，比如，第一时间阈值可以设置为10秒，第一距离阈值建议设置为0。

能够理解的是，当两张图像的拍摄时间差较大时，这两张图像中包含的对象不是同一对象的概率会比较大，另外，如果两张图像不是同一个摄像头拍摄的，则这两张图像中包含的对象不是同一对象的概率也比较大，因此，本公开实施例中，在构建图像组合时，可以选择任意两个目标图像构建图像组合，并根据每个目标图像的时空特征信息，确定任意两个目标图像的拍摄时间差和拍摄位置差，过滤掉包含的两张图像的拍摄时间差大于或等于第一时间阈值的图像组合，以及过滤掉拍摄位置差大于或等于第一距离阈值的图像组合，仅保留两个目标图像的拍摄时间差小于第一时间阈值，和/或，每个图像组合中两个图像的拍摄位置差小于第一距离阈值的图像组合进行图像聚类，避免了对所有的图像组合进行图像聚类导致的计算资源浪费。

在本公开的一种可选实施方式中，目标图像的时空特征信息可以包括如下至少一个：所述目标图像所在视频帧的拍摄时空信息、所述目标图像在所述视频片段中的定位信息、所述目标图像在所述视频片段中的出现时间和消失时间、所述目标图像在所述视频片段中周围其他目标图像的数量、所述目标图像在所述视频片段中的移动速度、所述目标图像在所述视频片段中的轨迹方向和拟合轨迹离散系数。

其中，目标图像所在视频帧的拍摄时空信息可以包括目标图像所在视频帧的拍摄时间、拍摄视频帧的摄像头的经度和纬度；目标图像在视频片段中的定位信息可以包括但不限于目标图像在视频片段中的抓拍时间、目标图像中目标像素的位置信息，其中，目标像素可以是图像目标上的一个特征明显的像素，比如鼻子、头顶、尾巴尖等，确定目标像素的位置信息时，可以以目标图像的左上角或右下角为参照建立xy坐标来确定目标像素在xy坐标系中的位置信息；目标图像在视频片段中的出现时间和消失时间，即目标图像中的图像目标在视频片段中的出现时间和消失时间；目标图像在视频片段中周围其他目标图像的数量，即视频片段中，在目标图像中包含的脸部或身体的周围，还包含的其他脸部或身体的数量，可以通过目标检测技术确定其他脸部或身体的数量；目标图像在视频片段中的移动速度，即目标图像中的脸部或身体在视频片段中的移动速度；目标图像在视频片段中的轨迹方向，即目标图像中的脸部或身体在视频片段中的移动轨迹方向，移动轨迹方向可以通过拟合确定，拟合出来移动轨迹方向后，拟合轨迹离散系数也随之确定。

进一步地，在本公开的一种可选实施方式中，每个图像组合的组合特征信息可以包括图像特征向量距离，以及如下至少一个：目标图像的类型组合、两个目标图像在所述视频片段中的出现时间重叠度、两个目标图像在所述视频片段中周围其他目标图像的数量差异、两个目标图像在所述视频片段中的移动速度差异、两个目标图像在所述视频片段中的轨迹相似度。

其中，图像特征向量距离可以根据每个特征组合中两个目标图像分别对应的向量特征信息确定；目标图像的类型组合包括脸部与脸部的组合、脸部与身体的组合以及身体与身体的组合，特征组合中目标图像的类型组合可以根据目标图像是脸部图像还是身体图像确定，如果两张目标图像均为脸部图像，则图像组合对应的目标图像的类型组合为脸部与脸部的组合；两个目标图像在视频片段中的出现时间重叠度可以根据两个目标图像分别在视频片段中的出现时间和消失时间确定；两个目标图像在视频片段中的轨迹相似度，可以包括轨迹方向之间的差异和拟合轨迹离散系数之间的差异，轨迹方向之间的差异和拟合轨迹离散系数之间的差异越小，轨迹相似度越高。

能够理解的是，图像特征向量距离越小、出现时间重叠度越高、周围其他目标图像的数量差异越小、移动速度差异越小、轨迹相似度越高，两个目标图像中的图像目标越相似。

本公开实施例中，通过获取目标图像所在视频帧的拍摄时空信息、目标图像在所述视频片段中的定位信息、目标图像在视频片段中的出现时间和消失时间、目标图像在视频片段中周围其他目标图像的数量、目标图像在视频片段中的移动速度、目标图像在视频片段中的轨迹方向和拟合轨迹离散系数中的至少一个作为时空特征信息，并基于时空特征信息确定组合特征信息，基于组合特征信息进行图像聚类，使得在进行图像聚类时，将出现消失时间、轨迹方向、周围对象数量等弱连接特征，整合为一个决策数据集，借助分类器根据这些特征推理出强相关的联系并进行同对象预测，能够提高判断两张图像中的对象是否为同一对象的预测准确度。本公开引入多种维度的特征数据，将时间、空间、画面结合在一起，构建出更加完善的目标追踪体系，显著提升了目标对象识别效果。

在本公开的一种可选实施方式中，图像特征信息还可以包括至少一个属性特征，以及与所述属性特征对应的置信度。

可选地，属性特征可以包括但不限于生长阶段、身高、雌雄、服装颜色中的至少一个。

其中，身高可以指目标图像中，图像目标的最高部位距离图像目标的最低部分的高度。

可选地，属性特征还可以包括体型、颜色、毛发中的至少一个。

以聚类对象为动物为例，通常，不同生长阶段的同种动物具有不同的特征，不同雌雄的同种动物也具有不同的特征，因此，可以根据识别的特征分析动物对应的生长阶段和雌雄。比如，雄性梅花鹿在两岁时长出瘤状的小角，3岁时长成大角，四岁时分两个叉，五岁分三个叉，因此，通过识别图像中的梅花鹿有没有角以及角有无分叉和分叉的个数，可以辨别梅花鹿的生长阶段和雌雄。

一些主人会对自己的宠物进行打扮，比如给宠物狗穿上漂亮的衣服、鞋子、戴头饰等，因此本公开实施例中，服装颜色也可以作为一种属性特征，能够在通过本公开实施例提供的图像聚类的方法进行图像聚类，以寻找丢失的宠物时，提供一种分析依据。

本公开实施例中，一个属性特征可以划分为多个不同的类别。以聚类对象为动物为例，动物可以是但不限于是老虎、黑猩猩、孔雀、熊猫、斑马、云豹、梅花鹿、宠物狗等，动物的属性特征可以包括生长阶段、雌雄、体型、颜色、毛发和服装颜色。其中，生长阶段可以划分为多个生长阶段，比如划分为幼年期、成年期和老年期；或者，生长阶段还可以划分为2岁以下(不含两岁)、2～3岁(不含三岁)、3～4岁(不含四岁)、4～6岁(不含6岁)及6岁以上；体型可以分为小型、中型和大型；颜色可以分为白色、黑色、棕色、豹纹、黑白双色、灰色、花色等；毛发可以分为无毛、短毛和长毛等；服装颜色可以包括粉色、白色、红色等，服装可以包括但不限于衣服、帽子、鞋子、饰品等。

本公开实施例中，图像特征信息可以包括生长阶段及对应的置信度、身高及对应的置信度、雌雄及对应的置信度、服装颜色及对应的置信度、体型及对应的置信度、颜色及对应的置信度、毛发及对应的置信度中的至少一个。

能够理解的是，属性特征对应的置信度，能够反映目标图像中的图像目标(聚类对象的脸部或身体)属于该属性特征的某个类别的概率，概率越大，图像目标属于该类别的可能性就越高。

以聚类对象为动物、属性特征为颜色为例，可以划分多个颜色类别，比如白色、黑色、棕色、豹纹、黑白双色、灰色和花色，可以获取目标图像中动物的面部或身体属于各个颜色类别的概率，将获取的各颜色类别的概率确定为对应颜色类别的置信度，从而得到颜色及对应的置信度作为目标图像的一个图像特征信息。

以上述动物为梅花鹿为例，对于一张包含梅花鹿的目标图像，可以通过预先训练的颜色分类模型对目标图像中梅花鹿的颜色进行识别，假设颜色分类模型输出的梅花鹿属于各颜色类别的概率分别为：属于白色的概率为0.14，属于黑色的概率为0，属于棕色的概率为0.6，属于豹纹的概率为0.1，属于黑白双色的概率为0，属于灰色的概率为0.06，以及属于花色的概率为0.1，则该目标图像对应的图像特征信息中，颜色特征及对应的置信度可以表示为：颜色(置信度)，即白色(0.14)、黑色(0)、棕色(0.6)、豹纹(0.1)、黑白双色(0)、灰色(0.06)和花色(0.1)。

进一步地，在获取的图像特征信息包括至少一个属性特征及与属性特征对应的置信度的基础上，在本公开的一种可选实施方式中，每个图像组合的组合特征信息可以包括置信度满足预设阈值的属性特征是否相同。

其中，预设阈值可以预先确定，比如设置预设阈值为0.5。

本公开实施例中，当目标图像的图像特征信息包括属性特征及对应的置信度时，基于图像特征信息获取的每个图像组合的组合特征信息还可以包括置信度满足预设阈值的属性特征是否相同。

举例而言，以聚类对象为动物为例，假设图像A和图像B构成一个图像组合，图像A和图像B的图像特征信息均包含体型属性特征及图像A和图像B中的动物属于各体型的置信度，其中，图像A中的动物属于各体型的置信度中，满足预设阈值的体型类别为中型，如果图像B中的动物属于各体型的置信度中，满足预设阈值的体型类别也为中型，则该图像组合的组合特征信息可以包括体型属性相同。而如果图像B中的动物属于各体型的置信度中，满足预设阈值的体型为小型，则该图像组合的组合特征信息可以包括体型属性不相同。

需要说明的是，本公开实施例中，当目标图像中的脸部或身体属于某个属性特征的各个类别的置信度均不满足预设阈值时，可以将置信度最高的类别与另一目标图像的置信度最高的类别或置信度满足预设阈值的类别进行比较，判断两者是否相同并生成组合特征信息。

在本公开实施例中，通过获取目标图像的属性特征及对应的置信度作为图像特征信息，并基于属性特征及对应的置信度来获取组合特征信息，实现了从聚类对象的身高、生长阶段、颜色、毛发、服装颜色等方面来判别两个图像中的聚类对象是否为同一对象，提供了同对象预测的依据，有利于提高预测效果，进而提高图像聚类的准确度。

本公开实施例提供的图像聚类的方法，可以应用于野生动物园中各动物的生活习性和行为轨迹分析、寻找失踪的宠物等场景中。

以本公开实施例提供的图像聚类的方法应用于动物生活习性和行为轨迹分析场景为例，野生动物园中混养着很多种类的动物，比如黑猩猩、熊猫、东北虎、美洲虎、亚洲象、云豹、斑马等。每种动物有很多只，不同种类的动物的生活习性和行为轨迹通常不同，即便是同种类的动物，生活习性和行为轨迹上也可能存在个体差异。为了了解每只动物的生活习性和行为轨迹，可以在野生动物园内安装摄像头来拍摄各动物的视频，并通过本公开实施例提供的图像聚类的方法，对包含动物的多个图像进行聚类分析，根据聚类结果分析出各动物的生活习性和行为轨迹。

需要说明的是，本公开实施例中所述的聚类对象还可以是人物，脸部图像还可以是人脸图像，而身体图像还可以是人体图像，本公开实施例提供的图像聚类的方法，还可以应用于寻找失踪人口的场景中。

在前述实施例中，分类器可以是预先训练得到的，训练过程如图3所示。图3为本公开一实施例提供的用于图像聚类的分类器的训练方法的流程示意图，该用于图像聚类的分类器的训练方法可以由用于图像聚类的分类器的训练装置执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如服务器、云端服务器、智能手机、摄像头等终端设备上。

如图3所示，该用于图像聚类的分类器的训练方法可以包括以下步骤：

S201、获取用于训练的目标图像，所述目标图像的类型包括脸部图像和身体图像。

S202、获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息。

需要说明的是，本公开实施例中所述的聚类对象还可以是人物，脸部图像还可以是人脸图像，而身体图像还可以是人体图像。

S203、针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息，以及获取每个图像组合的聚类标注结果。

本公开实施例中，当某个图像组合中的两张图像中的图像目标均为脸部时，可以确定该图像组合对应的图像目标的结构化类型为脸部与脸部组合，根据该图像组合中两张目标图像分别对应的向量特征信息，基于已有的向量距离计算方式，可以确定该图像组合对应的图像特征向量距离。当图像组合中包含身体图像时，由于身体图像的特征向量信息受拍摄角度、遮挡等原因的影响，身体特征向量之间的向量距离的置信度不高，因此不计算该图像组合的图像特征向量距离。

可选地，构建图像组合时，可以对用于训练的目标图像进行两两组合，并过滤掉拍摄时间差大于预设时间阈值的图像组合，或者，过滤掉拍摄目标图像的摄像头之间的直线距离大于预设距离阈值的图像组合，将剩余的图像组合作为用于训练分类器的图像组合，并获取这些图像组合的聚类标注结果。

示例性地，每个图像组合的聚类标注结果可以由人工进行标定。

在本公开的一种可选实施方式中，目标图像的图像特征信息还可以包括属性特征及与属性特征对应的置信度，属性特征可以包括生长阶段、身高、雌雄、服装颜色、体型、颜色、毛发中的至少一个。相应地，每个图像组合的组合特征信息还可以包括置信度满足预设阈值的属性特征是否相同。

能够理解的是，当训练用于对图像中的动物进行聚类分析的分类器时，则用于训练的目标图像包括动物的脸部图像和身体图像，图像目标的结构化类型组合可以包括动物脸部与动物脸部组合、动物脸部与动物身体组合、动物身体与动物身体组合。其中，上述动物可以是但不限于是老虎、黑猩猩、孔雀、熊猫、斑马等。

需要说明的是，前述实施例中有关时空特征信息和属性特征信息以及组合特征信息的相关描述，也适用于本实施例，此处不再赘述。

S204、基于所述每个图像组合的组合特征信息，以及每个图像组合的聚类标注结果，对所述分类器进行训练。

其中，分类器可以是二值分类器，比如XGBoost分类器、LightGBM(Light GradientBoosting Machine)分类器等。

在训练分类器时，可以将每个图像组合的组合特征信息作为分类器的输入数据，将每个图像组合对应的聚类标注结果作为分类器的输出，对分类器进行迭代训练，在训练过程中不断地优化分类器的参数，直至分类器的预测准确度达到预设值，训练结束，得到训练好的分类器。利用训练好的分类器即可预测未知的图像组合是否为同一对象。

在本公开实施例中，获取用于训练的目标图像，包括脸部图像和身体图像，并获取目标图像的图像特征信息，包括向量特征信息和时空特征信息，进而针对任意两个目标图像构成的图像组合，基于各目标图像的图像特征信息获取每个图像组合的组合特征信息，并获取每个图像组合的聚类标注结果，进而基于每个图像组合的组合特征信息以及每个图像组合的聚类标注结果，对分类器进行训练，从而，用于训练分类器的输入数据中，不仅考虑了图像的向量特征信息，还考虑了图像的时空特征信息，以此训练得到的分类器，能够准确地预测出两张图像是否为同一对象，有利于提高图像聚类的准确度。并且，结合图像的时空特征信息训练得到分类器，在利用分类器进行图像聚类时，可以将实际为同一对象的脸部和身体进行关联，不仅能够提升图像聚类的聚合度，还可以提升图像中目标对象分析的精确度。

在本公开的一种可选实施方式中，还可以获取聚类常识库作为分类器的输入，将聚类常识库用于人为干预信号，再用标注的图像数据进行分类器的训练，能够有效提高分类器的评测指标。

其中，可以预先构建一些先验知识作为聚类常识库，聚类常识库中的内容可以作为评判两张图像中的图像目标是否为同一对象(比如动物)的参考标准，和/或，可以用于指导分类器在预测两张图像中的图像目标是否为同一对象(比如动物)时，需要考虑哪些特征信息，不需要考虑哪些特征信息，等等。

示例性地，聚类常识库中的内容可以包括但不限于以下内容：

(1)如果图像组合中的两张图像对应的属性特征的置信度均大于阈值，则在置信度大于阈值的属性特征的类别相同时，才可以将这两张图像中的图像目标判断为同一对象(比如动物)。其中，属性特征的类别相同是指，如果属性特征是身高，则两张图像中的对象的身高需属于同一身高范围，如果属性特征是生长阶段，则两张图像中的对象的生长阶段需属于同一生长阶段，如果属性特征是颜色，则两张图像中的对象的颜色类别需相同，如果属性特征是服装颜色，则两张图像中的对象的服装颜色需一致。

(2)当图像组合中包含身体图像时，不使用特征向量距离，即对于包含身体图像的图像组合的判断，不以特征向量距离作为判断两个图像中的对象是否为同一对象的依据。能够理解的是，图像组合中是否包含身体图像，可以根据图像组合的组合特征信息确定，组合特征信息可以包括图像的类型组合，类型组合分为脸部与脸部组合、脸部与身体组合以及身体与身体组合，根据图像的类型组合，可以确定图像组合中是否包含身体图像。

(3)如果图像组合中的两张图像中的图像目标对应的轨迹相似度大于相似度阈值，可以将这两张图像中的图像目标判断为同一对象(比如动物)。

本公开实施例中，聚类常识库可以根据图像组合的组合特征信息构建。比如，如果图像组合的组合特征信息中包含图像特征向量距离和目标图像的类型组合，则构建的聚类常识库的内容可以包括当图像组合中包含身体图像时，不使用特征向量距离。又比如，如果图像组合的组合特征信息包括两个目标图像在视频片段中的出现时间重叠度，则构建的聚类常识库的内容可以包括出现时间重叠度大于预设重叠度阈值时，才可以将这两张图像中的对象判断为同一对象。

能够理解的是，聚类常识库的内容可以根据实际的图像质量、应用场景等进行灵活调整。比如，当图像质量较差时，可以修改聚类常识库中的内容以放宽判断为同一对象的条件，例如存在属性特征的最大置信度不大于阈值时，将原内容“置信度大于阈值的属性特征的类别相同时，才可以将这两张图像中的人物判断为同一对象”，修改为“最大置信度对应的属性特征的类别相同时，则将这两张图像中的人物判断为同一对象”。又比如，在对目标对象分析准确性要求较高的场景中，可以增加聚类常识库中的内容，以丰富同目标对象预测的约束条件，提高分类器的评测指标。

从而，本公开实施例中，基于所述每个图像组合的组合特征信息，以及每个图像组合的聚类标注结果，对所述分类器进行训练，可以包括：

基于每个图像组合的组合特征信息、所述聚类常识库，以及每个图像组合的聚类标注结果对所述分类器进行训练。

本公开实施例中，在训练分类器时引入聚类常识库作为分类器输入的一部分，将聚类常识库用于人为干预信号来约束分类器的同对象预测过程，比如，聚类常识库中的内容为当图像组合中包含身体图像时，不使用特征向量距离，则训练分类器的过程中，对于图像组合中包含身体图像的组合，则不使用该图像组合的特征向量距离作为判断该图像组合中的两个图像中的人物是否为同一对象的依据，能够提高分类器的评测指标，这是因为人知道由于拍摄角度、遮挡等原因使得身体特征向量之间的向量距离置信度不高，基于向量距离判断是否为同一对象没有意义，但分类器并不知道，因此引入聚类常识库来告知分类器，当图像组合中包含身体图像的组合时，不使用该图像组合的特征向量距离作为判断依据，从而能有效避免一些明显错误但分类器难以学习的情况，提高分类器的评测准确度。

本公开实施例提供的图像聚类的方法具有较为广泛的应用，比如可应用于视觉目标分析、寻找失踪宠物、动物行为轨迹分析、人员再识别(Person Re-Identification，ReID)、寻找失踪人口、人员聚档等多个领域中。

以本公开实施例提供的图像聚类的方法应用于视觉目标分析领域为例，图4为本公开实施例的一种支持视觉目标分析能力的装置架构图，图4中的摄像装置中集成了通过本公开实施例提供的用于图像聚类的分类器的训练方法训练得到的分类器，以及本公开实施例所提供的图像聚类的方法，以实现对待聚类的目标图像进行图像聚类。如图4所示，视觉目标分析的对象是狗，rID1是视觉分析的轨迹1，rID2是视觉分析的轨迹2，通过本公开实施例的图像聚类的方法，可以得到rID1和rID2的拟合轨迹gID，将rID1和rID2聚为一类，聚类的标识即为gID，有效提升了视觉目标分析能力。经实际验证表明，本公开提供的图像聚类的方法能够达到较高的准确率，基于视觉数据进行评测证明，准确率达到99％，视觉目标分析的轨迹数提升10.4％，提升了目标分析的精确度。

通过上述实施例所述的图像聚类的方法，对两次获取的不同的待聚类目标图像进行聚类，可以获取两个不同的聚类数据集，分别记为第一聚类数据集和第二聚类数据集，对于这两个聚类数据集，可以采用本公开实施例提供的聚类数据集的合并方法，对第一聚类数据集和第二聚类数据集进行合并处理，以得到一个合并后的聚类数据集。

图5为本公开一实施例提供的聚类数据集的合并方法的流程示意图，该聚类数据集的合并方法可以由本公开实施例提供的聚类数据集的合并装置执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如服务器、云端服务器、智能手机、摄像头等终端设备上。

如图5所示，该聚类数据集的合并方法可以包括以下步骤：

S301、获取第一聚类数据集和第二聚类数据集，所述第一聚类数据集包括多个第一特征向量，以及所述多个第一特征向量用于进行聚类得到的至少一个第一聚类标识，所述第二聚类数据集包括所述多个第一特征向量和至少一个第二特征向量，以及所述多个第一特征向量和所述至少一个第二特征向量用于进行聚类得到的至少一个第二聚类标识。

其中，第一聚类数据集和第二聚类数据集可以采用前述实施例所述的图像聚类的方法对多个图像进行聚类得到，第一特征向量和第二特征向量可以是前述实施例中所述的目标图像对应的图像特征信息，聚类标识是指聚类得到的每个簇对应的标识，聚类标识可以用于标识不同的目标对象(比如动物)，每个簇中包括至少一个特征向量，簇中包含的特征向量的个数可以看作是聚类标识所表示的目标对象对应的图像的个数。

能够理解的是，用于聚类生成第一聚类数据集的第一目标图像集合，与用于聚类生成第二聚类数据集的第二目标图像集合不同。

比如，第一目标图像集合可以是摄像头标识为1～8的8个摄像头采集的图像的集合，第二目标图像集合可以是摄像头标识为3～10的8个摄像头采集的图像的集合。

又比如，第一目标图像集合可以是摄像头在[T-n，T]这一时间段内采集的图像的集合，第二目标图像集合可以是摄像头在[T-n+1，T+1]这一时间段内采集的图像的集合。

S302、基于所述至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，所述聚类受影响的特征向量组包括至少一个第一特征向量。

本公开实施例中，至少一个第二特征向量是第二聚类数据集相较于第一聚类数据集新增的数据，根据至少一个第二特征向量，可以进行扩散处理，以获取聚类受影响的特征向量组。

示例性地，可以将第二聚类数据集中，与至少一个第二特征向量具体相同的第二聚类标识的至少一个第一特征向量，确定为聚类受影响的特征向量组。当至少一个第二特征向量属于一个单独的类时，即没有第一特征向量与第二特征向量属于同一个类，则聚类受影响的特征向量组为空。

S303、基于所述至少一个第二特征向量，以及所述聚类受影响的特征向量组，对所述第二聚类数据集中的第二聚类标识进行更新处理，以得到合并后的第三聚类数据集。

由于至少一个第二特征向量是相较于第一聚类数据集新增的特征向量，聚类受影响的特征向量组则是受新增的第二特征向量影响的特征向量，也就是说，聚类受影响的特征向量组是可能发生聚类标识变化的数据，因此本公开实施例中，可以基于至少一个第二特征向量以及聚类受影响的特征向量组进行重新聚类，得到新的聚类标识，使得至少一个第二特征向量以及聚类受影响的特征向量组对应新的聚类标识，其余的第一特征向量仍沿用旧的聚类标识，进而利用新的聚类标识和其余第一特征向量对应的第二聚类标识，构建得到第三聚类数据集，从而实现了第二聚类数据集中聚类标识的更新，保持了大部分原有的聚类结果不变，并且聚类精度不受影响。

聚类结果常用于各种业务场景中，比如人员建档、组织发现等场景，一个稳定的聚类(聚类标识尽可能的保持不变)至关重要。目前采用的聚类方法中，基于增量数据的聚类通常会改变原来的类，使得聚类精度下降；而基于最新的数据做全量聚类的方式，则会由于新数据的加入，使得聚类结果中多个类的标识发生变化。本公开实施例提出了一种有选择的聚类结果合并方法，通过基于至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，进而基于至少一个第二特征向量以及聚类受影响的特征向量组，对第二聚类数据集中的第二聚类标识进行更新处理，以得到合并后的第三聚类数据集，实现了对多个聚类结果的合并，填补了针对多个数据集进行聚类合并的空白，并且通过基于第二特征向量和受影响的特征向量组进行聚类更新，其余的第一特征向量对应的聚类标识不变，保持了大部分原有的聚类结果不变。

在本公开的一种可选实施方式中，基于所述至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，可以包括：

获取在所述第二聚类数据集中与所述第二特征向量关联的第二聚类标识，作为第一关联标识；

获取在所述第二聚类数据集中与所述第一关联标识关联的第一特征向量，作为1阶受影响特征向量，所述聚类受影响的特征向量组包括所述1阶受影响特征向量。

也就是说，将第二聚类数据集中，与第二特征向量具有相同的第二聚类标识的第一特征向量，确定为1阶受影响特征向量。

在本公开的一种可选实施方式中，还可以通过执行N次影响扩散操作，以获取至少两阶受影响特征向量，并基于各阶受影响特征向量构建聚类受影响的特征向量组。

其中，N的取值为正整数。

具体地，执行N次影响扩散操作包括：

获取在所述第一聚类数据集中与所述2N-1阶受影响特征向量关联的第一聚类标识，作为第二关联标识；

获取在所述第一聚类数据集中与所述第二关联标识关联的第一特征向量，作为2N阶受影响特征向量；

获取在所述第二聚类数据集中与所述2N阶受影响特征向量关联的第二聚类标识，作为第三关联标识；

获取在所述第二聚类数据集中与所述第三关联标识关联的第一特征向量，作为2N+1阶受影响特征向量。

能够理解的是，执行N次影响扩散操作，是在进行一次扩散处理以得到1阶受影响特征向量的基础上进行的，聚类受影响的特征向量组中至少包括1阶受影响特征向量。每执行1次影响扩散操作，则需要在第一聚类数据集和第二聚类数据集中分别进行一次扩散处理，获得两个新的受影响特征向量，聚类受影响的特征向量组中便新增两个受影响特征向量。

示例性地，可以预先设定扩散阶数，根据扩散阶数确定各阶受影响特征向量，进而基于每一阶受影响特征向量，确定聚类受影响的特征向量组。其中，扩散阶数满足公式α＝1+2*n,n＝0,1,2,…，扩散阶数可以根据实际数据量、耗时等进行灵活调整。当n＝0时，将第二聚类数据集中与第二特征向量具有相同的第二聚类标识的第一特征向量，确定为1阶受影响特征向量，聚类受影响的特征向量组包括1阶受影响特征向量。当n＝1时，则执行1次影响扩散操作，获取在第一聚类数据集中与1阶受影响特征向量关联的第一聚类标识，作为第二关联标识，获取在第一聚类数据集中与第二关联标识关联的第一特征向量，作为2阶受影响特征向量，获取在第二聚类数据集中与2阶受影响特征向量关联的第二聚类标识，作为第三关联标识，获取在第二聚类数据集中与第三关联标识关联的第一特征向量，作为3阶受影响特征向量，基于1阶受影响特征向量、2阶受影响特征向量和3阶受影响特征向量构建聚类受影响的特征向量组。n为其他取值时的扩散处理过程与上述过程类似，不再一一说明。通过循环执行上述扩散处理操作，直至满足预设的扩散阶数，得到第二聚类数据集中聚类受影响的特征向量组，聚类受影响的特征向量组和至少一个第二特征向量即为需要更新聚类标识的对象。

下面结合图6举例说明获取各阶受影响特征向量的具体过程。

图6为第一聚类数据集和第二聚类数据集的示意图，假设扩散阶数为3。图6中，rID_new1、rID_new2和rID_new3为第二聚类数据集中相较于第一聚类数据集的增量数据(记为delta)，首先根据delta，遍历第二聚类数据集，找到delta对应的聚类标识pID1_1和pID1_2，并将pID1_1和pID1_2写入哈希表中，命名为pID_set1，即pID_set1＝{pID1_1,pID1_2}；基于pID_set1再次遍历第二聚类数据集，找到pID1_1和pID1_2中所有受一阶影响的存量数据(即除增量数据外的数据)rID1_1、rID1_2和rID1_3，得到1阶受影响特征向量，记为rID_set1，即rID_set1＝{rID1_1，rID1_2，rID1_3}；基于rID_set1，遍历第一聚类数据集，将与rID_set1中的各数据关联的第一聚类标识pID2_1和pID2_2写入哈希表中，命名为pID_set2，即pID_set2＝{pID2_1,pID2_2}，并基于pID_set2，找到第一聚类数据集中所有受二阶影响的数据rID1_1、rID1_2、rID1_3和rID2_1，得到2阶受影响特征向量，记为rID_set2，即rID_set2＝{rID1_1，rID1_2，rID1_3，rID2_1}；将rID_set2在第二聚类数据集中对应的第二聚类标识pID12_2和pID3_1写入哈希表中，命名为pID_set3，即pID_set3＝{pID12_2，pID3_1}，并遍历第二聚类数据集，利用pID_set3找到所有受三阶影响的数据rID1_1、rID1_2、rID1_3、rID2_1和rID3_1，得到3阶受影响特征向量，记为rID_set3，即rID_set3＝{rID1_1,rID1_2,rID1_3,rID2_1,rID3_1},至此，扩散阶数满足预设扩散阶数3，停止扩散处理，得到聚类受影响的特征向量组，聚类受影响的特征向量组中包括1阶受影响特征向量、2阶受影响特征向量和3阶受影响特征向量。

在本公开实施例中，通过设置可调的扩散阶数，基于扩散阶数进行至少一次扩散处理以获取至少一阶受影响特征向量，增加了实际应用时的灵活性和普适性。

第一聚类数据集和第二聚类数据集中包含一部分相同的数据，即多个第一特征向量，但由于第一聚类数据集和第二聚类数据集并不完全相同，即使对于相同的数据，在进行聚类后，相同的数据所对应的聚类标识不一定相同。为了使得聚类结果尽可能稳定，需要保持大部分的聚类标识不变，也就是说，对于新的聚类结果，尽量沿用旧聚类结果中的聚类标识。为了达到这一目的，在本公开的一种可选实施方式中，还可以通过如下方式对类内对象未变仅聚类标识变化的类，变更类的标识为旧聚类结果中的聚类标识，因为类内对象未变，因此也使得聚类精度不受影响。对类内对象未变仅聚类标识变化的类变更类的标识的步骤包括：

建立所述第一聚类数据集中所述第一聚类标识和所述第一特征向量的第一映射词典，以及所述第一聚类标识与其对应的第一特征向量数量的第二映射词典；

获取所述第二聚类数据集中所述第二特征向量对应的第二聚类标识，以及所述第二聚类标识与所述第一特征向量的对应关系表；

基于所述第二聚类标识与所述第一特征向量的对应关系表和所述第一映射词典，生成包括所述第二聚类标识与所述第一聚类标识的映射关系的第三映射词典，以及建立所述第二聚类标识与其对应的所述第一特征向量数量的第四映射词典；

在所述第三映射词典中所述第二聚类标识和所述第一聚类标识的映射关系唯一，且映射关系唯一的第一聚类标识在所述第二映射词典中对应的第一特征向量数量，与第二聚类标识在所述第四映射词典中对应的第一特征向量数量相同时，将所述第二聚类标识更新为第一聚类标识。

其中，第二聚类标识与第一特征向量的对应关系表，是指第二聚类数据集中第二特征向量对应的目标第二聚类标识，与目标第二聚类标识中包含的目标第一特征向量的对应关系表，即，对应关系表的第二聚类标识是第二特征向量对应的目标第二聚类标识，对应关系表中的第一特征向量是与第二特征向量具有相同的第二聚类标识的目标第一特征向量。第四映射词典可以基于第二聚类标识与所述第一特征向量的对应关系表确定。

本公开实施例中，第三映射词典中记录的是第二聚类标识与第一聚类标识的对应关系，一个第二聚类标识可能没有对应的第一聚类标识，也可能有唯一一个对应的第一聚类标识，还可能有至少两个对应的第一聚类标识。当第三映射词典中，任一第二聚类标识不存在对应的第一聚类标识时，或者，有至少两个对应的第一聚类标识时，则在合并第一聚类数据集和第二聚类数据集以得到第三聚类数据集时，保持第二聚类标识不变；当第三映射词典中，任一第二聚类标识存在唯一对应的第一聚类标识时，进一步判断第四映射词典中，映射关系唯一的第二聚类标识对应的第一特征向量数量，是否与第二映射词典中第一聚类标识对应的第一特征向量数量相同，若相同，则将第二聚类标识更新为第一聚类标识。也就是说，对于第二聚类数据集中，聚类标识的映射关系唯一且对应的第一特征向量的数量也相同的类，沿用第一聚类数据集中的聚类标识，以尽可能保证聚类结果稳定。

为了便于理解上述过程，下面举例进行说明。

假设第一映射词典如表1所示，第二映射词典如表2所示，第二聚类数据集包括以下几个类：pID1(rID1_1，rID1_2)、pID2(rID2_1，rID2_2，rID2_3，rID3_1，rID4_3)、pID5(rID4_1，rID4_2，rID5_1)和pID6(rID6_1)，其中，rID4_3、rID5_1和rID6_1为新增的特征向量，即第二特征向量，第二特征向量对应的第二聚类标识为pID2、pID5和pID6，基于pID2、pID5和pID6分别对应的第一特征向量，可以建立第二聚类标识与第一特征向量的对应关系表，如表3所示。基于表3所示的第二聚类标识与第一特征向量的对应关系表及表1所示的第一映射词典，可以生成包括第二聚类标识与第一聚类标识的映射关系的第三映射词典，如表4所示。基于表3所示的第二聚类标识与第一特征向量的对应关系表，还可以建立第二聚类标识与其对应的第一特征向量数量的第四映射词典，如表5所示。从表4可以看出，第二聚类标识pID2和pID6与第一聚类标识的非唯一对应，因此在第二聚类数据集中，保持第二聚类标识pID2和pID6不变，第二聚类标识pID5和第一聚类标识pID4唯一对应，且pID5与pID4对应的第一特征向量数量相同，均为2，则说明pID5对应的类内对象并没变，只是标识变化，则可以将第二聚类数据集中的pID5更新为第一聚类数据集中的pID4，从而新的聚类结果中沿用了旧的聚类结果中的聚类标识，并使得聚类精度不受影响。

表1

第一聚类标识	第一特征向量
		pID1	rID1_1、rID1_2
pID2	rID2_1、rID2_2、rID2_3
		pID3	rID3_1
pID4	rID4_1、rID4_2

表2

第一聚类标识	第一特征向量数量
		pID1	2
pID2	3
		pID3	1
pID4	2

表3

第二聚类标识	第一特征向量
		pID2	rID2_1、rID2_2、rID2_3、rID3_1
pID5	rID4_1、rID4_2
		pID6	空

表4

第二聚类标识	第一聚类标识
		pID2	pID2、pID3
pID5	pID4
		pID6	空

表5

第二聚类标识	第一特征向量数量
		pID2	4
pID5	2
		pID6	0

在本公开的一种可选实施方式中，第一聚类数据集还包括至少一个第三特征向量，所述至少一个第三特征向量和所述多个第一特征向量用于进行聚类得到至少一个第一聚类标识。

其中，第三特征向量可以是第一特征向量之前的数据。比如，对于具有时间属性的数据集，每次进行图像聚类时，待聚类的目标图像的最近10天抓拍的图像，每天凌晨进行聚类，今天凌晨聚类得到的第一聚类数据集是基于[t-10，t-1]时间段内抓拍的图像对应的特征向量进行聚类得到的，当明天凌晨到来时，基于[t-9，t]时间段内抓拍的图像对应的特征向量进行聚类得到第二聚类数据集，其中，t为今天，则在明天到来时，(t-10)那天抓拍的图像对应的特征向量即为第三特征向量，今天(t)抓拍的图像对应的特征向量即为第二特征向量，[t-9，t-1]时间段内抓拍的图像对应的特征向量即为第一特征向量。

通常，在人口管理产品场景中，多维特征向量有时间属性，且因为存储空间的限制，多维特征向量还具有有效期，存储超过一定时间(比如10天、30天)的数据即失效，因此在每次聚类时，数据集均发生了一些变化，这是因为部分数据失效并新增了部分数据。因此，在基于第一聚类数据集和第二聚类数据集进行合并时，需要先将第一聚类数据集中的第三特征向量删除，以剔除无效的数据，再利用第一聚类数据集中剩余的数据与第二聚类数据集进行合并处理，保证合并结果的准确性。可见，本公开实施例提供的聚类数据集的合并方法可以应用于具有时间属性的数据的聚类场景，并实现了多个聚类数据集的合并，弥补了目前的技术无法解决有时间属性的数据集的聚类问题且仅针对单个数据集进行聚类的缺陷。

图7为第一聚类数据集和第二聚类数据集进行合并的结果示意图，图7中，标识1所对应区域内的各个特征向量为第三特征向量，标识2所对应区域内的各特征向量为第一聚类数据集中的各第一特征向量，标识3所对应区域内的各特征向量为第二聚类数据集中的各第一特征向量，标识24所对应区域内的各特征向量为第二聚类数据集中的各第二特征向量，其中，第一聚类数据集与第二聚类数据集中，相同的图案标识类内对象相同。在进行合并时，第一聚类数据集中的各第三特征向量不参与合并。从图7可以看出，最终得到的合并结果中，对于第一聚类数据集和第二聚类数据集中仅聚类标识不同但类内对象相同的类，继续使用该类在第一聚类数据集中对应的聚类标识，对于类内对象发生变化的类，比如新增的第二特征向量所在的类，则采用该类在第二聚类数据集中对应的聚类标识，由此，保证聚类精度不受影响的同时，还保证了聚类标识的稳定。经实际验证表明，以人口管理同人算法评测为例(数据有效性为30天，每天聚类合并1次)，采用本公开实施例提供的方法完成每个周期的聚类合并，仅有7％左右的类发生了变化，大部分类的聚类标识保持稳定。

图8为本公开一实施例提供的图像聚类的装置的结构示意图，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如服务器、云端服务器、智能手机、摄像头等终端设备。

如图8所示，本公开实施例提供的图像聚类的装置400可以包括图像获取模块401、图像特征获取模块402、组合特征获取模块403和聚类模块404，其中：

图像获取模块401，用于获取待聚类的目标图像，所述目标图像的类型包括脸部图像和身体图像；

图像特征获取模块402，用于获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；

组合特征获取模块403，用于针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息；

聚类模块404，用于基于所述每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类。

可选地，所述图像获取模块401具体用于从视频片段中抽取脸部图像和身体图像，以获取所述待聚类的目标图像。

可选地，所述图像聚类的装置还包括：

图像组合构建模块，用于选择任意两个目标图像构建图像组合，每个图像组合中的两个目标图像的拍摄时间差小于第一时间阈值，和/或，每个图像组合中两个图像的拍摄位置差小于第一距离阈值。

可选地，所述目标图像的时空特征信息包括如下至少一个：

所述目标图像所在视频帧的拍摄时空信息、所述目标图像在所述视频片段中的定位信息、所述目标图像在所述视频片段中的出现时间和消失时间、所述目标图像在所述视频片段中周围其他目标图像的数量、所述目标图像在所述视频片段中的移动速度、所述目标图像在所述视频片段中的轨迹方向和拟合轨迹离散系数。

可选地，所述每个图像组合的组合特征信息包括图像特征向量距离，以及如下至少一个：

目标图像的类型组合、两个目标图像在所述视频片段中的出现时间重叠度、两个目标图像在所述视频片段中周围其他目标图像的数量差异、两个目标图像在所述视频片段中的移动速度差异、两个目标图像在所述视频片段中的轨迹相似度。

可选地，所述图像特征信息还包括至少一个属性特征，以及与所述属性特征对应的置信度。

可选地，所述属性特征包括生长阶段、身高、雌雄、服装颜色中的至少一个。

可选地，所述每个图像组合的组合特征信息包括置信度满足预设阈值的属性特征是否相同。

可选地，所述图像聚类的装置还包括聚类结果合并模块，用于：

其中，所述第一聚类数据集和所述第二聚类数据集通过所述图像聚类的装置获得，所述聚类结果合并模块可以从所述聚类模块404获取第一聚类数据集和第二聚类数据集。

本公开实施例所提供的可配置于摄像头等电子设备上的图像聚类的装置，可执行本公开实施例所提供的任意可应用于摄像头等电子设备的图像聚类的方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

图9为本公开一实施例提供的用于图像聚类的分类器的训练装置的结构示意图，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如服务器、云端服务器、智能手机、摄像头等终端设备。

如图9所示，本公开实施例提供的用于图像聚类的分类器的训练装置500可以包括训练图像获取模块501、特征信息获取模块502、组合标注模块503和训练模块504，其中：

训练图像获取模块501，用于获取用于训练的目标图像，所述目标图像的类型包括脸部图像和身体图像；

特征信息获取模块502，用于获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；

组合标注模块503，用于针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息，以及获取每个图像组合的聚类标注结果；

训练模块504，用于基于所述每个图像组合的组合特征信息，以及每个图像组合的聚类标注结果，对所述分类器进行训练。

可选地，所述用于图像聚类的分类器的训练装置还包括：

常识库获取模块，用于获取聚类常识库；

所述训练模块504具体用于基于每个图像组合的组合特征信息，所述聚类常识库，以及每个图像组合的聚类标注结果对所述分类器进行训练。

本公开实施例所提供的可配置于摄像头等电子设备上的用于图像聚类的分类器的训练装置，可执行本公开实施例所提供的任意可应用于摄像头等电子设备的用于图像聚类的分类器的训练方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

图10为本公开一实施例提供的聚类数据集的合并装置的结构示意图，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如服务器、云端服务器、智能手机、摄像头等终端设备。

如图10所示，本公开实施例提供的聚类数据集的合并装置600可以包括数据集获取模块601、扩散处理模块602和更新模块603，其中：

数据集获取模块601，用于获取第一聚类数据集和第二聚类数据集，所述第一聚类数据集包括多个第一特征向量，以及所述多个第一特征向量用于进行聚类得到的至少一个第一聚类标识，所述第二聚类数据集包括所述多个第一特征向量和至少一个第二特征向量，以及所述多个第一特征向量和所述至少一个第二特征向量用于进行聚类得到的至少一个第二聚类标识。

其中，第一聚类数据集和第二聚类数据集可以通过前述实施例所述的图像聚类的方法得到。

扩散处理模块602，用于基于所述至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，所述聚类受影响的特征向量组包括至少一个第一特征向量；

更新模块603，用于基于所述至少一个第二特征向量，以及所述聚类受影响的特征向量组，对所述第二聚类数据集中的第二聚类标识进行更新处理，以得到合并后的第三聚类数据集。

可选地，所述扩散处理模块602具体用于：

可选地，所述聚类数据集的合并装置，还包括：

执行模块，用于执行N次影响扩散操作，以获取至少两阶受影响特征向量，N的取值为正整数；

向量组构建模块，用于基于各阶受影响特征向量构建聚类受影响的特征向量组。

可选地，所述执行模块具体用于：

可选地，所述聚类数据集的合并装置，还包括：

词典建立模块，用于建立所述第一聚类数据集中所述第一聚类标识和所述第一特征向量的第一映射词典，以及所述第一聚类标识与其对应的第一特征向量数量的第二映射词典；

关系表获取模块，用于获取所述第二聚类数据集中所述第二特征向量对应的第二聚类标识，以及所述第二聚类标识与所述第一特征向量的对应关系表；

词典生成模块，用于基于所述第二聚类标识与所述第一特征向量的对应关系表和所述第一映射词典，生成包括所述第二聚类标识与所述第一聚类标识的映射关系的第三映射词典，以及建立所述第二聚类标识与其对应的所述第一特征向量数量的第四映射词典；

标识更新模块，用于在所述第三映射词典中所述第二聚类标识和所述第一聚类标识的映射关系唯一，且映射关系唯一的第一聚类标识在所述第二映射词典中对应的第一特征向量数量，与第二聚类标识在所述第四映射词典中对应的第一特征向量数量相同时，将所述第二聚类标识更新为第一聚类标识。

可选地，所述第一聚类数据集还包括至少一个第三特征向量，所述至少一个第三特征向量和所述多个第一特征向量用于进行聚类得到至少一个第一聚类标识。

本公开实施例所提供的可配置于摄像头等电子设备上的聚类数据集的合并装置，可执行本公开实施例所提供的任意可应用于摄像头等电子设备的聚类数据集的合并方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

图11为本公开实施例提供的一种电子设备的结构示意图，用于对实现本公开实施例中任意图像聚类的方法、或者对实现本公开实施例中任意的用于图像聚类的分类器的训练方法、或者对实现本公开实施例中任意的聚类数据集的合并方法的电子设备进行示例性说明，不应理解为对本公开实施例的具体限定。

如图11所示，电子设备700可以包括处理器(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理器701执行时，可以执行本公开实施例提供的任意图像聚类的方法中限定的功能，或者执行本公开实施例提供的任意用于图像聚类的分类器的训练方法中限定的功能，或者执行本公开实施例提供的任意聚类数据集的合并方法中限定的功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务端可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待聚类的目标图像，所述目标图像的类型包括脸部图像和身体图像；获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息；基于所述每个图像组合的组合特征信息，以及预先训练的分类器，进行图像聚类。。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取用于训练的目标图像，所述目标图像的类型包括脸部图像和身体图像；获取所述目标图像的图像特征信息，所述图像特征信息包括向量特征信息和时空特征信息；针对任意两个目标图像构成的图像组合，基于所述各目标图像的图像特征信息获取每个图像组合的组合特征信息，以及获取每个图像组合的聚类标注结果；基于所述每个图像组合的组合特征信息，以及每个图像组合的聚类标注结果，对所述分类器进行训练。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取第一聚类数据集和第二聚类数据集，所述第一聚类数据集包括多个第一特征向量，以及所述多个第一特征向量用于进行聚类得到的至少一个第一聚类标识，所述第二聚类数据集包括所述多个第一特征向量和至少一个第二特征向量，以及所述多个第一特征向量和所述至少一个第二特征向量用于进行聚类得到的至少一个第二聚类标识；基于所述至少一个第二特征向量进行扩散处理，获取聚类受影响的特征向量组，所述聚类受影响的特征向量组包括至少一个第一特征向量；基于所述至少一个第二特征向量，以及所述聚类受影响的特征向量组，对所述第二聚类数据集中的第二聚类标识进行更新处理，以得到合并后的第三聚类数据集。

在本公开实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算机上执行、部分地在计算机上执行、作为一个独立的软件包执行、部分在计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种图像聚类的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待聚类的图像集合，包括：

从视频片段中抽取脸部图像和身体图像，以获取所述待聚类的目标图像。

3.根据权利要求2所述的方法，其特征在于，所述方法，还包括：

选择任意两个目标图像构建图像组合，每个图像组合中的两个目标图像的拍摄时间差小于第一时间阈值，和/或，每个图像组合中两个图像的拍摄位置差小于第一距离阈值。

4.根据权利要求2所述的方法，其特征在于，所述目标图像的时空特征信息包括如下至少一个：

5.根据权利要求4所述的方法，其特征在于，所述每个图像组合的组合特征信息包括图像特征向量距离，以及如下至少一个：

6.根据权利要求2所述的方法，其特征在于，所述图像特征信息还包括至少一个属性特征，以及与所述属性特征对应的置信度。

7.根据权利要求6所述的方法，其特征在于，所述属性特征包括生长阶段、身高、雌雄、服装颜色中的至少一个。

8.根据权利要求6所述的方法，其特征在于，所述每个图像组合的组合特征信息包括置信度满足预设阈值的属性特征是否相同。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过权利要求1-8任一项所述的方法进行图像聚类，以获取第一聚类数据集和第二聚类数据集，通过如下方法对所述第一聚类数据集和所述第二聚类数据集进行合并处理：

10.一种图像聚类的装置，包括：

11.一种电子设备，所述电子设备包括：

处理器；

存储器，用于存储所述处理器可执行指令；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现权利要求1-9中任一所述的图像聚类的方法。

12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行权利要求1-9中任一所述的图像聚类的方法。