CN115273170A

CN115273170A - 图像聚类方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115273170A
Application number: CN202210668322.8A
Authority: CN
Inventors: 余晓填; 杨一帆; 王爱波; 邢玲; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd; Qingdao Intellifusion Technology Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd; Qingdao Intellifusion Technology Co Ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-11-01
Also published as: WO2023240992A1

Abstract

本申请适用于图像处理技术领域，提供了一种图像聚类方法、装置、设备及计算机可读存储介质，该方法包括：获取多帧图像和多帧图像对应的连接图，所述多帧图像包括多个类别的图像；根据连接图，构建目标函数；获取目标函数的最小值，并根据目标函数的最小值，确定多帧图像的类别数量和每个类别对应的图像，目标函数的最小值用于指示同一类别的图像之间的差异最小且不同类别的图像之间的差异最大；将每个类别对应的图像划分为一类，得到多帧图像的聚类结果。从而，本申请通过连接图构建目标函数，再求解目标函数的最小值的方法，可以准确的对不同类别的海量多帧图像进行分类，得到精确的聚类结果。

Description

图像聚类方法、装置、设备及计算机可读存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种图像聚类方法、装置、设备及计算机可读存储介质。

背景技术

数据挖掘是一种广泛应用于分析处理数据领域的技术，它通过关联分析、聚类分析、分类等方法从海量数据中挖掘有用的知识。其中，图像聚类分析是图像数据挖掘技术的一种典型的方法。图像聚类是指将属于同一类别的图像划分为一类的，例如对获取的多帧人脸图像进行聚类，以将同一用户对应的人脸图像划分到同一类别。

然而，可能因为光照、角度或者遮挡等原因，使得本属于同一类别的图像之间相似度比较低，从而导致在图像聚类过程中，将同一类别的图像划分到其他类别，产生聚类误差。

发明内容

本申请提供了一种图像聚类方法、装置、设备及计算机可读存储介质，避免了将同一类别的图像划分到其他类别产生的聚类误差，保证了聚类的高精度。

第一方面，本申请提供了一种图像聚类方法，包括：

获取多帧图像和所述多帧图像对应的连接图，所述多帧图像包括多个类别的图像，所述连接图用于估计不同类别的图像；

根据所述连接图，构建目标函数，所述目标函数用于指示同一类别的图像之间的差异和不同类别的图像之间的差异；

获取所述目标函数的最小值，并根据所述目标函数的最小值，确定所述多帧图像的类别数量和每个类别对应的图像，所述目标函数的最小值用于指示同一类别的图像之间的差异最小且不同类别的图像之间的差异最大；

将所述每个类别对应的图像划分为一类，得到所述多帧图像的聚类结果。

本申请通过先获取多帧图像对应的连接图，然后根据连接图构建目标函数，再获取目标函数的最小值，并根据目标函数的最小值，确定多帧图像的类别数量和每个类别对应的图像，最后将每个类别对应的图像划分为一类，得到多帧图像的聚类结果。从而，通过构建目标函数，再求解目标函数的最小值的方式，可以准确的对不同类别的海量多帧图像进行分类，避免了将同一类别的图像划分到其他类别产生的聚类误差，保证了聚类结果的精确性。

第二方面，本申请提供了一种图像聚类装置，该装置用于执行上述第一方面或第一方面的任一可能的实现方式中的方法。具体地，该装置可以包括：

获取模块，用于获取多帧图像和所述多帧图像对应的连接图，所述多帧图像包括多个类别的图像，所述连接图用于估计不同类别的图像；

构建模块，用于根据所述连接图，构建目标函数，所述目标函数用于指示同一类别的图像之间的差异和不同类别的图像之间的差异；

确定模块，用于获取所述目标函数的最小值，并根据所述目标函数的最小值，确定多帧图像的类别数量和每个类别对应的图像，所述目标函数的最小值用于指示同一类别的图像之间的差异最小且不同类别的图像之间的差异最大；

聚类模块，用于将每个类别对应的图像划分为一类，得到所述多帧图像的聚类结果。

第三方面，本申请提供了一种电子设备，该设备包括存储器与处理器。该存储器用于存储指令；该处理器执行该存储器存储的指令，使得该设备执行第一方面或第一方面的任一可能的实现方式中图像聚类方法。

第四方面，提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实现方式中图像聚类方法。

第五方面，提供一种包含指令的计算机程序产品，当该指令在设备上运行时，使得设备执行第一方面或第一方面的任一可能的实现方式中图像聚类方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请一实施例提供的图像聚类方法的流程示意图；

图1b是本申请一实施例提供的聚类前和聚类后的多帧图像的示意图；

图2是本申请一实施例提供的图像聚类方法的流程示意图；

图3是本申请一实施例提供的图像聚类方法的流程示意图；

图4是本申请一实施例提供的图像聚类方法的流程示意图；

图5是本申请一实施例提供的图像聚类方法的流程示意图；

图6是本申请一实施例提供的图像聚类方法的流程示意图；

图7是本申请一实施例提供的图像聚类装置的结构示意图；

图8是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请提供一种图像聚类方法、装置、设备及计算机可读存储介质，该图像聚类方法应用于商场客流分析等需要对海量图像进行聚类的场景中。

其中，该多帧图像包括多个类别的图像。

例如，当多帧图像均为人脸图像时，同一类别的图像为属于同一个用户的人脸图像。

其中，多帧图像除过人脸图像，还可以为其他类型的图像。本申请实施例对多帧图像的具体类型不作任何限制。

当然，同一类别的图像除过同一个用户的人脸图像，还可以为属于同一性别的人脸图像。本申请实施例对同一类别的图像的具体类型不作任何限制。

上述的图像聚类方法可通过电子设备实现。电子设备可通过聚类系统执行图像聚类方法。

其中，电子设备可以为智能手机、平板电脑、台式电脑、笔记本电脑、手持设备、服务器等。本申请实施例对电子设备的具体类型不作任何限制。

在介绍本申请实施例提供的图像聚类方法之前，先对该图像聚类方法适用的场景进行举例说明：

以商场客流分析场景为例进行说明，电子设备通过与电子设备通信的监控摄像头获取商场中流动的甲乙丙三个用户的多帧人脸图像后，可以将多帧人脸图像进行图像聚类，从而对甲乙丙三个用户的多帧人脸图像进行精确区分，使得同一个用户的人脸图像划分为一类，以得到甲乙丙三个用户的人脸图像的聚类结果。

将同一个用户的人脸图像划分为一类，便于获取商场中的用户数量，或者商场中随着时间的变化各店铺的客流分分布情况(随着时间的变化商场中各店铺的用户数量)。

其中，将同一个用户的人脸图像划分为一类，具体为：将用户甲对应的人脸图像划分为一类，将用户乙对应的人脸图像划分为一类，将用户丙对应的人脸图像划分为一类。

基于上述场景描述，下面，本申请以电子设备为例，结合附图和应用场景，对本申请实施例提供的图像聚类方法进行详细说明。

请参阅图1a，图1a示出了本申请一实施例提供的图像聚类方法的流程示意图。

如图1a所示，本申请提供的图像聚类方法，包括：

S101、获取多帧图像和所述多帧图像对应的连接图。

其中，上述多帧图像包括多个类别的图像，所述连接图用于估计不同类别的图像。

在一些实施例中，多帧图像为通过监控摄像头采集到的图像。

监控摄像头可与电子设备通信连接，监控摄像头在采集到图像后，可将图像发送给电子设备，由电子设备获取多帧图像对应的连接图。

S102、根据所述连接图，构建目标函数。

目标函数用于指示同一类别的图像之间的差异和不同类别的图像之间的差异。

由于连接图可以估计不同类别的图像，也就是说连接图可以大概体现多帧图像的不同类别，因此，可以将连接图看作对多帧图像的不同类别进行粗略的划分。

在一些实施例中，电子通过目标函数体现同一类别的图像之间的差异以及不同类别的图像之间的差异。

可以理解的是，通过体现同一类别的图像之间的差异以及不同类别的图像之间的差异，可以为电子设备获取S103中同一类别的图像之间的差异最小且不同类别的图像之间的差异最大对应的目标函数的最小值提供数据准备。

进而，以便于电子设备根据目标函数的最小值对多帧图像的不同类别进行精细的划分。

举例说明，当多帧图像为7帧人脸图像，电子设备先根据7帧人脸图像获取该7帧人脸图像对应的连接图，对7帧人脸图像的类别进行粗略的划分。

电子设备再根据连接图构建目标函数，用于体现同一类别的人脸图像之间的差异以及不同类别的人脸图像之间的差异，以便于进一步对7帧人脸图像的不同类别进行精细的划分。

S103、获取所述目标函数的最小值，并根据所述目标函数的最小值，确定所述多帧图像的类别数量和每个类别对应的图像。

目标函数的最小值用于指示同一类别的图像之间的差异最小且不同类别的图像之间的差异最大。

电子设备再根据连接图构建目标函数，用于体现同一类别的图像之间的差异以及不同类别的图像之间的差异，再对目标函数进行求解同一类别的人脸图像之间的差异最小且不同类别的人脸图像之间的差异最大时，可以得到目标函数的最小值。

最后，电子设备可以根据目标函数的最小值确定7帧人脸图像的类别数量和每个类别对应的人脸图像，对7帧人脸图像的不同类别进行精细的划分。

S104、将所述每个类别对应的图像划分为一类，得到所述多帧图像的聚类结果。

在一些实施例中，当多帧图像均为人脸图像时，同一类别的图像为属于同一个用户的人脸图像，将每个类别对应的图像划分为一类，即为将同一用户的人脸图像划分为一类。

举例说明，当多帧图像为7帧人脸图像，且包括3个类别的人脸图像时，电子设备可将3个类别中每个类别对应的人脸图像划分为一类。

如图1b所示，左侧框中为聚类前的多帧人脸图像，右侧框中为聚类后的多帧人脸图像。左侧框和右侧框中，斜纹框、黑色框、实线线条框、虚线线条框分别代表不同类别的人脸图像。

电子设备可通过图像聚类方法将不确定类别数量和每个类别对应的图像的多帧人脸图像进行聚类，以使将每个类别对应的人脸图像划分为一类。

可以看出：

聚类前，斜纹框、黑色框、实线线条框、虚线线条框共有16个，表示共有16帧人脸图像。

聚类后，斜纹框有5个，表示此类别的人脸图像有5帧；黑色框有4个，表示此类别的人脸图像有4帧；实线线条框有4个，表示此类别的人脸图像有4帧；虚线线条框有3个，表示此类别的人脸图像有3帧。

本申请提供的图像聚类方法，通过电子设备获取多帧图像对应的连接图，再根据连接图构建用于指示同一类别的图像之间的差异和不同类别的图像之间的差异的目标函数，再求解用于指示同一类别的图像之间的差异最小且不同类别的图像之间的差异最大对应的目标函数的最小值，并根据目标函数的最小值确定多帧图像的类别数量和每个类别对应的图像，最后将将每个类别对应的图像划分为一类，得到多帧图像的聚类结果。从而，通过构建目标函数并求解目标函数的最小值确定多帧图像的类别数量和每个类别对应的图像，可以避免将同一类别的图像划分到其他类别产生的聚类误差，同时，可以避免因不同类别的海量图像数量的不均衡导致的聚类误差，保证了聚类的高精度，极大地提升了图像聚类方法的场景适应性。

基于上述图1a所示实施例的描述，电子设备根据连接图，构建目标函数，可以有多种方式。例如，通过类间熵和类内熵构建目标函数的方式。

下面，结合图2，详细介绍本申请的图像聚类方法的具体实现过程。

电子设备获取连接图对应的类间熵和类内熵，再将类间熵和类内熵之和作为目标函数。

其中，类间熵用于指示不同类别的图像之间的差异，类内熵用于指示同一类别的图像之间的差异。

需要说明的是，上述的熵指的是信息熵。信息熵(information entropy)是信息论的基本概念。用于描述信息源各可能事件发生的不确定性。

请参阅图2，图2示出了本申请一实施例提供的图像聚类方法的流程示意图。

如图2所示，本申请提供的图像聚类方法可以包括：

S201、将所述连接图转换为转移概率矩阵。

转移概率矩阵中的每个数据用于表示所述多帧图像中的任意两帧图像之间的转移概率。

可选的，电子设备可以根据连接图获取相似度矩阵，再将相似度矩阵转换为转移概率矩阵。

其中，相似度矩阵中的每个数据用于表示多帧图像中的任意两帧图像之间的相似度。

需要说明的是，任意两帧图像之间的相似度与任意两帧图像之间的转移概率相对应，且成正比例关系，相似度越大转移概率越高。

举例说明，当多帧图像为7帧人脸图像，电子设备先根据7帧人脸图像获取该7帧人脸图像中任意一帧人脸图像与除了该任意一帧人脸图像之外的其他人脸图像之间的相似度，形成相似度矩阵，再将相似度矩阵转换为转移概率矩阵。

其中，相似度矩阵中，第一列为多帧人脸图像中每帧人脸图像与第1帧人脸图像之间的相似度。

转移概率矩阵中，第一列为多帧人脸图像中每帧人脸图像与第1帧人脸图像之间的转移概率。

S202、将所述多帧图像中的每帧图像划分为一个类别，得到第一类别。

在一些实施例中，将多帧图像中的每帧图像划分为一个类别，即为每帧图像对应一个类别，有多少帧图像就有多少个类别。

举例说明，当多帧图像为7帧人脸图像，电子设备先将7帧人脸图像中的每帧人脸图像划分为一个类别，得到7个类别，将第1帧人脸图像标记为类别1，将第2帧人脸图像标记为类别2，将第7帧人脸图像标记为类别7。

S203、根据所述转移概率矩阵和所述第一类别的数量及所述第一类别中每个类别对应的图像，确定第一概率、第二概率和第三概率。

其中，第一概率包括每帧图像不属于第二类别中的每个类别的概率和，所述第二概率包括每帧图像属于第二类别中的每个类别的概率，所述第三概率包括每帧图像不属于第二类别中的每个类别的概率。

第二类别为对所述第一类别的数量调整产生的类别。

在一些实施例中，第一概率的计算公式为：

其中，

表示第一概率，即M个第三概率的和，也即每帧图像不属于第二类别中的每个类别的概率的和，

表示第三概率，即每帧图像不属于第二类别中的第k个类别的概率，初始化时，M的值等于第一类别的数量，求解目标函数的最小值的过程中，M的值为第二类别的数量，求解获得目标函数的最小值时，M的值为多帧图像的真实的类别数量，k表示序号(k为从1到M的取值)。

可以理解，M的值最大为初始化时，第一类别的数量对应的值；M的值最小为求解获得目标函数的最小值时，多帧图像的真实的类别数量对应的值，此时，第二类别的数量等于多帧图像的真实的类别数量。

例如，多帧图像为7帧人脸图像，那么，初始化时，M的值为7。该7帧人脸图像包括3个类别的人脸图像时，求解目标函数的最小值的过程中，M的值可能为6、5、4、3中任意一个。求解获得目标函数的最小值时，对应的M的值等于3。

在一些实施例中，第二概率的计算公式为：

其中，

表示第二概率，即每帧图像属于第二类别中的第k个类别的概率，

表示第三概率，α表示多帧图像中的任意一帧图像，p_α表示多帧图像中的每帧图像与任意一帧图像之间的转移概率，α∈k表示多帧图像中的任意一帧图像α属于第二类别中的第k个类别。

在一些实施例中，第三概率的计算公式为：

其中，

表示第三概率，G表示连接图，G(α,β)表示连接图中任意两个节点分别对应的图像之间的转移概率。

S204、根据所述第一概率、所述第二概率和所述第三概率，确定类间熵和类内熵。

在一些实施例中，类间熵的表示公式为：

在一些实施例中，类内熵的表示公式为：

S205、将所述类内熵和所述类间熵之和确定为所述目标函数。

在一些实施例中，目标函数的表示公式为：

其中，min表示目标函数的最小值，Y表示聚类的标签结果(每帧图像属于哪个类别)。

本申请中，电子设备通过将连接图转换为转移概率矩阵，然后将多帧图像中的每帧图像划分为一个类别，得到第一类别，根据转移概率矩阵和第一类别的数量及第一类别中每个类别对应的图像，确定第一概率、第二概率和第三概率，再根据第一概率、第二概率和第三概率，确定类内熵和类间熵，最后将类内熵和类间熵之和确定为目标函数。借助类间熵和类内熵构建目标函数，确定在获取目标函数的最小值时，对应的多帧图像的类别数量和每个类别对应的图像提供准确的数据准备。

基于上述图1a所示实施例的描述，电子设备确定目标函数的最小值，并根据目标函数的最小值，确定多帧图像的类别数量和每个类别对应的图像，可采用多种方式。例如，电子设备采用贪心算法求解目标函数的最小值。

下面，结合图3，详细介绍本申请的图像聚类方法的具体实现过程。

贪心算法(greedy algorithm)，又称贪婪算法，是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，算法得到的是在某种意义上的局部最优解。

采用贪心算法求解目标函数，可快速获取目标函数的最小值。

请参阅图3，图3示出了本申请一实施例提供的图像聚类方法的流程示意图。

如图3所示，本申请提供的图像聚类方法可以包括：

S301、调整所述类间熵和所述类内熵中的所述第二类别的数量及和所述第二类别中每个类别对应的图像，在所述第二类别的数量及和所述第二类别中每个类别对应的图像满足预设条件时，得到所述目标函数的最小值。

所述预设条件为同一类别的图像之间的差异最小且不同类别的图像之间的差异最大。

在一些实施例中，采用贪心算法求解目标函数的最小值，以调整类间熵和类内熵中的第二类别的数量及和第二类别中每个类别对应的图像。

具体而言，采用模拟退火算法求解目标函数的最小值，以调整类间熵和类内熵中的第二类别的数量及和第二类别中每个类别对应的图像。

模拟退火算法可存储在存储设备中。存储设备可与电子设备进行通信，使得电子设备能够从存储设备中调取模拟退火算法。本申请对存储设备的存储方式和具体类型不做限定。

举例说明，电子设备在获取7帧人脸图像对应的连接图后，将连接图转换为转移概率矩阵，再从存储设备中调取目标函数，根据转移概率矩阵中的转移概率，采用模拟退火算法求解目标函数，以调整类间熵和类内熵中的第二类别的数量及和第二类别中每个类别对应的人脸图像。

S302、获取所述目标函数的最小值对应的所述多帧图像的类别数量和每个类别对应的图像。

举例说明，多帧图像为7帧人脸图像时，7帧人脸图像包括3个类别的人脸图像，即人脸图像1、人脸图像2和人脸图像3属于同一类别，人脸图像4和人脸图像5属于同一类别，人脸图像6和人脸图像7属于同一类别。

最终电子设备获取的目标函数的最小值对应的为7帧人脸图像包括3个类别的人脸图像，人脸图像1、人脸图像2和人脸图像3属于同一类别，人脸图像4和人脸图像5属于同一类别，人脸图像6和人脸图像7属于同一类别。

本申请中，电子设备通过调整类间熵和类内熵中的第二类别的数量及第二类别中每个类别对应的图像，在第二类别的数量及和第二类别中每个类别对应的图像满足预设条件时，得到目标函数的最小值。电子设备通过调整类间熵和类内熵中的第二类别的数量及和第二类别中每个类别对应的图像，获取目标函数的最小值，以确定准确的多帧图像的类别数量和每个类别对应的图像，保证图像聚类的准确性。

基于上述图1a所示实施例的描述，电子设备可获取连接图，根据连接图进行聚类。

下面，结合图4，详细介绍本申请的图像聚类方法的具体实现过程。

电子设备借助多变量分析处理的方式自适应获取每帧图像对应的相似度阈值，再根据每帧图像对应的相似度阈值，构建连接图。

多变量分析处理，又称z-score标准化处理，即将数据输入z-score模型中处理。

请参阅图4，图4示出了本申请一实施例提供的图像聚类方法的流程示意图。

如图4所示，本申请提供的图像聚类方法可以包括：

S401、获取所述多帧图像中每帧图像对应的多个相似度值。

其中，任意一帧图像对应的多个相似度值用于表示所述任意一帧图像与所述多帧图像中除了所述任意一帧图像之外的其他帧图像之间的相似性。

监控摄像头可与电子设备通信连接，监控摄像头在采集到图像后，可将图像发送给电子设备，电子设备获取多帧图像中每帧图像对应的多个相似度值。

在一些实施例中，电子设备在获取来自监控摄像头的多帧图像后，通过深度学习模型，抽取每帧图像的特征，形成特征集，并根据特征集中任意一个特征与特征集中除了任意一个特征之外的其他特征之间的相似性，获取特征集中每个特征对应的多个相似度值。

其中，特征集可以表示为C＝{x_i}，i＝1…N。

计算相似度值的公式为：

其中，x_i表示特征集中的任意一个特征，x_j表示特征集中除任意一个特征之外的其他特征中的其中一个特征。

另外，上述的深度学习模型可以为残差网络(ResNet)，也可以为Transformer模型。

深度学习模型可存储在存储设备中。存储设备可与电子设备进行通信，使得电子设备能够从存储设备中调取深度学习模型。本申请对存储设备的存储方式和具体类型不做限定。

举例说明，当多帧人脸图像为7帧人脸图像时，电子设备可执行如下步骤：

电子设备获取7帧人脸图像后，通过残差网络(ResNet)抽取每帧人脸图像的特征，可以得到特征集C＝{x_i}，i＝1…7；

获取特征集中任意一个特征x₂与除任意一个特征之外的6个特征之间的相似度值。

确定不含任意一个特征x₂的6个特征对应的特征的集合为C_i＝\x₂，即任意一个特征x₇与特征x₁、x₂、x₃、x₄、x₅、x₆的相似度值，可以表示为a₁，a₂，a₃，a₄，a₅，a₆。

S402、对每帧图像对应的多个相似度值进行多变量分析处理，得到多个分析数据。

其中，分析数据用于指示与每帧图像属于同一类别的图像对应的相似度值，和与每帧图像不属于同一类别的图像对应的相似度值之间的差异。

在一些实施例中，对每帧图像对应的多个相似度值进行多变量分析处理，即将每帧图像对应的多个相似度值输入z-score模型中处理。

电子设备将每帧图像对应的多个相似度值输入z-score模型中处理，可输出多个分析数据。

可以理解的是，与每帧图像属于同一类别的图像对应的相似度值之间比较接近，相似度值也较大，而与每帧图像不属于同一类别的图像对应的相似度值较小。

电子设备通过多变量分析，根据每帧图像对应的多个相似度值，获取多个分析数据，可以为获取每帧图像对应的相似度阈值提供数据准备。

举例说明，与人脸图像1属于同一类别的人脸图像对应的相似度值可以为0.95、0.93、0.92，而与人脸图像1不属于同一类别的人脸图像对应的相似度值可以为0.45、0.32。

显然，与人脸图像1属于同一类别的人脸图像对应的相似度值和与人脸图像1不属于同一类别的人脸图像对应的相似度值之间的差异较大。而可以通过多变量分析的方法检验出这种差异。

S403、根据所述多个分析数据中的最大分析数据，从每帧图像对应的多个相似度值中，确定每帧图像对应的相似度阈值。

相似度阈值为与所述每帧图像属于同一类别的图像对应的相似度值，和与所述每帧图像不属于同一类别的图像对应的相似度值之间的分解值。

电子通过多变量分析时，获得的多个分析数据中的最大分析数据用于表示与每帧图像属于同一类别的图像对应的相似度值，和与每帧图像不属于同一类别的图像对应的相似度值之间的差异最大。

例如，与人脸图像1属于同一类别的人脸图像对应的相似度值可以为0.95、0.93、0.92，而与人脸图像1不属于同一类别的人脸图像对应的相似度值可以为0.45、0.32。

显然，与人脸图像1属于同一类别的人脸图像对应的相似度值和与人脸图像1不属于同一类别的人脸图像对应的相似度值之间的差异最大对应的相似度值为0.92。

从而，可以推算出与人脸图像1属于同一类别的人脸图像对应的相似度值和与人脸图像1不属于同一类别的人脸图像对应的相似度值之间的分界值为0.92，即相似度阈值为0.92。

在一些实施例中，相似度阈值可以表示为a_p。

S404、根据每帧图像对应的相似度阈值，构建连接图。

在一些实施例中，电子设备可执行以下步骤构建连接图：

从所述每帧图像对应的多个相似度值中，确定大于或者等于所述相似度阈值的相似度值；

将大于或者等于所述相似度阈值的相似度值对应的图像，确定为所述每帧图像对应的子集；

将所述每帧图像对应的所述子集中的每个图像作为节点，采用连接边将所述节点相互连接，得到所述连接图。

在一些实施例中，每帧图像对应的子集可以表示为B_i，其中

即，子集B_i的元素需满足如下条件：

s(x_i,x_j)≥a_p。

对于多帧图像，每帧图像都得到对应的子集后，将所有子集构成集合A，即A＝{B₁,…B_N}。

进而，将集合A中每个子集中的每个图像作为节点，采用连接边将节点相互连接，得到连接图。

应理解，在连接图中，一个节点用于表示一帧图像，两个节点之间的连接边用于表示两帧图像之间的相似度。

举例说明，当多帧图像为7帧人脸图像。电子设备可获取任意一个特征x₇与特征x₁、x₂、x₃、x₄、x₅、x₆的相似度值，可以表示为a₁，a₂，a₃，a₄，a₅，a₆。若确定相似度阈值为a₃时，将a₁、a₂和a₃对应的人脸图像，确定为任意一个特征x₇对应的人脸图像对应的子集B_i，其中，

即，子集B_i的元素需满足如下条件：

s(x_i,x_j)≥a₃。

本申请中，电子设备获取多帧图像中每帧图像对应的多个相似度值，对每帧图像对应的多个相似度值进行多变量分析处理，得到多个分析数据，再根据多个分析数据中的最大分析数据，从每帧图像对应的多个相似度值中，确定每帧图像对应的相似度阈值，最后根据每帧图像对应的相似度阈值，构建连接图。借助多变量分析处理方法，能够获取与每帧图像属于同一类别的图像对应的相似度值，和与每帧图像不属于同一类别的图像对应的相似度值之间的差异最大对应的分界值，从而自适应获取每个类别对应的准确的相似度阈值，提高了连接图的质量。

基于上述图4所示实施例的描述，电子设备为根据多变量分析获取分析数据的准确性，引入差分处理，对多个相似度值进行差分处理，以获得平稳的数据，进而保证多变量分析的准确性。

下面，结合图5，详细介绍本申请的图像聚类方法的具体实现过程。

请参阅图5，图5示出了本申请一实施例提供的图像聚类方法的流程示意图。

如图5所示，本申请提供的图像聚类方法可以包括：

S501、按照由大到小的顺序，对所述多个相似度值进行排序，得到第一序列。

可选的，按照由大到小的顺序，对所述多个相似度值进行排序，得到相似度序列，相似度序列可以表示为rs(C_i)。

进而，从相似度序列中取前K个相似度值，根据所述K个相似度值，生成所述第一序列，K为正整数。

应理解，从相似度序列中取前K个相似度值，再根据K个相似度值进行多变量分析，可以减少数据的运算量，便于更快的确定相似度阈值。

其中，第一序列可以表示为rs(C_i,K)，rs(C_i,K)＝[a₁,…,a_K]。第一序列rs(C_i,K)的实际意义是指集合C_i中和图像x_i最像的K张图像。

举例说明，当多帧图像为7帧人脸图像，K为5。那么，电子设备可获取任意一个特征x₇与特征x₁、x₂、x₃、x₄、x₅、x₆的相似度值，可以表示为a₁，a₂，a₃，a₄，a₅，a₆。按照由大到小的顺序排序后，得到的相似度序列表示为[a₁，a₂，a₃，a₄，a₅，a₆]，对应的第一序列表示为[a₁，a₂，a₃，a₄，a₅]。

S502、对所述第一序列中的相似度值进行差分处理，得到第二序列。

电子设备在对第一序列进行多变量分析时，可以先将第一序列中的相似度值进行差分处理，以使数据趋于平稳性。

在一些实施例中，对所述第一序列中的相似度值进行一阶差分处理，得到第二序列。

其中，一阶差分指离散函数中连续相邻两项之差。

可以理解的是，对第一序列中的相似度值进行一阶差分处理是为了去除数据的噪声，使数据趋于平稳性。因此，除过对第一序列中的相似度值进行一阶差分处理，还可对第一序列中的相似度值进行二阶差分处理或多阶差分处理，在此不做限定。

在一些实施例中，当第一序列表示为[a₁,…,a_K]，第二序列可以表示为drs(C_i,K)，drs(C_i,K)＝[a₁-a₂,a₂-a₃,…,a_K-1-a_K]。

由于，第一序列中的相似度值是按照由大到小的顺序排列的，因此，a_i-a_i+1≥0。

举例说明，当第一序列表示为[a₁，a₂，a₃，a₄，a₅]时，对应的，第二序列表示为[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]。

S503、确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的均值，得到多个均值。

举例说明，当第二序列表示为[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]。那么，第二序列中的第一个差分数据与除了第一个差分数据之外的第二个差分数据、第三个差分数据、第四个差分数据的第一个均值表示为：

S504、根据所述多个均值，确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的标准差，得到多个标准差。

举例说明，当第二序列表示为[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]。那么，第二序列中的第一个差分数据与除了第一个差分数据之外的第二个差分数据、第三个差分数据、第四个差分数据的第一个标准差表示为：

S505、根据所述第二序列中的多个差分数据、所述多个均值和所述多个标准差，确定所述多个分析数据。

在一些实施例中，计算分析数据的公式为：

其中，a_i-a_i+1表示第i个差分数据，μ_i表示第二序列中的第i个差分数据与除了第i个之差分数据外的其他差分数据的均值，σ_i表示第二序列中的第i个差分数据与除了第i个差分数据之外的其他差分数据的标准差。

举例说明，当第二序列表示为[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]。那么，第一个分析数据可以表示为：

其中，b₁表示第一个分析数据，a₁-a₂表示第一个差分数据，σ₁表示第一个标准差，μ₁表示第一个均值。

本申请中，电子设备按照由大到小的顺序，对所述多个相似度值进行排序，得到第一序列，对所述第一序列中的相似度值进行差分处理，得到第二序列，、确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的均值和标准差，得到多个均值和多个标准差，根据多个差分数据、多个均值和多个标准差，确定多个分析数据。通过差分处理，以使数据趋于平稳性，保证了多变量分析的准确性，便于得到准确的分析数据，从而，通过准确的分析数据可以获取更加精确的相似度阈值，进而获取精确的聚类结果。

基于上述图5所示实施例的描述，电子设备在获取多个分析数据后，可以根据多个分析数据中的最大分析数据，从每帧图像对应的多个相似度值中确定每帧图像对应的相似度阈值。

下面，结合图6，详细介绍本申请的图像聚类方法的具体实现过程。

请参阅图6，图6示出了本申请一实施例提供的图像聚类方法的流程示意图。

如图6所示，本申请提供的图像聚类方法可以包括：

S601、按照根据所述第二序列中的第一个差分数据到最后一个差分数据获取对应的分析数据的顺序，对所述多个分析数据进行排序，得到第三序列。

在一些实施例中，第三序列可以表示为zdrs(C_i,K)＝[b₁,…,b_K-1]。

S602、确定所述第三序列中的最大分析数据在所述第三序列中的排列位置P，P为正整数。

在一些实施例中，电子设备可以记第三序列中的最大分析数据在第三序列中的排列位置P。

应理解，上述的排列位置P指的是第P个。

例如，若最大分析数据在第三序列中的排列位置为3，则最大分析数据为第三序列中的第3个。

举例说明，当第三序列表示为[b₁,b₂,b₃,b₄]时，电子设备在确定最大分析数据为b₃时，可以确定最大分析数据在第三序列中的排列位置为第3个。

S603、根据所述排列位置P，确定所述第二序列中的第P个差分数据。

在一些实施例中，第一序列表示为[a₁,…,a_K]，第二序列表示为[a₁-a₂,a₂-a₃,…,a_K-1-a_K]，第三序列表示为[b₁,b₂,…,b_K-1]。

从上述序列的排布方式可以看出，第三序列中分析数据的顺序与第二序列中差分数据的顺序、第一序列中相似度值的顺序相对应。

也就是说，第一序列、第二序列和第三序列的排列方式一一对应，当确定最大分析数据为第三序列中的第P个时，可以对应确定第二序列中的第P个差分数据。

当确定第三序列中的最大分析数据在所述第三序列中的排列位置P，电子设备可以确定第二序列中的位置P，也就是第P个差分数据。

举例说明，当第一序列表示为[a₁，a₂，a₃，a₄，a₅]，第二序列表示为[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]时，第三序列可以表示为[b₁,b₂,b₃,b₄]。

从上述序列的排布方式可以看出，第三序列中的第一个分析数据b₁与第二序列中的第一个差分数据a₁-a₂、第一序列中的第一个相似度值a₁相对应。

因此，当确定最大分析数据在第三序列中的排列位置为第3个时，可以确定第二序列[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]中的第3个差分数据。

S604、根据所述第P个差分数据，确定所述第一序列中的第P个相似度值。

在一些实施例中，当第三序列中的最大分析数据在所述第三序列中的排列位置P，电子设备可以确定第二序列中的位置P，也就是第P个差分数据，进而，电子设备可以确定第一序列中的位置P，也就是第P个相似度值。

举例说明，最大分析数据在第三序列中的排列位置为第3个。电子设备可以确定第二序列[a₁-a₂,a₂-a₃,a₃-a₄,a₄-a₅]中的第3个差分数据，进而可以确定第一序列[a₁，a₂，a₃，a₄，a₅]中的第3个相似度值。

S605、将所述第一序列中的第P个相似度值确定为所述相似度阈值。

在一些实施例中，可以将第一序列中的第P个相似度值，确定为相似度阈值a_p。

举例说明，当确定最大分析数据在第三序列中的排列位置为第3个时，对应的，可以将第一序列[a₁，a₂，a₃，a₄，a₅]中的第3个相似度值确定为相似度阈值。

本申请中，电子设备通过确定第三序列中的最大分析数据在第三序列中的排列位置P，可以确定第二序列中的第P个差分数据，进而，根据第P个差分数据，确定第一序列中的第P个相似度值，并将第一序列中的第P个相似度值确定为相似度阈值。由于第一序列、第二序列和第三序列中的属于一一对应的关系，当电子设备在获取第三序列中的最大分析数据后，可以确定该最大分析数据在第三序列中的位置，从而倒推出对应的第一序列中的相似度值的位置，将第一序列中该位置对应的相似度值作为相似度阈值，保证了确定的相似度阈值的准确度。

对应于上述图1a所示实施例所述的一种图像聚类方法，本申请还提供了一种图像聚类装置。

下面，结合图7，对本申请一实施例提供的图像聚类装置进行详细说明。

请参阅图7，图7示出了本申请一实施例提供的图像聚类装置的示意性框图。

如图7所示，本申请一实施例提供的图像聚类装置，包括获取模块701、构建模块702、确定模块703和聚类模块704。

获取模块701，用于获取多帧图像和所述多帧图像对应的连接图，所述多帧图像包括多个类别的图像，所述连接图用于估计不同类别的图像；

构建模块702，用于根据所述连接图，构建目标函数，所述目标函数用于指示同一类别的图像之间的差异和不同类别的图像之间的差异；

确定模块703，用于获取所述目标函数的最小值，并根据所述目标函数的最小值，确定多帧图像的类别数量和每个类别对应的图像，所述目标函数的最小值用于指示同一类别的图像之间的差异最小且不同类别的图像之间的差异最大；

聚类模块704，用于将每个类别对应的图像划分为一类，得到所述多帧图像的聚类结果。

在一些实施例中，构建模块702，具体用于：

将所述连接图转换为转移概率矩阵，所述转移概率矩阵中的每个数据用于表示所述多帧图像中的任意两帧图像之间的转移概率；

将所述多帧图像中每帧图像划分为一个类别，得到第一类别；

根据所述转移概率矩阵和所述第一类别的数量及所述第一类别中每个类别对应的图像，确定第一概率、第二概率和第三概率，所述第一概率包括每帧图像不属于第二类别中的每个类别的概率和，所述第二概率包括每帧图像属于第二类别中的每个类别的概率，所述第三概率包括每帧图像不属于第二类别中的每个类别的概率，所述第二类别为对所述第一类别的数量调整产生的类别；

根据所述第一概率、所述第二概率和所述第三概率，确定类内熵和类间熵，所述类内熵用于指示同一类别的图像之间的差异，所述类间熵用于指示不同类别的图像之间的差异；

将所述类内熵和类间熵之和确定为所述目标函数。

在一些实施例中，确定模块703，具体用于：

调整所述类间熵和所述类内熵中的所述第二类别的数量及和所述第二类别中每个类别对应的图像，在所述第二类别的数量及和所述第二类别中每个类别对应的图像满足预设条件时，得到所述目标函数的最小值，所述预设条件为同一类别的图像之间的差异最小且不同类别的图像之间的差异最大；

获取所述目标函数的最小值对应的所述多帧图像的类别数量和每个类别对应的图像。

在一些实施例中，获取模块701，具体用于：

获取所述多帧图像中每帧图像对应的多个相似度值；

对每帧图像对应的多个相似度值进行多变量分析处理，得到多个分析数据；

根据所述多个分析数据中的最大分析数据，从每帧图像对应的多个相似度值中，确定每帧图像对应的相似度阈值；

根据每帧图像对应的相似度阈值，构建连接图。

在一些实施例中，获取模块701，具体用于：

按照由大到小的顺序，对所述多个相似度值进行排序，得到第一序列；

对所述第一序列中的相似度值进行差分处理，得到第二序列；

确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的均值，得到多个均值；确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的标准差，得到多个标准差；

根据所述第二序列中的多个差分数据、所述多个均值和所述多个标准差，确定所述多个分析数据。

在一些实施例中，获取模块701，具体用于：

按照由大到小的顺序，对所述多个相似度值进行排序，得到相似度序列；

从所述相似度序列中取前K个相似度值，K为正整数；

根据所述K个相似度值，生成所述第一序列。

在一些实施例中，获取模块701，具体用于：

按照根据所述第二序列中的第一个差分数据到最后一个差分数据获取对应的分析数据的顺序，对所述多个分析数据进行排序，得到第三序列；

确定所述第三序列中的最大分析数据在所述第三序列中的排列位置P，P为正整数；

根据所述排列位置P，确定所述第二序列中的第P个差分数据；

根据所述第P个差分数据，确定所述第一序列中的第P个相似度值；

将所述第一序列中的第P个相似度值确定为所述相似度阈值。

应理解的是，本申请的图像聚类装置700可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logicdevice，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图1a所示的图像聚类方法，当通过软件实现图1a所示的图像聚类方法时，装置700及其各个模块也可以为软件模块。

图8为本申请提供的一种电子设备的结构示意图。如图8所示，电子设备的具体实现方式可参见上述电子设备的描述，能够执行图1a所示的图像聚类方法。

其中，电子设备800包括处理器801、存储器802、通信接口803和总线804。其中，处理器801、存储器802、通信接口803通过总线804进行通信，也可以通过无线传输等其他手段实现通信。该存储器802用于存储指令，该处理器801用于执行该存储器802存储的指令。该存储器802存储程序代码8021，且处理器801可以调用存储器802中存储的程序代码8021执行图1a所示的图像聚类方法。

应理解，在本申请中，处理器801可以是CPU，处理器801还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器802可以包括只读存储器和随机存取存储器，并向处理器801提供指令和数据。存储器802还可以包括非易失性随机存取存储器。该存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electricallyEPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double datadate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

该总线804除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图8中将各种总线都标为总线804。

应理解，根据本申请的设备800可对应于本申请中的装置700，并可以对应于本申请图2所示方法中的设备，当设备800对应于图1a所示方法中的设备时，设备800中的各个模块的上述和其它操作和/或功能分别为了实现图1a中的由设备执行的方法的操作步骤，为了简洁，在此不再赘述。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像聚类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述连接图，构建目标函数，包括：

将所述类内熵和类间熵之和确定为所述目标函数。

3.如权利要求2所述的方法，其特征在于，所述获取所述目标函数的最小值，并根据所述目标函数的最小值，确定所述多帧图像的类别数量和每个类别对应的图像，包括：

4.如权利要求1所述的方法，其特征在于，所述获取多帧图像和所述多帧图像对应的连接图，包括：

获取所述多帧图像中每帧图像对应的多个相似度值；

根据每帧图像对应的相似度阈值，构建连接图。

5.如权利要求4所述的方法，其特征在于，所述对每帧图像对应的多个相似度值进行多变量分析处理，得到多个分析数据，包括：

确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的均值，得到多个均值；

确定所述第二序列中的任意一个差分数据与除了所述任意一个差分数据之外的其他差分数据的标准差，得到多个标准差；

6.如权利要求5所述的方法，其特征在于，所述按照由大到小的顺序，对所述多个相似度值进行排序，得到第一序列，包括：

从所述相似度序列中取前K个相似度值，K为正整数；

根据所述K个相似度值，生成所述第一序列。

7.如权利要求5或6所述的方法，其特征在于，所述根据所述多个分析数据中的最大分析数据，从每帧图像对应的多个相似度值中，确定每帧图像对应的相似度阈值，包括：

将所述第一序列中的第P个相似度值确定为所述相似度阈值。

8.一种图像聚类方法装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。