CN112257801A - 图像的增量聚类方法、装置、电子设备及存储介质 - Google Patents

图像的增量聚类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112257801A
CN112257801A CN202011185911.8A CN202011185911A CN112257801A CN 112257801 A CN112257801 A CN 112257801A CN 202011185911 A CN202011185911 A CN 202011185911A CN 112257801 A CN112257801 A CN 112257801A
Authority
CN
China
Prior art keywords
cluster
clustering
clusters
image data
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011185911.8A
Other languages
English (en)
Other versions
CN112257801B (zh
Inventor
刘凯鉴
余世杰
陈浩彬
陈大鹏
赵瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shangtang Technology Development Co Ltd
Original Assignee
Zhejiang Shangtang Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shangtang Technology Development Co Ltd filed Critical Zhejiang Shangtang Technology Development Co Ltd
Priority to CN202011185911.8A priority Critical patent/CN112257801B/zh
Priority to KR1020227013791A priority patent/KR20220070482A/ko
Priority to PCT/CN2020/134074 priority patent/WO2022088390A1/zh
Priority to JP2022524182A priority patent/JP2023502863A/ja
Priority to TW109146540A priority patent/TW202217597A/zh
Publication of CN112257801A publication Critical patent/CN112257801A/zh
Application granted granted Critical
Publication of CN112257801B publication Critical patent/CN112257801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种图像的增量聚类方法、装置、电子设备及存储介质,其中,该方法通过获取第一图像数据集的第一聚类簇;将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并,从而有利于解决增量式聚类中因聚类中心发生漂移影响聚类效果的问题。

Description

图像的增量聚类方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种图像的增量聚类方法、装置、电子设备及存储介质。
背景技术
深度学习的发展极大地推动了图像处理技术的进步,以人脸识别为例,通过有监督学习得到的人脸识别模型在识别精度上有了质的飞跃,然而在面对爆炸式增长的无标签图像数据时,如何准确而快速地进行分类,仍是一个值得讨论和研究的问题。实际场景中,比如社交媒体、安防等,图像往往是增量式产生,因此增量聚类在解决分类问题中有着广泛的应用,传统的增量式聚类需要维护一些第一聚类簇,但是不同的簇稀疏程度不同,随着增量式聚类的不断推移,聚类中心发生漂移的可能性增大,聚类效果反而有所下降。
发明内容
针对上述问题,本申请提供了一种图像的增量聚类方法、装置、电子设备及存储介质,有利于解决增量式聚类中因聚类中心发生漂移影响聚类效果的问题。
为实现上述目的,本申请实施例第一方面提供了一种图像的增量聚类方法,该方法包括:
获取第一图像数据集的第一聚类簇;
将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
结合第一方面,在一种可能的实施方式中,所述第一聚类簇包括第一聚类簇A、第一聚类簇B和第一聚类簇C;所述利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并,包括:
在所述第二图像数据集中包括多个图像数据的情况下,对所述多个图像数据进行聚类,得到孤立图像数据和第二聚类簇;
利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并;以及,利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并;
在所述第二图像数据集中只存在单个图像数据的情况下,利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并。
结合第一方面,在一种可能的实施方式中,所述第一聚类簇存在对应的第二聚类中心;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之前,所述方法还包括:
利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇。
结合第一方面,在一种可能的实施方式中,所述第二聚类簇存在对应的第三聚类中心;所述利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇,包括:
获取所述孤立图像数据与所述第二聚类中心之间的第一相似度;
根据所述第一相似度从高到低对所述第一聚类簇进行排序得到第一聚类簇序列,选取所述第一聚类簇序列中前K个第一聚类簇;以及,
获取所述第三聚类中心与所述第二聚类中心之间的第二相似度;
根据所述第二相似度从高到低对所述第一聚类簇进行排序得到第二聚类簇序列,选取所述第二聚类簇序列中前K个第一聚类簇;或者,
获取所述单个图像数据与所述第二聚类中心之间的第三相似度;
根据所述第三相似度从高到低对所述第一聚类簇进行排序得到第三聚类簇序列,选取所述第三聚类簇序列中前K个第一聚类簇。
结合第一方面,在一种可能的实施方式中,所述利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并,包括:
获取所述孤立图像数据与第一聚类中心D之间的第四相似度;所述第一聚类中心D为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第四相似度大于第一阈值的所述第一聚类中心D的第一数量;
将所述K个第一聚类簇中所述第一数量最大的第一聚类簇确定为所述第一聚类簇A;
将所述孤立图像数据与所述第一聚类簇A合并。
结合第一方面,在一种可能的实施方式中,所述利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并,包括:
将所述第二聚类簇分割为N个第二子簇,并获取所述N个第二子簇中每个第二子簇对应的第四聚类中心;所述N为大于或等于1的整数;
获取所述第四聚类中心与第一聚类中心E之间的第五相似度;所述第一聚类中心E为K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第五相似度大于第二阈值的所述第一聚类中心E的第二数量;
将所述K个第一聚类簇中所述第二数量最大的第一聚类簇确定为所述第一聚类簇B;
将所述第二聚类簇与所述第一聚类簇B合并。
结合第一方面,在一种可能的实施方式中,所述利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并,包括:
获取所述单个图像数据与第一聚类中心F之间的第六相似度;所述第一聚类中心F为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第六相似度大于第三阈值的所述第一聚类中心F的第三数量;
将所述K个第一聚类簇中所述第三数量最大的第一聚类簇确定为所述第一聚类簇C;
将所述单个图像数据与所述第一聚类簇C合并。
结合第一方面,在一种可能的实施方式中,所述M小于或等于第四阈值;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之后,所述方法还包括:
将合并后的第一聚类簇分割为R个第三子簇,并获取所述R个第三子簇中每个第三子簇的第五聚类中心;所述R为大于或等于1的整数;
在所述R小于或等于所述第四阈值的情况下,保留所述R个第三子簇,并用所述R个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;
在所述R大于所述第四阈值的情况下,获取所述R个第三子簇中每个第三子簇中的图像数据的第四数量;
根据所述第四数量从大到小对所述R个第三子簇进行排序得到第四聚类簇序列,选取所述第四聚类簇序列中前P个第三子簇,并用所述P个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;所述P小于或等于所述第四阈值。
结合第一方面,在一种可能的实施方式中,所述第一聚类簇通过对所述第一图像数据集中的图像数据进行聚类得到;所述将所述第一聚类簇分割为M个第一子簇,包括:
获取所述第一聚类簇中的图像数据之间的第七相似度,得到相似度矩阵;
基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇。
结合第一方面,在一种可能的实施方式中,所述基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇,包括:
获取以所述第一聚类簇中的图像数据为顶点构成的连通图;
从所述相似度矩阵中查询得到所述连通图中的顶点之间的所述第七相似度;
将所述第七相似度大于第五阈值的多个顶点分割为一个第一子簇,得到所述M个第一子簇。
本申请实施例第二方面提供了一种图像的增量聚类装置,该装置包括:
聚类簇获取模块,用于获取第一图像数据集的第一聚类簇;
聚类簇分割模块,用于将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
图像数据合并模块,用于获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
本申请实施例第三方面提供了一种电子设备,该电子设备包括输入设备和输出设备,还包括处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述第一方面任一种实施方式中的步骤。
本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述第一方面任一种实施方式中的步骤。
可以看出,本申请实施例通过获取第一图像数据集的第一聚类簇;将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。这样将第一聚类簇分割为多个第一子簇,基于第一子簇的第一聚类中心实现第一聚类簇对第二图像数据集的合并,通过维护多个第一聚类中心(即子中心)来解决随着图像数据的增多,聚类中心(第一聚类簇的聚类中心,即主中心)会受到新增图像数据的影响而产生漂移的问题,从而有利于使聚类结果更为准确,以提高聚类效果。另外,在聚类过程中,第二图像数据集不用再与第一图像数据集整个进行相似度计算,有利于降低计算复杂度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用环境的示意图;
图2为本申请实施例提供的一种图像的增量聚类方法的流程示意图;
图3A为本申请实施例提供的一种第一聚类簇的连通图的示意图;
图3B为本申请实施例提供的一种将第一聚类簇分割为第一子簇的示意图;
图4A为本申请实施例提供的一种第二图像数据集的聚类结果的示意图;
图4B为本申请实施例提供的一种孤立图像数据与第一聚类簇合并的示意图;
图4C为本申请实施例提供的一种第二聚类簇与第一聚类簇合并的示意图;
图5为本申请实施例提供的一种对第一聚类中心进行更新的流程示意图;
图6为本申请实施例提供的另一种图像的增量聚类方法的流程示意图;
图7为本申请实施例提供的一种图像的增量聚类装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
本申请实施例提出一种针对图像数据的增量聚类方法,可基于图1所示的应用环境实施,如图1所示,该应用环境主要包括图像采集设备和图像处理中心,图像处理中心包括但不限于服务器、终端和数据库。在一些场景中,图像采集设备可以是闸机通道、商场、小区等场景下布控的摄像机或摄像头,用于进行图像的采集,例如:人脸图像、视频监控图像,图像处理中心可以是监控中心,图像处理中心可引入视频云节点VCN(Video Cloud Node)进行视频监控的管理,例如:在显示器对图像进行展示,将图像聚类后存储至数据库。在一些场景中,图像采集设备还可以是用户终端,其采集的图像可以是用户拍摄的照片,例如:用户在社交媒体发布的照片,图像处理中心可以是社交媒体的处理后台。具体的,图像采集设备可将采集的图像上传到图像处理中心,由图像处理中心进行特征提取、聚类分类、人脸识别等操作,由于图像采集设备侧的图像每天是增量式产生,而增量式聚类需要维护一些聚类簇,随着图像数据的不断增加,增量式聚类的不断进行,原始维护的聚类簇的聚类中心会存在漂移的风险,使得聚类效果逐渐变差,因此服务器可用于执行本申请实施例提出的增量聚类方法,以解决增量式聚类中因聚类中心发生漂移影响聚类效果的问题。其中,上述服务器可以是独立的物理服务器,也可以是服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器。
以下结合相关附图对本申请实施例提供的图像的增量聚类方法进行详细阐述。
请参见图2,图2为本申请实施例提供的一种图像的增量聚类方法的流程示意图,该图像的增量聚类方法应用于服务器,如图2所示,包括步骤S21-S23:
S21,获取第一图像数据集的第一聚类簇。
本申请具体实施例中,第一图像数据集是指当前批图像数据之前已经被聚类为多个聚类簇的图像数据集,例如:假设图像采集设备在某一时刻批量上传的人脸图像的数据(比如人脸特征)为当前批数据,那么在这之前已经上传至服务器的人脸图像的数据即为第一图像数据集。第一聚类簇即对该第一图像数据集中的图像数据进行聚类得到的聚类簇,其采用的聚类算法可以是K均值聚类算法,具体不作限定,应当理解的,每个聚类簇均存在对应的聚类中心,即第二聚类中心。
S22,将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数。
本申请具体实施例中,第一子簇即对第一聚类簇进行分割后得到的子簇,对于第一数据集的每个第一聚类簇,获取第一聚类簇中图像数据之间的相似度,即第七相似度,得到相似度矩阵,然后获取以第一聚类簇中的图像数据为顶点构成的连通图,具体请参见图3A,对于连通图中的每两个顶点,从相似度矩阵中查询其相似度,若对第一图像数据集进行聚类时采用的阈值为X,即第五阈值,则将相似度大于该X的多个图像数据分割为一个更加紧密的第一子簇,由此得到M个第一子簇,具体请参见图3B,图3A所示的第一聚类簇经过连通图的分析被分割为了M个第一子簇。在得到M个第一子簇后,获取M个第一子簇中每个第一子簇的聚类中心,即第一聚类中心,那么每个第一聚类簇便可由一个主聚类中心和M个子聚类中心描述。以更加紧凑的子簇来描述第一聚类簇,有利于解决单一主聚类中心随着新增图像数据的并入表达能力减弱的问题。
S23,获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
本申请具体实施例中,第二图像数据集即图像采集设备上传的当前批图像的数据集,由图像采集设备上传的图像得到。其中,第一聚类簇包括第一聚类簇A、第一聚类簇B和第一聚类簇C,在第二图像数据集中包括多个图像数据的情况下,对多个图像数据进行聚类,得到聚类结果。应当理解的,该聚类结果包括未被聚类的孤立图像数据和若干个第二聚类簇,若干个第二聚类簇中每个第二聚类簇均存在对应的聚类中心,即第三聚类中心,具体请参见图4A。对于该孤立图像数据,从第一聚类簇中确定出第一聚类簇A,利用第一聚类中心将其与第一聚类簇A进行合并,即如图4B所示将孤立图像数据吸收到第一聚类簇A中,该第一聚类簇A与该孤立图像数据属于同一个聚类类别。对于每个第二聚类簇,从第一聚类簇中确定出第一聚类簇B,利用第一聚类中心将其与第一聚类簇B进行合并,即如图4C所示进行聚类簇与聚类簇之间的合并,该第一聚类簇B与该第二聚类簇属于同一个聚类类别。与孤立图像数据类似,在第二图像数据集中只存在单个图像数据的情况下,也即新增的图像数据仅为单个,不用对第二图像数据集进行聚类操作,从第一聚类簇中确定出第一聚类簇C,利用第一聚类中心将其与第一聚类簇C进行合并,该第一聚类簇C与该单个图像数据属于同一个聚类类别。
在一种可能的实施方式中,在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之前,所述方法还包括:
利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇。
其中,在将第二图像数据集与第一聚类簇合并之前,需要利用第一聚类簇的第二聚类中心对所有第一聚类簇进行初步筛选,从所有第一聚类簇中确定出K个第一聚类簇,然后再从K个聚类簇中选出上述的第一聚类簇A和第一聚类簇B,或第一聚类簇C。需要说明的是,该K个第一聚类簇可以是利用第二聚类中心对所有第一聚类进行排序后的top K个,例如:100个第一聚类簇经过排序后的前20个;该K个第一聚类簇还可以是经过排序后的所有第一聚类簇,例如:100个第一聚类簇经过排序后仍然选取100个。利用第二聚类中心对第一聚类簇进行初步的筛选,有利于确定出与第二图像数据集中的图像数据聚类类别更相近的第一聚类簇,比如上述的第一聚类簇A、第一聚类簇B和第一聚类簇C。
在一种可能的实施方式中,所述利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇,包括:
获取所述孤立图像数据与所述第二聚类中心之间的第一相似度;
根据所述第一相似度从高到低对所述第一聚类簇进行排序得到第一聚类簇序列,选取所述第一聚类簇序列中前K个第一聚类簇;以及,
获取所述第三聚类中心与所述第二聚类中心之间的第二相似度;
根据所述第二相似度从高到低对所述第一聚类簇进行排序得到第二聚类簇序列,选取所述第二聚类簇序列中前K个第一聚类簇;或者,
获取所述单个图像数据与所述第二聚类中心之间的第三相似度;
根据所述第三相似度从高到低对所述第一聚类簇进行排序得到第三聚类簇序列,选取所述第三聚类簇序列中前K个第一聚类簇。
其中,在第二图像数据集经过聚类得到孤立图像数据和多个第二聚类簇的情况下,针对孤立样本图像数据,计算其与每个第一聚类簇的第二聚类中心之间的第一相似度,针对第二聚类簇,计算其对应的第三聚类中心与每个第一聚类簇的第二聚类中心之间的第二相似度,分别按照第一相似度、第二相似度从高到低对所有第一聚类簇进行排序,得到对应的第一聚类簇序列和第二聚类簇序列,然后从第一聚类簇序列和第二聚类簇序列中分别选取出前K个第一聚类簇。在第二图像数据集中只包括单个图像数据的情况下,计算单个图像数据与每个第一聚类簇的第二聚类中心的第三相似度,按照第三相似度从高到低对所有第一聚类簇进行排序,得到对应的第三聚类簇序列,然后从第三聚类簇序列中选取出前K个第一聚类簇。
在一种可能的实施方式中,所述利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并,包括:
获取所述孤立图像数据与第一聚类中心D之间的第四相似度;所述第一聚类中心D为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第四相似度大于第一阈值的所述第一聚类中心D的第一数量;
将所述K个第一聚类簇中所述第一数量最大的第一聚类簇确定为所述第一聚类簇A;
将所述孤立图像数据与所述第一聚类簇A合并。
其中,针对孤立样本图像数据的合并,需要从选取出的前K个第一聚类簇中确定出第一聚类簇A,需要说明的是,前K个第一聚类簇可以是排序后的所有第一聚类簇。首先计算孤立图像数据与K个第一聚类簇中每个第一聚类簇的每个第一子簇的聚类中心(即第一聚类中心D)之间的相似度,确定为第四相似度,然后对K个第一聚类簇进行分析,确定每个第一聚类簇中满足第四相似度大于第一阈值的第一聚类中心D的数量,确定为第一数量,将该第一数量最大的第一聚类簇确定为第一聚类簇A,例如:K个第一聚类簇中,第一聚类簇1有20个这样的第一聚类中心D,第一聚类簇2有18个这样的第一聚类中心D,…,第一聚类簇K有15个这样的第一聚类中心D,第一聚类簇1数量最多,则将其确定为第一聚类簇A,也就是说第一聚类簇A中存在最多与孤立图像数据更相近的第一子簇,将孤立图像数据合并到第一聚类簇A中能够使得聚类结果更为准确。
在一种可能的实施方式中,所述利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并,包括:
将所述第二聚类簇分割为N个第二子簇,并获取所述N个第二子簇中每个第二子簇对应的第四聚类中心;所述N为大于或等于1的整数;
获取所述第四聚类中心与第一聚类中心E之间的第五相似度;所述第一聚类中心E为K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第五相似度大于第二阈值的所述第一聚类中心E的第二数量;
将所述K个第一聚类簇中所述第二数量最大的第一聚类簇确定为所述第一聚类簇B;
将所述第二聚类簇与所述第一聚类簇B合并。
其中,针对聚类簇与聚类簇之间的合并,需要从选取出的前K个第一聚类簇中确定出第一聚类簇B,需要说明的是,前K个第一聚类簇可以是排序后的所有第一聚类簇。首先按照分割第一聚类簇的方式将每个第二聚类簇分割为N个第二子簇,并计算出每个第二子簇的聚类中心,即第四聚类中心,然后计算第四聚类中心与K个第一聚类簇中每个第一聚类簇的每个第一子簇的聚类中心(即第一聚类中心E)之间的相似度,确定为诶第五相似度,再对K个第一聚类簇进行分析,确定每个第一聚类簇中满足第五相似度大于第二阈值的第一聚类中心E的数量,确定为第二数量,将该第二数量最大的第一聚类簇确定为第一聚类簇B,例如:K个第一聚类簇中,第一聚类簇1有30个这样的第一聚类中心E,第一聚类簇2有15个这样的第一聚类中心E,…,第一聚类簇K有40个这样的第一聚类中心E,第一聚类簇K数量最多,则将其确定为第一聚类簇B,也就是说第一聚类簇B存在最多与第二聚类簇的第二子簇更相近的第一子簇,将第二聚类簇合并到第一聚类簇B中能够使得聚类结果更为准确。
在一种可能的实施方式中,所述利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并,包括:
获取所述单个图像数据与第一聚类中心F之间的第六相似度;所述第一聚类中心F为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第六相似度大于第三阈值的所述第一聚类中心F的第三数量;
将所述K个第一聚类簇中所述第三数量最大的第一聚类簇确定为所述第一聚类簇C;
将所述单个图像数据与所述第一聚类簇C合并。
其中,针对单个图像数据的合并,需要从选取出的前K个第一聚类簇中确定出第一聚类簇C,需要说明的是,前K个第一聚类簇可以是排序后的所有第一聚类簇。首先计算单个图像数据与K个第一聚类簇中每个第一聚类簇的每个第一子簇的聚类中心(即第一聚类中心F)之间的相似度,确定为第六相似度,然后对K个第一聚类簇进行分析,确定每个第一聚类簇中满足第六相似度大于第三阈值的第一聚类中心F的数量,确定为第三数量,将该第三数量最大的第一聚类簇确定为第一聚类簇C,也就是说第一聚类簇C中存在最多与单个图像数据更相近的第一子簇,将单个图像数据合并到第一聚类簇C中能够使得聚类结果更为准确。
在一种可能的实施方式中,所述M小于或等于第四阈值;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之后,如图5所示,所述方法还包括:
S51,将合并后的第一聚类簇分割为R个第三子簇,并获取所述R个第三子簇中每个第三子簇的第五聚类中心;所述R为大于或等于1的整数;
S52,在所述R小于或等于所述第四阈值的情况下,保留所述R个第三子簇,并用所述R个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;
S53,在所述R大于所述第四阈值的情况下,获取所述R个第三子簇中每个第三子簇中的图像数据的第四数量;
S54,根据所述第四数量从大到小对所述R个第三子簇进行排序得到第四聚类簇序列,选取所述第四聚类簇序列中前P个第三子簇,并用所述P个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;所述P小于或等于所述第四阈值。
其中,在将孤立图像数据和第二聚类簇,或者单个图像数据合并到某个第一聚类簇之后,由于原第一聚类簇有新的图像数据被聚类进来,因此需要对原第一聚类簇的子中心进行更新。具体的,按照分割第一聚类簇的方式将合并后的第一聚类簇分割为R个第三子簇,并计算出每个第三子簇的第五聚类中心,根据R确定第三子簇的数量,若第三子簇的数量小于或等于第四阈值,例如:20个,则保留这R个第三子簇,将这R个第三子簇的第五聚类中心作为合并后的第一聚类簇的新子中心,以更新原来的第一聚类中心,那么,合并后的第一聚类簇就采用第二聚类中心和R个第五聚类中心进行描述。
另外,若第三子簇的数量大于第四阈值,则按照每个第三子簇中图像数据的数量(即第四数量)从大到小对R个第三子簇进行排序得到第四聚类簇序列,选取前P个第三子簇保留下来,比如:仅保留前20个第三子簇,其余第三子簇舍弃,将这P个第三子簇的第五聚类中心作为合并后的第一聚类簇的新子中心,以更新原来的第一聚类中心,那么,合并后的第一聚类簇就采用第二聚类中心和P个第五聚类中心进行描述。应当理解的,每次将聚类簇分割为子簇时,只保留预设数量个子簇,因此,M和N均小于或等于第四阈值,这样可以在子簇较多的情况下,通过保留图像数据较多的子簇来限制子中心的量,消除离群图像数据的影响,不仅便于维护,还可使得在长时间大规模增量聚类场景下仍然具有良好的聚类效果。
可以看出,本申请实施例通过获取第一图像数据集的第一聚类簇;将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。这样将第一聚类簇分割为多个第一子簇,基于第一子簇的第一聚类中心实现第一聚类簇对第二图像数据集的合并,通过维护多个第一聚类中心(即子中心)来解决随着图像数据的增多,聚类中心(第一聚类簇的聚类中心,即主中心)会受到新增图像数据的影响而产生漂移的问题,从而有利于使聚类结果更为准确,以提高聚类效果。另外,在聚类过程中,第二图像数据集不用再与第一图像数据集整个进行相似度计算,有利于降低计算复杂度。
请参见图6,图6为本申请实施例提供的另一种图像的增量聚类方法的流程示意图,如图6所示,包括步骤S61-S66:
S61,获取第一图像数据集的第一聚类簇;
S62,将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
S63,获取第二图像数据集;
S64,在所述第二图像数据集中包括多个图像数据的情况下,对所述多个图像数据进行聚类,得到孤立图像数据和第二聚类簇;
S65,利用所述第一聚类中心将所述孤立图像数据与第一聚类簇A合并;以及,利用所述第一聚类中心将所述第二聚类簇与第一聚类簇B合并;
S66,在所述第二图像数据集中只存在单个图像数据的情况下,利用所述第一聚类中心将所述单个图像数据与第一聚类簇C合并。
其中,上述步骤S61-S66的具体实施方式,在图2-图5所示的实施例中已有相关说明,且能达到相同或相似的有益效果,此处不再赘述。
基于图2或图6所示方法实施例的描述,本申请实施例还提供一种图像的增量聚类装置,请参见图7,图7为本申请实施例提供的一种图像的增量聚类装置的结构示意图,如图7所示,该装置包括:
聚类簇获取模块71,用于获取第一图像数据集的第一聚类簇;
聚类簇分割模块72,用于将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
图像数据合并模块73,用于获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
在一种可能的实施方式中,所述第一聚类簇包括第一聚类簇A、第一聚类簇B和第一聚类簇C;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并方面,图像数据合并模块73具体用于:
在所述第二图像数据集中包括多个图像数据的情况下,对所述多个图像数据进行聚类,得到孤立图像数据和第二聚类簇;
利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并;以及,利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并;
在所述第二图像数据集中只存在单个图像数据的情况下,利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并。
在一种可能的实施方式中,所述第一聚类簇存在对应的第二聚类中心;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之前,图像数据合并模块73还用于:
利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇。
在一种可能的实施方式中,所述第二聚类簇存在对应的第三聚类中心;在利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇方面,图像数据合并模块73具体用于:
获取所述孤立图像数据与所述第二聚类中心之间的第一相似度;
根据所述第一相似度从高到低对所述第一聚类簇进行排序得到第一聚类簇序列,选取所述第一聚类簇序列中前K个第一聚类簇;以及,
获取所述第三聚类中心与所述第二聚类中心之间的第二相似度;
根据所述第二相似度从高到低对所述第一聚类簇进行排序得到第二聚类簇序列,选取所述第二聚类簇序列中前K个第一聚类簇;或者,
获取所述单个图像数据与所述第二聚类中心之间的第三相似度;
根据所述第三相似度从高到低对所述第一聚类簇进行排序得到第三聚类簇序列,选取所述第三聚类簇序列中前K个第一聚类簇。
在一种可能的实施方式中,在利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并方面,图像数据合并模块73具体用于:
获取所述孤立图像数据与第一聚类中心D之间的第四相似度;所述第一聚类中心D为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第四相似度大于第一阈值的所述第一聚类中心D的第一数量;
将所述K个第一聚类簇中所述第一数量最大的第一聚类簇确定为所述第一聚类簇A;
将所述孤立图像数据与所述第一聚类簇A合并。
在一种可能的实施方式中,在利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并方面,图像数据合并模块73具体用于:
将所述第二聚类簇分割为N个第二子簇,并获取所述N个第二子簇中每个第二子簇对应的第四聚类中心;所述N为大于或等于1的整数;
获取所述第四聚类中心与第一聚类中心E之间的第五相似度;所述第一聚类中心E为K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第五相似度大于第二阈值的所述第一聚类中心E的第二数量;
将所述K个第一聚类簇中所述第二数量最大的第一聚类簇确定为所述第一聚类簇B;
将所述第二聚类簇与所述第一聚类簇B合并。
在一种可能的实施方式中,在利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并方面,图像数据合并模块73具体用于:
获取所述单个图像数据与第一聚类中心F之间的第六相似度;所述第一聚类中心F为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第六相似度大于第三阈值的所述第一聚类中心F的第三数量;
将所述K个第一聚类簇中所述第三数量最大的第一聚类簇确定为所述第一聚类簇C;
将所述单个图像数据与所述第一聚类簇C合并。
在一种可能的实施方式中,所述M小于或等于第四阈值;聚类簇分割模块72还用于:
将合并后的第一聚类簇分割为R个第三子簇,并获取所述R个第三子簇中每个第三子簇的第五聚类中心;所述R为大于或等于1的整数;
在所述R小于或等于所述第四阈值的情况下,保留所述R个第三子簇,并用所述R个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;
在所述R大于所述第四阈值的情况下,获取所述R个第三子簇中每个第三子簇中的图像数据的第四数量;
根据所述第四数量从大到小对所述R个第三子簇进行排序得到第四聚类簇序列,选取所述第四聚类簇序列中前P个第三子簇,并用所述P个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;所述P小于或等于所述第四阈值。
在一种可能的实施方式中,在将所述第一聚类簇分割为M个第一子簇方面,聚类簇分割模块72具体用于:
获取所述第一聚类簇中的图像数据之间的第七相似度,得到相似度矩阵;
基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇。
在一种可能的实施方式中,在基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇方面,聚类簇分割模块72具体用于:
获取以所述第一聚类簇中的图像数据为顶点构成的连通图;
从所述相似度矩阵中查询得到所述连通图中的顶点之间的所述第七相似度;
将所述第七相似度大于第五阈值的多个顶点分割为一个第一子簇,得到所述M个第一子簇。
根据本申请的一个实施例,图7所示的图像的增量聚类装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于图像的增量聚类装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7所示的图像的增量聚类装置设备,以及来实现本申请实施例的图像的增量聚类方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
基于上述方法实施例和装置实施例的描述,本申请实施例还提供一种电子设备。请参见图8,该电子设备至少包括处理器81、输入设备82、输出设备83以及计算机存储介质84。其中,电子设备内的处理器81、输入设备82、输出设备83以及计算机存储介质84可通过总线或其他方式连接。
计算机存储介质84可以存储在电子设备的存储器中,所述计算机存储介质84用于存储计算机程序,所述计算机程序包括程序指令,所述处理器81用于执行所述计算机存储介质84存储的程序指令。处理器81(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例提供的电子设备的处理器81可以用于进行一系列图像的增量聚类处理:
获取第一图像数据集的第一聚类簇;
将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
再一个实施例中,所述第一聚类簇包括第一聚类簇A、第一聚类簇B和第一聚类簇C;处理器81执行所述利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并,包括:
在所述第二图像数据集中包括多个图像数据的情况下,对所述多个图像数据进行聚类,得到孤立图像数据和第二聚类簇;
利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并;以及,利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并;
在所述第二图像数据集中只存在单个图像数据的情况下,利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并。
再一个实施例中,所述第一聚类簇存在对应的第二聚类中心;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之前,处理器81还用于执行:
利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇。
再一个实施例中,所述第二聚类簇存在对应的第三聚类中心;处理器81执行所述利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇,包括:
获取所述孤立图像数据与所述第二聚类中心之间的第一相似度;
根据所述第一相似度从高到低对所述第一聚类簇进行排序得到第一聚类簇序列,选取所述第一聚类簇序列中前K个第一聚类簇;以及,
获取所述第三聚类中心与所述第二聚类中心之间的第二相似度;
根据所述第二相似度从高到低对所述第一聚类簇进行排序得到第二聚类簇序列,选取所述第二聚类簇序列中前K个第一聚类簇;或者,
获取所述单个图像数据与所述第二聚类中心之间的第三相似度;
根据所述第三相似度从高到低对所述第一聚类簇进行排序得到第三聚类簇序列,选取所述第三聚类簇序列中前K个第一聚类簇。
再一个实施例中,处理器81执行所述利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并,包括:
获取所述孤立图像数据与第一聚类中心D之间的第四相似度;所述第一聚类中心D为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第四相似度大于第一阈值的所述第一聚类中心D的第一数量;
将所述K个第一聚类簇中所述第一数量最大的第一聚类簇确定为所述第一聚类簇A;
将所述孤立图像数据与所述第一聚类簇A合并。
再一个实施例中,处理器81执行所述利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并,包括:
将所述第二聚类簇分割为N个第二子簇,并获取所述N个第二子簇中每个第二子簇对应的第四聚类中心;所述N为大于或等于1的整数;
获取所述第四聚类中心与第一聚类中心E之间的第五相似度;所述第一聚类中心E为K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第五相似度大于第二阈值的所述第一聚类中心E的第二数量;
将所述K个第一聚类簇中所述第二数量最大的第一聚类簇确定为所述第一聚类簇B;
将所述第二聚类簇与所述第一聚类簇B合并。
再一个实施例中,处理器81执行所述利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并,包括:
获取所述单个图像数据与第一聚类中心F之间的第六相似度;所述第一聚类中心F为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第六相似度大于第三阈值的所述第一聚类中心F的第三数量;
将所述K个第一聚类簇中所述第三数量最大的第一聚类簇确定为所述第一聚类簇C;
将所述单个图像数据与所述第一聚类簇C合并。
再一个实施例中,所述M小于或等于第四阈值;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之后,处理器81还用于执行:
将合并后的第一聚类簇分割为R个第三子簇,并获取所述R个第三子簇中每个第三子簇的第五聚类中心;所述R为大于或等于1的整数;
在所述R小于或等于所述第四阈值的情况下,保留所述R个第三子簇,并用所述R个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;
在所述R大于所述第四阈值的情况下,获取所述R个第三子簇中每个第三子簇中的图像数据的第四数量;
根据所述第四数量从大到小对所述R个第三子簇进行排序得到第四聚类簇序列,选取所述第四聚类簇序列中前P个第三子簇,并用所述P个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;所述P小于或等于所述第四阈值。
再一个实施例中,所述第一聚类簇通过对所述第一图像数据集中的图像数据进行聚类得到;处理器81执行所述将所述第一聚类簇分割为M个第一子簇,包括:
获取所述第一聚类簇中的图像数据之间的第七相似度,得到相似度矩阵;
基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇。
再一个实施例中,处理器81执行所述基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇,包括:
获取以所述第一聚类簇中的图像数据为顶点构成的连通图;
从所述相似度矩阵中查询得到所述连通图中的顶点之间的所述第七相似度;
将所述第七相似度大于第五阈值的多个顶点分割为一个第一子簇,得到所述M个第一子簇。
示例性的,上述电子设备可以是电脑、电脑主机、服务器、云服务器、服务器集群等,电子设备可包括但不仅限于处理器81、输入设备82、输出设备83以及计算机存储介质84,输入设备82可以是键盘、触摸屏等,输出设备83可以是扬声器、显示器、射频发送器等。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
需要说明的是,由于电子设备的处理器81执行计算机程序时实现上述的图像的增量聚类方法中的步骤,因此上述图像的增量聚类方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器81加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器81的计算机存储介质。在一个实施例中,可由处理器81加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图像的增量聚类方法的相应步骤。
示例性的,计算机存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,由于计算机存储介质的计算机程序被处理器执行时实现上述的图像的增量聚类方法中的步骤,因此上述图像的增量聚类方法的所有实施例均适用于该计算机存储介质,且均能达到相同或相似的有益效果。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种图像的增量聚类方法,其特征在于,所述方法包括:
获取第一图像数据集的第一聚类簇;
将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
2.根据权利要求1所述的方法,其特征在于,所述第一聚类簇包括第一聚类簇A、第一聚类簇B和第一聚类簇C;所述利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并,包括:
在所述第二图像数据集中包括多个图像数据的情况下,对所述多个图像数据进行聚类,得到孤立图像数据和第二聚类簇;
利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并;以及,利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并;
在所述第二图像数据集中只存在单个图像数据的情况下,利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并。
3.根据权利要求2所述的方法,其特征在于,所述第一聚类簇存在对应的第二聚类中心;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之前,所述方法还包括:
利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述第二聚类簇存在对应的第三聚类中心;所述利用所述第二聚类中心从所述第一聚类簇中确定出K个第一聚类簇,包括:
获取所述孤立图像数据与所述第二聚类中心之间的第一相似度;
根据所述第一相似度从高到低对所述第一聚类簇进行排序得到第一聚类簇序列,选取所述第一聚类簇序列中前K个第一聚类簇;以及,
获取所述第三聚类中心与所述第二聚类中心之间的第二相似度;
根据所述第二相似度从高到低对所述第一聚类簇进行排序得到第二聚类簇序列,选取所述第二聚类簇序列中前K个第一聚类簇;或者,
获取所述单个图像数据与所述第二聚类中心之间的第三相似度;
根据所述第三相似度从高到低对所述第一聚类簇进行排序得到第三聚类簇序列,选取所述第三聚类簇序列中前K个第一聚类簇。
5.根据权利要求3所述的方法,其特征在于,所述利用所述第一聚类中心将所述孤立图像数据与所述第一聚类簇A合并,包括:
获取所述孤立图像数据与第一聚类中心D之间的第四相似度;所述第一聚类中心D为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第四相似度大于第一阈值的所述第一聚类中心D的第一数量;
将所述K个第一聚类簇中所述第一数量最大的第一聚类簇确定为所述第一聚类簇A;
将所述孤立图像数据与所述第一聚类簇A合并。
6.根据权利要求3所述的方法,其特征在于,所述利用所述第一聚类中心将所述第二聚类簇与所述第一聚类簇B合并,包括:
将所述第二聚类簇分割为N个第二子簇,并获取所述N个第二子簇中每个第二子簇对应的第四聚类中心;所述N为大于或等于1的整数;
获取所述第四聚类中心与第一聚类中心E之间的第五相似度;所述第一聚类中心E为K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第五相似度大于第二阈值的所述第一聚类中心E的第二数量;
将所述K个第一聚类簇中所述第二数量最大的第一聚类簇确定为所述第一聚类簇B;
将所述第二聚类簇与所述第一聚类簇B合并。
7.根据权利要求3所述的方法,其特征在于,所述利用所述第一聚类中心将所述单个图像数据与所述第一聚类簇C合并,包括:
获取所述单个图像数据与第一聚类中心F之间的第六相似度;所述第一聚类中心F为所述K个第一聚类簇中每个第一聚类簇的每个第一子簇对应的所述第一聚类中心;
对于所述K个第一聚类簇中的每个第一聚类簇,确定所述每个第一聚类簇中所述第六相似度大于第三阈值的所述第一聚类中心F的第三数量;
将所述K个第一聚类簇中所述第三数量最大的第一聚类簇确定为所述第一聚类簇C;
将所述单个图像数据与所述第一聚类簇C合并。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述M小于或等于第四阈值;在利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并之后,所述方法还包括:
将合并后的第一聚类簇分割为R个第三子簇,并获取所述R个第三子簇中每个第三子簇的第五聚类中心;所述R为大于或等于1的整数;
在所述R小于或等于所述第四阈值的情况下,保留所述R个第三子簇,并用所述R个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;
在所述R大于所述第四阈值的情况下,获取所述R个第三子簇中每个第三子簇中的图像数据的第四数量;
根据所述第四数量从大到小对所述R个第三子簇进行排序得到第四聚类簇序列,选取所述第四聚类簇序列中前P个第三子簇,并用所述P个第三子簇对应的所述第五聚类中心对所述第一聚类中心进行更新;所述P小于或等于所述第四阈值。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述第一聚类簇通过对所述第一图像数据集中的图像数据进行聚类得到;所述将所述第一聚类簇分割为M个第一子簇,包括:
获取所述第一聚类簇中的图像数据之间的第七相似度,得到相似度矩阵;
基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇。
10.根据权利要求9所述的方法,其特征在于,所述基于所述相似度矩阵将所述第一聚类簇分割为所述M个第一子簇,包括:
获取以所述第一聚类簇中的图像数据为顶点构成的连通图;
从所述相似度矩阵中查询得到所述连通图中的顶点之间的所述第七相似度;
将所述第七相似度大于第五阈值的多个顶点分割为一个第一子簇,得到所述M个第一子簇。
11.一种图像的增量聚类装置,其特征在于,所述装置包括:
聚类簇获取模块,用于获取第一图像数据集的第一聚类簇;
聚类簇分割模块,用于将所述第一聚类簇分割为M个第一子簇,并获取所述M个第一子簇中每个第一子簇对应的第一聚类中心;所述M为大于或等于1的整数;
图像数据合并模块,用于获取第二图像数据集,利用所述第一聚类中心将所述第二图像数据集与所述第一聚类簇合并。
12.一种电子设备,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的方法。
CN202011185911.8A 2020-10-30 2020-10-30 图像的增量聚类方法、装置、电子设备及存储介质 Active CN112257801B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011185911.8A CN112257801B (zh) 2020-10-30 2020-10-30 图像的增量聚类方法、装置、电子设备及存储介质
KR1020227013791A KR20220070482A (ko) 2020-10-30 2020-12-04 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
PCT/CN2020/134074 WO2022088390A1 (zh) 2020-10-30 2020-12-04 图像的增量聚类方法、装置、电子设备、存储介质及程序产品
JP2022524182A JP2023502863A (ja) 2020-10-30 2020-12-04 画像の増分クラスタリング方法及び装置、電子機器、記憶媒体並びにプログラム製品
TW109146540A TW202217597A (zh) 2020-10-30 2020-12-28 圖像的增量聚類方法、電子設備、電腦儲存介質

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011185911.8A CN112257801B (zh) 2020-10-30 2020-10-30 图像的增量聚类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112257801A true CN112257801A (zh) 2021-01-22
CN112257801B CN112257801B (zh) 2022-04-29

Family

ID=74268958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011185911.8A Active CN112257801B (zh) 2020-10-30 2020-10-30 图像的增量聚类方法、装置、电子设备及存储介质

Country Status (5)

Country Link
JP (1) JP2023502863A (zh)
KR (1) KR20220070482A (zh)
CN (1) CN112257801B (zh)
TW (1) TW202217597A (zh)
WO (1) WO2022088390A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327195A (zh) * 2021-04-09 2021-08-31 中科创达软件股份有限公司 图像处理、图像处理模型训练、图像模式识别方法和装置
CN113743533A (zh) * 2021-09-17 2021-12-03 重庆紫光华山智安科技有限公司 一种图片聚类方法、装置及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152543B (zh) * 2023-10-30 2024-06-07 山东浪潮科学研究院有限公司 一种图像分类方法、装置、设备及存储介质
CN117333926B (zh) * 2023-11-30 2024-03-15 深圳须弥云图空间科技有限公司 一种图片聚合方法、装置、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012140315A1 (en) * 2011-04-15 2012-10-18 Nokia Corporation Method, apparatus and computer program product for providing incremental clustering of faces in digital images
US20140169673A1 (en) * 2011-07-29 2014-06-19 Ke-Yan Liu Incremental image clustering
CN103886048A (zh) * 2014-03-13 2014-06-25 浙江大学 一种基于聚类的增量数字图书推荐方法
US20170154280A1 (en) * 2015-12-01 2017-06-01 International Business Machines Corporation Incremental Generation of Models with Dynamic Clustering
CN107798354A (zh) * 2017-11-16 2018-03-13 腾讯科技(深圳)有限公司 一种基于人脸图像的图片聚类方法、装置及存储设备
CN109886311A (zh) * 2019-01-25 2019-06-14 北京奇艺世纪科技有限公司 增量聚类方法、装置、电子设备和计算机可读介质
CN110781957A (zh) * 2019-10-24 2020-02-11 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110866555A (zh) * 2019-11-11 2020-03-06 广州国音智能科技有限公司 增量数据的聚类方法、装置、设备及可读存储介质
CN111062407A (zh) * 2019-10-15 2020-04-24 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5229744B2 (ja) * 2007-12-03 2013-07-03 国立大学法人北海道大学 画像分類装置および画像分類プログラム
CN102129451B (zh) * 2011-02-17 2013-05-01 上海交通大学 图像检索系统中数据聚类方法
CN111242040B (zh) * 2020-01-15 2022-08-02 佳都科技集团股份有限公司 一种动态人脸聚类方法、装置、设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012140315A1 (en) * 2011-04-15 2012-10-18 Nokia Corporation Method, apparatus and computer program product for providing incremental clustering of faces in digital images
US20140169673A1 (en) * 2011-07-29 2014-06-19 Ke-Yan Liu Incremental image clustering
CN103886048A (zh) * 2014-03-13 2014-06-25 浙江大学 一种基于聚类的增量数字图书推荐方法
US20170154280A1 (en) * 2015-12-01 2017-06-01 International Business Machines Corporation Incremental Generation of Models with Dynamic Clustering
CN107798354A (zh) * 2017-11-16 2018-03-13 腾讯科技(深圳)有限公司 一种基于人脸图像的图片聚类方法、装置及存储设备
CN109886311A (zh) * 2019-01-25 2019-06-14 北京奇艺世纪科技有限公司 增量聚类方法、装置、电子设备和计算机可读介质
CN111062407A (zh) * 2019-10-15 2020-04-24 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110781957A (zh) * 2019-10-24 2020-02-11 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110866555A (zh) * 2019-11-11 2020-03-06 广州国音智能科技有限公司 增量数据的聚类方法、装置、设备及可读存储介质
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
P.AVIJAYA等: "Leaders–Subleaders: An efficient hierarchical clustering algorithm for large data sets", 《PATTERN RECOGNITION LETTERS》 *
郑忠斌 等: "基于Spark与改进K- modes的增量聚类研究", 《信息技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327195A (zh) * 2021-04-09 2021-08-31 中科创达软件股份有限公司 图像处理、图像处理模型训练、图像模式识别方法和装置
CN113743533A (zh) * 2021-09-17 2021-12-03 重庆紫光华山智安科技有限公司 一种图片聚类方法、装置及存储介质

Also Published As

Publication number Publication date
JP2023502863A (ja) 2023-01-26
TW202217597A (zh) 2022-05-01
KR20220070482A (ko) 2022-05-31
WO2022088390A1 (zh) 2022-05-05
CN112257801B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN112257801B (zh) 图像的增量聚类方法、装置、电子设备及存储介质
CN109151501B (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
CN110363091B (zh) 侧脸情况下的人脸识别方法、装置、设备及存储介质
Xiao et al. mCLOUD: A multiview visual feature extraction mechanism for ground-based cloud image categorization
WO2017181892A1 (zh) 前景分割方法及装置
CN112053358A (zh) 图像中像素的实例类别确定方法、装置、设备及存储介质
CN110941978B (zh) 一种未识别身份人员的人脸聚类方法、装置及存储介质
CN111582214B (zh) 基于孪生网络的笼养动物行为分析方法、系统、装置
CN111444363A (zh) 一种图片检索方法、装置、终端设备及存储介质
CN113657087B (zh) 信息的匹配方法及装置
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN111882034A (zh) 神经网络处理及人脸识别方法、装置、设备和存储介质
Zhao et al. Key‐Frame Extraction Based on HSV Histogram and Adaptive Clustering
CN111709473B (zh) 对象特征的聚类方法及装置
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN115495606A (zh) 一种图像聚档方法和系统
KR102444172B1 (ko) 영상 빅 데이터의 지능적 마이닝 방법과 처리 시스템
US10642864B2 (en) Information processing device and clustering method
CN114463673A (zh) 素材推荐方法、装置、设备及存储介质
CN112749660A (zh) 一种视频内容描述信息的生成方法和设备
Nikbakhsh et al. Plant classification in images of natural scenes using segmentations fusion
CN111625672B (zh) 图像处理方法、装置、计算机设备及存储介质
CN111382770A (zh) 图片聚类方法、装置、设备及存储介质
CN117332303B (zh) 一种用于集群的标签纠正方法
CN113269176B (zh) 图像处理模型训练、图像处理方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035432

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant