CN112101483B - 图像聚类方法、装置电子设备、计算机可读存储介质 - Google Patents

图像聚类方法、装置电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN112101483B
CN112101483B CN202011200839.1A CN202011200839A CN112101483B CN 112101483 B CN112101483 B CN 112101483B CN 202011200839 A CN202011200839 A CN 202011200839A CN 112101483 B CN112101483 B CN 112101483B
Authority
CN
China
Prior art keywords
class cluster
cluster
centroids
class
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011200839.1A
Other languages
English (en)
Other versions
CN112101483A (zh
Inventor
张宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202011200839.1A priority Critical patent/CN112101483B/zh
Publication of CN112101483A publication Critical patent/CN112101483A/zh
Application granted granted Critical
Publication of CN112101483B publication Critical patent/CN112101483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像聚类方法、装置、电子设备及存储介质,方法包括:获取第一类簇的多个质心和第二类簇的多个质心;对比所述第一类簇的多个质心与第二类簇的多个质心的相似度,根据所述相似度的比较结果,确定所述第二类簇与所述第一类簇能否合并;若所述第二类簇与所述第一类簇能合并,则将所述第二类簇与所述第一类簇进行合并,得到合并后的类簇的质心;利用合并后的类簇的质心进行图像聚类。以此解决聚类过程中数据漂移问题。

Description

图像聚类方法、装置电子设备、计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种图像聚类方法、装置、电子设备、计算机可读存储介质。
背景技术
传统的人脸聚类,是通过人脸识别技术对人脸图片进行特征值解析,提取出图片的相关要素信息,再通过比较特征值相似度,对图片进行聚类。新的类簇与旧的类簇进行合并时,往往比较的是类簇质心的特征值相似度。如果满足一定的阈值,则添加到类簇。
但是,采用单质心进行比对,会造成数据漂移的问题。
发明内容
本发明提供一种图像聚类方法、装置、电子设备、计算机可读存储介质,用以解决聚类过程中数据漂移问题。
为解决上述技术问题,本发明提供的第一个技术方案为:提供一种图像聚类方法,包括:获取第一类簇的多个质心和第二类簇的多个质心;对比第一类簇的多个质心与第二类簇的多个质心的相似度,根据相似度的比较结果,确定第二类簇与第一类簇能否合并;若第二类簇与第一类簇能合并,则将第二类簇与第一类簇进行合并,得到合并后的类簇的质心;利用合并后的类簇的质心进行图像聚类。
其中,获取第一类簇的多个质心和第二类簇的多个质心,包括:选取所述第一类簇和所述第二类簇中质量分数最高的图像作为所述多个质心;和/或选取第一类簇和所述第二类簇中聚类时间最晚的图像作为所述多个质心;和/或计算所述第一类簇中所有图像对应的特征维度的第一平均值,根据所述第一类簇中每一图像的特征维度与所述第一平均值的距离选取对应的图像作为所述多个质心;及计算所述第二类簇中所有图像对应的特征维度的第二平均值,根据所述第二类簇中每一图像的特征维度与所述第二平均值的距离选取对应的图像作为所述多个质心;和/或对所述第一类簇和所述第二类簇中所有图像进行聚类,以得到所述多个质心。
其中,计算所述第一类簇中所有图像对应的特征维度的第一平均值,根据所述第一类簇中每一图像的特征维度与所述第一平均值的距离选取对应的图像作为所述多个质心;及计算所述第二类簇中所有图像对应的特征维度的第二平均值,根据所述第二类簇中每一图像的特征维度与所述第二平均值的距离选取对应的图像作为所述多个质心,包括:选取所述第一类簇中与所述第一平均值距离最近的特征维度对应的图像作为所述多个质心;及选取所述第二类簇中与所述第二平均值距离最近的特征维度对应的图像作为所述多个质心。
其中,所述对所述第一类簇和所述第二类簇中所有图像进行聚类,以得到所述多个质心,包括:对所述第一类簇中所有图像的特征维度进行降维处理,以得到部分所述第一图像,及对所述第二类簇中所有图像的特征维度进行降维处理,以得到部分所述第二图像;对部分所述第一图像进行聚类,以得到所述多个质心;及对部分所述第二图像进行聚类,以得到所述多个质心。
其中,对比第一类簇的多个质心与第二类簇的多个质心的相似度,根据相似度的比较结果,确定第二类簇与第一类簇能否合并包括:利用第二类簇中所有质心对应的特征维度计算第二类簇中所有质心的平均值,作为第一虚拟质心;以及利用第一类簇中所有质心对应的特征维度计算第一类簇中所有质心的平均值,作为第二虚拟质心;计算第一虚拟质心与第二虚拟质心的距离值,若距离值小于阈值,则第二虚拟质心与第一虚拟质心相似度高,确定第二类簇与第一类簇能合并。
其中,对比第一类簇的质心与第二类簇的质心的相似度,根据相似度的比较结果,确定第二类簇与第一类簇能否合并包括:将第一类簇中的质心与第二类簇中的质心进行两两交叉计算,以得到多个距离值,若多个距离值中小于阈值的距离值的个数达到预设值,则确定第二类簇与第一类簇能合并;和/或将第一类簇中的部分质心与第二类簇中的部分质心进行两两交叉计算,得到多个距离值,若多个距离值均小于阈值,则确定第二类簇与第一类簇能合并。
其中,对比第一类簇的质心与第二类簇的质心的相似度,根据相似度的比较结果,确定第二类簇与第一类簇能否合并包括:利用时空矛盾和/或时间相近原则,计算第一类簇与第二类簇的质心的距离值,若距离值小于阈值,则确定第二类簇与第一类簇能合并。
其中,若第二类簇与第一类簇能合并,则将第一类簇与第二类簇进行合并,并得到合并后的类簇的质心包括:根据第二类簇中图像数量得到合并后的类簇的质心;和/或根据第二类簇与第一类簇之间的时间间隔得到合并后的类簇的质心。
为解决上述技术问题,本发明提供的第二个技术方案为:提供一种图像聚类装置,包括:获取模块,用于获取第一类簇的多个质心和第二类簇的多个质心;相似度比较模块,用于对比所述第一类簇的多个质心与第二类簇的多个质心的相似度,根据所述相似度的比较结果,确定所述第二类簇与所述第一类簇能否合并;类簇合并模块,用于在所述第二类簇与所述第一类簇能合并时,将所述第二类簇与所述第一类簇进行合并,得到合并后的类簇的质心;聚类模块,用于利用合并后的类簇的质心进行图像聚类。
为解决上述技术问题,本发明提供的第三个技术方案为:提供一种电子设备,包括:存储器和处理器,其中,存储器存储有程序指令,处理器从存储器调取程序指令以执行上述任一项的图像聚类方法。
为解决上述技术问题,本发明提供的第四个技术方案为:提供一种计算机可读存储介质,存储有程序文件,程序文件能够被执行以实现上述任一项的图像聚类方法。
本发明的有益效果,区别于现有技术,本发明通过获取第一类簇以及第二类簇的多个质心;对比第一类簇的多个质心与第二类簇的多个质心的相似度,根据相似度的比较结果,确定第二类簇与第一类簇能否合并;若第二类簇与第一类簇能合并,则将第一类簇与第二类簇进行合并,并得到合并后的类簇的质心,利用合并后的类簇的质心进行图像聚类。以此解决聚类过程中数据漂移问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明图像聚类方法的第一实施例的流程示意图;
图2为图1中步骤S11的一具体实施例的流程示意图;
图3为图2中步骤S114的一具体实施例的流程示意图;
图4为图1中步骤S12的一具体实施例的流程示意图;
图5为图1中步骤S12的另一具体实施例的流程示意图;
图6为本发明图像聚类装置的一实施例的结构示意图;
图7为本发明电子设备的一实施例的结构示意图;
图8为本发明计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,如专利《图片相似度比对方法和装置》中提出提取待检测图片和目标图片的全局信息,以及待检测图片和目标图片的重点信息,将待检测图片的全局信息与目标图片的全局信息进行比对,确定第一相似度,若第一相似度大于第一阈值,则将待检测图片的重点信息与目标图片的重点信息进行比对,以确定第二相似度,若第二相似度大于第二阈值,则确定待检测图片与目标图片相似。本专利在兼顾整体相似度的同时,能够通过比对重点信息来判断图片是否为相似图片,从而兼顾图片相似度比对的准确率和召回率,进而提高图片识别的准确性。但是该专利仅基于特征值比对,维度单一,通过提取图片的不同区域,再结合其特征值进行相似度比对,其仅仅比较类簇的单个质心,容易发生数据漂移问题,导致一个类簇中出现多个目标的图像。对此,本申请提供一种图像聚类方法,其通过对比多个质心,进而解决上述问题,下面结合附图和实施例对本发明进行详细的说明。
请参见图1,为本发明图像聚类方法的第一实施例的流程示意图,包括:
步骤S11:获取第一类簇的多个质心和第二类簇的多个质心。
具体的,从第一类簇中获取多个质心,以及从第二类簇中获取多个质心。请结合图2,包括:
步骤S111:选取第一类簇及第二类簇中质量分数最高的图像作为多个质心。
人脸图片通过识别解析后,根据拍摄角度、面部装饰品的不同,会给图片打上相应的分数,分数越高表示图片特征值越好。在人脸聚类过程中,往往会选择质量分高的图片作为类簇的质心,避免生成独立的类簇数量太多,降低聚类准确率。因此,可以选取第一类簇中质量分数最高的图像作为第一类簇对应的一个质心,以及选取第二类簇中质量分数最高的图像作为第二类簇对应的一个质心。
在另一实施例中,还可以选取第一类簇及第二类簇中时间最早且质量分数最高的图像作为质心。例如,若第一类簇以及第二类簇中时间最早的第一张图像的质量分数最高,则将第一类簇以及第二类簇中时间最早的第一张图像作为各自对应的质心;若第一类簇以及第二类簇中时间最早的第二张图像的质量分数最高,则将第一类簇以及第二类簇中时间最早的第一张图像作为各自对应的质心。
步骤S112:选取第一类簇及第二类簇中聚类时间最晚的图像作为多个质心。
将第一类簇中最新聚类进来的图像作为对应的质心,及将第二类簇中最新聚类进来的图像作为对应的质心。
本实施例能够融合时空矛盾、时空相近原则来提升聚类准确率。时空矛盾为在指定的时间范围和空间范围内,图片A和图片B出现相似度很高的情况,那么两张图片聚类后属于同一人的概率是非常低的。又如,在同一时间不同空间,图片A和图片B出现相似度很高的情况,那么两张图片聚类后属于同一人是不合理的。时空相近为图片A和类簇C中的最新聚进来的图片B,在很短的时间范围和很小的空间范围内,只有图片A和图片B相似度最高,那么图片B极大概率也能聚到类簇C中。
步骤S113:计算第一类簇中所有图像对应的特征维度的第一平均值,根据第一类簇中每一图像的特征维度与第一平均值的距离选取对应的图像作为多个质心;及计算第二类簇中所有图像对应的特征维度的第二平均值,根据第二类簇中每一图像的特征维度与第二平均值的距离选取对应的图像作为多个质心。
具体的,利用特征提取组件,提取第一类簇中所有图像对应的特征维度,并计算其对应的特征维度的第一平均值,根据第一类簇中每一图像的特征维度与第一平均值之间的聚类选取对应的图像作为质心。在一实施例中,选取第一类簇中与第一平均值距离最近的特征维度对应的图像作为质心。利用特征提取组件,提取第二类簇中所有图像对应的特征维度,并计算其对应的特征维度的第二平均值,根据第二类簇中每一图像的特征维度与第二平均值之间的聚类选取对应的图像作为质心。在一实施例中,选取第二类簇中与第二平均值距离最近的特征维度对应的图像作为质心。
步骤S114:对第一类簇及第二类簇中所有图像进行聚类,以得到多个质心。
具体的,对第一类簇中的所有图像进行聚类,以得到质心,对第二类簇中的所有图像进行聚类,以得到质心。
具体的,请结合图3,步骤S114包括:
步骤S1141:对第一类簇中所有图像的特征维度进行降维处理,以得到部分第一图像,及对第二类簇中所有图像的特征维度进行降维处理,以得到部分第二图像。
在一实施例中,为了减少计算量,可以采用PCA降维算法对第一类簇中所有图像的特征维度进行降维处理,以抽取部分图像,进而得到第一图像,对抽取的第一图像进行聚类,以得到质心。及采用PCA降维算法对第二类簇中所有图像的特征维度进行降维处理,以抽取部分图像,进而得到第二图像,对抽取的第二图像进行聚类,以得到质心。在一具体实施例中,可以采用kmeans聚类方法进行聚类。
步骤S1142:对部分第一图像进行聚类,以得到多个质心;及对部分第二图像进行聚类,以得到多个质心。
具体的,可以采用kmeans聚类方法对第一图像进行聚类,以得到质心;及采用kmeans聚类方法对第二图像进行聚类,以得到质心。
需要说明的是,在进行聚类时,可以预先设定需要得到的质心的数量,以此通过聚类之后,即可得到设定数量的质心。
具体的,将上述步骤S111至步骤S114中选取第一类簇的质心作为第一类簇的多个质心,选取出的第二类簇的质心作为第二类簇的多个质心。
步骤S12:对比第一类簇的多个质心与第二类簇的多个质心的相似度,根据相似度的比较结果,确定第二类簇与第一类簇能否合并。
通过对比多个质心的相似度,进而确定类簇是否能够合并,以此解决数据漂移的问题,以防止一个类簇中出现多个目标的图像,具体的,请结合图4,步骤S12包括:
步骤S41:利用第二类簇中所有质心对应的特征维度计算第二类簇中所有质心的平均值,作为第一虚拟质心;以及利用第一类簇中所有质心对应的特征维度计算第一类簇中所有质心的平均值,作为第二虚拟质心。
获取第二类簇中所有质心对应的特征维度,第二类簇中的所有质心为通过上述步骤S111~步骤S114得到的质心。利用第二类簇中所有质心对应的特征维度计算第二类簇中所有质心的平均值,将其作为第一虚拟质心。获取第一类簇中所有质心对应的特征维度,第一类簇中的所有质心为通过上述步骤S111~步骤S114得到的质心。利用第一类簇中所有质心对应的特征维度计算第一类簇中所有质心的平均值,将其作为第二虚拟质心。
步骤S42:计算第一虚拟质心与第二虚拟质心的距离值,若距离值小于阈值,则第二虚拟质心与第一虚拟质心相似度高,确定第二类簇与第一类簇能合并。
利用余弦相似度的计算方式计算第一虚拟质心以及第二虚拟质心之间的距离值,并将计算得到的距离值与阈值进行比较,若该距离值小于阈值,则表明第一虚拟质心与第二虚拟质心相似度高,此时判定第一类簇与第二类簇能够合并。
在另一实施例中,请结合图5,步骤S12还包括:
步骤S51:将第一类簇中的质心与第二类簇中的质心进行两两交叉计算,以得到多个距离值,若多个距离值中小于阈值的距离值的个数达到预设值,则确定第二类簇与第一类簇能合并。
具体的,将第一类簇中的质心与第二类簇中的质心进行两两交叉计算,以得到多个距离值,若多个距离值中小于阈值的距离值的个数达到预设值,则确定第二类簇与第一类簇能合并。例如,第一类簇中具有三个质心,第二类簇中具有三个质心,预设值为4,则计算第一类簇中第一个质心分别与第二类簇中三个质心的距离值,若计算的距离值中,有四个距离值小于阈值,则确定第二类簇与第一类簇能够合并。
在一实施例中,为了减少计算量,则可以在计算得到小于阈值的距离值的个数达到预设值时,即可停止计算,判定第一类簇与第二类簇能够合并。
在另一实施例中,还可以将第一类簇与第二类簇两两交叉计算,得到所有的距离值之后,判断该距离值中小于阈值的部分所占比率,若比率达到预设比率,则判定第一类簇与第二类簇能够合并。
步骤S52:将第一类簇中的部分质心与第二类簇中的部分质心进行两两交叉计算,得到多个距离值,若多个距离值均小于阈值,则确定第二类簇与第一类簇能合并。
在另一实施例中,为了进一步减少计算量,可以将第一类簇中部分质心与第二类簇中部分质心进行两两交叉计算,得到多个距离值,若多个距离值均小于阈值,则确定第二类簇与第一类簇能合并。
在一实施例中,至少部分质心为至少两个质心。
在另一实施例中,还可以引入时空矛盾和/或时空相近原则,利用时空矛盾和/或时间相近原则,计算第一类簇与第二类簇的质心的距离值,若距离值小于阈值,则确定第二类簇与第一类簇能合并。其中,时空矛盾为在指定的时间范围和空间范围内,图片A和图片B出现相似度很高的情况,那么两张图片聚类后属于同一人的概率是非常低的。又如,在同一时间不同空间,图片A和图片B出现相似度很高的情况,那么两张图片聚类后属于同一人是不合理的。时空相近为图片A和类簇C中的最新聚进来的图片B,在很短的时间范围和很小的空间范围内,只有图片A和图片B相似度最高,那么图片B极大概率也能聚到类簇C中。
步骤S13:若第二类簇与第一类簇能合并,则将第二类簇与第一类簇进行合并,并得到合并后的类簇的质心。
若第一类簇与第二类簇能够合并,则将第一类簇与第二类簇合并,并得到合并后的类簇的质心。
在一实施例中,可以按照合并的类簇的图像的数量得到合并后的类簇的质心。例如,若合并入第一类簇中的第二类簇的图像数量为100张,则可以按照与第一类簇的图像的比率得到相应数量的质心,例如可以在第一类簇的质心的基础上增加5张图像作为质心。
在另一实施例中,开可以根据第二类簇与第二类簇之间的时间间隔得到合并后的类簇的质心,例如,若第一类簇与第二类簇之间的时间间隔较长,则可以从第二类簇中选用较多图像作为质心,结合第一类簇中原有的质心,以得到合并后的类簇的质心;若第一类簇与第二类簇之间的时间间隔较短,则可以从第二类簇中选用较少图像作为质心,结合第一类簇中原有的质心,以得到合并后的类簇的质心。
在另一实施例中,若第一类簇与第二类簇之间时间间隔较长,则随着时间的推移,第一类簇中的质心会不断增加,如果保留所有质心,势必会导致比对数据增加。因此可以删除一些质心,例如,可以删除第一类簇中时间较早的质心,还可以删除第一类簇中时间较晚的质心,具体不做限定。
步骤S14:利用合并后的类簇的质心进行图像聚类。
具体的,合并后的类簇的质心已被更新,利用合并后的类簇的质心进行聚类,可以够避免同一类簇中出现多个目标特征图像,解决图像聚类过程中数据漂移问题。
本发明提供的图像聚类方法,其通过比较第一类簇与第二类簇的多个质心的相似度,进而判断第一类簇与第二类簇是否能够合并,并在合并后得到合并的类簇的质心,利用合并后的类簇的质心进行图像聚类,以此能够避免同一类簇中出现多个目标特征图像,解决图像聚类过程中数据漂移问题。
请参见图6,为本发明图像聚类装置的一实施例的结构示意图。包括:获取模块61、相似度比较模块62、类簇合并模块63以及聚类模块64。
其中,获取模块61用于获取第一类簇的多个质心和第二类簇的多个质心。具体的,获取模块51还用于选取第一类簇及第二类簇中质量分数最高的图像作为多个质心;选取第一类簇及第二类簇中聚类时间最晚的图像作为多个质心;计算第一类簇中所有图像对应的特征维度的第一平均值,根据第一类簇中每一图像的特征维度与第一平均值的距离选取对应的图像作为多个质心;及计算第二类簇中所有图像对应的特征维度的第二平均值,根据第二类簇中每一图像的特征维度与第二平均值的距离选取对应的图像作为多个质心;对第一类簇及第二类簇中所有图像进行聚类,以得到多个质心。
相似度比较模块62用于对比所述第一类簇的多个质心与第二类簇的多个质心的相似度,根据所述相似度的比较结果,确定所述第二类簇与所述第一类簇能否合。具体的,相似度比较模块62还用于利用第二类簇中所有质心对应的特征维度计算第二类簇中所有质心的平均值,作为第一虚拟质心;以及利用第一类簇中所有质心对应的特征维度计算第一类簇中所有质心的平均值,作为第二虚拟质心,计算第一虚拟质心与第二虚拟质心的距离值,若距离值小于阈值,则第二虚拟质心与第一虚拟质心相似度高,确定第二类簇与第一类簇能合并。在另一实施例中,相似度比较模块62还用于将第一类簇中的质心与第二类簇中的质心进行两两交叉计算,以得到多个距离值,若多个距离值中小于阈值的距离值的个数达到预设值,则确定第二类簇与第一类簇能合并;和/或将第一类簇中的部分质心与第二类簇中的部分质心进行两两交叉计算,得到多个距离值,若多个距离值均小于阈值,则确定第二类簇与第一类簇能合并。
类簇合并模块63用于在所述第二类簇与所述第一类簇能合并时,将所述第二类簇与所述第一类簇进行合并,得到合并后的类簇的质心。
聚类模块64用于利用合并后的类簇的质心进行图像聚类。
本发明提供的图像聚类装置,其通过比较第一类簇与第二类簇的多个质心的相似度,进而判断第一类簇与第二类簇是否能够合并,并在合并后得到合并的类簇的质心,利用合并后的类簇的质心进行图像聚类,以此能够避免同一类簇中出现多个目标特征图像,解决图像聚类过程中数据漂移问题。
请参见图7,为本发明电子设备的一实施例的结构示意图。电子设备包括相互连接的存储器202和处理器201。
存储器202用于存储实现上述任意一项的设备的图像聚类方法的程序指令。
处理器201用于执行存储器202存储的程序指令。
其中,处理器201还可以称为CPU(Central Processing Unit,中央处理单元)。处理器201可能是一种集成电路芯片,具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器202可以为内存条、TF卡等,可以存储设备的电子设备中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器,电子设备才有记忆功能,才能保证正常工作。电子设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图8,为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有图像聚类方法的程序文件203,其中,该程序文件203可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种图像聚类方法,其特征在于,包括:
获取第一类簇的多个质心和第二类簇的多个质心;
利用所述第二类簇中所有质心对应的特征维度计算所述第二类簇中所有质心的平均值,作为第一虚拟质心;以及利用所述第一类簇中所有质心对应的特征维度计算所述第一类簇中所有质心的平均值,作为第二虚拟质心;
计算所述第一虚拟质心与所述第二虚拟质心的距离值,若所述距离值小于阈值,则确定所述第二类簇与所述第一类簇能合并;或者
将所述第一类簇中的质心与所述第二类簇中的质心进行两两交叉计算,以得到多个距离值,若所述多个距离值中小于阈值的距离值的个数达到预设值,则确定所述第二类簇与所述第一类簇能合并;或者
将所述第一类簇中的部分质心与所述第二类簇中的部分质心进行两两交叉计算,得到多个距离值,若所述多个距离值均小于阈值,则确定所述第二类簇与所述第一类簇能合并;或者
利用时空矛盾和/或时间相近原则,计算所述第一类簇与所述第二类簇的质心的距离值,若所述距离值小于阈值,则确定所述第二类簇与所述第一类簇能合并;
若所述第二类簇与所述第一类簇能合并,则将所述第二类簇与所述第一类簇进行合并,并根据所述第一类簇与所述第二类簇的间隔时间得到合并后的类簇的质心;
利用合并后的类簇的质心进行图像聚类。
2.根据权利要求1所述的方法,其特征在于,所述获取第一类簇的多个质心和第二类簇的多个质心,包括:
选取所述第一类簇和所述第二类簇中质量分数最高的图像作为所述多个质心;和/或
选取所述第一类簇和所述第二类簇中聚类时间最晚的图像作为所述多个质心;和/或
计算所述第一类簇中所有图像对应的特征维度的第一平均值,根据所述第一类簇中每一图像的特征维度与所述第一平均值的距离选取对应的图像作为所述多个质心;及计算所述第二类簇中所有图像对应的特征维度的第二平均值,根据所述第二类簇中每一图像的特征维度与所述第二平均值的距离选取对应的图像作为所述多个质心;和/或
对所述第一类簇和所述第二类簇中所有图像进行聚类,以得到所述多个质心。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一类簇中所有图像对应的特征维度的第一平均值,根据所述第一类簇中每一图像的特征维度与所述第一平均值的距离选取对应的图像作为所述多个质心;及计算所述第二类簇中所有图像对应的特征维度的第二平均值,根据所述第二类簇中每一图像的特征维度与所述第二平均值的距离选取对应的图像作为所述多个质心,包括:
选取所述第一类簇中与所述第一平均值距离最近的特征维度对应的图像作为所述多个质心;及选取所述第二类簇中与所述第二平均值距离最近的特征维度对应的图像作为所述多个质心。
4.根据权利要求2所述的方法,其特征在于,所述对所述第一类簇和所述第二类簇中所有图像进行聚类,以得到所述多个质心,包括:
对所述第一类簇中所有图像的特征维度进行降维处理,以得到部分第一图像,及对所述第二类簇中所有图像的特征维度进行降维处理,以得到部分第二图像;
对部分所述第一图像进行聚类,以得到所述多个质心;及对部分所述第二图像进行聚类,以得到所述多个质心。
5.一种图像聚类装置,其特征在于,包括:
获取模块,用于获取第一类簇的多个质心和第二类簇的多个质心;
相似度比较模块,用于利用所述第二类簇中所有质心对应的特征维度计算所述第二类簇中所有质心的平均值,作为第一虚拟质心;以及利用所述第一类簇中所有质心对应的特征维度计算所述第一类簇中所有质心的平均值,作为第二虚拟质心;计算所述第一虚拟质心与所述第二虚拟质心的距离值,若所述距离值小于阈值,则确定所述第二类簇与所述第一类簇能合并;或者
将所述第一类簇中的质心与所述第二类簇中的质心进行两两交叉计算,以得到多个距离值,若所述多个距离值中小于阈值的距离值的个数达到预设值,则确定所述第二类簇与所述第一类簇能合并;或者
将所述第一类簇中的部分质心与所述第二类簇中的部分质心进行两两交叉计算,得到多个距离值,若所述多个距离值均小于阈值,则确定所述第二类簇与所述第一类簇能合并;或者
利用时空矛盾和/或时间相近原则,计算所述第一类簇与所述第二类簇的质心的距离值,若所述距离值小于阈值,则确定所述第二类簇与所述第一类簇能合并;
类簇合并模块,用于在所述第二类簇与所述第一类簇能合并时,将所述第二类簇与所述第一类簇进行合并,并根据所述第一类簇与所述第二类簇的间隔时间得到合并后的类簇的质心;
聚类模块,用于利用合并后的类簇的质心进行图像聚类。
6.一种电子设备,其特征在于,包括:存储器和处理器,其中,所述存储器存储有程序指令,所述处理器从所述存储器调取所述程序指令以执行如权利要求1-5任一项所述的图像聚类方法。
7.一种计算机可读存储介质,其特征在于,存储有程序文件,所述程序文件能够被执行以实现如权利要求1-5任一项的图像聚类方法。
CN202011200839.1A 2020-11-02 2020-11-02 图像聚类方法、装置电子设备、计算机可读存储介质 Active CN112101483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011200839.1A CN112101483B (zh) 2020-11-02 2020-11-02 图像聚类方法、装置电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011200839.1A CN112101483B (zh) 2020-11-02 2020-11-02 图像聚类方法、装置电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112101483A CN112101483A (zh) 2020-12-18
CN112101483B true CN112101483B (zh) 2023-11-28

Family

ID=73785640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011200839.1A Active CN112101483B (zh) 2020-11-02 2020-11-02 图像聚类方法、装置电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112101483B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749652B (zh) * 2020-12-31 2024-02-20 浙江大华技术股份有限公司 身份信息确定的方法和装置、存储介质及电子设备
CN112818149B (zh) * 2021-01-21 2023-07-14 浙江大华技术股份有限公司 一种基于时空轨迹数据的人脸聚类方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644233A (zh) * 2017-10-11 2018-01-30 上海电力学院 基于聚类分类的filtersim模拟方法
CN108763420A (zh) * 2018-05-24 2018-11-06 广州视源电子科技股份有限公司 数据对象的分类方法、装置、终端和计算机可读存储介质
CN111797260A (zh) * 2020-07-10 2020-10-20 宁夏中科启创知识产权咨询有限公司 基于图像识别的商标检索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1452993A1 (en) * 2002-12-23 2004-09-01 STMicroelectronics S.r.l. Method of analysis of a table of data relating to expressions of genes and relative identification system of co-expressed and co-regulated groups of genes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644233A (zh) * 2017-10-11 2018-01-30 上海电力学院 基于聚类分类的filtersim模拟方法
CN108763420A (zh) * 2018-05-24 2018-11-06 广州视源电子科技股份有限公司 数据对象的分类方法、装置、终端和计算机可读存储介质
CN111797260A (zh) * 2020-07-10 2020-10-20 宁夏中科启创知识产权咨询有限公司 基于图像识别的商标检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《聚类的四种算法》;JayKing_csdn;《https://blog.csdn.net/qq_32951553/article/details/80654663》;20180611;第1-4页 *

Also Published As

Publication number Publication date
CN112101483A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112101483B (zh) 图像聚类方法、装置电子设备、计算机可读存储介质
US11734341B2 (en) Information processing method, related device, and computer storage medium
JP5963609B2 (ja) 画像処理装置、画像処理方法
KR101912748B1 (ko) 확장성을 고려한 특징 기술자 생성 및 특징 기술자를 이용한 정합 장치 및 방법
CN103455542A (zh) 多类识别器以及多类识别方法
US20230237771A1 (en) Self-supervised learning method and apparatus for image features, device, and storage medium
CN112232148A (zh) 图像聚类、目标轨迹追踪方法、电子设备及存储介质
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN113657434A (zh) 人脸人体关联方法、系统以及计算机可读存储介质
WO2023082641A1 (zh) 电子档案生成方法、装置、终端设备及存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN114724025A (zh) 异物检测方法、装置、电子设备及存储介质
WO2022001034A1 (en) Target re-identification method, network training method thereof, and related device
CN113869253A (zh) 活体检测方法、训练方法、装置、电子设备及介质
CN112633281A (zh) 一种基于Hash算法车辆身份认证方法及系统
JP2023129401A (ja) 画像認識装置、プログラム、画像認識方法、及び機械学習方法
CN116188956A (zh) 一种深度伪造人脸图像检测的方法及相关设备
CN105224957A (zh) 一种基于单样本的图像识别的方法及系统
CN114937165A (zh) 一种类簇合并方法、装置、终端及计算机可读存储介质
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
CN113688785A (zh) 基于多监督的人脸识别方法、装置、计算机设备及存储介质
JP6341843B2 (ja) 画像検索装置、及び画像検索システム
CN113673550A (zh) 聚类方法、装置、电子设备、计算机可读存储介质
CN113688708A (zh) 一种基于概率特征的人脸识别方法、系统及存储介质
CN112766139A (zh) 目标识别方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant