CN111401392B - 聚类集成方法及装置、电子设备及存储介质 - Google Patents

聚类集成方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111401392B
CN111401392B CN201910000467.9A CN201910000467A CN111401392B CN 111401392 B CN111401392 B CN 111401392B CN 201910000467 A CN201910000467 A CN 201910000467A CN 111401392 B CN111401392 B CN 111401392B
Authority
CN
China
Prior art keywords
core
clustering
cluster members
cluster
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910000467.9A
Other languages
English (en)
Other versions
CN111401392A (zh
Inventor
赵薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910000467.9A priority Critical patent/CN111401392B/zh
Publication of CN111401392A publication Critical patent/CN111401392A/zh
Application granted granted Critical
Publication of CN111401392B publication Critical patent/CN111401392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种聚类集成方法及装置、电子设备及存储介质。所述方法包括:对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。

Description

聚类集成方法及装置、电子设备及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种聚类集成方法及装置、电子设备及存储介质。
背景技术
聚类是将具有相似的数据对象划分到一个类,聚类在实际应用过程中,可以将看似不相关的数据对象的共通性挖掘出来,用于提供决策的数据分析。为了提升聚类之后得到聚类结果的精确性,可能会进一步将多个聚类结果进行融合,实现聚类集成。但是在相关聚类集成算法中,具有如下问题:
聚类集成效率低,例如,聚类集成算法时间复杂度高,导致聚类集成运行速度慢,进而导致效率低;
聚类集成效果差,在所聚成的类中引入了很多实质上与该类其他数据对象差异很大的干扰项。
发明内容
有鉴于此,本发明实施例期望提供一种聚类集成方法及装置、电子设备及存储介质。
本发明的技术方案是这样实现的:
一种聚类集成方法,包括:
对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;
确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;
基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;
根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。
基于上述方案,所述对数据对象进行m次聚类,获得m个聚类成员,包括以下至少之一:
利用一个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员;
利用多个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员。
基于上述方案,所述根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成,包括:
通过抽样方式从每一个所述核心边缘对中选择部分核心聚类成员;
对选择的所述核心聚类成员进行集成聚类。
基于上述方案,所述通过抽样方式从每一个所述核心边缘对中选择部分核心聚类成员,包括:
确定每一个核心边缘对内各所述核心聚类成员之间的相似度;
基于每一个核心聚类成员与其他核心聚类成员之间的相似度,确定每一个所述核心聚类成员的抽样参考值;
基于所述抽样参考值,从每一个所述核心边缘对中均匀抽取N个核心聚类成员;其中,t个所述核心边缘对则共抽样t*N个核心聚类成员;
对所述t*N个核心聚类成员进行聚类集成。
基于上述方案,所述对所述t*N个核心聚类成员进行聚类集成,包括:
对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果;
对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果。
基于上述方案,所述对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果,包括:
基于MK算法或简单统计投票算法,对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个所述第一聚类集成结果。
基于上述方案,所述对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果,包括:
利用最大投票法对t个所述第一聚类集成结果聚类集成,获得所述第二聚类集成结果。
基于上述方案,所述确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵,包括:
确定表征所述聚类成员之间相似度的熵指标,并基于所述熵指标生成所述相似矩阵。
基于上述方案,所述基于所述相似矩阵构建网络,包括:
对所述相似矩阵中的元素进行最大最小标准化,获得标准化后的相似矩阵;
基于标准化后的相似矩阵构建所述网络。
一种聚类集成装置,包括:
聚类模块,用于对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;
相似矩阵生成模块,用于确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;
核心边缘对确定模块,用于基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;
聚类集成模块,用于根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。
一种电子设备,包括:
存储器,用于信息存储;
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,实现前述一个或多个技术方案提供的聚类集成方法。
一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现前述一个或多个技术方案提供的聚类集成方法。
本发明实施例提供的技术方案,在进行聚类集成时,不再是直接将所有的聚类结果进行聚类集成,而是会先将每一个聚类结果视为聚类成员,对聚类成员进行相似度的计算,然后对于相似度构建出网络之后,获得一个或多个核心边缘对,从核心边缘对所包含的核心聚类成员中选择全部或部分进行聚类集成;如此,相对于将所有的聚类结果直接聚类集成,会减少需要聚类集成的聚类结果的数目,从而减少了数据量和计算量,可以提升聚类集成的效率,尤其是对大数据量的数据对象进行聚类结果集成的过程中,效率提升尤其明显;与此同时,由于进行聚类集成的聚类结果是对应于核心边缘对中的核心聚类成员的,核心聚类成员其自身的特性,决定了其自身表示的聚类结果具有较高的精准性,如此,就剔除了聚类结果精准度较低的聚类结果的干扰,提升了聚类集成形成的数据对象的准确性。
附图说明
图1为本发明实施例提供的第一种聚类集成方法的流程示意图;
图2为本发明实施例提供的第二种聚类集成方法的流程示意图;
图3为本发明实施例提供的第一种聚类集成装置的结构示意图;
图4A和图4B为本发明实施例提供的核心聚类成员的聚类效果示意图;
图5A和图5B为本发明实施例提供的边缘聚类成员的聚类效果是否已图;
图5C为本发明实施例最终聚类结果的聚类效果示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种聚类集成方法,包括:
步骤S110:对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;
步骤S120:确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;
步骤S130:基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;
步骤S140:根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。
所述步骤S140可包括:选择t个所述核心边缘对中所有的核心聚类成员进行聚类集成,或者,从每一个核心边缘对中选择部分核心聚类成员进行聚类集成。
在本实施例中,会对数据对象进行m次聚类,此处的m可为不小于2的正整数。所述数据对象可为来自数据集合中的多个数据对象,通常可为大量的数据对象。经过m次聚类会获得m个聚类结果,此处的一个聚类结果为一个用户后续聚类集成的聚类成员。在本实施例中,对数据对象进行聚类的算法可以有多重,例如,Kmeans算法,基于密度的聚类算法或基于距离的聚类算法。
在一些实施例中,所述步骤S110可包括以下至少之一:
利用一个聚类算法对数据对象进行m次聚类,从而获得同一个聚类算法得到的m个聚类结果,即m个聚类成员;
利用多个聚类算法对数据对象进行m次聚类,同样获得m个聚类结果,即m个聚类算法,在该方式中聚类算法的个数从2个到m个不等。若聚类算法为m个,则一个聚类算法进行一次聚类,得到一个聚类结果,如此,m个聚类成员对应的m个聚类结果是基于不同聚类算法实现的。
故在一些实施例中,所述步骤S110可包括:利用一个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员;和/或,利用多个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员。
在一些实施例中,在进行聚类时,可以预先设置聚类算法的聚类参数,例如,设置聚类之后分成的簇的个数K。如此,每一个聚类成员中的数据对象都会归属到K个类中的一个,如此,在每一个聚类成员中,每一个数据对象都会获得一个聚类的类标签。
在完成聚类之后,将每一次的聚类结果(即一个聚类成员)视为一个处理对象,进行聚类成员之间的相似度计算,计算相似度的方法有很多中,例如,通过计算聚类成员之间熵指标的方式,确定聚类成员之间的相似度。再基于相似度生成相似矩阵,具体可包括:将不同聚类成员之间的形似性的相似度作为相似矩阵的元素。m个聚类成员则,则通过相似度计算会产生m个相似度。在本实施例中,所述相似矩阵可为m*m的矩阵,其中,第i行第j列的元素的元素值为第i个聚类成员与第j个聚类成员的相似度,如此,第j行第i列的元素的元素值也可为第i个聚类成员与第j个聚类成员的相似度。故,所述相似矩阵可为对角矩阵。
在本实施例中,基于相似矩阵构建网络,该网络中包括节点;节点之间连线形成的边。在本实施例中,所述网络中一个节点对应于一个所述聚类成员。聚类成员之间的边权重于该边连接的两个节点所连接的聚类成员之间的相似度正相关。例如,在一些实施例中,若一个边所连接的连接节点之间的聚类成员之间的相似度越大,则所述表权重越大。在一些实施例中,不同节点之间边的长短还可以所述相似度相关,若两个节点对应的聚类成员之间的相似度越大,则这两个节点之间的边长越短。如此,网络中节点的分布密度或聚集程度就表征了聚类成员之间的相似度。
在本实施例中构建出所述网络之后,对网络进行划分,例如,利用km-config算法进行网络划分,会分成一个或多个核心边缘对。一个所述核心边缘对包括多个聚类成员,且在网络划分的过程中还会根据属于同一个核心边缘对中聚类成员之间的相似度,区分出核心聚类成员和边缘聚类成员。所述核心聚类成员与其位于同一个核心边缘对中的其他聚类成员的相似度都较高,例如,都满足大于第一阈值;边缘聚类成员与其位于同一个核心边缘对内的其他边缘聚类成员之间的相似度就较低;核心聚类成员之间的相似度很高。不同核心边缘对之间的聚类成员相似度,比位于同一个核心边缘对内的聚类成员之间的相似度低。
总之,在本实施例中可以基于网络的划分,得到一个或多个核心边缘对,且同步确认出核心边缘对内每一个聚类成员是属于核心聚类成员还是边缘聚类成员。
在本实施例中的步骤S140中仅会对核心聚类成员进行聚类集成,而不是对所有的聚类成员进行聚类集成。如此,一方面,本实施例提供的方法,显然减少了聚类集成参与的聚类成员的个数,从而减少聚类集成所需的数据量及计算量,提升了聚类集成的效率。另一方面,本实施例提供的方法,仅是对核心聚类成员进行聚类集成,而非所有的聚类成员,由于核心聚类成员的生成特性,决定了核心聚类成员的聚类结果比边缘聚类成员的聚类结果具有更高的聚类准确概率,故对核心聚类成员进行聚类集成,可以减少聚类准确率较低的边缘聚类成员参与聚类集成导致的聚类集成准确率低的现象,从而整体上提升聚类集成的准确率。
所述聚类集成可包括:根据多个聚类成员所对应的聚类结果,得到数据对象的最终聚类结果,所述聚类集成,可以通过聚类结果的统计叠加等方式,最终判断每一个数据对象所归属的类。
在一些实施例中,所述步骤S140可包括:
通过抽样方式从每一个所述核心边缘对中选择部分核心聚类成员;
对选择的所述核心聚类成员进行集成聚类。
在本实施例中并不会对每一个核心边缘对中的所有核心聚类成员进行聚类集成,而是会对每一个核心边缘对中的核心聚类成员进行抽样,抽样选择出的核心聚类成员的个数是小于该核心边缘对所包含的核心聚类成员的个数的,如此,可以进一步减少需要聚类集成的聚类结果的数目,从而再次减少计算量,提升计算效率。
在一些实施例中,如图2所示,所述步骤S140可包括:
步骤S141:确定每一个核心边缘对内各所述核心聚类成员之间的相似度;
步骤S142:基于每一个核心聚类成员与其他核心聚类成员之间的相似度,确定每一个所述核心聚类成员的抽样参考值;
步骤S143:基于所述抽样参考值,从每一个所述核心边缘对中均匀抽取N个核心聚类成员;其中,t个所述核心边缘对则共抽样t*N个核心聚类成员;
步骤S144:对所述t*N个核心聚类成员进行聚类集成。
在本实施例中,每一个核心边缘对都包括若干个聚类成员,在本实施例的步骤S141中首先确定出每一个核心边缘对中核心聚类成员之间的相似度,若此处的相似度计算方式与步骤S120中聚类成员之间的相似度计算方式相同,则可以通过查询的方式,确定出每一个核心边缘对所包含的聚类成员之间的相似度即可,从而减少相似度计算。若此处的相似度计算方式与步骤S120中聚类成员之间相似度计算方式不同,则可以基于当前的计算方式重新计算相似度。例如,在步骤S120中可以基于熵的指标来表示相似度,在本实施例中,可以将每一个聚类成员转换到一个向量空间内,通过向量之间的点积计算来表示相似度。总之相似度计算的方式有多种,不局限于上述任意一种。
在本实施例中,在进行核心聚类成员的聚类集成时,也并非对所有核心边缘对中的核心聚类成员进行集成聚类,而是会从每一个核心边缘对中选择部分核心聚类成员进行集成聚类。如此可以进一步减少参与集成聚类的聚类结果的个数,从而进一步减少计算量,提升集成聚类的效果。
在本实施例中,首先会确定出每一个核心边缘对中各核心聚类成员之间的相似度。例如,一个核心边缘对有S个核心聚类成员,则针对每一个核心聚类成员,都会与剩余的S-1个核心聚类成员之间有相似度,故每一个核心聚类成员都会与其他核心聚类成员之间具有S-1个相似度。例如,一个核心边缘对有10个核心聚类成员,则每一个核心聚类成员会与其他9个核心聚类成员之间有9个相似度。在步骤S142中会基于这S-1个相似度,计算得到该核心聚类成员的抽样参考值。例如,所述抽样参考值为:每一个核心聚类成员与其他核心聚类成员之间的相似度的和,或,每一个核心聚类成员与其他核心聚类成员之间的相似度的平均值,或,每一个核心聚类成员与其他核心聚类成员之间的相似度的中位值。
若所述抽样参考值为相似度的和,即对S-1个相似度进行求和运算,运算的结果为步骤S143的抽取N个核心聚类成员的参考依据。在步骤S143中基于相似度的和进行核心聚类成员的抽样。例如,对同一个核心边缘对中所有核心聚类成员的抽样参考值进行排序,从而基于抽样参考值的排序,从小到大均匀抽样N个核心聚类成员。若有10个抽样参考值,需要抽取5个核心聚类成员,则对抽样参考值进行排序之后,抽取排序在第1、3、5、7、9位的核心聚类成员参与步骤S144中的聚类集成。或者,抽取排序在2、4、6、8、10位的核心聚类成员参与步骤S144中的聚类集成。在还有一些实施例中,首先选取出相似度的和最大、以及,相似度的和最小的两个核心聚类成员,并在剩余核心聚类成员中基于相似度的和进行均匀抽样。
如此,若一个核心边缘对抽取N个核心聚类成员,则t个核心边缘对总共会抽取出t*N个核心聚类成员参与聚类集成。
对t*N个核心聚类成员进行聚类集成的方式也有多种,例如,对t*N个核心聚类成员进行一次性聚类集成。
在本实施例中为了加速集成聚类,所述步骤S144可包括:
对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果;
对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果。
在本实施例中,由于来自同一个核心边缘对中的核心聚类成员之间的相似性大,则进行聚类集成时,聚类结果中需要变换类标签的数据对象相对较少,可以快速的得到每一个核心边缘对所包含的核心聚类成员之间聚类集成得到的第一聚类集成结果。如此,若有t个核心边缘对,就会得到t个第一聚类集成结构,然后再将这t个第一聚类集成结果,进行聚类集成,会得到最终的聚类集成结果,在本实施例中,最终的聚类集成结果即为所述第二聚类集成结果,也是对数据对象的最终聚类结果。采用两部进行聚类集成,具有聚类集成速率快的特点。
在一些实施例中,所述对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果,包括:基于MK算法或简单统计投票算法,对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个所述第一聚类集成结果。
例如,所述MK算法又可以称之为加权二部图算法,是一种基于匈牙利算法改进的待权值的算法。二部图中的边是有权值,该权值的权值范围可0到1之间。利用所述MK算法对来自同一个核心边缘对的N个所述核心聚类成语进行聚类集成可包括:
(1)初始化可行顶标的值(设定lx,ly的初始值),此处的可行定标的值,可对应于核心聚类成员中数据对象的聚类值;
(2)用匈牙利算法寻找相等子图的完备匹配;
(3)若未找到增广路则修改可行顶标的值;
(4)重复(2)(3)直到找到相等子图的完备匹配为止。
基于简单统计投票法对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,可包括:
对来自同一个核心边缘对的N个核心记录成员中对同一个数据对象所在簇簇进行投票,基于投票结果的统计值确定每一个数据对象所在的簇。例如,如果对于一个数据对象A,在m个聚类成员对其所属簇投票,t个投票为1,其属于簇1的概率为t/m;r个投票为2,其属于簇2的概率为r/m;则根据投票的结果,选择概率值最大所对应的簇,为数据对象A所在的簇。
在本实施例中提供了几种可以生成第一聚类集成结果的算法,具体实现时不局限于上述任意一种算法。
在一些实施例中,所述对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果,包括:
利用最大投票法对t个所述第一聚类集成结果聚类集成,获得所述第二聚类集成结果。
上述提供了一种对第一聚类集成结果进一步聚类集成,获得第二聚类集成结果的算法,具体实现不局限于上述。
在本实施例中,所述步骤S120可包括:
确定表征所述聚类成员之间相似度的熵指标,并基于所述熵指标生成所述相似矩阵。
利用熵指标来表示聚类成员之间的相似度,例如,利用熵指标中的规范化互信息(Normalized Mutual Information,NMI)来表示聚类成员之间的相似度。
在另一些实施例中,还可以利用基于熵的差异性度量(Entropy Based DiversityMeasure,EBDM)、基于条件熵(Conditional entropy,CE)的差异性度量(CEBDM)等参数的相反数表示所述相似度。
在一些实施例中,所述步骤S110还可包括:
对所述相似矩阵中的元素进行最大最小标准化,获得标准化后的相似矩阵;
基于标准化后的相似矩阵构建所述网络。
为了方便后续计算和网络构建,在本实施例中会最大最小标准化相似矩阵。所述最大最小标准化相似矩阵可包括:计算相似矩阵中最大值和最小值的差值,然后计算每一个元素与所述差值的比值,这些比值构成了所述最大最小标准化后的相似矩阵。在本实施中所述网络是基于标准化后的相似矩阵构成的。
如图3所示,本实施例提供一种聚类集成装置,包括:
聚类模块110,用于对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;
相似矩阵生成模块120,用于确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;
核心边缘对确定模块130,用于基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;
聚类集成模块140,用于根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。
在一些实施例提供的所述聚类模块110、相似矩阵生成模块120、核心边缘对确定模块130及聚类集成模块140可为程序模块,所述程序模块被处理器执行之后,能够实现上述各个模块的功能。
在另一些实施例中,所述聚类模块110、相似矩阵生成模块120、核心边缘对确定模块130及聚类集成模块140可为软硬结合模块,所述软硬结合模块可包括各种类型的可编程阵列;所述可编程阵列包括但不限于现场可编程阵列或复杂可编程阵列。
在还有一些实施例中,述聚类模块110、相似矩阵生成模块120、核心边缘对确定模块130及聚类集成模块140可为纯硬件模块,例如,专用集成电路等。
在一些实施例中,所述聚类模块110,具体用于执行以下至少之一:利用一个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员;利用多个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员。
在一些实施例中,所述聚类集成模块140,具体用于通过抽样方式从每一个所述核心边缘对中选择部分核心聚类成员;对选择的所述核心聚类成员进行集成聚类。
在一些实施例中,所述聚类集成模块140,具体用于确定每一个核心边缘对内各所述核心聚类成员之间的相似度;基于每一个核心聚类成员与其他核心聚类成员之间的相似度,确定每一个所述核心聚类成员的抽样参考值;基于所述抽样参考值,从每一个所述核心边缘对中均匀抽取N个核心聚类成员;其中,t个所述核心边缘对则共抽样t*N个核心聚类成员;对所述t*N个核心聚类成员进行聚类集成。
在一些实施例中,所述聚类集成模块140,具体用于对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果;对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果。
在一些实施例中,所述聚类集成模块140,具体用于基于MK算法或简单统计投票算法,对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个所述第一聚类集成结果。
在一些实施例中,所述聚类集成模块140,还具体用于利用最大投票法对t个所述第一聚类集成结果聚类集成,获得所述第二聚类集成结果。
在一些实施例中,所述相似矩阵生成模块120,具体用于确定表征所述聚类成员之间相似度的熵指标,并基于所述熵指标生成所述相似矩阵。
在一些实施例中,所述核心边缘对确定模块130,具体用于对所述相似矩阵中的元素进行最大最小标准化,获得标准化后的相似矩阵;基于标准化后的相似矩阵构建所述网络。
以下结合上述任意实施例提供一个具体示例:
本示例的技术方案包括以下五个步骤:
聚类成员的生成;
生成聚类成员相似度矩阵;
选择进行聚类集成的聚类成员;
核心聚类成员批聚类集成;
加权最大投票法聚类集成。
所述聚类成员的生成可如下:
对数据集D,有n个数据对象d1,d2,…dn。采用一种或多种聚类算法多次运行(一般情况下采用Kmeans运行多次),生成m个聚类成员(Cj,1≤j≤m)。聚类算法将D划分成k个簇,对于第i个数据对象第j个聚类成员中对应的标签为Lij,(1≤i≤n,1≤j≤m,0≤Lij≤k-1)。
所述生成聚类成员相似度矩阵,可如下:
计算聚类成员对之间的相似度。不转换标签的情况下可以选择基于熵的指标,包括VI,NMI等,最常用的指标是NMI。NMI的计算公式如下所示,其中0≤NMI≤1,NMI越大表示聚类成员的相似度越高;得到一个m×m的相似度矩阵M。第i行第j列的值Sij=NMI(Ci,Cj),且M为对角矩阵,满足Sij=Sji
所述选择聚类成员可如下:
以聚类成员为顶点,聚类成员之间的相似度为边权重,可以构成一个网络。基于多种算法多次运行的生成的聚类成员不一定单一的核心-边缘结构,更有可能是多核心-边缘对的结构出现(实验证实确实如此,不同算法可能属于不同的核心-边缘对)。一个核心边缘对中,核心聚类成员相似度高,联系紧密;边缘聚类成员与核心聚类成员之间有一定的相似度,有一定程度的联系;边缘聚类成员之间相似度很低;几乎不存在联系。故可认为,边缘聚类成员可能是聚类算法产生的偏差较大的结果,属于聚类集成的干扰项。核心聚类成员则是聚类成员运行的比较健壮的结果,可以进入下一步的聚类集成。因此,将选择核心聚类成员分为以下步骤:
(1)最大最小标准化相似度矩阵M,得到标准化后的矩阵M’。
(2)将相似度矩阵M’转化为网络。聚类成员为顶点,标准化后的相似度为边权重。
(3)采用核心边缘分割算法Km_config对该网络进行核心边缘对的划分。利用数据实例,将其划分为两个核心边缘对,边缘聚类成员约占比1/4。图4A和图4B所示的核心聚类成员对数据对象的聚类效果图,图5A和图5B为边缘聚类成员对数据对象的聚类效果图。在图4A至图图5B中一个圆圈代表一个数据对象,在图4A至图5B中分别用同一种填充点表示为属于同一个簇的点。比对图4A和图4B,与图5A至图5B可知:图4A和图4B所示的核心聚类成员的聚类效果更好,图5A和图5B中对聚类的分簇的效果不如图4A或图4B所示的效果。
(4)将m个聚类成员,生成t个核心边缘对。第i个核心边缘对中第j个核心聚类成员为Tij,共∑i∑j个核心聚类成员。
(5)在t对核心边缘对中,计算每对核心边缘对的NMI值,选择NMI值和(在删除了边缘聚类成员之后的核心聚类成员中)在四等分的5个核心聚类成员,共计筛选出5*t对聚类成员。四等分有3个等分点,再加上2个端点,则会获得5个点,这5个点对应的核心聚类成员,即为选择出用于参与聚类集成的核心聚类成员。
两步聚类集成:核心聚类成员批聚类集成,可包括:
聚类成员筛选出5*t个核心聚类成员。由于不同核心对之间相似度较低,为减少计算复杂度,提高运算效率,将聚类集成分为两步。
第一步对属于同一个核心边缘对的核心聚类成员进行聚类集成,步骤如下:
(1)采用加权Hungarian algorithm(MK算法)对聚类成员进行标签转换。
(2)基于简单统计投票,生成聚类集成结果,最终得到t个聚类集成结果。
图5C是对数据实例生成两对聚类集成结果转化为划分结果的可视化展示。
所述两步聚类集成可采用最大投票法聚类集成,具体步骤可如下:
两步聚类集成的第二步,采用“最大投票法”集成t个上一步生成的聚类集成结果。
本示例提供的聚类成员的选择方法,采用核心边缘分割Km_config算法,从大规模的聚类成员中筛选出核心聚类成员。
本示例提供的基于前述聚类成员的选择方法,采用两步聚类集成方法,利用核心边缘分割算法Km_config,快速将聚类成员分割成为核心边缘对,筛选出核心聚类成员,再在每类核心聚类成员中选出4分位点的核心聚类成员。对核心聚类成员的筛选,减少了应用于聚类集成的聚类成员,可以显著提高聚类集成的效率。采用此方法选择聚类成员,不仅保留了聚类成员的差异性,还减少了聚类成员中边缘聚类成员作为干扰因素对聚类集成效果的影响。对核心聚类成员采用两步聚类集成算法,提高了聚类集成的效率。
聚类成员的相似度,可计算两个分布的相似度,除了NMI指标外,还有多项指标,在此不再赘述。
复杂网络理论-核心边缘结构和核心边缘分割算法Km_config,许多复杂的系统都能被表示为网络,被称为复杂网络。核心-边缘结构指,一个复杂网络可以看做由核心和边缘两部分构成。核心指相互之间紧密连接的点群;边缘则指和核心点紧密连接或相邻,但相互之间连接稀疏的点群。核心-边缘结构是一种常见的结构,已在多种网络中被发现。
如图6所示,本实施例还提供一种电子设备,可运行前述任意技术方案提供的聚类集成方法,包括:
存储器,用于存储信息;
处理器,分别与所述存储器连接,用于通过执行位于所述处理器上的计算机可执行指令,能够实现前述一个或多个技术方案提供的聚类集成方法;例如,如图1至图2所示的方法。
所述通信接口可为各种类型的网络接口,可以用于信息的收发。
该存储器可为各种类型的存储器,可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储,例如,存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令,例如,目标程序指令和/或源程序指令等。
所述处理器可为各种类型的处理器,例如,中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。
所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。
在一些实施例中,所述图像设备还可包括:通信接口,该通信接口可包括:网络接口、例如,局域网接口、收发天线等。所述通信接口同样与所述处理器连接,能够用于信息收发。
在一些实施例中,所述电子设备还可包括:人机交互接口,该人机交互接口可包括:键盘和/或鼠标等方便用户与电子设备交互信息。
该电子设备可为:用户设备或市场服务器等。
本发明实施例还提供一种计算机存储介质,该计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现前述一个或多个技术方案提供的聚类集成方法,例如,如图1至图2所示的聚类集成方法。
所述计算机存储介质可为非瞬间存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种聚类集成方法,其特征在于,包括:
对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;
确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;
基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;所述核心聚类成员和所述边缘聚类成员根据属于同一个核心边缘对中聚类成员之间的相似度进行区分,所述核心聚类成员与其位于同一个核心边缘对中的其他聚类成员的相似度大于第一阈值,所述边缘聚类成员与其位于同一个核心边缘对中的其他边缘聚类成员之间的相似度小于第一阈值;
根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。
2.根据权利要求1所述的方法,其特征在于,
所述对数据对象进行m次聚类,获得m个聚类成员,包括以下至少之一:
利用一个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员;
利用多个聚类算法对所述数据对象进行m次聚类,获得m个所述聚类成员。
3.根据权利要求1所述的方法,其特征在于,
所述根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成,包括:
通过抽样方式从每一个所述核心边缘对中选择部分核心聚类成员;
对选择的所述核心聚类成员进行集成聚类。
4.根据权利要求3所述的方法,其特征在于,
所述通过抽样方式从每一个所述核心边缘对中选择部分核心聚类成员,包括:
确定每一个核心边缘对内各所述核心聚类成员之间的相似度;
基于每一个核心聚类成员与其他核心聚类成员之间的相似度,确定每一个所述核心聚类成员的抽样参考值;
基于所述抽样参考值,从每一个所述核心边缘对中均匀抽取N个核心聚类成员;其中,t个所述核心边缘对则共抽样t*N个核心聚类成员;
对所述t*N个核心聚类成员进行聚类集成。
5.根据权利要求4所述的方法,其特征在于,
所述对所述t*N个核心聚类成员进行聚类集成,包括:
对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果;
对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果。
6.根据权利要求5所述的方法,其特征在于,
所述对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个第一聚类集成结果,包括:
基于MK算法或简单统计投票算法,对来自同一个所述核心边缘对的N个所述核心聚类成员聚类集成,获得t个所述第一聚类集成结果。
7.根据权利要求5所述的方法,其特征在于,
所述对t个所述第一聚类集成结果聚类集成,获得第二聚类集成结果,包括:
利用最大投票法对t个所述第一聚类集成结果聚类集成,获得所述第二聚类集成结果。
8.根据权利要求1所述的方法,其特征在于,
所述确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵,包括:
确定表征所述聚类成员之间相似度的熵指标,并基于所述熵指标生成所述相似矩阵。
9.根据权利要求1所述的方法,其特征在于,
所述基于所述相似矩阵构建网络,包括:
对所述相似矩阵中的元素进行最大最小标准化,获得标准化后的相似矩阵;
基于标准化后的相似矩阵构建所述网络。
10.一种聚类集成装置,其特征在于,包括:
聚类模块,用于对数据对象进行m次聚类,获得m个聚类成员,其中,一个所述聚类成员为一次所述聚类的结果,m为不小于2的正整数;
相似矩阵生成模块,用于确定所述聚类成员之间的相似度,并基于所述相似度生成相似矩阵;
核心边缘对确定模块,用于基于所述相似矩阵构建网络,并对所述网络进行划分获得t个核心边缘对;其中,所述网络的节点表示所述聚类成员;节点之间的边权重表示聚类成员之间的相似度;一个所述核心边缘对包含的聚类成员分为:核心聚类成员和边缘聚类成员,t为正整数;所述核心聚类成员和所述边缘聚类成员根据属于同一个核心边缘对中聚类成员之间的相似度进行区分,所述核心聚类成员与其位于同一个核心边缘对中的其他聚类成员的相似度大于第一阈值,所述边缘聚类成员与其位于同一个核心边缘对中的其他边缘聚类成员之间的相似度小于第一阈值;
聚类集成模块,用于根据t个所述核心边缘对筛选出核心聚类成员进行聚类集成。
11.一种电子设备,其特征在于,包括:
存储器,用于信息存储;
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,实现权利要求1至9任一项提供的方法。
12.一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现权利要求1至9任一项提供的方法。
CN201910000467.9A 2019-01-02 2019-01-02 聚类集成方法及装置、电子设备及存储介质 Active CN111401392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910000467.9A CN111401392B (zh) 2019-01-02 2019-01-02 聚类集成方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910000467.9A CN111401392B (zh) 2019-01-02 2019-01-02 聚类集成方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111401392A CN111401392A (zh) 2020-07-10
CN111401392B true CN111401392B (zh) 2023-05-09

Family

ID=71432016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910000467.9A Active CN111401392B (zh) 2019-01-02 2019-01-02 聚类集成方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111401392B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601925B (zh) * 2022-11-17 2023-03-07 中南民族大学 跌倒检测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173929A1 (zh) * 2016-04-05 2017-10-12 阿里巴巴集团控股有限公司 无监督的特征选择方法、装置
CN107480694A (zh) * 2017-07-06 2017-12-15 重庆邮电大学 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153713B (zh) * 2017-05-27 2018-02-23 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173929A1 (zh) * 2016-04-05 2017-10-12 阿里巴巴集团控股有限公司 无监督的特征选择方法、装置
CN107480694A (zh) * 2017-07-06 2017-12-15 重庆邮电大学 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本聚类集成问题中的谱算法;徐森等;《控制与决策》(第08期);全文 *

Also Published As

Publication number Publication date
CN111401392A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
Du et al. Exploring representativeness and informativeness for active learning
Forero et al. Robust clustering using outlier-sparsity regularization
CN108205570B (zh) 一种数据检测方法和装置
CN113095370B (zh) 图像识别方法、装置、电子设备及存储介质
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
Mikhailiuk et al. Active sampling for pairwise comparisons via approximate message passing and information gain maximization
CN113379176B (zh) 电信网络异常数据检测方法、装置、设备和可读存储介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110636445A (zh) 基于wifi的室内定位方法、装置、设备及介质
US20230252070A1 (en) Method and apparatus for training retrieval model, retrieval method and apparatus, device and medium
CN115439192A (zh) 医疗商品信息的推送方法及装置、存储介质、计算机设备
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN111401392B (zh) 聚类集成方法及装置、电子设备及存储介质
CN111210022A (zh) 向后模型选择方法、设备及可读存储介质
Alvarez-Esteban et al. Wide consensus for parallelized inference
CN111949530B (zh) 测试结果的预测方法、装置、计算机设备及存储介质
CN111709473A (zh) 对象特征的聚类方法及装置
CN111506624A (zh) 一种电力缺失数据辨识方法和相关装置
Gorokhovatskiy et al. Intellectual Data Processing and Self-Organization of Structural Features at Recognition of Visual Objects
CN115878989A (zh) 模型训练方法、装置及存储介质
CN110222779B (zh) 分布式数据处理方法及系统
Sukhanov et al. Dynamic selection of classifiers for fusing imbalanced heterogeneous data
CN116662415B (zh) 基于数据挖掘的智能匹配方法及系统
CN115100453B (zh) 一种图像聚类方法、装置、终端及计算机可读存储介质
CN111428741A (zh) 网络社区的发现方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant