CN114386501A - 增量聚类方法及系统、分布式增量聚类方法及系统 - Google Patents
增量聚类方法及系统、分布式增量聚类方法及系统 Download PDFInfo
- Publication number
- CN114386501A CN114386501A CN202210013145.XA CN202210013145A CN114386501A CN 114386501 A CN114386501 A CN 114386501A CN 202210013145 A CN202210013145 A CN 202210013145A CN 114386501 A CN114386501 A CN 114386501A
- Authority
- CN
- China
- Prior art keywords
- clustered
- features
- feature
- clustering
- neighborhood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种增量聚类方法及系统、还公开一种分布式增量聚类方法及系统,涉及数据处理领域,其中增量聚类方法包括以下步骤:获取待聚类数据和已聚类数据;基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇,各第一聚类簇均包含至少一个目标特征;检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;增量聚类过程中存在某个聚类簇被异常特征污染,使该聚类簇包含大量不属于该聚类簇的特征,本发明通过检测各第一聚类簇中的异常特征,基于所得异常检测结果对相应的第一聚类簇进行更新,以确保所得聚类结果的准确性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种增量聚类技术。
背景技术
现今常用聚类方式为全量聚类,即,每次聚类都将所有参与聚类的特征作为待聚类特征,重新计算待聚类特征之间的相似度,基于所得相似度将待聚类特征划分为若干个聚类簇;此方案精度高,但不能利用前一次聚类的结果,当参与聚类的特征数量较多时,计算量大,聚类速度慢;
针对全量聚类的聚类效率低的缺陷,现今提出增量聚类的方式,即,当有新的特征加入时,基于新加入的特征对前一次聚类所得的聚类簇进行更新,以提高聚类效率,但增量聚类的精度较低。
发明内容
本发明针对现有增量聚类技术的聚类精度低的缺点,提供了一种对异常特征进行检测,并根据所得异常检测结果优化聚类结果,以提高聚类结果准确率的增量聚类技术。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种增量聚类方法,包括以下步骤:
获取待聚类数据和已聚类数据;
基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇;
检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果,其中更新包括对剔除第一聚类簇中的异常特征,以及对第一聚类簇进行拆分。
本发明中的异常特征为与多类特征相近似的特征,由于异常特征与不同种类的特征相近似,在聚类过程中,将会源源不断地将与该异常特征相近似的特征汇总于同一聚类簇,从而导致聚类错误雪崩式堆积,严重影响聚类的准确度;
现有技术解决上述问题的方案为:
限制聚类簇中特征的总量,在聚类簇的特征数量过多时,避免与异常特征相近似的正常特征再加入异常特征所在聚类簇,以避免聚类错误继续堆积;
提高相似度阈值,当两个特征的相似度超过预设的相似度阈值时,判定两个特征相似,提高相似度阈值,能够减少判定与异常特征相近似的正常特征,但会出现同类特征划分至不同聚类簇的情况,亦会影响聚类的准确度,例如将同一个人的人脸特征错误聚类为若干个聚类簇,在后续基于所得聚类结果进行人脸识别时,只能基于人脸图像召回部分聚类簇,影响最终的人脸识别结果;
本发明通过识别各第一聚类簇中的异常特征,基于所得异常特征对相应的第一聚类簇进行更新,以确保所得聚类结果的准确性。
作为一种可实施方式,检测各第一聚类簇中的异常特征的步骤为:
各第一聚类簇均包含至少一个目标特征,即,将参与本次聚类的特征均作为目标特征,检测所述第一聚类簇中作为核心特征的目标特征,获得第一特征;
提取各第一特征的邻域特征,统计所述第一特征所对应的邻域特征数以及邻域核心特征数,所述邻域特征指与所述第一特征相似的目标特征,所述邻域核心特征数指属于核心特征的邻域特征的数量;
即,遍历所述第一特征的邻域特征,将属于核心特征的邻域特征作为所述第一特征的邻域核心特征,统计所述第一特征所对应的邻域特征的数量,获得相应的邻域特征数,并统计所述第一特征所对应的邻域核心特征的数量,获得相应的邻域核心特征数;
基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征,获得相应的异常检测结果。
作为一种可实施方式,所述基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征的具体步骤为:
基于所述邻域特征数和所述邻域核心特征数,按照预设的判断规则对相应的第一特征进行异常判断,当判定所述第一特征异常时,将第一特征作为第二特征;
本领域技术人员可根据实际需要自行设定判断规则,本发明不对其进行具体限定,例如本发明中当N>aNc时判定对应的第一特征异常,N表示所述第一特征的邻域特征数,Nc表示所述第一特征的邻域核心特征数,a为权重系数,且a>1。
计算各第二特征所对应的离散值,获得待判定离散值,其中离散值用于指示各邻域特征之间的离散程度;
本发明中根据第二特征的所有邻域特征计算方差,将所得方差作为所述第二特征的离散值。
当所述待判定离散值大于相应的离散阈值时,判定所述第二特征为异常特征,其中离散值用于指示各邻域特征之间的离散程度。
本领域技术人员可根据实际需要自行设定离散阈值。
本发明结合第一特征所对应的邻域核心特征分布情况以及第一特征所对应的邻域特征的离散程度,共同判断第一特征是否为异常特征,能够有效避免将正常特征误判为异常特征。
进一步地,所述离散阈值的获取方法为:
当判定所述第一特征正常时,将第一特征作为第三特征;
汇总对应第一聚类簇中所有第三特征的邻域特征,基于所得汇总结果计算第一聚类簇所对应的离散值,获得基础离散值;
基于所述基础离散值确定所述离散阈值。
本领域技术人员可根据实际需要自行设定离散阈值的配置规则,本发明不对其进行详细限定,本发明中,Og=bO,其中Og表示离散阈值,O表示相应的基础离散值,b为权重系数且b≥1。
由于各类特征的数量不平衡,故当离散阈值设为固定值时,离散阈值无法准确指示各第一聚类簇所对应的正常离散程度,故本发明通过所有第三特征的邻域特征的离散程度表征对应第一聚类簇的基础离散值,从而根据所得基础离散值确定离散阈值,进一步提高异常特征的识别准确性。
作为一种可实施方式:
待聚类数据包括若干待聚类特征;
已聚类数据包括若干个聚类簇,将所述聚类簇记为第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征;
将待聚类特征和已聚类特征均作为目标特征,基于目标特征间的相似度确定各目标特征的邻域特征;
基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类,获得相应的第一聚类簇。
进一步地:
分别计算待聚类特征与各目标特征之间的相似度;
当所述相似度大于预设的相似度阈值时,判定待聚类特征与相应目标特征相似,将与所述待聚类特征相似的目标特征作为所述待聚类特征的邻域特征,并将所述待聚类特征作为与其相似的目标特征的邻域特征。
进一步地,基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类前,还包括执行判断步骤,具体为:
判断各待聚类特征是否是核心特征,当存在作为核心特征的待聚类特征时,则基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类。
当不存在作为核心特征的待聚类特征,不进行增量聚类,所述待聚类特征可作为下一次聚类的待聚类特征参与聚类。
当判定不进行增量聚类时,本领域技术人员可根据实际需要,保留本次聚类对待聚类数据和已聚类数据的更新,即,本次对已聚类的邻域特征的更新,并保留各待聚类特征的邻域特征,将所述待聚类特征作为下一次增量聚类的第一待聚类特征,在进行下一次聚类时,无需重复计算本次待聚类特征与本次目标特征之间的相似度,仅需对新增特征的相似度进行计算。
进一步地:
待聚类特征为第一待聚类特征或第二待聚类特征,所述第一待聚类特征为参与上一次增量聚类的待聚类特征,其具有邻域特征集,第二待聚类为新增特征,其无邻域特征集;
计算所述第二待聚类特征与各目标特征之间的相似度,获得各目标特征所对应的邻域特征;
基于所得相似度对第二待聚类特征与各第一待聚类特征进行相似判断,对第二待聚类特征与其他第二待聚类特征进行相似判断,并第二待聚类特征与已聚类特征进行相似判断;由于相似的两个特征互为邻域特征,故基于仅需计算第二待聚类特征与各目标特征之间的相似度即可获得各目标特征所对应的邻域特征。
进一步地:
将待判断是否为核心特征的待聚类特征或已聚类特征作为待检测特征;
统计所述待检测特征的邻域特征数,当所述邻域特征数超过预设的数量阈值时,判定所述待检测特征为核心特征。
本领域技术人员可自行设定所述数量阈值,本发明不对其做具体限定。
本发明还提出一种增量聚类系统,包括:
数据获取模块,用于获取待聚类数据和已聚类数据;
增量聚类模块,用于基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇,各第一聚类簇均包含至少一个目标特征;
异常处理模块,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;
所述异常处理模块包括:
核心检测单元,用于检测所述第一聚类簇中作为核心特征的目标特征,获得第一特征;
数据统计单元,用于提取各第一特征的邻域特征,统计所述第一特征所对应的邻域特征数以及邻域核心特征数,所述邻域特征指与所述第一特征相似的目标特征,所述邻域核心特征数指属于核心特征的邻域特征的数量;
异常检测单元,用于基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征,获得相应的异常检测结果。
本发明还提出一种分布式增量聚类方法,包括以下步骤:
获取待聚类数据和已聚类数据,待聚类数据包括若干待聚类特征,已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征,将待聚类特征和已聚类特征作为目标特征;
对待聚类特征进行分组,获得若干特征组,分布式计算各特征组中待聚类特征的邻域特征,获得各特征组所对应的计算结果,其中待聚类特征的邻域特征为与所述待聚类特征相似的目标特征;
基于各计算结果、各待聚类特征和各已聚类特征的聚类簇及邻域特征进行增量聚类,获得若干个第一聚类簇;
检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
现今聚类只能在单台机器上进行,无法跨多台设备聚类,本发明将计算任务分发至各个参与计算的节点,从而实现跨终端聚类,能够极大的提升聚类性能。
本发明还提出一种分布式增量聚类系统,包括数据库、控制节点和若干个计算节点:
所述数据库,用于存储待聚类数据和已聚类数据,待聚类数据包括若干待聚类特征,已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征;
所述控制节点包括处理模块、计算模块、聚类模块和更新模块;
所述处理模块,用于从所述数据库中获取所述待聚类数据和所述已聚类数据,并将所得待聚类特征和已聚类特征作为目标特征;还用于对待聚类特征进行分组,获得若干特征组,向所述计算模块和各计算节点分发所得特征组;
所述计算模块,用于接收所述处理模块下发的特征组,并计算所述特征组中各待聚类特征的邻域特征,获得相应的计算结果,并将所述计算结果发送至所述聚类模块,其中待聚类特征的邻域特征为与所述待聚类特征相似的目标特征;
所述聚类模块,用于基于各计算结果、各待聚类特征和各已聚类特征的聚类簇及邻域特征进行增量聚类,获得若干个第一聚类簇;
所述更新模块,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;
所述计算节点,用于接收所述处理模块下发的特征组,并计算所述特征组中各待聚类特征的邻域特征,获得相应的计算结果,并将所述计算结果发送至所述聚类模块。
本发明由于采用了以上技术方案,具有显著的技术效果:
本发明采用增量式聚类算法,通过利用历史聚类结果极大地减小计算量,当待聚类特征新增后,即可以实现实时在线聚类,且本发明通过识别各第一聚类簇中的异常特征,基于所得异常特征对相应的第一聚类簇进行更新,在保证聚类效率的同时能够有效提高聚类结果的准确性。
本发明将分布式计算各特征组中待聚类特征的邻域特征,从而实现跨终端聚类,能够极大的提升聚类性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种增量聚类方法的工作流程示意图;
图2是本发明一种增量聚类系统的模块连接示意图;
图3是图2中异常处理模块30的模块连接示意图;
图4是图2中增量聚类模块20的模块连接示意图;
图5是图2中增量聚类模块20的另一种模块连接示意图;
图6是本发明一种分布式增量聚类系统的模块连接示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1、一种增量聚类方法,用于对人脸特征进行增量聚类,如图1所示,包括以下步骤:
S100、获取待聚类数据和已聚类数据;
S110、待聚类数据:
待聚类数据包括若干个待聚类特征;
本实施例中在监测到数据库中添加了新的人脸特征后,触发增量聚类,以实现在线实时的聚类,在后续人脸识别过程中,能够有效利用新添加的人脸特征,增量聚类过程中,将新添加的人脸特征作为未聚类特征;
从未聚类特征中提取待聚类特征;
人脸被遮挡,光线不清晰等人脸图像所对应的人脸特征不参加聚类,本实施例中将此类不参加聚类的特征从未聚类特征中剔除,获得相应的待聚类特征,此为现有技术,故不再本实施例中进行详细介绍。
S120、已聚类数据:
已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,且每个已聚类特征还具有相应的邻域特征集,所述邻域特征集用于放置所述已聚类特征的邻域特征,所述已聚类特征的邻域特征与所述已聚类特征相似的人脸特征,本步骤中所述的邻域特征属于已聚类特征;
S200、基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇;
各第一聚类簇均包含至少一个目标特征;
目标特征为步骤S100中所获取的待聚类特征或已聚类特征,即目标特征为将参与聚类的特征。
具体步骤如下:
S210、基于目标特征间的相似度确定各目标特征的邻域特征;
相似度大于预设的相似度阈值的两个目标特征互为邻域特征;
由于步骤S100中所获取的已聚类数据包括各已聚类特征的邻域特征,故仅需计算待聚类特征与各目标特征之间的相似度,即可确定与所述待聚类特征相似的其他待聚类特征,以及与所述待聚类特征相似的已聚类特征。
获取各目标特征的邻域特征的方法包括:
S211、相似度计算:
分别计算待聚类特征与各目标特征之间的相似度;
本领域技术人员可基于现有已公开的相似度计算公式待聚类特征与各目标特征之间的相似度,如将待聚类特征与对应的目标特征的余弦相似度或欧式距离作为所述待聚类特征与所述目标特征之间的相似度。
S212、邻域特征判断:
当所述相似度大于预设的相似度阈值时,判定待聚类特征与相应目标特征相似,将与所述待聚类特征相似的目标特征作为所述待聚类特征的邻域特征,并将所述待聚类特征作为与其相似的目标特征的邻域特征。
预先为各待聚类特征构建相对应的邻域特征集;
待聚类特征与某目标特征的相似度大于预设相似度阈值时,将对应的目标特征添加至所述待聚类特征的邻域特征集中,并将所述待聚类特征添加至对应的目标特征的邻域特征集中;
将所有待聚类特征均完成上述相似度计算与邻域特征判断步骤后,基于各目标特征所对应的邻域特征集,即可确定各目标特征所对应的邻域特征。
S213、确定核心特征;
本实施例中在获取各目标特征的邻域特征后,还基于邻域特征确定核心特征,具体确定方式为:
分别将各目标特征作为待检测特征;
统计所述待检测特征的邻域特征数,当所述邻域特征数超过预设的数量阈值时,判定所述待检测特征为核心特征,获得第一核心特征集和第二核心特征集,所述第一核心特征集包括若干个作为核心特征的待聚类特征,所述第二核心特征集包括若干个作为核心特征的已聚类特征。
S220、基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类,获得相应的第一聚类簇,具体步骤如下:
S221、基于第二聚类簇和各目标特征的邻域特征集建立并查集,获得第一并查集;
本实施例中对于每个已聚类特征,从与其相对应的第二聚类簇及邻域特征集中随机选择一个特征作为根节点,将该第二聚类簇及邻域特征集中所有人脸特征关联到根节点下,建立并查集,获得第二并查集;
提取第一核心特征集中的待聚类特征,基于所得待聚类特征及所得待聚类特征的邻域特征更新所述第二并查集,获得第一并查集。
S222、遍历所述第一并查集,将根节点相同的目标特征聚类至同一簇,获得若干个第一聚类簇,每个第一聚类簇中包含至少一个目标特征。
S300、检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;
由于对各第一聚类簇进行异常检测的方法相同,故本实施例以对一个第一聚类簇进行异常检测的步骤进行详细介绍,具体为:
S310、检测所述第一聚类簇中作为核心特征的目标特征,获得第一特征;
基于第一核心特征集和第二核心特征集,提取所述第一聚类簇中的核心特征,将所得核心特征作为第一特征。
S320、提取各第一特征的邻域特征,统计所述第一特征所对应的邻域特征数以及邻域核心特征数;
获取第一特征所对应的邻域特征集,统计邻域特征集中特征的总数,获得相应的邻域特征数,并统计所述邻域特征集中核心特征的数量,获得相应的邻域核心特征数。
S330、基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征,获得相应的异常检测结果,具体步骤如下:
S331、对各第一特征进行异常判断;
本领域技术人员可根据实际需要自行设定判断规则,本实施例中,判断规则为:
当N>2Nc时判定对应的第一特征异常,N表示所述第一特征的邻域特征数,Nc表示所述第一特征的邻域核心特征数,此时将第一特征作为第二特征;
当N≤2Nc时判定对应的第一特征正常,此时将第一特征作为第三特征;
S332、离散值计算;
计算各第二特征所对应的离散值,获得待判定离散值,其中离散值用于指示各邻域特征之间的离散程度;
即,获取第二特征的邻域特征集,基于所述邻域特征集中所有邻域特征计算方差,将所得方差作为第二特征的离散值。
S333、异常验证;
当待判定离散值大于相应的离散阈值时,判定对应的第二特征为异常特征;
本实施例中离散阈值的计算公式为Og=1.3O,其中Og表示离散阈值,O表示相应的基础离散值;
本实施例中汇总对应第一聚类簇中所有第三特征的邻域特征,基于所得的所有邻域特征计算方差,将所得方差作为基础离散值O。
S334、优化聚类结果;
将所得异常特征所对应的节点从所述第一并查集中剔除,遍历剔除所有异常节点的第一并查集,获得相应的聚类结果,聚类结果包括若干个第三聚类簇,;
聚类结果可用于人脸识别过程中对相似人脸的召回,例如,获取待识别人脸,通过向量搜索得到所述待识别人脸所对应的相似人脸,获得第一人脸,提取各第一人脸所对应的第三聚类簇,基于所得各第三聚类簇,获取各第三聚类簇所对应的所有人脸,获得第二人脸;对所得第二人脸进行去重,将所得第二人脸作为待识别人脸的相似人脸输出;即,仅需识别到所得聚类簇下任意一张人脸照片,就能够召回整个聚类簇,故,本实施例中对聚类结果准确率的提高,亦能提高人脸识别过程中的召回率。
本实施例中基于所得聚类结果更新已聚类数据,保存各第三聚类簇和各聚类簇中各人脸特征的邻域特征集,将所述第三聚类簇作为下一次增量聚类的第二聚类簇,将所述人脸特征作为下一次增量聚类的已聚类特征。
在对人脸特征进行聚类时,存在较为模糊的人脸图像所对应的人脸特征,即,异常特征;此类异常特征将会与不同人的人脸特征相近似,从而在聚类过程中,使同一聚类簇包含多个人的人脸特征,导致聚类结果不准确;
且随着人脸特征的新增,将导致如雪崩式的,越来越多的不属于该聚类簇的人脸特征被聚类到该聚类簇下,严重影响聚类精度和后续基于聚类结果进行人脸召回时的准确率;
本实施例通过通过对比第一聚类簇下第二特征(判定异常)与第三特征(判定正常)的邻域特征离散程度,能够有效识别并剔除异常特征,避免错误聚类,在保证聚类效率的前提下提高聚类精度。
实施例2、在实施例1的基础上,增加执行判断步骤,其余均等同与实施例1,即,在步骤S220基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类之前,增加执行判断步骤,执行判断步骤具体为:
当步骤S213中所得第一核心特征集为空时,判定结束聚类,否则判定执行步骤S220,即,当存在作为核心特征的待聚类特征时,基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类。
本领域技术人员可根据实际需要自行配置,当判定结束聚类时数据处理方式;
方式1、不进行任何处理,即,不对储存待聚类数据和已聚类数据的数据库进行更新。
方式2、保留本次聚类所得的,各目标特征的邻域特征;即,于数据库中增加待聚类特征的邻域特征集,并更新数据库中各已聚类特征的邻域特征集。
当采用上述方式2时,所得待聚类数据包括若干待聚类特征,部分待聚类特征具有与其相对应的邻域特征,待聚类特征与已聚类特征的邻域特征,可以属于已聚类特征,也可以属于待聚类特征;
由于本方式保留上一次聚类中的相似度计算结果,故当前聚类中,仅需对新增的待聚类特征进行相似度的计算,本实施例中,待聚类特征为第一待聚类特征或第二待聚类特征,第一待聚类特征为参加上一次增量聚类的待聚类特征,其具有相应的邻域特征集,第二待聚类特征为新增特征;
步骤S211相似度计算中,仅需计算第二待聚类特征与各目标特征之间的相似度,即,仅对新增特征进行相似度计算,基于所得相似度即可对第二待聚类特征与各第一待聚类特征进行相似判断,对第二待聚类特征与其他第二待聚类特征进行相似判断,并第二待聚类特征与已聚类特征进行相似判断。
实施例3、一种分布式增量聚类方法,将实施例1或实施例2中步骤S211相似度计算的方式更改为分布式计算,其余均等同于实施例1或实施例2,分布式计算相似度的方法具体包括以下步骤:
对待聚类特征进行分组,获得若干特征组,分布式计算各特征组中待聚类特征的邻域特征,获得各特征组所对应的计算结果;
当待聚类特征分为第一待聚类特征(具有相应的邻域特征集)和第二待聚类特征(无相应的邻域特征集)时,对第二待聚类特征进行分组,否则直接对待聚类特征进行分组;
特征组的数量由参与计算的节点的数量决定,为各参与计算的节点下发一个特征组,各节点单独对所接收的特征组中的待聚类特征进行相似度计算,获得相应的计算结果;
本领域技术人员可根据实际需要自行设定计算结果,例如可设定计算结果为各待聚类特征及其邻域特征集,还可包括属于核心特征的待聚类特征及其邻域特征集,既,获得相应的待聚类特征的邻域特征后,基于所得邻域特征的判断该待聚类特征是否为核心特征,将待聚类特征的邻域特征集以及核心特征判断结果共同作为基数按结果,本实施例中计算结果包括核心特征的待聚类特征,汇总各节点所上报的计算结果并合并,以获得相应的第一核心特征集;
由于相似的两个特征互为邻域特征,故在获得待聚类特征的邻域特征集后,即可基于邻域特征集将所述待聚类特征添加至其邻域特征的邻域特征集中。
参照实施例1或实施例2中的步骤S220,基于各计算结果、各待聚类特征和各已聚类特征的聚类簇及邻域特征进行增量聚类,获得若干个第一聚类簇;
参照实施例1或实施例2中的步骤S300,检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
实施例4、一种增量聚类系统,如图2所示,包括:
数据获取模块10,用于获取待聚类数据和已聚类数据;
增量聚类模块20,用于基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇,各第一聚类簇均包含至少一个目标特征;
异常处理模块30,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;
参照图3,进一步地,所述异常处理模块30包括:
核心检测单元31,用于检测所述第一聚类簇中作为核心特征的目标特征,获得第一特征;
数据统计单元32,用于提取各第一特征的邻域特征,统计所述第一特征所对应的邻域特征数以及邻域核心特征数,所述邻域特征指与所述第一特征相似的目标特征,所述邻域核心特征数指属于核心特征的邻域特征的数量;
异常检测单元33,用于基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征,获得相应的异常检测结果。
进一步地,所述异常检测单元33包括判断单元和验证单元;
所述判断单元,用于基于所述邻域特征数和所述邻域核心特征数,按照预设的判断规则对相应的第一特征进行异常判断,当判定所述第一特征异常时,将第一特征作为第二特征;
所述验证单元,用于计算各第二特征所对应的离散值,获得待判定离散值,其中离散值用于指示各邻域特征之间的离散程度;还基于所述待判定离散值判定所述第二特征是否为异常特征。
参照图4,进一步地,所述增量聚类模块20包括:
邻域确定单元21,用于基于目标特征间的相似度确定各目标特征的邻域特征;
增量聚类单元22,用于基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类,获得相应的第一聚类簇。
进一步地,所述邻域确定单元21包括:
相似度计算单元,用于计算计算待聚类特征与各目标特征之间的相似度;
邻域判断单元,当所述相似度大于预设的相似度阈值时,判定待聚类特征与相应目标特征相似,将与所述待聚类特征相似的目标特征作为所述待聚类特征的邻域特征,并将所述待聚类特征作为与其相似的目标特征的邻域特征。
本实施例为实施例1所对应的装置实施例,由于其与实施例1基本相似,所以描述的比较简单,相关之处参见实施例1的部分说明即可。
实施例5、参照图5,于实施例4的增量聚类模块20中增加执行判断单元23,其余均等同于实施例4;
所述执行判断单元23,用于判断各待聚类特征是否是核心特征,当存在作为核心特征的待聚类特征时,令增量聚类单元22基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类。
本实施例为实施例2所对应的装置实施例,由于其与实施例2基本相似,所以描述的比较简单,相关之处参见实施例2的部分说明即可。
实施例6、一种分布式增量聚类系统,包括数据库和若干个节点;
所述数据库,用于存储待聚类数据和已聚类数据,待聚类数据包括若干待聚类特征,已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征;
参照图6,所述节点分为一控制节点和多个计算节点200;
本实施例中分布式增量聚类系统具有5个节点投入计算,初始化时由5个节点选举出控制节点,并将剩余节点作为计算节点200,从而获得一个控制节点和四个计算节点200;
由控制节点执行实施例1或实施例2所公开的增量聚类方法,并在进行相似度计算时,令各计算节点200也参与计算。
如图6所示,所述控制节点包括处理模块110、计算模块120、聚类模块130和更新模块140;
所述处理模块110,用于从所述数据库中获取所述待聚类数据和所述已聚类数据,并将所得待聚类特征和已聚类特征作为目标特征;还用于对待聚类特征进行分组,获得若干特征组,向所述计算模块120和各计算节点200分发所得特征组,本实施例中将待聚类特征分为5份,分配给5个节点;
所述计算模块120,用于接收所述处理模块110下发的特征组,并计算所述特征组中各待聚类特征的邻域特征,获得相应的计算结果,并将所述计算结果发送至所述聚类模块130,其中待聚类特征的邻域特征为与所述待聚类特征相似的目标特征;
所述聚类模块130,用于基于各计算结果、各待聚类特征和各已聚类特征的聚类簇及邻域特征进行增量聚类,获得若干个第一聚类簇,本实施例中,控制节点异步采集并合并每个计算节点200返回的计算结果,并参照实施例1或实施例2所公开的方法进行增量聚类,获得相应的第一聚类簇;
所述更新模块140,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;
本实施例中各计算节点200,用于接收所述处理模块110下发的特征组,并计算所述特征组中各待聚类特征的邻域特征,获得相应的计算结果,并将所述计算结果发送至所述聚类模块130。
本实施例为实施例3所对应的装置实施例,由于其与实施例3基本相似,所以描述的比较简单,相关之处参见实施例3的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术邻域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种增量聚类方法,其特征在于,包括以下步骤:
获取待聚类数据和已聚类数据;
基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇;
检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
2.根据权利要求1所述的增量聚类方法,其特征在于,检测各第一聚类簇中的异常特征的步骤为:
各第一聚类簇均包含至少一个目标特征,检测所述第一聚类簇中作为核心特征的目标特征,获得第一特征;
提取各第一特征的邻域特征,统计所述第一特征所对应的邻域特征数以及邻域核心特征数,所述邻域特征指与所述第一特征相似的目标特征,所述邻域核心特征数指属于核心特征的邻域特征的数量;
基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征,获得相应的异常检测结果。
3.根据权利要求2所述的增量聚类方法,其特征在于,所述基于第一特征的邻域特征、邻域特征数和邻域核心特征数判断所述第一特征是否为异常特征的具体步骤为:
基于所述邻域特征数和所述邻域核心特征数,按照预设的判断规则对相应的第一特征进行异常判断,当判定所述第一特征异常时,将第一特征作为第二特征;
计算各第二特征所对应的离散值,获得待判定离散值,其中离散值用于指示各邻域特征之间的离散程度;
当所述待判定离散值大于相应的离散阈值时,判定所述第二特征为异常特征。
4.根据权利要求3所述的增量聚类方法,其特征在于,所述离散阈值的获取方法为:
当判定所述第一特征正常时,将第一特征作为第三特征;
汇总对应第一聚类簇中所有第三特征的邻域特征,基于所得汇总结果计算第一聚类簇所对应的离散值,获得基础离散值;
基于所述基础离散值确定所述离散阈值。
5.根据权利要求1至4任一所述的增量聚类方法,其特征在于:
待聚类数据包括若干待聚类特征;
已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征;
将待聚类特征和已聚类特征均作为目标特征,基于目标特征间的相似度确定各目标特征的邻域特征;
基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类,获得相应的第一聚类簇。
6.根据权利要求5所述的增量聚类方法,其特征在于基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类前,还包括执行判断步骤,具体为:
判断各待聚类特征是否是核心特征;
当存在作为核心特征的待聚类特征时,判定执行聚类,则基于所述第二聚类簇和各目标特征的邻域特征进行增量聚类。
7.根据权利要求6所述的增量聚类方法,其特征在于:
待聚类特征为第一待聚类特征或第二待聚类特征,所述第二待聚类特征为新增特征;
当上一次增量聚类的执行判断步骤判定不执行聚类时,则保存上一次增量聚类所对应的待聚类特征的邻域特征,并将上一次增量聚类所对应的待聚类特征作为当前增量聚类的第一待聚类特征;
计算所述第二待聚类特征与各目标特征之间的相似度,获得各目标特征所对应的邻域特征。
8.一种增量聚类系统,其特征在于,包括:
数据获取模块,用于获取待聚类数据和已聚类数据;
增量聚类模块,用于基于所述待聚类数据对所述已聚类数据进行增量聚类,获得若干个第一聚类簇;
异常处理模块,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
9.一种分布式增量聚类方法,其特征在于,包括以下步骤:
获取待聚类数据和已聚类数据,待聚类数据包括若干待聚类特征,已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征,将待聚类特征和已聚类特征作为目标特征;
对待聚类特征进行分组,获得若干特征组,分布式计算各特征组中待聚类特征的邻域特征,获得各特征组所对应的计算结果,其中待聚类特征的邻域特征为与所述待聚类特征相似的目标特征;
基于各计算结果、各待聚类特征和各已聚类特征的聚类簇及邻域特征进行增量聚类,获得若干个第一聚类簇;
检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果。
10.一种分布式增量聚类系统,其特征在于,包括数据库、控制节点和若干个计算节点:
所述数据库,用于存储待聚类数据和已聚类数据,待聚类数据包括若干待聚类特征,已聚类数据包括若干个第二聚类簇,各第二聚类簇包括至少一个已聚类特征,所述已聚类数据还包括各已聚类特征的邻域特征;
所述控制节点包括处理模块、计算模块、聚类模块和更新模块;
所述处理模块,用于从所述数据库中获取所述待聚类数据和所述已聚类数据,并将所得待聚类特征和已聚类特征作为目标特征;还用于对待聚类特征进行分组,获得若干特征组,向所述计算模块和各计算节点分发所得特征组;
所述计算模块,用于接收所述处理模块下发的特征组,并计算所述特征组中各待聚类特征的邻域特征,获得相应的计算结果,并将所述计算结果发送至所述聚类模块,其中待聚类特征的邻域特征为与所述待聚类特征相似的目标特征;
所述聚类模块,用于基于各计算结果、各待聚类特征和各已聚类特征的聚类簇及邻域特征进行增量聚类,获得若干个第一聚类簇;
所述更新模块,用于检测各第一聚类簇中的异常特征,并基于所得异常检测结果对相应的第一聚类簇进行更新,获得聚类结果;
所述计算节点,用于接收所述处理模块下发的特征组,并计算所述特征组中各待聚类特征的邻域特征,获得相应的计算结果,并将所述计算结果发送至所述聚类模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210013145.XA CN114386501A (zh) | 2022-01-06 | 2022-01-06 | 增量聚类方法及系统、分布式增量聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210013145.XA CN114386501A (zh) | 2022-01-06 | 2022-01-06 | 增量聚类方法及系统、分布式增量聚类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114386501A true CN114386501A (zh) | 2022-04-22 |
Family
ID=81200001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210013145.XA Pending CN114386501A (zh) | 2022-01-06 | 2022-01-06 | 增量聚类方法及系统、分布式增量聚类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114386501A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523320A (zh) * | 2023-07-04 | 2023-08-01 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
-
2022
- 2022-01-06 CN CN202210013145.XA patent/CN114386501A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523320A (zh) * | 2023-07-04 | 2023-08-01 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
CN116523320B (zh) * | 2023-07-04 | 2023-09-12 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 基于互联网大数据的知识产权风险智能分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111064614B (zh) | 一种故障根因定位方法、装置、设备及存储介质 | |
CN111262756B (zh) | 一种高速网络大象流精确测量方法及装置 | |
CN111984503A (zh) | 一种监控指标数据异常数据识别的方法及装置 | |
CN110071854B (zh) | 节点间报文传输流量监控方法及装置 | |
CN111327435B (zh) | 一种根因定位方法、服务器和存储介质 | |
CN114386501A (zh) | 增量聚类方法及系统、分布式增量聚类方法及系统 | |
CN110647913A (zh) | 基于聚类算法的异常数据检测方法及装置 | |
CN114973741B (zh) | 异常数据的处理方法、装置、存储介质及电子装置 | |
CN115496893A (zh) | 一种指针式水表读数识别方法 | |
CN117576823B (zh) | 一种排队叫号系统终端 | |
CN113470100A (zh) | 光学动作捕捉场景中刚体匹配方法、装置及存储介质 | |
CN115373857B (zh) | 一种经济管理用数据优化系统 | |
US20230213911A1 (en) | Method and device for testing product, computer device and readable storage medium | |
CN115690681A (zh) | 异常判断依据的处理方法、异常判断方法及装置 | |
CN101944142A (zh) | 航天器飞行参数多源信息最优融合确定方法 | |
CN112612614B (zh) | 一种数据排序方法、装置及系统 | |
CN113140021B (zh) | 矢量线生成方法、系统及计算机可读存储介质 | |
CN113064190A (zh) | 一种停车场出入口的定位方法、装置、设备和存储介质 | |
CN116107859B (zh) | 容器故障预测方法、装置、电子设备及存储介质 | |
CN117933671B (zh) | 基于工程师画像数据的派单任务智能调度方法 | |
CN118214703B (zh) | 一种数字孪生数据流追踪与溯源系统 | |
CN111538871B (zh) | 一种支持不同数据类型的一体化检索方法 | |
CN110443675B (zh) | 确定订单生命周期的方法、装置、电子设备及存储介质 | |
CN114611588A (zh) | 一种图像分组方法、装置、设备及介质 | |
CN114546704A (zh) | 针对服务器数据采集行为的异常检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |