CN114330584A - 数据聚类方法、装置、存储介质以及电子设备 - Google Patents

数据聚类方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN114330584A
CN114330584A CN202111677732.0A CN202111677732A CN114330584A CN 114330584 A CN114330584 A CN 114330584A CN 202111677732 A CN202111677732 A CN 202111677732A CN 114330584 A CN114330584 A CN 114330584A
Authority
CN
China
Prior art keywords
clustering
data
optimal
cluster
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111677732.0A
Other languages
English (en)
Inventor
王奎举
喻波
王志海
韩振国
安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202111677732.0A priority Critical patent/CN114330584A/zh
Publication of CN114330584A publication Critical patent/CN114330584A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据聚类方法、装置、存储介质以及电子设备。其中,该方法包括:获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到待聚类数据的增量数据之后,对待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个第二聚类指标值中选取第二目标聚类指标值;获取第二目标聚类指标值对应的第二最佳聚类簇数值;根据第一最佳聚类簇数值和第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对待聚类数据进行K‑means聚类处理,得到目标聚类处理结果。本发明解决了由于现有技术中数据聚类方法无法自动满足新增数据聚类需求,造成的聚类效率低且聚类结果差的技术问题。

Description

数据聚类方法、装置、存储介质以及电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据聚类方法、装置、存储介质以及电子设备。
背景技术
数据聚类或者分类任务是生活生产当中应用较为广泛的算法,通过对实体进行分析提取兴趣实体的特征信息后,将这一些信息进行聚类和分类就可以大大方便人们的生产生活。但是,现有技术中的数据聚类方法,例如,K-means算法,虽然可以抽取聚类中心保持聚类类别不变,但是不能应对增量数据中含有新类别的情况,存在一定的局限性,如图1所示,若增量数据中类别数目发生改变则需要手动调整K值进行重新聚类,之后使用手工干预的方法,按照之前的类别发现原来的分类进行调整,聚类效率低且聚类结果差。
针对现有技术中存在的聚类效率低且聚类结果差的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据聚类方法、装置、存储介质以及电子设备,以至少解决由于现有技术中数据聚类方法无法自动满足新增数据聚类需求,造成的聚类效率低且聚类结果差的技术问题。
根据本发明实施例的一个方面,提供了一种数据聚类方法,包括:获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
可选的,获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值,包括:对上述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个上述第一聚类指标值中选取第一目标聚类指标值;获取上述第一目标聚类指标值对应的第一最佳聚类簇数值。
可选的,在获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值之后,上述方法还包括:采用上述第一最佳聚类簇数值对上述原始数据进行K-means聚类处理,得到首次聚类处理结果。
可选的,根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,确定聚类模型中的聚类中心,包括:当上述比较结果为上述第一最佳聚类簇数值小于上述第二最佳聚类簇数值时,则基于上述增量数据和初始聚类中心确定新增聚类中心,并将上述新增聚类中心和上述初始聚类中心作为下一次聚类处理的初始聚类中心;当上述比较结果为上述第一最佳聚类簇数值大于上述第二最佳聚类簇数值时,确定上述增量数据和上述原始数据的分布不相符合,并取消聚类处理流程;当上述比较结果为上述第一最佳聚类簇数值等于上述第二最佳聚类簇数值时,则仍将对上述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
可选的,在将上述新增聚类中心和上述初始聚类中心作为下一次聚类的初始聚类中心之后,上述方法还包括:基于上述第一最佳聚类簇数值和上述第二最佳聚类簇数值,计算得到第三最佳聚类数值;根据上述第三最佳聚类簇数值,循环执行基于上述增量数据选取距离目标,并将上述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个上述初始聚类中心;将多个上述初始聚类中心对上述聚类模型进行聚类中心的迭代,得到上述更新后的聚类模型。
根据本发明实施例的另一方面,还提供了一种数据聚类装置,包括:第一获取模块,用于获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;第一处理模块,用于在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;第二获取模块,用于获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;第二处理模块,用于根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
可选的,上述第一获取模块还包括:选取模块,用于对上述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个上述第一聚类指标值中选取第一目标聚类指标值;第一获取子模块,用于获取上述第一目标聚类指标值对应的第一最佳聚类簇数值。
可选的,上述装置还包括:第二获取子模块,用于采用上述第一最佳聚类簇数值对上述原始数据进行K-means聚类处理,得到首次聚类处理结果。
可选的,上述第二处理模块还包括:比较模块,用于当上述比较结果为上述第一最佳聚类簇数值小于上述第二最佳聚类簇数值时,则基于上述增量数据和初始聚类中心确定新增聚类中心,并将上述新增聚类中心和上述初始聚类中心作为下一次聚类处理的初始聚类中心;第一确定子模块,用于当上述比较结果为上述第一最佳聚类簇数值大于上述第二最佳聚类簇数值时,确定上述增量数据和上述原始数据的分布不相符合,并取消聚类处理流程;第二确定子模块,用于当上述比较结果为上述第一最佳聚类簇数值等于上述第二最佳聚类簇数值时,则仍将对上述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
可选的,上述装置还包括:计算模块,用于基于上述第一最佳聚类簇数值和上述第二最佳聚类簇数值,计算得到第三最佳聚类数值;第三获取子模块,用于根据上述第三最佳聚类簇数值,循环执行基于上述增量数据选取距离目标,并将上述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个上述初始聚类中心;第四获取子模块,用于将多个上述初始聚类中心对上述聚类模型进行聚类中心的迭代,得到上述更新后的聚类模型。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的数据聚类方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行意一项上述的数据聚类方法。
在本发明实施例中,采用数据聚类的方式,通过获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果,达到了根据新增数据特征,确定符合新增数据需求的聚类处理结果的目的,从而实现了提升数据聚类效率和聚类效果的技术效果,进而解决了由于现有技术中数据聚类方法无法自动满足新增数据聚类需求,造成的聚类效率低且聚类结果差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一种数据聚类方法的流程图;
图2是根据本发明实施例的一种数据聚类方法的流程图;
图3是根据本发明实施例的一种可选的用于实施上述数据聚类方法的系统结构示意图;
图4是根据本发明实施例的另一种可选的数据聚类方法的流程图;
图5是根据本发明实施例的另一种可选的数据聚类方法的流程图;
图6是根据本发明实施例的一种可选的数据聚类方法的应用场景的示意图;
图7是根据本发明实施例的一种可选的数据聚类方法的应用场景的示意图;
图8是根据本发明实施例的一种数据聚类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,为方便理解本发明实施例,下面将对本发明中所涉及的部分术语或名词进行解释说明:
有监督分类与无监督聚类:在机器学习分类任务中一般习惯将算法按照是否输入样本标签训练来作为一个区分依据。若在模型训练的过程当中输入了样本标签,即在训练时标注了样本的类别从而生成模型的算法称之为有监督分类。反之,当训练时提供的是没有标签的样本,依靠算法自动去寻找样本之间的关系的分类算法称之为无监督聚类。近年来也发展出了一系列只输入部分有标签样本的分类方法称为半监督学习。
有监督分类:有监督学习由于样本输入时给予了算法有关于样本类别的信息,这一类算法普遍较无监督的算法更准确,但是其输入的样本需要人工标记类别,需要消耗大量的人力物力成本,任务普适性较差。其中代表的分类算法有svm,线性判别器,朴素贝叶斯,决策树分类,K近邻分类等。
无监督聚类:无监督聚类不需求输入样本的标签,而是通过算法当中的一定规则来使得聚类簇间最大而簇内最小,达到学习分类模型的目的。其中具有代表性的算法有K-means,流形学习,层次聚类,DBSCAN,密度聚类,协方差聚类等。
K-means(K均值聚类):K-means算法是一种经典的聚类算法,其首先需要使用者设定一K值,算法就会将样本聚类到K类。首先算法先初始化K个中心,而后重复两个步骤直到质心不再变化。步骤一,计算每个样本到质心的距离,将样本分配到距离最近的质心那一类;步骤二,将质心移动至这一类样本的(每个维度的平均值)中心点。两个步骤往复,直至停止。
实施例1
聚类或者分类任务是生活生产当中得到广泛应用的算法,通过对实体进行分析提取兴趣实体的特征信息后,将这一些信息进行聚类和分类就可以大大方便人们的生产生活。比如通过对猫和狗照片的学习,可以训练出一种模型能认识猫或者狗的照片。可以利用这一模型,处理后续的问题,比如在一些场景下自动的通过模型去分辨是否是猫或者狗。或者说应用到文本识别当中,可以利用训练好的模型来分辨一篇文章的情感或者类别。生活中的种种数据数之不尽,不可能每个类别都有大量的已标注的数据供有监督学习去训练模型,高效的、可持续的,输出结果稳定的无监督方法越来越成为大众研究的方向之一。
K-means算法是一种经典的聚类算法,其首先需要使用者设定一K值,算法就会将样本聚类到K类。首先算法先初始化K个中心,而后重复两个步骤直到质心不在变化。步骤一,计算每个样本到质心的距离,将样本分配到距离最近的质心那一类;步骤二,将质心移动至这一类样本的(每个维度的平均值)中心点。两个步骤往复,直至停止。约束公式为如下:
Figure BDA0003452710210000061
面对多次聚类的问题传统K-means因为随机性所以不存在延续性,和自动获取最佳K的能力。现有技术方案实现流程图仍如图1所示,面对增量数据,传统模型虽然可以抽取聚类中心保持聚类类别不变,但是不能应对增量数据中含有新类别的情况,存在一定的局限性,若增量数据中类别数目发生改变则需要手动调整K值进行重新聚类,之后使用手工干预的方法,按照之前的类别发现原来的分类进行调整。
上述方法至少存在以下缺陷:需要用户设定聚类K值,由于无监督样本在实际当中,样本类别不可知或者使用者设置不是最佳值,都会导致聚类结果不佳;无监督聚类由于随机初始化聚类中心,导致每次聚类的结果有所不同;就算使用者初始化了聚类中心,但其面对增量样本出现的新类别无应对方案;每次训练的模型之间没有延续性,当加入新的样本或者有新的类别增加时,则需要重新训练并且不能继承之前的训练结果,并且对新训练的样本需要人工进行重新标定。
基于上述问题,本发明实施例提供了一种数据聚类的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种数据聚类方法的流程图,如图2所示,该方法包括如下步骤:
步骤S102,获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;
步骤S104,在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;
步骤S106,获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;
步骤S108,根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
可选的,上述第一最佳聚类簇K1数值可以但不限于为最小的第一聚类指标值对应的最佳聚类个数;上述第二最佳聚类簇K2数值可以但不限于为最小的第二聚类指标值对应的最佳聚类个数。
可选的,通过对原始数据多次聚类,在每次聚类之后计算聚类的DBI值,DBI值最小时的聚类指标值(即上述第一目标聚类指标值)对应的聚类个数为最佳聚类个数,即上述第一最佳聚类簇数值K1。
可选的,通过对原始数据和增量数据进行多次聚类,在每次聚类之后计算聚类的DBI值,DBI值最小时的聚类指标值(即上述第二目标聚类指标值)对应的聚类个数为最佳聚类个数,即上述第二最佳聚类簇数值K2。
可选的,上述比较结果包括以下任意之一:K1>K2、K1<K2、K1=K2,不同的比较结果对应于不同的聚类处理结果。
可选的,上述第一最佳聚类簇数值K1和上述第二最佳聚类簇数值K2的获取方法,还可以为手肘法,可以做多次聚类计算每次的手肘值,基于上述手肘值求得斜率变化最大的点,这个点的K值就为最佳的K值(即上述第一最佳聚类簇数值K1和/或上述第二最佳聚类簇数值K2)。
在本发明实施例中,采用数据聚类的方式,通过获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果,达到了根据新增数据特征,确定符合新增数据需求的聚类处理结果的目的,从而实现了提升数据聚类效率和聚类效果的技术效果,进而解决了由于现有技术中数据聚类方法无法自动满足新增数据聚类需求,造成的聚类效率低且聚类结果差的技术问题。
作为一种可选的实施例,图3是根据本发明实施例的一种可选的用于实施上述数据聚类方法的系统结构示意图,如图3所示,上述系统具体包括两大模块,即数据模块和聚类模块。其中,上述数据模块中,数据处理模块、数据存储模块、数据发现模块和数据索引分类模块是相辅相成。数据处理模块用于对数据做处理,比如数据的转化、读取和归一化等操作;数据发现模块用于提供除第一次聚类以外的增量数据,通过计算数据池当中文件的唯一哈希值,发现数据池当中新加入的数据,为下一次增量训练做准备,并将数据发现的结果提供给数据索引分类模块,使的得聚类模块能快速获得不同部分的数据;模型部分(即模型存储模块和模型加载模块)用于对训练出来的模型提供管理,可以选择增量训练的基础模型,方便做出模型的管理和回退操作。上述聚类模块中,除了K-means聚类模块外还加入了最佳K值获取部分,用于自动计算该聚类应该满足的最佳聚合度;最佳簇中心初始化模块则用于计算初始化新的聚类中心。
在一种可选的实施例中,获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值,包括:
步骤S202,对上述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个上述第一聚类指标值中选取第一目标聚类指标值;
步骤S204,获取上述第一目标聚类指标值对应的第一最佳聚类簇数值。
可选的,上述第一聚类指标值为Davies Bouldin指数值(即DBI值),上述第一目标聚类指标值可以但不限于为DBI值最小时对应的聚类指标值。
可选的,通过对原始数据多次聚类,在每次聚类之后计算聚类的DBI值,DBI值最小时的聚类指标值(即上述第一目标聚类指标值)对应的聚类个数为最佳聚类个数,即上述第一最佳聚类簇数值K1。
需要说明的是,本发明实施例中获取上述第一最佳聚类簇数值K1(即自动寻找最优K值)的方法,适用于所有凸聚类的无监督算法的最优参数选择阶段。
在一种可选的实施例中,在获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值之后,上述方法还包括:
步骤S302,采用上述第一最佳聚类簇数值对上述原始数据进行K-means聚类处理,得到首次聚类处理结果。
可选的,上述首次聚类处理结果至少包括:聚类模型、聚类模型中的聚类中心。
可选的,采用DBI值最小时的K1值对应的第一最佳聚类簇数值,对原始数据进行K-means聚类处理,得到并保存聚类模型、聚类模型中的聚类中心,为下一次聚类做准备。
可选的,上述聚类处理方法还可以为Mini Batch K-means聚类方法。
在一种可选的实施例中,根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,确定聚类模型中的聚类中心,包括:
步骤S402,当上述比较结果为上述第一最佳聚类簇数值小于上述第二最佳聚类簇数值时,则基于上述增量数据和初始聚类中心确定目标聚类中心,并将上述新增聚类中心和上述初始聚类中心作为下一次聚类处理的初始聚类中心;
步骤S404,当上述比较结果为上述第一最佳聚类簇数值大于上述第二最佳聚类簇数值时,确定上述增量数据和上述原始数据的分布不相符合,并取消聚类处理流程;
步骤S406,当上述比较结果为上述第一最佳聚类簇数值等于上述第二最佳聚类簇数值时,则仍将对上述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
可选的,上述新增聚类中心可以但不限于为通过计算上述增量数据与初始聚类中心之间的距离得到的,将上述增量数据中离上述初始聚类中心最远的点作为上述新增聚类中心,并将上述新增聚类中心和上述初始聚类中心作为下一次聚类处理的初始聚类中心。
需要说明的是,当上述第一最佳聚类簇数值小于上述第二最佳聚类簇数值时,即K1<K2时,表明增量数据中加入了新的分类,此时需要产生新的聚类中心;当上述比较结果为上述第一最佳聚类簇数值大于上述第二最佳聚类簇数值时,即K1>K2时,表明系加入的增量数据与原始数据的数据分布不相符,此时退出聚类流程,以免损毁聚类模型;当上述比较结果为上述第一最佳聚类簇数值等于上述第二最佳聚类簇数值时,即K1=K2时,表明增量数据没有产生新的类别,以原来的聚类中心作为新一次聚类的初始聚类中心即可。
作为一种可选的实施例,图4是根据本发明实施例的另一种可选的数据聚类方法的流程图,如图4所示,该方法具体包括如下步骤:通过对原始数据多次聚类,在每次聚类之后计算聚类的DBI值,DBI值最小时的聚类指标值(即上述第一目标聚类指标值)对应的聚类个数为最佳聚类个数,即上述第一最佳聚类簇数值K1;通过对原始数据和增量数据进行多次聚类,在每次聚类之后计算聚类的DBI值,DBI值最小时的聚类指标值(即上述第二目标聚类指标值)对应的聚类个数为最佳聚类个数,即上述第二最佳聚类簇数值K2;通过比较K1与K2的大小关系,确定聚类中心,以及后续的聚类操作:当K2=K1时,表明增量数据没有产生新的类别,那么就以原来的聚类中心作为新一次聚类的初始聚类中心,然后再按照K-means的聚类规则来进行聚类直至聚类中心不再发生变化为止;当K2<K1时,一般在满足初始数据分布时,应该不会出现这种情况,但是一旦增量数据分布与原始数据不相符时,此种情况便会发生,此时需要发出使用增量数据与原始数据分布不相符的提示,同时退出当前聚类流程以免损毁原始聚类模型;当K2>K1时,表明增量数据中加入了新的分类,那么需要产生新的聚类中心,那么将新增数据中离各个已有聚类中心最远的点选作新的聚类中心,将新选定的聚类中心加入到聚类中心当中。
本发明实施例至少可以实现如下技术效果:自动计算最佳聚类簇个数K,不再需要人为指定,能自动发现数据隐藏最优值;同样的数据进行聚类,会保持第一次聚类的类别不变,解决了K-means每次聚类中心类别会改变的问题;支持增量聚类,自动发现新增数据,自动发现新增类别并且不会破坏原有的聚类结果;如果新增数据不符合分类会给予用户提醒,保持了聚类模型的持续性和可维护性。
作为一种可选的实施例,图5是根据本发明实施例的另一种可选的数据聚类方法的流程图,如图5所示,在将上述新增聚类中心和上述初始聚类中心作为下一次聚类的初始聚类中心之后,上述方法还包括:
步骤S502,基于上述第一最佳聚类簇数值和上述第二最佳聚类簇数值,计算得到第三最佳聚类数值;
步骤S504,根据上述第三最佳聚类簇数值,循环执行基于上述增量数据选取距离目标,并将上述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个上述初始聚类中心;
步骤S506,将多个上述初始聚类中心对上述聚类模型进行聚类中心的迭代,得到上述更新后的聚类模型。
可选的,上述第三最佳聚类簇数值可以但不限于为上述第二最佳聚类簇数值与上述第一最佳聚类簇数值之间的差值,即上述第三最佳聚类簇数值为K2-K1。
可选的,循环执行K2-K1次上述基于上述增量数据选取距离目标,并将上述目标作为下一次聚类的初始聚类中心的步骤,新增K2-K1个新聚类中心,并将上述K2-K1个新聚类中心作为K-means的初始化聚类中心(即上述初始聚类中心)。
作为一种可选的实施例,仍如图4所示,在K2>K1的情况下,表明增量数据中加入了新的分类,那么需要产生新的聚类中心,那么将新增数据中离各个已有聚类中心最远的点选作新的聚类中心,将新选定的聚类中心加入到聚类中心当中。将上述方法重复K2-K1次,新增K2-K1个新聚类中心,将这些中心作为K-means的初始化聚类中心,进行聚类中心的迭代,如此获得最佳的聚类效果。
作为一种可选的实施例,图6是根据本发明实施例的一种可选的数据聚类方法的应用场景的示意图,如图6所示,上述方法或系统可以结合有监督学习一起使用,需要说明的是,有监督学习一般需要大量标注过的样本,无监督可以负责将杂乱无章的数据做一个初始的聚类,只需要用户对聚类好的每一个簇进行打标签即可;加入新的增量数据时,原来的数据标签也不会发生改变,不会影响原来有监督学习的算法的类别和模型,大大减轻了人工的工作量,也能过够持续的,稳定的为有监督分类算法提供比较准确的数据。
作为一种可选的实施例,图7是根据本发明实施例的一种可选的数据聚类方法的应用场景的示意图,如图7所示,上述方法可以应用于用户分类系统中,实际应用场景中,人群数量巨大,不可能很难对每个用户做标签,可以先通过对基础用户进行聚类,之后对不同的用户喜好的内容进行推荐;再来新的用户的时候,可以利用聚类的功能观察是否增加新的用户类别,可以按照其喜好推荐其喜欢的内容数据,也能及时对新增的用户进行增量学习,保持模型的准确度和持续更新。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种数据聚类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“单元”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本发明实施例,还提供了一种用于实施上述数据聚类方法的装置实施例,图8是根据本发明实施例的一种数据聚类装置的结构示意图,如图8所示,上述数据聚类装置,包括:第一获取模块60、第一处理模块62、第二获取模块64、第二处理模块66,其中:
上述第一获取模块60,用于获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;
上述第一处理模块62,用于在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;
上述第二获取模块64,用于获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;
上述第二处理模块66,用于根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述第一获取模块60、第一处理模块62、第二获取模块64、第二处理模块66对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的数据聚类装置还可以包括处理器和存储器,上述第一获取模块60、第一处理模块62、第二获取模块64、第二处理模块66等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
在一种可选的实施例中,上述第一获取模块还包括:选取模块,用于对上述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个上述第一聚类指标值中选取第一目标聚类指标值;第一获取子模块,用于获取上述第一目标聚类指标值对应的第一最佳聚类簇数值。
在一种可选的实施例中,上述装置还包括:第二获取子模块,用于采用上述第一最佳聚类簇数值对上述原始数据进行K-means聚类处理,得到首次聚类处理结果。
在一种可选的实施例中,上述第二处理模块还包括:比较模块,用于当上述比较结果为上述第一最佳聚类簇数值小于上述第二最佳聚类簇数值时,则基于上述增量数据和初始聚类中心确定新增聚类中心,并将上述新增聚类中心和上述初始聚类中心作为下一次聚类处理的初始聚类中心;第一确定子模块,用于当上述比较结果为上述第一最佳聚类簇数值大于上述第二最佳聚类簇数值时,确定上述增量数据和上述原始数据的分布不相符合,并取消聚类处理流程;第二确定子模块,用于当上述比较结果为上述第一最佳聚类簇数值等于上述第二最佳聚类簇数值时,则仍将对上述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
在一种可选的实施例中,上述装置还包括:计算模块,用于基于上述第一最佳聚类簇数值和上述第二最佳聚类簇数值,计算得到第三最佳聚类数值;第三获取子模块,用于根据上述第三最佳聚类簇数值,循环执行基于上述增量数据选取距离目标,并将上述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个上述初始聚类中心;第四获取子模块,用于将多个上述初始聚类中心对上述聚类模型进行聚类中心的迭代,得到上述更新后的聚类模型。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种非易失性存储介质的实施例。可选的,在本实施例中,上述非易失性存储介质包括存储的程序,其中,在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种数据聚类方法。
可选的,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述非易失性存储介质包括存储的程序。
可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:对上述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个上述第一聚类指标值中选取第一目标聚类指标值;获取上述第一目标聚类指标值对应的第一最佳聚类簇数值。
可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:采用上述第一最佳聚类簇数值对上述原始数据进行K-means聚类处理,得到首次聚类处理结果。
可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:当上述比较结果为上述第一最佳聚类簇数值小于上述第二最佳聚类簇数值时,则基于上述增量数据和初始聚类中心确定新增聚类中心,并将上述新增聚类中心和上述初始聚类中心作为下一次聚类处理的初始聚类中心;当上述比较结果为上述第一最佳聚类簇数值大于上述第二最佳聚类簇数值时,确定上述增量数据和上述原始数据的分布不相符合,并取消聚类处理流程;当上述比较结果为上述第一最佳聚类簇数值等于上述第二最佳聚类簇数值时,则仍将对上述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
可选的,在程序运行时控制非易失性存储介质所在设备执行以下功能:基于上述第一最佳聚类簇数值和上述第二最佳聚类簇数值,计算得到第三最佳聚类数值;根据上述第三最佳聚类簇数值,循环执行基于上述增量数据选取距离目标,并将上述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个上述初始聚类中心;将多个上述初始聚类中心对上述聚类模型进行聚类中心的迭代,得到上述更新后的聚类模型。
根据本申请实施例,还提供了一种处理器的实施例。可选的,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种数据聚类方法。
根据本申请实施例,还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有上述任意一种的数据聚类方法步骤的程序。
可选的,上述计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;在检测到上述待聚类数据的增量数据之后,对上述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个上述第二聚类指标值中选取第二目标聚类指标值;获取上述第二目标聚类指标值对应的第二最佳聚类簇数值;根据上述第一最佳聚类簇数值和上述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对上述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
根据本申请实施例,还提供了一种电子设备的实施例,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为运行上述计算机程序以执行上述任意一种的数据聚类方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个非易失性存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种数据聚类方法,其特征在于,包括:
获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;
在检测到所述待聚类数据的增量数据之后,对所述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个所述第二聚类指标值中选取第二目标聚类指标值;
获取所述第二目标聚类指标值对应的第二最佳聚类簇数值;
根据所述第一最佳聚类簇数值和所述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对所述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
2.根据权利要求1所述的方法,其特征在于,获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值,包括:
对所述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个所述第一聚类指标值中选取第一目标聚类指标值;
获取所述第一目标聚类指标值对应的第一最佳聚类簇数值。
3.根据权利要求1所述的方法,其特征在于,在获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值之后,所述方法还包括:
采用所述第一最佳聚类簇数值对所述原始数据进行K-means聚类处理,得到首次聚类处理结果。
4.根据权利要求1所述的方法,其特征在于,根据所述第一最佳聚类簇数值和所述第二最佳聚类簇数值的比较结果,确定聚类模型中的聚类中心,包括:
当所述比较结果为所述第一最佳聚类簇数值小于所述第二最佳聚类簇数值时,则基于所述增量数据和初始聚类中心确定新增聚类中心,并将所述新增聚类中心和所述初始聚类中心作为下一次聚类处理的初始聚类中心;
当所述比较结果为所述第一最佳聚类簇数值大于所述第二最佳聚类簇数值时,确定所述增量数据和所述原始数据的分布不相符合,并取消聚类处理流程;
当所述比较结果为所述第一最佳聚类簇数值等于所述第二最佳聚类簇数值时,则仍将对所述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
5.根据权利要求4所述的方法,其特征在于,在将所述新增聚类中心和所述初始聚类中心作为下一次聚类的初始聚类中心之后,所述方法还包括:
基于所述第一最佳聚类簇数值和所述第二最佳聚类簇数值,计算得到第三最佳聚类数值;
根据所述第三最佳聚类簇数值,循环执行基于所述增量数据选取距离目标,并将所述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个所述初始聚类中心;
将多个所述初始聚类中心对所述聚类模型进行聚类中心的迭代,得到所述更新后的聚类模型。
6.一种数据聚类装置,其特征在于,包括:
第一获取模块,用于获取基于待聚类数据的原始数据预先确定的第一最佳聚类簇数值;
第一处理模块,用于在检测到所述待聚类数据的增量数据之后,对所述待聚类数据进行二次聚类处理,得到多个第二聚类指标值,并从多个所述第二聚类指标值中选取第二目标聚类指标值;
第二获取模块,用于获取所述第二目标聚类指标值对应的第二最佳聚类簇数值;
第二处理模块,用于根据所述第一最佳聚类簇数值和所述第二最佳聚类簇数值的比较结果,更新聚类模型中的聚类中心,并采用更新后的聚类模型对所述待聚类数据进行K-means聚类处理,得到目标聚类处理结果。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块还包括:
选取模块,用于对所述原始数据进行首次聚类处理得到多个第一聚类指标值,并从多个所述第一聚类指标值中选取第一目标聚类指标值;
第一获取子模块,用于获取所述第一目标聚类指标值对应的第一最佳聚类簇数值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取子模块,用于采用所述第一最佳聚类簇数值对所述原始数据进行K-means聚类处理,得到首次聚类处理结果。
9.根据权利要求6所述的装置,其特征在于,所述第二处理模块还包括:
比较模块,用于当所述比较结果为所述第一最佳聚类簇数值小于所述第二最佳聚类簇数值时,则基于所述增量数据和初始聚类中心确定新增聚类中心,并将所述新增聚类中心和所述初始聚类中心作为下一次聚类处理的初始聚类中心;
第一确定子模块,用于当所述比较结果为所述第一最佳聚类簇数值大于所述第二最佳聚类簇数值时,确定所述增量数据和所述原始数据的分布不相符合,并取消聚类处理流程;
第二确定子模块,用于当所述比较结果为所述第一最佳聚类簇数值等于所述第二最佳聚类簇数值时,则仍将对所述原始数据进行首次聚类处理确定的聚类中心,作为下一次聚类处理的初始聚类中心。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
计算模块,用于基于所述第一最佳聚类簇数值和所述第二最佳聚类簇数值,计算得到第三最佳聚类数值;
第三获取子模块,用于根据所述第三最佳聚类簇数值,循环执行基于所述增量数据选取距离目标,并将所述目标作为下一次聚类的初始聚类中心的步骤,得到对应多个所述初始聚类中心;
第四获取子模块,用于将多个所述初始聚类中心对所述聚类模型进行聚类中心的迭代,得到所述更新后的聚类模型。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至5中任意一项所述的数据聚类方法。
12.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任意一项所述的数据聚类方法。
CN202111677732.0A 2021-12-31 2021-12-31 数据聚类方法、装置、存储介质以及电子设备 Pending CN114330584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111677732.0A CN114330584A (zh) 2021-12-31 2021-12-31 数据聚类方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111677732.0A CN114330584A (zh) 2021-12-31 2021-12-31 数据聚类方法、装置、存储介质以及电子设备

Publications (1)

Publication Number Publication Date
CN114330584A true CN114330584A (zh) 2022-04-12

Family

ID=81023553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111677732.0A Pending CN114330584A (zh) 2021-12-31 2021-12-31 数据聚类方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN114330584A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置
CN115795335A (zh) * 2023-02-02 2023-03-14 国家邮政局邮政业安全中心 物流网点异常识别方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (zh) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 数据聚类方法以及装置
CN115019078B (zh) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 车辆图像处理方法、计算设备及存储介质
CN115795335A (zh) * 2023-02-02 2023-03-14 国家邮政局邮政业安全中心 物流网点异常识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110378731B (zh) 获取用户画像的方法、装置、服务器及存储介质
US20200302340A1 (en) Systems and methods for learning user representations for open vocabulary data sets
CN114330584A (zh) 数据聚类方法、装置、存储介质以及电子设备
CN109558533B (zh) 一种基于多重聚类的个性化内容推荐方法及装置
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
Liu et al. Reciprocal hash tables for nearest neighbor search
CN113657087B (zh) 信息的匹配方法及装置
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
US12072921B2 (en) Resource selection determination using natural language processing based tiered clustering
CN109819002B (zh) 数据推送方法和装置、存储介质及电子装置
CN107861769B (zh) 应用清理方法、装置、存储介质及电子设备
Lee et al. Effective evolutionary multilabel feature selection under a budget constraint
CN111507400A (zh) 应用分类方法、装置、电子设备以及存储介质
CN108563648B (zh) 数据显示方法和装置、存储介质及电子装置
US11061935B2 (en) Automatically inferring data relationships of datasets
Viitaniemi et al. Evaluating the performance in automatic image annotation: Example case by adaptive fusion of global image features
CN109446422B (zh) 一种基于离群用户过滤的服务推荐方法
CN112445933B (zh) 一种模型训练方法、装置、设备及存储介质
Ha et al. Text-to-image retrieval based on incremental association via multimodal hypernetworks
CN114492602A (zh) 一种样本处理方法、装置、电子设备及存储介质
CN114093447A (zh) 数据资产推荐方法、装置、计算机设备及存储介质
Lin et al. Category-based dynamic recommendations adaptive to user interest drifts
Wang et al. Efficient sampling of training set in large and noisy multimedia data
CN111382770A (zh) 图片聚类方法、装置、设备及存储介质
CN116401567B (zh) 一种聚类模型训练、用户聚类、信息推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination