CN110866555A - 增量数据的聚类方法、装置、设备及可读存储介质 - Google Patents
增量数据的聚类方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110866555A CN110866555A CN201911099334.8A CN201911099334A CN110866555A CN 110866555 A CN110866555 A CN 110866555A CN 201911099334 A CN201911099334 A CN 201911099334A CN 110866555 A CN110866555 A CN 110866555A
- Authority
- CN
- China
- Prior art keywords
- clustering
- initial
- data
- incremental
- incremental data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种增量数据的聚类方法、装置、设备和可读存储介质,该增量数据的聚类方法包括对初始数据聚类,获取初始聚类结果,初始聚类结果包括初始数据的簇和各初始数据的簇的初始聚类中心;计算相对初始数据之后获取的增量数据到各初始聚类中心的初始距离组;若初始距离组中的最小距离不大于第一预设距离,则将增量数据添加到最小距离对应的初始聚类中心的簇中;若所述第一距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;对缓冲区中的增量数据聚类。对于获取的增量数据,不需要与初始数据一起全部重新迭代聚类,通过与初始聚类中心的距离对于增量数据进行聚类方式的区分,减少聚类方法需要的存储空间同时效率更高。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种增量数据的聚类方法、装置、设备及可读介质。
背景技术
随着信息技术的发展,特别是Web的出现,数据和环境无时无刻不在发生变化,需要更多的空间存储数据,如何解决大量数据的存储问题成为当前一个迫在眉睫的问题。增量数据的聚类方法由于有限的空间需要被提出来,即不需要将所有数据存储到内存中。
现有的增量数据的聚类方法是每次将所有数据进行迭代,即从第一个数据到最后一个数据进行迭代计算,容易造成资源的浪费,同时聚类的效率比较低。
发明内容
本申请的主要目的在于提供一种增量数据的聚类方法、装置、设备及可读存储介质,旨在解决增量数据的聚类过程中的资源浪费和效率低的问题。
为实现上述目的,本申请提供的一种增量数据的聚类方法,所述增量数据的聚类方法包括以下步骤:
对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
当缓冲区中的增量数据达到存储上限时,对缓冲区中的增量数据聚类。
可选地,所述对初始数据聚类的步骤包括:
按照初始数据确定初始聚类中心的数目;
根据所述初始聚类中心的数目,利用均值算法对初始数据聚类。
可选地,所述计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组的步骤之后包括:
若所述初始距离组中存在至少两个小于第一预设距离的初始距离,则将所述小于第一预设距离的距离对应的初始数据的簇进行合并。
可选地,所述当缓冲区中的增量数据达到上限时,对缓冲区中的增量数据聚类的步骤包括:
获取缓冲区中的增量数据的均值数据点;
将与所述均值数据点的距离超过第二预设距离的点作为缓冲区中的增量数据的增量聚类中心;
计算各所述缓冲区中的增量数据到各所述增量聚类中心的聚类距离组;
将所述缓冲区中的增量数据添加到所述聚类距离组中最小距离对应的所述增量聚类中心的簇中,得到缓冲区中的增量数据的第一增量聚类结果。
可选地,所述计算各所述缓冲区中的增量数据到各所述初始聚类中心的聚类距离组的步骤之后包括:
若所述聚类距离组中的距离均大于预设聚类距离,则对所述增量数据进行标记;
对所述标记过的增量数据进行聚类,得到第二增量聚类结果;
将所述第二增量聚类结果与所述第一增量聚类结果一起组成增量聚类结果,所述增量聚类结果包括增量数据的簇和增量数据的最终增量聚类中心。
可选地,所述将所述第二增量聚类结果与所述第一增量聚类结果一起组成增量聚类结果的步骤之后包括:
将所述增量聚类结果与所述初始聚类结果放在同一度量空间内;
将所述度量空间等分为不同的区域;
计算每个所述区域中数据的区域密度;
将所述区域密度大于预设密度值的所述区域中的增量数据重新划分到最近的簇中,得到最终聚类结果。
可选地,所述得到最终聚类结果的步骤之后包括:
统计所述最终聚类结果中各簇包含的数据个数;
若存在所述数据个数为一的孤立簇,则删除所述孤立簇。
本申请还提供一种增量数据的聚类装置,所述增量数据的聚类装置包括:
获取模块,用于对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
计算模块,用于计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
添加模块,用于若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
保存模块,用于若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
聚类模块,用于当缓冲区中的增量数据达到存储上限时,对缓冲区中的增量数据聚类。
本申请还提供一种增量数据的聚类设备,所述增量数据的聚类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的增量数据的聚类程序,所述增量数据的聚类程序被所述处理器执行时实现如上述的增量数据的聚类方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的增量数据的聚类方法的步骤。
本申请通过对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;若所述第一距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;当缓冲区中的增量数据达到上限时,对缓冲区中的增量数据聚类。对于获取的增量数据,不需要与初始数据一起全部重新迭代聚类,通过与初始聚类中心的距离对于增量数据进行聚类方式的区分,减少聚类方法的存储空间消耗同时效率更高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本申请增量数据的聚类方法第一实施例的流程示意图;
图3为本申请增量数据的聚类方法第二实施例中聚类簇数对于聚类结果的对比图;
图4为本申请增量数据的聚类方法第四实施例中对于图2步骤S50的细化流程图;
图5为本申请增量数据的聚类方法第五实施例中对于图4步骤S53之后步骤的细化流程图;
图6为本申请增量数据的聚类方法第六实施例中对于图5步骤S533之后步骤的细化流程图;
图7为本申请增量数据的聚类设备一实施例的系统结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。
本申请实施例终端为增量数据的聚类设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在终端设备移动到耳边时,关闭显示屏和/或背光。当然,终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及增量数据的聚类程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的增量数据的聚类程序,并执行以下操作:
对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
当缓冲区中的增量数据达到上限时,对缓冲区中的增量数据聚类。
基于上述终端硬件结构,提出本申请各个实施例。
本申请提供一种增量数据的聚类方法。
参照图2,在增量数据的聚类方法第一实施例中,该方法包括:
步骤S10,对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
聚类可以通过不同数据间的相似度来将相近的数据划分到一类中,聚类的主要方法分为分裂法、层次法、基于密度的方法,基于网格的方法和基于模型的方法等。对于初始数据,在进行聚类前要进行预处理,例如对于音频数据,需要获取数据的特征向量,特征向量一般包括频率、振幅、声音能量等信息,在获取数据的特征向量后,需要对于数据进行无量纲化处理,通过无量纲化处理后可以使特征向量中各个变量的地位相近,不会出现绝对值大的变量的影响远远大于绝对值小的变量。常用的无量纲化处理包括对于初始数据的特征向量中的值进行标准差标准化或者极差标准化。对于初始数据,采用均值算法进行聚类,均值算法的聚类过程相对简单且快速。初始数据的数据量一般较大,均值算法相对较优。在聚类完成后,可以获得聚类中心以及聚类中心与其他初始数据组成的簇,簇即是聚类后的一个类,同一簇中的数据有着接近的特征。
步骤S20,计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
增量数据是与全局数据对应的,可以通过与初始数据对比得到增量数据,也可以通过系统中的日志文件获取。增量数据也是以特征向量的形式进行表示,对于每一个增量数据,计算其到由初始数据获得的各初始聚类中心的初始距离组,初始距离组包括增量数据到每一个初始聚类中心的距离。增量数据与初始聚类中心的距离可以是绝对值距离、欧式(Euclid)距离、契比雪夫(Chebychev)距离等,但是需要确保初始距离组中的距离是使用的同一标准下计算得到的距离。
步骤S30,若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
如果初始距离组中的最小距离不大于第一预设距离,说明增量数据与初始数据聚类得到的其中一个簇的数据比较接近,即可以聚类为一簇。此时直接将增量数据划入相应的簇中,不需要与初始数据重新进行全部数据的聚类迭代。
步骤S40,若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
当初始距离组中的最小距离大于第一预设距离,说明增量数据与初始数据的相似度均较低,为了聚类的准确性,则对于满足这种条件的增量数据暂时不进行聚类,将增量数据保存到缓冲区等待之后的聚类操作。
步骤S50,当缓冲区中的增量数据达到存储上限时,对缓冲区中的增量数据聚类;
缓冲区的存储空间在设置时不应该过大,一般可以设置为能存储数百条增量数据即可。限定缓冲区的大小可以使整个聚类过程中的存储空间使用相对可控,节约存储空间。当缓冲区的增量数据达到存储上限时,对于缓冲区中的增量数据进行聚类,缓冲区中的增量数据的聚类方法可以是均值聚类算法,也可以是基于密度的聚类方法,即增量数据的聚类方法可以与初始数据的聚类方法相同,也可以不同。同时将缓冲区中增量数据的聚类结果与之前初始数据与部分增量数据组成的聚类结果结合,就是最终所有数据的聚类结果。
在本实施例中,通过对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;若所述第一距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;当缓冲区中的增量数据达到上限时,对缓冲区中的增量数据聚类。对于获取的增量数据,不需要与初始数据一起全部重新迭代聚类,通过与初始聚类中心的距离对于增量数据进行聚类方式的区分,减少聚类方法的存储空间消耗同时效率更高。
进一步地,参照图3,在本申请增量数据的聚类方法第一实施例的基础上,提供增量数据的聚类方法第二实施例,在第二实施例中,
步骤S10包括:
步骤A1,按照初始数据确定初始聚类中心的数目;
对于均值聚类算法,聚类中心的个数会对聚类结果产生较大的影响,因此需要选择合适的聚类中心的数目。一般情况下,若初始数据的数目为n,那么初始聚类中心的数目可以在2到之间选择一个合适的值。例如初始数据为音频数据,可以将采集的初始数据的话者来源的个数作为聚类中心的个数,因为作为来自同一个话者的音频数据,其特征向量是比较接近的,即在聚类过程中会分入同一簇中,因此将话者个数作为聚类中心的个数所得到的聚类结果是相对最优的。对于其他类型的数据,也需要选择合适数目的初始聚类中心。参照图3,可以看出对于同样的数据,不同数目的聚类簇数会对聚类结果产生一定的影响。
步骤A2,根据所述初始聚类中心的数目,利用均值算法将初始数据聚类;
在确定了初始聚类中心的数目后,例如若初始聚类中心的数目为k,则可以从初始数据中任意选定k个数据作为初始聚类中心,计算其它初始数据到初始聚类中心的距离,如绝对值距离、欧式距离等,将其它初始数据划分到距离最近的聚类中心对应的簇中,再对于每个簇重新计算得到新的聚类中心,根据新的聚类中心重新将初始数据划分为不同的簇,再次计算新的簇中的聚类中心,重复这一过程,直到每一簇的聚类中心不再明显发生变化,也就完成了聚类过程。
在本实施例中,对于初始数据按照均值聚类得到初始聚类结果,得到各聚类中心和各聚类中心对应的簇,本实施例是对于初始数据的聚类方法和过程。
进一步地,在本申请增量数据的聚类方法第二实施例的基础上,提供增量数据的聚类方法第三实施例,在第三实施例中,
步骤S40之后包括:
步骤B,若所述初始距离组中存在至少两个小于第一预设距离的初始距离,则将所述小于第一预设距离的初始距离对应的初始数据的簇进行合并;
初始距离组中包含增量数据到初始聚类结果中的初始聚类中心的距离,如果初始距离组中存在至少两个小于第一预设距离的初始距离,则说明初始聚类结果中满足条件的多个参数距离对应的初始聚类中心距离间也较小,即对应的两个簇的簇间距离较小,簇间的相似度也较高,可以将两簇合并成一个簇,作为一个新的初始聚类结果中的簇。但是对于一些确定的存在差异的簇,例如初始数据是音频数据,并且聚类中心的数目与采集到的音频数据的话者来源数目是一致的,则可以不将两个不同的簇合并成一个簇。
在本实施例中,通过第一距离组中的距离将满足条件的两个簇合并成一个新的簇,这一实施例也是对于初始聚类结果的检验,验证之前聚类中心的选取是否合理。
进一步地,参照图2和图4,在本申请增量数据的聚类方法第一实施例的基础上,提供增量数据的聚类方法第四实施例,在第四实施例中,
步骤S50包括:
步骤S51,获取缓冲区中的增量数据的均值数据点;
将缓冲区中的所有增量数据进行统计,将增量数据的向量的各个分量进行均值计算,得到所有增量数据的均值数据点。均值数据点到各较远增量数据的距离会更加平均,均值数据点也会代表增量数据较为集中的区域。
步骤S52,将与所述均值数据点的距离超过第二预设距离的点作为缓冲区中的增量数据的增量聚类中心;
计算各增量数据到均值数据点的距离,第二预设距离可以根据需要的聚类中心的数目设置。将距离均值数据点距离较远的点作为增量聚类中心,可以使聚类时各簇的簇间距离相应地较大,使簇间的相似度较小,提高聚类的准确性。
步骤S53,计算各所述缓冲区中的增量数据到各所述增量聚类中心的聚类距离组;
这里依然可以采用均值聚类算法对于缓冲区中的增量数据进行聚类,但是对于实际使用的聚类方法不进行限制,均值聚类是基于各数据与聚类中心的距离来判断数据所属的聚类簇,每个缓冲区中除增量聚类中心外的其它增量数据都有着自己的聚类距离组。
步骤S54,将所述缓冲区中的增量数据添加到所述聚类距离组中最小距离对应的所述增量聚类中心的簇中,得到缓冲区中的增量数据的第一增量聚类结果;
聚类距离组中的最小值代表的就是与该增量数据最接近的增量聚类中心,即相似度相对较高的,在每一个缓冲区中的增量数据都聚类完成后,得到缓冲区中的增量数据的第一增量聚类结果,第一增量聚类结果包括增量数据的增量聚类中心和聚类得到的簇。
第四实施例也可以与第二实施例和/或第三实施例中的步骤进行结合。
在本实施例中,对于缓冲区中的增量数据按照均值聚类算法进行聚类,得到增量数据的第一增量聚类结果,第一增量聚类结果为缓冲区中的增量数据的初始的聚类结果。
进一步地,参照图4和图5,在本申请增量数据的聚类方法第四实施例的基础上,提供增量数据的聚类方法第五实施例,在第五实施例中,
步骤S53之后包括:
步骤S531,若所述聚类距离组中的距离均大于预设聚类距离,则对所述增量数据进行标记;
如果计算得到的聚类距离组中的距离均大于预设聚类距离,则说明其实该增量数据与各聚类中心的相似度都较低,不应该归入现有的聚类中心所属的簇中,对于满足这种条件的增量数据进行标记,便于与其他缓冲区中可以聚类到增量聚类中心的增量数据进行区分。
步骤S532,对所述标记过的增量数据进行聚类,得到第二增量聚类结果;
进行标记过的数据可能与前面求得的增量数据的均值数据点距离相对较近,而也就与初始聚类中心的距离相对较远,对于标记过按照均值聚类进行聚类,这里的聚类方法可以与第四实施例中使用的聚类方法相同,也可以不同,优选的是与第四实施例中的聚类方法相同。先从标记过的增量数据中选择聚类中心,再按照聚类算法得到第二增量聚类结果。
步骤S533,将所述第二增量聚类结果与所述第一增量聚类结果一起组成增量聚类结果,所述增量聚类结果包括增量数据的簇和增量数据的最终增量聚类中心;
第二增量聚类结果与第一增量聚类结果一起会组成增量聚类结果,从而完成对于缓冲区中所有增量数据的聚类,最终增量聚类中心包括初始聚类中心和标记过的增量数据得到的聚类中心,以及各个聚类中心对应的簇。
在本实施例中,对于缓冲区中的增量数据,与初始增量聚类中心距离较大的增量数据重新进行聚类,从而得到缓冲区中增量数据的增量聚类结果。
进一步地,参照图5和图6,在本申请增量数据的聚类方法第五实施例的基础上,提供增量数据的聚类方法第六实施例,在第六实施例中,
步骤S533之后包括:
步骤S54,将所述增量聚类结果与所述初始聚类结果放在同一度量空间内;
初始聚类结果是初始数据和部分增量数据组成的聚类结果,其中这部分增量数据是与初始数据的聚类中心相似度非常高,直接可以与初始数据进行聚类,最终增量聚类结果是缓冲区中的增量数据聚类得到的聚类结果,将初始聚类结果与最终增量聚类结果结合,得到全量数据的聚类结果,因为还需要对于聚类结果进行调整,因此需要将所有数据放在同一度量空间内,便于之后的重新聚类。
步骤S55,将所述度量空间等分为不同的区域;
步骤S56,计算每个所述区域中数据的区域密度;
再将度量空间等分为均匀的一个个区域,计算数据的区域密度,这里的数据指全量数据,即包括初始数据和增量数据。划分的区域的应该较大,最好根据聚类中心间的距离设置,尽量使同一个区域内不存在两个聚类中心。
步骤S57,将所述区域密度大于预设密度值的所述区域中的增量数据重新划分到最近的簇中,得到最终聚类结果;
这里借用的是基于密度的聚类方法的思想,用密度来度量类间相似性,当区域中的数据点的密度大于预设密度值时,就将该区域中的点加入到相近的聚类中。如果一个区域中包含两个聚类中心,则将两个聚类中心对应的两个簇合并成一个。用基于密度的聚类方法检验均值聚类的聚类结果,检查是否存在可以进行合并的簇。
本实施例中通过基于密度的聚类方法对于均值聚类方法得到的聚类结果进行验证,进一步加强聚类结果的准确性。
进一步地,在本申请增量数据的聚类方法第六实施例的基础上,提供增量数据的聚类方法第七实施例,在第七实施例中,
步骤S57之后包括:
步骤C1,统计所述最终聚类结果中各簇包含的数据个数;
步骤C2,若存在所述数据个数为一的孤立簇,则删除所述孤立簇;
当簇中的数据的个数只有一个时,说明该数据与其他数据的相似度都较低,因此该数据可能是采集到的误差较大的非正常数据,因此可以将这种数据直接删除。
在本实施例中,删除只有一个数据包含在内的孤立簇,以此删除数据中的明显出现错误的数据。
此外,参照图7,本申请实施例还提出一种增量数据的聚类装置,所述增量数据的聚类装置包括:
获取模块,用于对初始音频数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
计算模块,用于计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
添加模块,用于若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
保存模块,用于若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
聚类模块,用于当缓冲区中的增量数据达到存储上限时,对缓冲区中的增量数据聚类。
本申请设备和可读存储介质(即计算机可读存储介质)的具体实施方式的拓展内容与上述增量数据的聚类方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种增量数据的聚类方法,其特征在于,所述增量数据的聚类方法包括以下步骤:
对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
当缓冲区中的增量数据达到存储上限时,对缓冲区中的增量数据聚类。
2.如权利要求1所述的增量数据的聚类方法,其特征在于,所述对初始数据聚类的步骤包括:
按照初始数据确定初始聚类中心的数目;
根据所述初始聚类中心的数目,利用均值算法对初始数据聚类。
3.如权利要求1所述的增量数据的聚类方法,其特征在于,所述计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组的步骤之后包括:
若所述初始距离组中存在至少两个小于第一预设距离的初始距离,则将所述小于第一预设距离的初始距离对应的初始数据的簇进行合并。
4.如权利要求1所述的增量数据的聚类方法,其特征在于,所述当缓冲区中的增量数据达到上限时,对缓冲区中的增量数据聚类的步骤包括:
获取缓冲区中的增量数据的均值数据点;
将与所述均值数据点的距离超过第二预设距离的点作为缓冲区中的增量数据的增量聚类中心;
计算各所述缓冲区中的增量数据到各所述增量聚类中心的聚类距离组;
将所述缓冲区中的增量数据添加到所述聚类距离组中最小距离对应的所述增量聚类中心的簇中,得到缓冲区中的增量数据的第一增量聚类结果。
5.如权利要求4所述的增量数据的聚类方法,其特征在于,所述计算各所述缓冲区中的增量数据到各所述初始聚类中心的聚类距离组的步骤之后包括:
若所述聚类距离组中的距离均大于预设聚类距离,则对所述增量数据进行标记;
对所述标记过的增量数据进行聚类,得到第二增量聚类结果;
将所述第二增量聚类结果与所述第一增量聚类结果一起组成增量聚类结果,所述增量聚类结果包括增量数据的簇和增量数据的最终增量聚类中心。
6.如权利要求5所述的增量数据的聚类方法,其特征在于,所述将所述第二增量聚类结果与所述第一增量聚类结果一起组成增量聚类结果的步骤之后包括:
将所述增量聚类结果与所述初始聚类结果放在同一度量空间内;
将所述度量空间等分为不同的区域;
计算每个所述区域中数据的区域密度;
将所述区域密度大于预设密度值的所述区域中的增量数据重新划分到最近的簇中,得到最终聚类结果。
7.如权利要求6所述的增量数据的聚类方法,其特征在于,所述得到最终聚类结果的步骤之后包括:
统计所述最终聚类结果中各簇包含的数据个数;
若存在所述数据个数为一的孤立簇,则删除所述孤立簇。
8.一种增量数据的聚类装置,其特征在于,所述增量数据的聚类装置包括:
获取模块,用于对初始数据聚类,获取初始聚类结果,所述初始聚类结果包括初始数据的簇和各所述初始数据的簇的初始聚类中心;
计算模块,用于计算相对所述初始数据之后获取的增量数据到各所述初始聚类中心的初始距离组;
添加模块,用于若所述初始距离组中的最小距离不大于第一预设距离,则将所述增量数据添加到所述最小距离对应的初始聚类中心的簇中;
保存模块,用于若所述初始距离组中的最小距离大于第一预设距离,则将所述增量数据保存到缓冲区;
聚类模块,用于当缓冲区中的增量数据达到存储上限时,对缓冲区中的增量数据聚类。
9.一种增量数据的聚类设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的增量数据的聚类程序,所述增量数据的聚类程序被所述处理器执行时实现如权利要求1至7中任一项所述的增量数据的聚类方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的增量数据的聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099334.8A CN110866555A (zh) | 2019-11-11 | 2019-11-11 | 增量数据的聚类方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099334.8A CN110866555A (zh) | 2019-11-11 | 2019-11-11 | 增量数据的聚类方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866555A true CN110866555A (zh) | 2020-03-06 |
Family
ID=69654401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911099334.8A Pending CN110866555A (zh) | 2019-11-11 | 2019-11-11 | 增量数据的聚类方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866555A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257801A (zh) * | 2020-10-30 | 2021-01-22 | 浙江商汤科技开发有限公司 | 图像的增量聚类方法、装置、电子设备及存储介质 |
CN112699113A (zh) * | 2021-01-12 | 2021-04-23 | 上海交通大学 | 时序数据流驱动的工业制造流程运行监测系统 |
CN112766403A (zh) * | 2020-12-29 | 2021-05-07 | 广东电网有限责任公司电力科学研究院 | 一种基于信息增益权重的增量聚类方法及装置 |
CN114827864A (zh) * | 2022-06-28 | 2022-07-29 | 武汉左点科技有限公司 | 骨传导助听器声音信号匹配增益补偿方法及设备 |
CN115019078A (zh) * | 2022-08-09 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 数据聚类方法以及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715014A (zh) * | 2015-01-26 | 2015-06-17 | 中山大学 | 一种新闻在线话题检测方法 |
CN104899605A (zh) * | 2015-06-17 | 2015-09-09 | 大连理工大学 | 一种基于自动编码机实现数据增量聚类的方法 |
CN106970938A (zh) * | 2017-02-13 | 2017-07-21 | 上海大学 | 面向聚焦的Web网页获取和信息抽取方法 |
CN108717552A (zh) * | 2018-05-17 | 2018-10-30 | 南京大学 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
CN109492022A (zh) * | 2018-09-18 | 2019-03-19 | 南京邮电大学 | 基于语义的改进的k-means算法的搜索方法 |
CN109685128A (zh) * | 2018-12-18 | 2019-04-26 | 电子科技大学 | 一种MB-kmeans++聚类方法及基于其的用户会话聚类方法 |
CN110110736A (zh) * | 2018-04-18 | 2019-08-09 | 爱动超越人工智能科技(北京)有限责任公司 | 增量聚类方法和装置 |
-
2019
- 2019-11-11 CN CN201911099334.8A patent/CN110866555A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715014A (zh) * | 2015-01-26 | 2015-06-17 | 中山大学 | 一种新闻在线话题检测方法 |
CN104899605A (zh) * | 2015-06-17 | 2015-09-09 | 大连理工大学 | 一种基于自动编码机实现数据增量聚类的方法 |
CN106970938A (zh) * | 2017-02-13 | 2017-07-21 | 上海大学 | 面向聚焦的Web网页获取和信息抽取方法 |
CN110110736A (zh) * | 2018-04-18 | 2019-08-09 | 爱动超越人工智能科技(北京)有限责任公司 | 增量聚类方法和装置 |
CN108717552A (zh) * | 2018-05-17 | 2018-10-30 | 南京大学 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
CN109492022A (zh) * | 2018-09-18 | 2019-03-19 | 南京邮电大学 | 基于语义的改进的k-means算法的搜索方法 |
CN109685128A (zh) * | 2018-12-18 | 2019-04-26 | 电子科技大学 | 一种MB-kmeans++聚类方法及基于其的用户会话聚类方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257801A (zh) * | 2020-10-30 | 2021-01-22 | 浙江商汤科技开发有限公司 | 图像的增量聚类方法、装置、电子设备及存储介质 |
CN112257801B (zh) * | 2020-10-30 | 2022-04-29 | 浙江商汤科技开发有限公司 | 图像的增量聚类方法、装置、电子设备及存储介质 |
WO2022088390A1 (zh) * | 2020-10-30 | 2022-05-05 | 浙江商汤科技开发有限公司 | 图像的增量聚类方法、装置、电子设备、存储介质及程序产品 |
CN112766403A (zh) * | 2020-12-29 | 2021-05-07 | 广东电网有限责任公司电力科学研究院 | 一种基于信息增益权重的增量聚类方法及装置 |
CN112699113A (zh) * | 2021-01-12 | 2021-04-23 | 上海交通大学 | 时序数据流驱动的工业制造流程运行监测系统 |
CN114827864A (zh) * | 2022-06-28 | 2022-07-29 | 武汉左点科技有限公司 | 骨传导助听器声音信号匹配增益补偿方法及设备 |
CN115019078A (zh) * | 2022-08-09 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 数据聚类方法以及装置 |
CN115019078B (zh) * | 2022-08-09 | 2023-01-24 | 阿里巴巴(中国)有限公司 | 车辆图像处理方法、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866555A (zh) | 增量数据的聚类方法、装置、设备及可读存储介质 | |
WO2019051941A1 (zh) | 车型识别方法、装置、设备及计算机可读存储介质 | |
CN109145926B (zh) | 相似图片识别方法及计算机设备 | |
CN108268366B (zh) | 测试用例执行方法及装置 | |
US11507038B2 (en) | Quality control method and computing device utilizing method | |
CN103353881A (zh) | 一种应用程序搜索方法及装置 | |
CN104991847A (zh) | 一种内存泄露自动化检测方法、装置及移动终端 | |
CN111598084B (zh) | 缺陷分割网络训练方法、装置、设备及可读存储介质 | |
TWI818496B (zh) | 指紋識別方法、指紋模組及電子設備 | |
CN110851987A (zh) | 基于加速比预测计算时长的方法、装置和存储介质 | |
CN109710510B (zh) | 代码提交方法、装置、设备及可读存储介质 | |
CN111221827B (zh) | 基于图形处理器的数据库表连接方法、装置、计算机设备和存储介质 | |
CN112420066B (zh) | 降噪方法、装置、计算机设备和计算机可读存储介质 | |
CN108520178B (zh) | 一种基于CFSFDP聚类的Android平台入侵检测方法 | |
CN110717486B (zh) | 文本检测方法、装置、电子设备和存储介质 | |
CN116363641A (zh) | 一种图像处理方法、装置及电子设备 | |
CN114463367A (zh) | 一种图像处理方法和装置 | |
CN110796200B (zh) | 数据分类方法、终端、装置及存储介质 | |
CN111726861B (zh) | 异构设备室内定位方法、装置、系统和存储介质 | |
CN110737593B (zh) | 智能容量管理方法、装置及存储介质 | |
CN111339196B (zh) | 基于区块链的数据处理方法、系统及计算机可读存储介质 | |
CN113612717A (zh) | 频偏校准方法、装置、电子设备及存储介质 | |
CN110705627A (zh) | 目标检测方法、目标检测系统、装置及可读存储介质 | |
CN111400181A (zh) | 对象测试方法、装置和服务器 | |
CN110674994A (zh) | 数据价值评估方法、终端、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |
|
RJ01 | Rejection of invention patent application after publication |