CN108268526A - 一种数据分类方法和装置 - Google Patents
一种数据分类方法和装置 Download PDFInfo
- Publication number
- CN108268526A CN108268526A CN201611264188.6A CN201611264188A CN108268526A CN 108268526 A CN108268526 A CN 108268526A CN 201611264188 A CN201611264188 A CN 201611264188A CN 108268526 A CN108268526 A CN 108268526A
- Authority
- CN
- China
- Prior art keywords
- cluster
- sample data
- numbers
- sample
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据分类方法和装置,用以提高数据分类结果准确性。所述数据分类方法,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据分类方法和装置。
背景技术
现有的电信用户分类过程如图1所示,包括以下几个步骤:数据收集、属性选择、数据预处理、聚类分析、模型调整、营销策略,这几个步骤形成一个闭环,通过不断的优化数据来提高用户分类结果的准确性。
上述分类方法中,聚类分析为核心模块,仅根据在数据中发现的对象及其之间的关系,将数据对象分组,使得组内的对象间有较高相似度,不同组中的对象有较高的差异度。当前主流的数据分析工具(如SPSS)和数据挖掘建模平台(如TipDM),大多采用K-means算法实现,算法描述如下:
输入:样本数据集X={x1,x2,x3,…,xn},期望划分的类簇数目k。
输出:满足终止条件的k个簇。算法实施的具体流程如下:
开始(Begin):
在数据集X中随机选取k个初始聚类中心,表示为其中,上标表示迭代次数,为了便于描述以下记为p。
重复(Repeat)如下步骤:
1.对任意xj∈X,若则将xj指派到所代表的类簇中;
2.重新计算每个类簇的聚类中心,即其中,mi为聚类Ci中的样本点数。
直到满足以下条件(Until):
或最小。
在K-means算法中,dist(xj,ci)表示样本点xj与聚类中心点ci之间的欧式距离,SSE为簇内误差平方和。K-means算法的实质就是通过重复迭代得到k个最优聚类中心,并将其他样本点指派到离它最近的聚类中心,使簇内误差平方和SSE最小的过程。
现有的分类方法中,需要预先输入期望划分的类簇的数目k,而在实际应用中,k是未知的,不准确的k值会导致聚类质量下降。
发明内容
本发明实施例提供了一种数据分类方法和装置,用以提高数据分类结果准确性。
本发明实施例提供一种数据分类方法,包括:
获取预处理后的待分类样本数据集合;
针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及
针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;
确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
本发明实施例提供一种数据分类装置,包括:
获取单元,用于获取预处理后的待分类样本数据集合;
聚类单元,用于针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法将所述样本数据集合聚类为相应数量的类簇;
聚类结果评价单元,用于针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;
确定单元,用于确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
本发明实施例提供的数据分类方法和装置中,不再固定聚类数目,对于一定范围内的聚类数目分别确定该聚类数目对应的聚类结果,并计算相应的聚类结果评价指标值,将聚类结果评价指标值最高的聚类结果作为最终聚类结果,由此,避免了由于聚类数目固定而可能错过最优聚类结果的问题,提高了聚类结果的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中,实施例一提供的数据聚类方法的实施流程示意图;
图2为本发明实施例中,利用任一聚类数对样本数据集合进行聚类得到相应的聚类结果的实施流程示意图;
图3为本发明实施例中,确定聚类中心集合的实施流程示意图;
图4为本发明实施例中,实施例二提供的数据聚类方法的实施流程示意图;
图5为本发明实施例中,数据聚类装置的结构示意图。
具体实施方式
为了提高数据分类结果的准确性,本发明实施例提供了一种数据分类方法和装置。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
现有的数据分类方法中,随机选取初始中心点,不能很好地代表数据的分布情况,在更新过程中需要通过反复计算来确定最优聚类结果,迭代次数增加;其次,上述方法中有一定的概率选取孤立点作为初始中心,使得聚类结果的准确率降低。因此,找到有代表性的初始中心点能够优化聚类质量,并减少迭代时间。另外,上述方法中,需要预先输入期望划分的类簇的数目k,而在实际应用中,k是未知的,不准确的k值会导致聚类质量下降。
有鉴于此,本发明实施例提供了一种分类方法,如图1所示,其为本发明实施例提供的数据分类方法的实施流程示意图,可以包括以下步骤:
S11、获取预处理后的待分类样本数据集合。
本步骤中,从数据源获取大规模、多属性的用户信息,根据实际需求和各属性之间的关联关系进行维度约减,之后的数据预处理包括数据的抽取/清洗/转换得到待分类样本数据集合。
S12、针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇。
S13、针对每一聚类数,确定该聚类数对应的聚类结果评价指标值。
S14、确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
具体实施时,步骤S12中可以按照图2所示的流程实施,包括以下步骤:
S121、针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度。
为了衡量多维空间中样本数据之间的密集程度,本发明实施例中引入了样本密度的概念。较佳地,具体实施时,针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。
具体地,以样本数据xj为中心,以r为有效密度半径(即上述的第二预设值)形成一个超球体区域,该区域内的样本数据的数量记为样本数据xj的样本密度Densr(xj),即:
Densr(xj)={xr∈X|dist(xj,xr)≤r} (1)
其中,有效密度半径r采用全局样本欧式距离的标准差形式体现,具体的,可以表示为:
其中,dist(xi,xj)表示样本数据xi与样本数据xj之间的欧式距离,avgdist(xi,xj)表示样本数据集合中包含的所有样本数据之间的欧式距离平均值,n表示样本数据集合中包含的样本数据数量。
S122、选择样本密度大于第一预设值的样本数据组成样本数据子集。
对于样本数据集合X中样本密度较小的样本数据xj,认为是孤立点,不能选作聚类中心,为了消除孤立点对初始聚类中心点的影响,本发明实施例中,在选择聚类中心时,可以设定最低密度阈值,即选择样本密度大于第一预设值(即上述的最低密度阈值,记为minDs)的样本数据组成样本数据子集,进而从该样本数据子集中选择聚类中心。
较佳的,可以按照以下公式确定本步骤中涉及的第一预设值:
S123、针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合。
具体实施时,可以根据实际需要设置聚类数k的取值范围,本发明实施例中对此不进行限定。例如,可以设置k的取值范围为其中,n为样本数据集合中包含的样本数据数量。
S124、以该聚类数作为期望聚类数,以所述聚类中心集合作为初始聚类中心集合,利用K-means算法对所述样本数据集合进行聚类得到聚类结果。
其中,步骤S123中,可以按照图3所示的流程实施,包括以下步骤:
S1231、针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中将样本密度最高的样本数据加入所述聚类中心集合中。
假设待分类样本数据集合表示为X={x1,x2,x3,…,xn},期望将其划分为k个类簇C1,C2,…,Ck,且Ci∩Cj=φ,(i≠j,i≤k,j≤k),相应的聚类中心记为c1,c2,…,ck。高密度样本点集合为D,最高密度点集合为T,聚类中心集合为上标表示第p次迭代。
本发明实施例中,初始聚类中心为逐个选取的,首先将D中样本密度最高的样本数据加入聚类中心集合M(0)中。
S1232、从所述样本数据子集中剩余的样本数据中选择满足以下条件的样本数据加入所述聚类中心集合中,直至所述聚类中心集合中包含的样本数据数量达到当前相应的聚类数:与当前聚类中心集合中包含的每一样本数据之间的距离均大于第三预设值,且与当前聚类中心集合中包含的每一样本数据之间的距离之和最大。
具体地,从D中选取到集合M(0)中当前包含的每一样本数据距离大于第三预设值ε,且与集合M(0)中当前包含的所有样本数据之间的距离之和最大的样本数据作为下一个初始聚类中心加入到M(0),即针对D中任一样本数据di如果其满足以下两个条件,则将该样本数据加入到集合M(0)作为初始聚类中心:
其中,第三预设值ε可以根据实际需要进行设置,较佳地,ε∈[r,2r],例如,可以设置ε=1.3r。
需要说明的是,具体实施时,如果D中密度最高的样本数据不唯一,则本发明实施例中,可以按照以下方法获得最终的聚类中心:针对每一样本密度最高的样本数据,分别确定该样本密度最高的样本数据对应的聚类中心集合(可以根据图3所示的流程实施);并确定该样本密度最高的样本数据对应的聚类中心集合中、其它样本数据与该样本密度最高的样本数据之间的距离之和;选择距离之和最大的、样本密度最高的样本数据对应的聚类中心集合为最终的聚类中心集合。
基于此,本发明实施例中,如果样本数据子集中包含的样本密度最高的样本数据有多个,则可以将样本密度最高的样本数据加入集合T中,每次从T中选择一个样本数据作为初始聚类中心,按照图3所示的流程得到相应的聚类中心集合M(0),这样,可以得到多个M(0),假设D中密度最高的样本数据有m个,则可以得到m个M(0),本发明实施例中,引入类簇间距离准则,选择与初始聚类中心距离总和最大的M(0)作为最终的M(0),以保证类簇之间的分离性。即根据本发明实施例,最终选择出的M(0)中,包含的每一个聚类中心(除初始聚类中心以外的其它聚类中心)与初始聚类中心(即D中密度最高的样本数据之一)之间的距离之和最大。
本发明实施例中,为了对聚类结果进行分析评价,引入了类内距离和类间距离。具体地,定义第i个类簇Ci的类内距离distwith(Ci)为该类簇中各个样本数据到聚类中心ci距离的平均值,即:
其中,mi为类簇Ci中包含的样本数据数量。
定义第i个类簇Ci的类间距离distbetween(Ci)为其聚类中心ci到其最近邻类簇cj的距离,即ci到其他聚类中心点距离的最小值,即:
相应地,本发明实施例中定义了类簇的聚类结果评价指标值,记为CBWPk,其中,k表示相应的聚类数,类簇Ci的有效性指标CBWPk(i)能同时反映类内紧密性和类间分离性,本发明实施例中,类簇Ci的有效性指标CBWPk(i)定义如下:
将样本数据集合X划分成k个类簇,则聚类结果的CBWPk记为:
通过CBWPk指标来确定最佳聚类数,其取值范围为[-1,1],且CBWPk指标越大说明样本数据集合X的聚类效果越好,最佳聚类数kopt可以表示为:
基于此,步骤S13中可以按照以下方法确定每一聚类数对应的聚类结果评价指标值:针对每一聚类数,按照以下公式确定该聚类数对应的聚类结果评价指标值:其中:k表示预设聚类数的取值范围中包含的任一聚类数;i表示根据聚类数k对所述样本数据集合进行聚类得到的任一类簇对应的类簇标识;CBWPk表示聚类数k对应的聚类结果评价指标值;distwithin表示任一类簇对应的类内距离,定义为该类簇中各样本数据与该类簇的聚类中心之间距离的平均值;distbetween表示任一类簇对应的类间距离,定义为该类簇与其它类簇之间距离的最小值,其中两个类簇之间的距离定义为两个类簇的聚类中心之间的距离。
本发明实施例中,首先给定聚类数的范围[kmin,kmax],每次取一个确定的k值进行聚类分析,其次根据公式(9)评价聚类结果,根据公式(10)找出最优结果对应的k值,即最佳聚类数kopt。
具体地,聚类分析过程为:对于样本数据集合X中的每个样本数据xj,由公式(2)计算出有效密度半径r,由公式(1)得到该样本数据的样本密度Densr(xj),将样本密度大于minDs的样本数据放入高密度样本数据子集D中。将D中密度最高的样本数据放入集合M(0)中,同时从集合D中去除该样本数据。依次遍历集合D中的样本数据di,若满足公式(4)和公式(5)两个条件,则加入集合M(0)中,并从集合D中删除,直到M(0)中有k个样本数据。
若D中密度最高的样本数据不唯一,将其存入集合T中,每次选择一个T中的样本数据作为第一个初始聚类中心,到多个M(0)集合,通过引入类簇间距离之和的准则,选择与初始聚类中心距离总和最大的一组作为最终M(0),保证了类簇之间的分离性。
为了更好地理解本发明实施例,以下结合具体的实施例对本发明的实施过程进行说明。如图4所示,可以包括以下步骤:
S41、获取待分类样本数据集合。
S42、令k=2;
S43、判断k是否小于预设值,如果是,则执行步骤S44,否则,执行步骤S414。
具体实施时,本步骤中涉及的预设值可以设置为sqrt(n)(即)。
S44、确定高密度样本数据集合。
本步骤中,针对样本数据集合中包含的每一样本数据,利用公式(1)确定该样本数据的样本密度,选择样本密度大于预设的最小密度阈值的样本数据组成高密度样本数据集合D。
S45、判断高密度样本集合中最高密度样本是否唯一,如果是,执行步骤S46,否则,执行步骤S47。
S46、将该样本数据加入聚类中心集合中,并执行步骤S49。
S47、确定最高密度样本数据集合。
本步骤中,如果高密度样本数据集合D中包含的最高密度样本数据有多个,则确定D最高密度样本数据组成最高密度样本数据集合T。
S48、从最高密度样本数据集合取出一个样本数据,作为最高密度样本数据加入聚类中心集合中。
需要说明的是,针对最高密度样本数据集合中包含的每一样本数据,均执行步骤S48~步骤S410。
S49、将该样本数据从高密度样本数据集合中删除。
本步骤中,将加入聚类中心集合中的样本数据从高密度样本数据集合D中删除。
S410、判断聚类中心集合中包含的样本数据数量是否为k,如果是,则执行步骤S411,否则执行步骤S413。
S411、以聚类中心集合作为初始聚类中心集合,以k为期望聚类数,利用K-means算法对待分类样本数据集合进行聚类得到聚类结果。
本步骤中,需要说明的是,如果最高密度样本数据有多个,则针对每一最高密度样本数据,通过执行步骤S48~步骤S410得到该最高密度样本数据对应的聚类中心集合,确定得到每一聚类中心集合的类簇间距离和,其中,类簇间距离和是指得到的聚类中心集合中除该最高密度样本数据以外的其它样本数据与该最高密度样本数据之间的距离之和,即分别计算其它样本数据与该最高密度样本数据之间的距离之后,再求和得到类簇间距离和。
S412、确定聚类结果评价指标值。
S413、k=k+1,并执行步骤S43。
S414、选择聚类结果评价指标值最高的聚类结果输出,并输出相应的k值。
实现本发明实施例提供的数据分类方法算法描述如下:
输入:样本集X={x1,x2,…,xn}。
输出:最佳聚类数kopt,满足终止条件的k个类簇。
Begin:
1.令kmin=2,kmax=sqrt(n)
2.for k=kmin to kmax
1.1执行DDK-means算法,记录聚类结果;
1.2按照公式(9)计算指定k值的CBWPk
3.按照公式(10),输出最佳聚类数kopt,及其相应的聚类结果。
End
其中Step2.1的过程可展开为:
输入:样本集X={x1,x2,…,xn},期望划分的类簇数目k;
输出:满足终止条件的k个类簇。
Begin:
1.令集合D={},T={},M(p)={}。
2.对每个xj∈X,根据公式(2)得到r,根据公式(1)得到Densr(xj),根据公式(3)得到minDs。
3.if Densr(xj)>minDs,then
D=D∪{xj},即D=D∪{xj|Densr(xj)>minDs,xj∈X}
4.取di∈D
4.1if di满足Densr(di)>Densr(dj),di,dj∈D and i≠j,then
M1 (0)[1]=dj,即:M1 (0)[1]={dj|Densr(dj)>Densr(di),di,dj∈D,i≠j}
4.2else if di满足Densr(di)≥Densr(dj),di,dj∈D and i≠j,then
T=T∪di,即:T=T∪{dj|Densr(dj)≥Densr(di),di,dj∈D,i≠j}
假定|T|=t,得到t个M(0)[1]的值,分别为:
M1 (0)[1]=T[1],M2 (0)[2]=T[2],…,Mt (0)[t]=T[t]
5.for t=1to|T|
5.1D=D-Mt (0)
5.2Repeat:
遍历di∈D,if公式(4)和公式(5)成立,then
Mt (0)=Mt (0)∪dj
Until:
|Mt (0)|=k
6.对于Mt (0),ifthen
取作初始聚类中心点集合M(0)。
7.以M(0)集合为初始聚类中心点进行K-means聚类分析;
8.输出满足终止条件的k个类簇;
End
本发明实施例提供了一种初始聚类中心点选取的新方法,首先根据密度将样本数据集合划分,在高密度样本数据集合中选择离散程度较高的样本数据,组成初始聚类中心集合,选取其中离散程度最高的样本数据作为初始聚类中心。在样本密度最高的样本数据不唯一时生成多组初始聚类中心集合,通过距离和准则选择离散程度最高的一组。
另外,本发明实施例还提出了一种聚类结果评价指标CBMP,以聚类结果中的每个类簇为分析对象,分别计算聚类中心与该类簇中各个样本数据的平均距离、与最近邻类簇的聚类中心距离,取该距离差与距离和的比值。
本发明实施例提出了一种初始聚类中心选取的新方法,摒除了噪音对聚类结果的影响,同时解决了传统k-means算法随机初始中心点不具有代表性的缺点。本发明实施例提出了一种新的聚类有效性评价指标CBMP,以聚类结果中的每个类簇为分析对象,综合考虑类内紧密型和类间分离性,并保证了最优解的全局性。根据本发明实施例提供的数据分类方法,不再固定聚类数目,对于一定范围内的聚类数目分别确定该聚类数目对应的聚类结果,并计算相应的聚类结果评价指标值,将聚类结果评价指标值最高的聚类结果作为最终聚类结果,由此,避免了由于聚类数目固定而可能错过最优聚类结果的问题,提高了聚类结果的准确性。
基于同一发明构思,本发明实施例中还提供了一种数据分类装置,由于上述装置解决问题的原理与上述的数据分类方法相似,因此上述装置及设备的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,其为本发明实施例提供的数据分类装置的结构示意图,可以包括:
获取单元51,用于获取预处理后的待分类样本数据集合;
聚类单元52,用于针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法将所述样本数据集合聚类为相应数量的类簇;
聚类结果评价单元53,用于针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;
确定单元54,用于确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
优选地,所述聚类单元52,具体包括:
确定子单元,用于针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度;
第一选择子单元,用于选择样本密度大于第一预设值的样本数据组成样本数据子集;
第二选择子单元,用于针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合;
聚类子单元,用于以该聚类数作为期望聚类数,以所述聚类中心集合作为初始聚类中心集合,利用K-means算法对所述样本数据集合进行聚类得到聚类结果。
优选地,所述确定子单元,具体用于针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。
优选地,所述第二选择子单元,具体用于针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中将样本密度最高的样本数据加入所述聚类中心集合中;并从所述样本数据子集中剩余的样本数据中选择满足以下条件的样本数据加入所述聚类中心集合中,直至所述聚类中心集合中包含的样本数据数量达到当前相应的聚类数:与当前聚类中心集合中包含的每一样本数据之间的距离均大于第三预设值,且与当前聚类中心集合中包含的每一样本数据之间的距离之和最大。
优选地,所述第二选择子单元,包括:
第一确定模块,用于如果样本数据子集中包含的样本密度最高的样本数据有多个,则按照以下方法获得所述聚类中心集合:针对每一样本密度最高的样本数据,分别确定该样本密度最高的样本数据对应的聚类中心集合;
选择模块,用于确定该样本密度最高的样本数据对应的聚类中心集合中、其它样本数据与该样本密度最高的样本数据之间的距离之和;
选择模块,用于选择距离之和最大的、样本密度最高的样本数据对应的聚类中心集合为最终的聚类中心集合。
优选地,所述确定单元54,具体用于针对每一聚类数,按照以下公式确定该聚类数对应的聚类结果评价指标值: 其中:
k表示预设聚类数的取值范围中包含的任一聚类数;
i表示根据聚类数k对所述样本数据集合进行聚类得到的任一类簇对应的类簇标识;
CBWPk表示聚类数k对应的聚类结果评价指标值;
distwithin表示任一类簇对应的类内距离,定义为该类簇中各样本数据与该类簇的聚类中心之间距离的平均值;
distbetween表示任一类簇对应的类间距离,定义为该类簇与其它类簇之间距离的最小值,其中两个类簇之间的距离定义为两个类簇的聚类中心之间的距离。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种数据分类方法,其特征在于,包括:
获取预处理后的待分类样本数据集合;
针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及
针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;
确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
2.如权利要求1所述的方法,其特征在于,针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇,具体包括:
针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度;
选择样本密度大于第一预设值的样本数据组成样本数据子集;
针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合;并
以该聚类数作为期望聚类数,以所述聚类中心集合作为初始聚类中心集合,利用K-means算法对所述样本数据集合进行聚类得到聚类结果。
3.如权利要求2所述的方法,其特征在于,针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度,具体包括:
针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。
4.如权利要求3所述的方法,其特征在于,针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合,具体包括:
针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中将样本密度最高的样本数据加入所述聚类中心集合中;并
从所述样本数据子集中剩余的样本数据中选择满足以下条件的样本数据加入所述聚类中心集合中,直至所述聚类中心集合中包含的样本数据数量达到当前相应的聚类数:与当前聚类中心集合中包含的每一样本数据之间的距离均大于第三预设值,且与当前聚类中心集合中包含的每一样本数据之间的距离之和最大。
5.如权利要求4所述的方法,其特征在于,如果样本数据子集中包含的样本密度最高的样本数据有多个,则按照以下方法获得所述聚类中心集合:
针对每一样本密度最高的样本数据,分别确定该样本密度最高的样本数据对应的聚类中心集合;并
确定该样本密度最高的样本数据对应的聚类中心集合中、其它样本数据与该样本密度最高的样本数据之间的距离之和;
选择距离之和最大的、样本密度最高的样本数据对应的聚类中心集合为最终的聚类中心集合。
6.如权利要求1~5任一权利要求所述的方法,其特征在于,针对每一聚类数,确定该聚类数对应的聚类评结果价指标值,具体包括:
针对每一聚类数,按照以下公式确定该聚类数对应的聚类结果评价指标值:其中:
k表示预设聚类数的取值范围中包含的任一聚类数;
i表示根据聚类数k对所述样本数据集合进行聚类得到的任一类簇对应的类簇标识;
CBWPk表示聚类数k对应的聚类结果评价指标值;
distwithin表示任一类簇对应的类内距离,定义为该类簇中各样本数据与该类簇的聚类中心之间距离的平均值;
distbetween表示任一类簇对应的类间距离,定义为该类簇与其它类簇之间距离的最小值,其中两个类簇之间的距离定义为两个类簇的聚类中心之间的距离。
7.一种数据分类装置,其特征在于,包括:
获取单元,用于获取预处理后的待分类样本数据集合;
聚类单元,用于针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法将所述样本数据集合聚类为相应数量的类簇;
聚类结果评价单元,用于针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;
确定单元,用于确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
8.如权利要求7所述的装置,其特征在于,所述聚类单元,具体包括:
确定子单元,用于针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度;
第一选择子单元,用于选择样本密度大于第一预设值的样本数据组成样本数据子集;
第二选择子单元,用于针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合;
聚类子单元,用于以该聚类数作为期望聚类数,以所述聚类中心集合作为初始聚类中心集合,利用K-means算法对所述样本数据集合进行聚类得到聚类结果。
9.如权利要求8所述的装置,其特征在于,
所述确定子单元,具体用于针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。
10.如权利要求9所述的装置,其特征在于,
所述第二选择子单元,具体用于针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中将样本密度最高的样本数据加入所述聚类中心集合中;并从所述样本数据子集中剩余的样本数据中选择满足以下条件的样本数据加入所述聚类中心集合中,直至所述聚类中心集合中包含的样本数据数量达到当前相应的聚类数:与当前聚类中心集合中包含的每一样本数据之间的距离均大于第三预设值,且与当前聚类中心集合中包含的每一样本数据之间的距离之和最大。
11.如权利要求10所述的装置,其特征在于,所述第二选择子单元,包括:
第一确定模块,用于如果样本数据子集中包含的样本密度最高的样本数据有多个,则按照以下方法获得所述聚类中心集合:针对每一样本密度最高的样本数据,分别确定该样本密度最高的样本数据对应的聚类中心集合;
选择模块,用于确定该样本密度最高的样本数据对应的聚类中心集合中、其它样本数据与该样本密度最高的样本数据之间的距离之和;
选择模块,用于选择距离之和最大的、样本密度最高的样本数据对应的聚类中心集合为最终的聚类中心集合。
12.如权利要求7~11任一权利要求所述的装置,其特征在于,
所述确定单元,具体用于针对每一聚类数,按照以下公式确定该聚类数对应的聚类结果评价指标值:其中:
k表示预设聚类数的取值范围中包含的任一聚类数;
i表示根据聚类数k对所述样本数据集合进行聚类得到的任一类簇对应的类簇标识;
CBWPk表示聚类数k对应的聚类结果评价指标值;
distwithin表示任一类簇对应的类内距离,定义为该类簇中各样本数据与该类簇的聚类中心之间距离的平均值;
distbetween表示任一类簇对应的类间距离,定义为该类簇与其它类簇之间距离的最小值,其中两个类簇之间的距离定义为两个类簇的聚类中心之间的距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264188.6A CN108268526A (zh) | 2016-12-30 | 2016-12-30 | 一种数据分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264188.6A CN108268526A (zh) | 2016-12-30 | 2016-12-30 | 一种数据分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108268526A true CN108268526A (zh) | 2018-07-10 |
Family
ID=62755265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611264188.6A Pending CN108268526A (zh) | 2016-12-30 | 2016-12-30 | 一种数据分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268526A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271462A (zh) * | 2018-11-23 | 2019-01-25 | 河北航天信息技术有限公司 | 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 |
CN109685092A (zh) * | 2018-08-21 | 2019-04-26 | 中国平安人寿保险股份有限公司 | 基于大数据的聚类方法、设备、存储介质及装置 |
CN109886284A (zh) * | 2018-12-12 | 2019-06-14 | 同济大学 | 基于层次化聚类的欺诈检测方法及系统 |
CN110895706A (zh) * | 2019-11-07 | 2020-03-20 | 苏宁云计算有限公司 | 一种目标聚类数的获取方法、装置及计算机系统 |
CN111061890A (zh) * | 2019-12-09 | 2020-04-24 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
WO2020113363A1 (en) * | 2018-12-03 | 2020-06-11 | Siemens Mobility GmbH | Method and apparatus for classifying data |
CN113468419A (zh) * | 2021-06-28 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备和存储介质 |
CN113723507A (zh) * | 2021-08-30 | 2021-11-30 | 联仁健康医疗大数据科技股份有限公司 | 数据分类标识确定方法、装置、电子设备及存储介质 |
WO2023016087A1 (zh) * | 2021-08-09 | 2023-02-16 | 腾讯科技(深圳)有限公司 | 图像聚类方法、装置、计算机设备及存储介质 |
-
2016
- 2016-12-30 CN CN201611264188.6A patent/CN108268526A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685092A (zh) * | 2018-08-21 | 2019-04-26 | 中国平安人寿保险股份有限公司 | 基于大数据的聚类方法、设备、存储介质及装置 |
CN109685092B (zh) * | 2018-08-21 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 基于大数据的聚类方法、设备、存储介质及装置 |
CN109271462A (zh) * | 2018-11-23 | 2019-01-25 | 河北航天信息技术有限公司 | 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 |
WO2020113363A1 (en) * | 2018-12-03 | 2020-06-11 | Siemens Mobility GmbH | Method and apparatus for classifying data |
CN109886284A (zh) * | 2018-12-12 | 2019-06-14 | 同济大学 | 基于层次化聚类的欺诈检测方法及系统 |
CN110895706A (zh) * | 2019-11-07 | 2020-03-20 | 苏宁云计算有限公司 | 一种目标聚类数的获取方法、装置及计算机系统 |
CN110895706B (zh) * | 2019-11-07 | 2022-12-27 | 苏宁云计算有限公司 | 一种目标聚类数的获取方法、装置及计算机系统 |
CN111061890A (zh) * | 2019-12-09 | 2020-04-24 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
CN111061890B (zh) * | 2019-12-09 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
CN113468419A (zh) * | 2021-06-28 | 2021-10-01 | 北京达佳互联信息技术有限公司 | 内容推荐方法、装置、电子设备和存储介质 |
WO2023016087A1 (zh) * | 2021-08-09 | 2023-02-16 | 腾讯科技(深圳)有限公司 | 图像聚类方法、装置、计算机设备及存储介质 |
CN113723507A (zh) * | 2021-08-30 | 2021-11-30 | 联仁健康医疗大数据科技股份有限公司 | 数据分类标识确定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268526A (zh) | 一种数据分类方法和装置 | |
CN110443281B (zh) | 基于hdbscan聚类的文本分类自适应过采样方法 | |
CN111400180B (zh) | 一种基于特征集划分和集成学习的软件缺陷预测方法 | |
CN106096727A (zh) | 一种基于机器学习的网络模型构造方法及装置 | |
Li et al. | Interval kernel fuzzy c-means clustering of incomplete data | |
CN109948647A (zh) | 一种基于深度残差网络的心电图分类方法及系统 | |
CN101853389A (zh) | 多类目标的检测装置及检测方法 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN108280472A (zh) | 一种基于局部密度和聚类中心优化的密度峰聚类方法 | |
CN109669990A (zh) | 一种基于dbscan对密度不规则数据进行异常挖掘的改进算法 | |
CN111259933B (zh) | 基于分布式并行决策树的高维特征数据分类方法及系统 | |
CN106845536B (zh) | 一种基于图像缩放的并行聚类方法 | |
CN108280236A (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
Chang et al. | A genetic clustering algorithm using a message-based similarity measure | |
Long et al. | Clustering stock data for multi-objective portfolio optimization | |
CN110956277A (zh) | 一种交互式的迭代建模系统及方法 | |
CN113269200A (zh) | 一种基于少数类样本空间分布的不平衡数据过采样方法 | |
CN109635104A (zh) | 数据分类标识方法、装置、计算机设备及可读存储介质 | |
CN111814979B (zh) | 一种基于动态规划的模糊集自动划分方法 | |
CN108388769B (zh) | 基于边驱动的标签传播算法的蛋白质功能模块识别方法 | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
Alzu'bi et al. | Automatic BIRCH thresholding with features transformation for hierarchical breast cancer clustering | |
CN111950652A (zh) | 一种基于相似度的半监督学习数据分类算法 | |
Gupta et al. | Feature selection: an overview | |
Xie et al. | Two-stage evolutionary algorithm with fuzzy preference indicator for multimodal multi-objective optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180710 |
|
RJ01 | Rejection of invention patent application after publication |