CN110728322A - 一种数据分类方法及相关设备 - Google Patents

一种数据分类方法及相关设备 Download PDF

Info

Publication number
CN110728322A
CN110728322A CN201910963502.7A CN201910963502A CN110728322A CN 110728322 A CN110728322 A CN 110728322A CN 201910963502 A CN201910963502 A CN 201910963502A CN 110728322 A CN110728322 A CN 110728322A
Authority
CN
China
Prior art keywords
sample data
server
data set
clustering
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910963502.7A
Other languages
English (en)
Inventor
胡仕军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen kaniu Technology Co.,Ltd.
Original Assignee
Shenzhen Qianhai Handy Data Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Handy Data Service Co Ltd filed Critical Shenzhen Qianhai Handy Data Service Co Ltd
Priority to CN201910963502.7A priority Critical patent/CN110728322A/zh
Publication of CN110728322A publication Critical patent/CN110728322A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据分类方法及相关设备,用于自动对样本数据集合进行分类。本申请实施例方法包括:服务器获取样本数据集合,该样本数据集合含有n个样本数据,服务器利用聚类算法对该样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n,服务器按照m个簇对待处理数据进行分类。

Description

一种数据分类方法及相关设备
技术领域
本申请实施例涉及数据处理领域,特别涉及一种数据分类方法及相关设备。
背景技术
对于类似收支预测的一系列业务,需要划分类别来达到区分不同类别的目的,例如:在预测用户收入时,需要将进行类别划分以便于区分群体。
现有技术是根据人为根据经验将样本划分成不同区间,并按照不同区间进行分类。
发明内容
本申请实施例提供了一种数据分类方法及相关设备,能够自动对样本数据集合进行分类。
本申请实施例第一方面提供了一种数据分类方法,包括:
服务器获取样本数据集合,所述样本数据集合含有n个样本数据;
所述服务器利用聚类算法对所述样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
所述服务器按照所述簇对待处理数据进行分类。
优选的,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器利用卡方检验或柯尔莫哥洛夫-斯摩洛夫KS检验判断所述样本数据集合是否均匀分布;
若否,触发所述服务器利用聚类算法对待处理数据集合进行聚类处理的步骤。
优选的,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器计算所述样本数据集合的霍普金斯统计量;
所述服务器判断所述H是否小于第一预设阈值;
若是,表明所述样本数据集合是高度倾斜的,即非均匀分布,触发所述服务器利用聚类算法对所述样本数据集合进行聚类处理的步骤。
优选的,所述服务器计算所述样本数据集合的霍普金斯统计量包括:
所述服务器通过如下方式计算所述样本数据集合的霍普金斯统计量;
均匀地从所述样本数据集合中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出pi在所述样本数据集合中的最近邻,并令xi为pi与它在所述样本数据集合中的最近邻之间的距离:
Figure BDA0002229734600000011
均匀地从所述样本数据集合中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出qi在所述样本数据集合中的最近邻,并令yi为qi与它在所述样本数据集合中的最近邻之间的距离:
Figure BDA0002229734600000021
计算所述样本数据集合的霍普金斯统计量H:
Figure BDA0002229734600000022
优选的,所述聚类算法为K-means算法或者DBSCAN算法。
优选的,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之后,所述方法还包括:
所述服务器计算每个簇的轮廓系数,得到n个轮廓系数:
所述服务器计算所述n个轮廓系数的平均轮廓系数;
所述服务器判断所述平均轮廓系数是否大于第二预设阈值;
若是,触发所述服务器按照所述簇对待处理数据进行分类;
若否,所述服务器优化所述算法的参数;
所述服务器利用优化后的算法对所述样本数据集合进行聚类处理,得到m个优化簇;
触发所述服务器计算所述优化簇的轮廓系数。
优选的,所述服务器计算每个簇的轮廓系数包括:
所述服务器通过如下方式计算每个簇的轮廓系数,得到n个轮廓系数:
Figure BDA0002229734600000023
所述o为所述簇内的任一个样本数据,所述S(o)为所述轮廓系数,a(o)为o与o所属簇内其他样本数据之间的平均距离,b(o)为o到不包含o的所有簇的最小平均距离。
优选的,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
当所述样本数据集合中的样本数据为一维数据,且所述聚类算法只支持二维数据处理时,所述服务器将所述样本数据从一维数据转化为二维数据,所述一维数据为线上的一个坐标值,所述二维数据为平面中的两个坐标值;
触发所述服务器按照所述区间对待处理样本集合进行分类的步骤。
本申请实施例第二方面提供了一种服务器,包括:
获取单元,用于获取样本数据集合,所述样本数据集合含有n个样本数据;
处理单元,用于利用聚类算法对所述样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
分类单元,用于按照所述簇对待处理数据进行分类。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在计算机上执行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例通过服务器利用聚类算法对样本数据集合进行区间划分,再按照该区间进行分类,能够自动对样本数据集合进行分类。
附图说明
图1为本申请实施例中数据分类方法一个流程示意图;
图2为本申请实施例中数据分类方法另一流程示意图;
图3为本申请实施例中服务器一个结构示意图。
具体实施方式
本申请实施例提供了一种数据分类方法及相关设备,用于自动对样本数据集合进行分类。
为方便理解,下面对本申请实施例中的数据分类方法进行描述,请参阅图1,本申请实施例中的数据分类方法一个实施例,包括:
101、服务器获取样本数据集合;
本申请实施例中,服务器可以采集训练样本,将训练样本中的样本数据提取出来,得到样本数据集合;服务器也可以接收其他设备发送的样本数据,服务器记录得到集合,可以理解的是,在实际应用中,服务器还可以通过其他方式获取样本集合,例如:服务器直接接收其他设备发送的样本数据集合,具体此处不做限定。
为了方便描述,下面结合表1表示的样本数据集合进行示意性说明:
表1
用户 月收入 用户 月收入 用户 月收入
用户1 4800 用户10 5900 用19 6900
用户2 5000 用户11 6000 用户20 7000
用户3 5000 用户12 6000 用户21 7000
用户4 5000 用户13 6100 用户22 7000
用户5 5050 用户14 6100 用户23 7000
用户6 5100 用户15 6150 用户24 7000
用户7 5500 用户16 6200 用户25 7100
用户8 5700 用户17 6800
用户9 5800 用户18 6900
例如:从某app取得如表1所示的25个用户的月收入样本,可以理解的是,表1仅以25个用户的月收入做示意性说明,用户的数量可以根据需要设置,样本数据可以是用户的月收入数据,也可以步行数据,可以理解的是,在实际应用中样本数据还可以是其他数据,例如样本数据可以是各个城市的人口数量,具体此处不做限定。
102、服务器利用聚类算法对样本数据集合进行聚类处理,得到m个簇;
本申请实施例中,聚类算法可以是K均值聚类算法(k-means clusteringalgorithm,K-means)算法,也可以是具有噪声的基于密度的聚类方法(density-basedspatial clustering of applications with noise,DBSCAN)算法,可以理解的是,在实际应用中,聚类算法还可以是其他算法,例如:利用层次方法的平衡迭代规约和聚类(balanced iterative reducing and clustering using hierarchies,BIRCH)算法,具体这里不做限定。
本申请实施例中样本数据集合中的样本数据可以是一维数据,也可以是多维数据,具体此处不做限定。
下面针对一维数据和多维数据分别进行描述:
一、样本数据集合中的样本数据为一维数据;
一维数据为线上的一个坐标值,如表1所示。
本申请实施例以聚类算法是K-means算法为例进行示意性说明:
K-means算法主要包括以下三个步骤:
1、随机选择m个簇的中心点;
m的选择一般是按照实际需求进行决定,或在实现算法时直接给定m值,以表1中的样本数据为例,选择m=3。
随机选择m个簇的中心点,例如表1中,先随机选取三个中心点:5800、6900和7100。
2、距离的度量;
本申请实施例中,仅以距离的度量方法是欧氏距离方法进行示意性说明,可以理解的是,距离的度量方法可以是闵克夫斯基距离方法,也可以是欧氏距离方法,在实际应用中,距离的度量方法还可以是其他方法,例如:距离的度量方法可以是曼哈顿距离,具体此处不做限定。
欧式距离(euclidean distance)公式如下:
Figure BDA0002229734600000041
例如表1中的样本数据为例,选取三个中心点:5000、6000和7000之后,计算样本数据集合中的其他样本数据分别到三个中心点的距离,详见表2:
表2
Figure BDA0002229734600000042
计算每个样本数据距离这三个中心点的距离,取他们中的最小值,即样本数据与三个中心点的距离最小,表示该样本数据与哪个中心点较近,换句话说,该样本数据与哪个中心点近,就应该划分到这个中心点所在的簇,从表2中可以看出,4800至5100离5000近,距离范围在200内,5500-6200离6000近,距离范围在500内,6800-7000离7000近距离范围在200内。由于5500与两个中心点的距离相同,所以5500可以划分到以5000为中心的簇,也可以划分到以6000为中心的簇,为了方便后面描述,这里将5500划分到以5000为中心的簇。
将样本数据集合输入K-means算法后得到每个样本数据的类别编号为0,0,0,0,0,0,2,2,2,2,2,2,2,2,2,2,1,1,1,1,1,1,1,1,1。可以看到488-5100被标记为类别0,5500-6200被标记为类别2,6800-7100被标记为类别1,自然将样本数据集合划分成不同的区间,如表3所示。
表3
Figure BDA0002229734600000051
3、更新簇的中心点。
移动中心点到聚类的平均位置处,然后循环以上步骤,直到分配过程不再变化,那么算法结束。
二、样本数据集合中的样本数据为多维数据;
由于有些算法工具软件中不支持一维数据聚类,所以聚类之前,需要将样本数据转化成多维数据,多维数据为多维度空间中的多个坐标值。
本申请实施例中,仅以多维数据为二维数据进行示意性说明,可以理解的是,多维数据可以是二维数据,也可以是三维数据,在实际应用中,多维数据还可以是四维数据,具体此处不做限定。
聚类前,可以先将表1中的一维数据加上另一个统一的坐标值,如表4所示,可以理解的是表4中的纵坐标为1只是举例,具体数值这里不做限定。
表4
Figure BDA0002229734600000061
若是利用K-means算法聚类多维数据,多维数据的聚类计算如一维数据的聚类计算类似,只是计算距离时用到的公式如下:
设样本数据集合中的两个样本数据的坐标分别是(xn,yn)和(xm,ym)则这两点的距离为:
Figure BDA0002229734600000062
其余与本步骤中的聚类一维数据计算类似,这里不做赘述。
103、服务器按照簇对待处理数据进行分类。
从步骤102及表3可知:488-5100被标记为类别0,5500-6200被标记为类别2,6800-7100被标记为类别1,自然将样本数据集合划分成不同的区间,以这个类别标签为样本搭建多分类模型。
将待处理数据输入该多分类模型中,进行分类。
本申请实施例中,待处理数据可以是样本数据,即只分类样本数据集合,也可以不是样本集合数据,即生成模型后,分类其他数据,具体这里不做限定。
本申请实施例通过服务器利用聚类算法对样本数据集合进行区间划分,再按照该区间进行分类,能够自动对样本数据集合进行分类。
请参阅图2,本申请实施例中的数据分类方法另一实施例,包括:
201、服务器获取样本数据集合;
本实施例中的步骤201与前述图1所示实施例中的步骤101类似,此处不做赘述。
202、服务器判断样本数据集合是否均匀分布,若是,执行步骤208,若否,执行步骤203;
本申请实施例中仅以服务器用霍普金斯统计量的方法进行示意性说明,可以理解的是,服务器判断样本数据集合是否均匀分布有多种方式,可以是利用霍普金斯统计量,也可以是利用卡方检验,在实际应用中,还可以是其他方法,例如柯尔莫哥洛夫-斯摩洛夫KS检验,具体这里不做限定。
下面对服务器用霍普金斯统计量的方法判断样本数据集合是否均匀分布进行描述,步骤如下:
1、均匀地从样本数据集合中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出pi在样本数据集合中的最近邻,并令xi为pi与它在样本数据集合中的最近邻之间的距离:
Figure BDA0002229734600000071
2、均匀地从样本数据集合中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出qi在样本数据集合中的最近邻,并令yi为qi与它在述样本数据集合中的最近邻之间的距离:
3、计算样本数据集合的霍普金斯统计量H:
Figure BDA0002229734600000073
如果样本数据集合是均匀分布的,那么
Figure BDA0002229734600000074
Figure BDA0002229734600000075
会很接近,因而H大约为0.5,当样本数据集合高度倾斜时:
Figure BDA0002229734600000076
远大于
Figure BDA0002229734600000077
因而H接近0,或
Figure BDA0002229734600000078
远大于
Figure BDA0002229734600000079
因而H接近1,所以当霍普金斯统计量大于0.5小于1或大于0小于1时,可以认定该样本数据集合是非均匀分布的。
需要说明的是,由于抽样的随机性,每次计算的H值可能会不同,因此实际操作是应当多次计算H值,根据H值的分布概率最终确定H的取值。
203、服务器利用聚类算法对样本数据集合进行聚类数理,得到m个簇;
本实施例中的步骤203与前述图1所示实施例中的步骤102类似,此处不做赘述。
204、服务器评估聚类效果是否大于第二预设阈值,若是,执行步骤205,若否执行步骤206;
本申请实施例中,仅以服务器利用轮廓系数评估聚类效果进行示意性说明,可以理解的是,服务器可以利用轮廓系数评估聚类效果,也可以利用戴维森堡丁指数(davies-bouldin index,DBI)评估聚类效果,在实际应用中,服务器还可以利用其他指标评估聚类效果,例如杰卡德系数(jaccard coefficient,JC)评估聚类效果,具体此处不做限定。
下面对服务器用轮廓系数的方法评估聚类效果进行描述,步骤如下:
对于n个样本数据的样本数据集合D,假设D被划分成m个簇C1,C2,C3,……,Cm,对于每个样本数据o属于该样本数据集合,且1≤o≤m。
1、计算o与o所属的簇的其他对象之间的平均距离a(o);
Figure BDA0002229734600000081
例如表5中的聚类结果所示,如计算4800与4800-5100这个簇中所有样本数据的距离,计算平均距离。用其他样本数据计算a(o)类似于表5所示。
表5
Figure BDA0002229734600000082
其他样本数据的a(o)计算方法如上所述,这里不在详细描述,计算出来每个o到o所在簇中的样本数据的平均距离a(o),结果如表6所示。
表6
o a(o) o a(o) o a(o)
4800 230 5900 205.5556 6900 100
5000 70 6000 183.333 7000 62.5
5000 70 6000 183.333 7000 62.5
5000 70 6100 205.5556 7000 62.5
5050 90 6100 205.5556 7000 62.5
5100 130 6150 238.8889 7000 62.5
5500 494.4444 6200 283.3333 7100 150
5700 316.6667 6800 187.5
5800 250 6900 100
2、计算o到不属于o的所有簇的最小平均距离b(o);
Figure BDA0002229734600000083
为了方便描述,将三个簇分别进行的定义:
第一簇:4800-5100;第二簇:5500-6200;第三簇:6800-7100。
例如表7中的聚类结果所示,计算4800与不属于4800所在簇的所有样本数据的距离,计算最小平均距离。
表7
Figure BDA0002229734600000091
其他样本数据的b(o)计算方法如上所述,这里不在详细描述,计算出来每个o到不属于o的所有簇中的样本数据的平均距离b(o),结果如表8所示。
表8
o b(o) o b(o) o b(o)
4800 1145 5900 908 6900 955
5000 945 6000 1008 7000 1055
5000 945 6000 1008 7000 1055
5000 945 6100 1108 7000 1055
5050 895 6100 1108 7000 1055
5100 845 6150 1158 7000 1055
5500 508 6200 1208 7100 1155
5700 708 6800 855
5800 808 6900 955
3、计算o的轮廓系数;
Figure BDA0002229734600000092
如表5和表7所示:o为488时,a(o)=230,b(o)=1145,因此:
S(o)=(1145-230)/1145=0.7991。
4、计算所有对象的轮廓系数,计算其平均值。
其他样本数据根据表6和表8所示的其他样本数据的a(o)和b(o)计算S(o),计算方法如上述计算o为4800的方法类似,这里不在详细描述,计算出每个样本数据o的轮廓系数S(o),结果如表9所示。
表9
Figure BDA0002229734600000093
Figure BDA0002229734600000101
计算出所有样本数据的轮廓系数后,计算平均轮廓系数如表9中平均轮廓系数所示,平均轮廓系数为0.8135。
平均轮廓系数范围在-1和1之间,当平均轮廓系数大于第二预设阈值时,即平均轮廓系数大于0时,表示聚类效果好,当轮廓系数值为负时,表明聚类效果非常糟糕,当平均轮廓系数接近1时,表示聚类效果越好,如表9所示,平均轮廓系数为0.8315,接近于1,表示聚类效果好。
假设平均轮廓系数为负时,表示聚类效果糟糕,执行步骤206。
假设聚类算法后得到的聚类效果出现重叠的情况,表示聚类效果糟糕,如表10所示,执行步骤206。
表10
Figure BDA0002229734600000102
205、服务器按照簇对待处理数据进行分类;
本实施例中的步骤205与前述图1所示实施例中的步骤103类似,此处不做赘述。
206、服务器优化聚类算法的参数;
服务器将聚类算法的参数,用随机搜索的方式,独立重复试验若干次,选取最优的结果。
207、服务器利用优化后的聚类算法对样本数据集合进行聚类处理,得到m个簇,执行步骤204;
本实施例中的步骤207与前述图1所示实施例中的步骤102类似,此处不做赘述。
208、执行其他流程。
本实施例中,执行其他流程可以是提醒用户进行手动划分,也可以是其他流程,具体这里不做限定。
本申请实施例通过服务器先判断样本数据集合是否均匀分布,若非均匀分布,服务器利用聚类算法对样本数据集合进行区间划分,服务器评估聚类效果,若评估聚类效果好,按照该区间进行分类,若评估聚类效果不好,优化后再进行聚类处理,能够自动对样本数据集合进行择优分类。
上面对本申请实施例中的数据分类方法进行了描述,下面对本申请实施例中的服务器进行描述,请参阅图3,本申请实施例中服务器一个实施例包括:
获取单元301,用于获取样本数据集合,该样本数据集合含有n个样本数据;
处理单元302,用于利用聚类算法对该样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
分类单元303,用于按照该簇对待处理数据进行分类。
本实施例中,服务器中各单元所执行的操作与前述图1和图2所示实施例中描述的类似,此处不再赘述。
本申请实施例通过处理单元利用聚类算法对样本数据集合进行区间划分,分类单元再按照该区间进行分类,能够自动对样本数据集合进行分类。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种数据分类方法,其特征在于,包括:
服务器获取样本数据集合,所述样本数据集合含有n个样本数据;
所述服务器利用聚类算法对所述样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
所述服务器按照所述簇对待处理数据进行分类。
2.根据权利要求1所述的数据分类方法,其特征在于,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器利用卡方检验或柯尔莫哥洛夫-斯摩洛夫KS检验判断所述样本数据集合是否均匀分布;
若否,触发所述服务器利用聚类算法对待处理数据集合进行聚类处理的步骤。
3.根据权利要求1所述的数据分类方法,其特征在于,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器计算所述样本数据集合的霍普金斯统计量;
所述服务器判断所述H是否小于第一预设阈值;
若是,表明所述样本数据集合是高度倾斜的,即非均匀分布,触发所述服务器利用聚类算法对所述样本数据集合进行聚类处理的步骤。
4.根据权利要求3所述的数据分类方法,其特征在于,所述服务器计算所述样本数据集合的霍普金斯统计量包括:
所述服务器通过如下方式计算所述样本数据集合的霍普金斯统计量;
均匀地从所述样本数据集合中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出pi在所述样本数据集合中的最近邻,并令xi为pi与它在所述样本数据集合中的最近邻之间的距离:
Figure FDA0002229734590000011
均匀地从所述样本数据集合中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出qi在所述样本数据集合中的最近邻,并令yi为qi与它在所述样本数据集合中的最近邻之间的距离:
Figure FDA0002229734590000012
计算所述样本数据集合的霍普金斯统计量H:
Figure FDA0002229734590000013
5.根据权利要求1所述的数据分类方法,其特征在于,所述聚类算法为K-means算法或者DBSCAN算法。
6.根据权利要求1所述的数据分类方法,其特征在于,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之后,所述方法还包括:
所述服务器计算每个簇的轮廓系数,得到n个轮廓系数:
所述服务器计算所述n个轮廓系数的平均轮廓系数;
所述服务器判断所述平均轮廓系数是否大于第二预设阈值;
若是,触发所述服务器按照所述簇对待处理数据进行分类;
若否,所述服务器优化所述算法的参数;
所述服务器利用优化后的算法对所述样本数据集合进行聚类处理,得到m个优化簇;
触发所述服务器计算所述优化簇的轮廓系数。
7.根据权利要求6所述的数据分类方法,其特征在于,所述服务器计算每个簇的轮廓系数包括:
所述服务器通过如下方式计算每个簇的轮廓系数,得到n个轮廓系数:
Figure FDA0002229734590000021
所述o为所述簇内的任一个样本数据,所述S(o)为所述轮廓系数,a(o)为o与o所属簇内其他样本数据之间的平均距离,b(o)为o到不包含o的所有簇的最小平均距离。
8.根据权利要求1所述的数据分类方法,其特征在于,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
当所述样本数据集合中的样本数据为一维数据,且所述聚类算法只支持二维数据处理时,所述服务器将所述样本数据从一维数据转化为二维数据,所述一维数据为线上的一个坐标值,所述二维数据为平面中的两个坐标值;
触发所述服务器按照所述区间对待处理样本集合进行分类的步骤。
9.一种服务器,其特征在于,包括:
获取单元,用于获取样本数据集合,所述样本数据集合含有n个样本数据;
处理单元,用于利用聚类算法对所述样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
分类单元,用于按照所述簇对待处理数据进行分类。
10.一种计算机程序产品,其特征在于,所述计算机程序产品在计算机上执行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
CN201910963502.7A 2019-10-11 2019-10-11 一种数据分类方法及相关设备 Pending CN110728322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910963502.7A CN110728322A (zh) 2019-10-11 2019-10-11 一种数据分类方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910963502.7A CN110728322A (zh) 2019-10-11 2019-10-11 一种数据分类方法及相关设备

Publications (1)

Publication Number Publication Date
CN110728322A true CN110728322A (zh) 2020-01-24

Family

ID=69221003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910963502.7A Pending CN110728322A (zh) 2019-10-11 2019-10-11 一种数据分类方法及相关设备

Country Status (1)

Country Link
CN (1) CN110728322A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723862A (zh) * 2020-06-18 2020-09-29 广东电网有限责任公司清远供电局 开关柜状态评估方法和装置
CN111738319A (zh) * 2020-06-11 2020-10-02 佳都新太科技股份有限公司 一种基于大规模样本的聚类结果评价方法及装置
CN113806544A (zh) * 2021-09-23 2021-12-17 湖北天天数链技术有限公司 简历信息处理方法、装置、电子设备及存储介质
CN114640117A (zh) * 2022-05-11 2022-06-17 南昌工程学院 一种基于电压时间序列的台区三相不平衡评估方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738319A (zh) * 2020-06-11 2020-10-02 佳都新太科技股份有限公司 一种基于大规模样本的聚类结果评价方法及装置
CN111723862A (zh) * 2020-06-18 2020-09-29 广东电网有限责任公司清远供电局 开关柜状态评估方法和装置
CN113806544A (zh) * 2021-09-23 2021-12-17 湖北天天数链技术有限公司 简历信息处理方法、装置、电子设备及存储介质
CN114640117A (zh) * 2022-05-11 2022-06-17 南昌工程学院 一种基于电压时间序列的台区三相不平衡评估方法
CN114640117B (zh) * 2022-05-11 2022-07-29 南昌工程学院 一种基于电压时间序列的台区三相不平衡评估方法

Similar Documents

Publication Publication Date Title
CN110728322A (zh) 一种数据分类方法及相关设备
CN107948930B (zh) 基于位置指纹算法的室内定位优化方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN109189876B (zh) 一种数据处理方法及装置
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
CN108595688A (zh) 基于在线学习的潜在语义跨媒体哈希检索方法
CN109508374B (zh) 基于遗传算法的文本数据半监督聚类方法
CN106529397B (zh) 一种非约束环境中的人脸特征点定位方法及系统
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN106610977B (zh) 一种数据聚类方法和装置
CN113807456A (zh) 一种基于互信息的特征筛选和关联规则多标记分类算法
CN107908624A (zh) 一种基于全覆盖粒计算的K‑medoids文本聚类方法
CN111539451A (zh) 样本数据优化方法、装置、设备及存储介质
KR101584883B1 (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
CN113536020B (zh) 数据查询的方法、存储介质和计算机程序产品
CN110781943A (zh) 一种基于毗邻网格搜索的聚类方法
CN108921853B (zh) 基于超像素和免疫稀疏谱聚类的图像分割方法
CN114417095A (zh) 一种数据集划分方法及装置
CN107704872A (zh) 一种基于相对最离散维分割的K‑means聚类初始中心选取方法
CN110047509B (zh) 一种两级子空间划分方法及装置
CN111831819A (zh) 一种文本更新方法及装置
CN108415958A (zh) 指数权重vlad特征的权重处理方法及装置
CN104794215A (zh) 一种适合大规模数据的快速递归聚类方法
WO2018040561A1 (zh) 数据处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210507

Address after: 518000 room 602, building B, Kingdee Software Park, Keji South 12th Road, high tech Zone, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen kaniu Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Qianhai handy Data Service Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200124

RJ01 Rejection of invention patent application after publication