CN115952426B - 基于随机采样的分布式噪音数据聚类方法及用户分类方法 - Google Patents

基于随机采样的分布式噪音数据聚类方法及用户分类方法 Download PDF

Info

Publication number
CN115952426B
CN115952426B CN202310228838.5A CN202310228838A CN115952426B CN 115952426 B CN115952426 B CN 115952426B CN 202310228838 A CN202310228838 A CN 202310228838A CN 115952426 B CN115952426 B CN 115952426B
Authority
CN
China
Prior art keywords
data
points
data points
center
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310228838.5A
Other languages
English (en)
Other versions
CN115952426A (zh
Inventor
冯启龙
黄俊予
马康
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310228838.5A priority Critical patent/CN115952426B/zh
Publication of CN115952426A publication Critical patent/CN115952426A/zh
Application granted granted Critical
Publication of CN115952426B publication Critical patent/CN115952426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机采样的分布式噪音数据聚类方法,包括获取待分类的带噪音数据集、划分并分布式存储;各节点对存储的数据进行随机采样并初始化中心点集和采样候选集;每个节点对数据集进行迭代处理并得到最终的中心点集;获取每个节点上的中心点集并构造得到带权实例;进行带权的k‑中心噪声分类得到最终的若干个中心点;将数据点分配到中心点上并移除最远的若干个数据点完成带噪音数据集的分类。本发明还公开了一种包括所述基于随机采样的分布式噪音数据聚类方法的用户分类方法。本发明通过分布采样、随机采样和迭代处理的方式,不仅实现了带噪音数据的分类,而且本发明的可靠性高、准确性好且效率较高。

Description

基于随机采样的分布式噪音数据聚类方法及用户分类方法
技术领域
本发明属于数据处理技术领域,具体涉及一种基于随机采样的分布式噪音数据聚类方法及用户分类方法。
背景技术
聚类是机器学习的最基本问题之一。聚类分析是根据数据的信息特征,将数据对象分组,使得组内的数据对象之间尽可能相似,而组间的数据对象之间则尽可能不同。聚类算法的用途非常广泛,在数据决策、数据推荐和数据分析等领域有着广泛应用;因此,聚类模型也一直是人们研究的重点。常用的聚类模型有k-均值聚类,k-中值聚类和k-中心聚类等。聚类问题是经典的NP难(NPHard)问题,即除非假定NP=P,否则无法在多项式时间内找到问题的最优解。因此,近似算法成为常用的聚类分析方法之一。
k-中心问题一直是聚类中的一个热门模型,其目标是在给定度量空间内找到k个中心点,将数据分配到中心点形成k个类簇,使得最大类簇半径最小化
目前,在度量空间中,已知k-中心问题的近似比为2是该问题的下界。但在实际应用中,数据聚类往往伴随着噪声的干扰,且已知k-中心模型对噪声数据极为敏感。在数据分析中,这些噪声的干扰往往会严重影响最终的聚类结果分析。如何在聚类的过程中去除噪音点的影响,这就是带噪音的聚类问题。
目前,带噪音的数据聚类问题,行业内虽然有对应的分布式聚类方法,但是现有方法的聚类精度较差,而且通讯复杂度和机器时间复杂度较高,实际应用时效果较差。
正因如此,基于带噪音数据聚类方法的用户分类方法,也受到了极大地影响。目前,由于带噪音数据在聚类过程中的可靠性问题和复杂度问题,基于带噪音数据聚类方法的用户分类方法在实际应用中也存在较大的问题,这将导致用户分类的结果不准确,从而影响后续的用户服务推荐和用户数据分析等过程,从而极大地影响用户的体验。
发明内容
本发明的目的之一在于提供一种精度较高、通讯复杂度较低、机器运行时间快且实用性好的基于随机采样的分布式噪音数据聚类方法。
本发明的目的之二在于提供一种包括了所述基于随机采样的分布式噪音数据聚类方法的用户分类方法。
本发明提供的这种基于随机采样的分布式噪音数据聚类方法,包括如下步骤:
S1. 获取待分类的带噪音数据集;
S2. 将步骤S1获取的数据集进行划分,并进行分布式存储;
S3. 在分布式存储的各个节点上,各个节点对自身存储的数据进行随机采样,并将采样得到的数据初始化为中心点集,同时将所有数据集初始化为采样候选集;
S4. 在每个节点上,对数据集进行迭代处理:每一轮迭代时,随机采样若干个数据点,并在采样得到的数据点中进行二次采样,并将二次采样结果加入到中心点集中,然后将中心点集中的中心点设置范围内的数据点覆盖,并将覆盖的数据点从采样候选集中删除;迭代完成后,得到最终的中心点集;
S5. 获取每个节点上的中心点集,并构造得到带权实例,并将数据上传到总节点;
S6. 在总节点上进行带权的k-中心噪声分类,得到最终的若干个中心点;
S7. 将数据集中的各个数据点分配到步骤S6得到的若干个中心点上,并移除最远的若干个数据点,完成基于随机采样的带噪音数据集的分类。
步骤S3所述的随机采样,具体包括如下步骤:
采用如下算式作为优化目标函数:
Figure SMS_1
式中X为给定数据集中去除了噪音点的子集,且X=N\ZN为步骤S1获取的数据集中所有数据集合,Z为去除的噪音点的集合,\为集合删除操作,而且/>
Figure SMS_4
z为输入参数,表示待移除的噪音点数量上限;p为集合X中的数据点;将集合X分为K个簇,分别为/>
Figure SMS_5
,/>
Figure SMS_6
为所选的第j个中心点集的中心点;/>
Figure SMS_7
为数据点p到第j个中心点集的中心点/>
Figure SMS_8
的距离;随机采样的数据点的个数设定为/>
Figure SMS_9
,其中/>
Figure SMS_2
和/>
Figure SMS_3
均为设定的参数;所述目标函数用于优化最大类簇半径,使得尽可能找到紧密的k个类簇对数据进行分类,并找到偏离类簇的数据点作为噪音点移除。
所述的步骤S4,具体包括如下步骤:
根据未被覆盖的数据集的大小,采用分布采样的思想,从当前的候选采样集中随机选取若干个数据点,得到第一随机数据点;
然后再从第一随机数据点中再次随机选取若干个数据点,得到第二随机数据点;
将第二随机数据点加入到当前的中心点集中,并将更新后的中心点集作为当前的中心点集;
在当前的中心点集中,找到距离中心点在设定范围内的数据点进行标记,并将标记后的数据点在采样候选集合中删除;
重复以上步骤若干次,最终得到中心点集。
所述的步骤S4,具体包括如下步骤:
在当前轮次的迭代中,对未被覆盖的数据集大小进行判断:
若未被覆盖的数据集中,数据点的个数大于设定值
Figure SMS_10
,则从当前的采样候选集中随机选取/>
Figure SMS_11
个数据点,作为第一随机数据点;然后从第一随机数据点中,再随机选取/>
Figure SMS_12
个数据点作为第二随机数据点;将第二随机数据点加入到当前的中心点集中;/>
若未被覆盖的数据集中,数据点的个数小于或等于设定值
Figure SMS_13
,则找到整数r满足/>
Figure SMS_14
;然后,从当前的采样候选集中随机选取
Figure SMS_15
个数据点,作为第一随机数据点;再从第一随机数据点中,随机选取
Figure SMS_16
个数据点作为第二随机数据点;将第二随机数据点加入到当前的中心点集中;其中,/>
Figure SMS_17
和/>
Figure SMS_18
均为设定的参数,z为噪声的数量,/>
Figure SMS_19
为当前采样候选集U中的数据个数,m为节点的数量;
将第二随机数据点加入到当前的中心点集后,在当前的中心点集中,找到距离中心点
Figure SMS_20
范围内的数据点并进行标记,将标记后的数据点在当前的采样候选集合中删除;/>
Figure SMS_21
为设定的参数;
重复以上步骤共
Figure SMS_22
次,最终得到中心点集;/>
Figure SMS_23
为设置的大于1的常数参数,用于控制聚类质量;/>
Figure SMS_24
取值越大,则聚类质量越高,但是所需的时间复杂度越大;k为待打开的中心点数量。
步骤S5所述的构造得到带权实例,具体包括如下步骤:
以中心点集中的
Figure SMS_25
个候选中心点为中心点,将所有数据点分类给距离自己最近的候选中心点;每个中心点的权值为分配到该中心点的数据点的个数;/>
Figure SMS_26
为计算函数且/>
Figure SMS_27
k为待打开的中心点数量,/>
Figure SMS_28
为设置的一个大于设定值的实数。
步骤S6所述的带权的k-中心噪声分类,具体包括如下步骤:
采用贪心迭代的方式,最终选取k个中心点;
在迭代过程中,每次选取给定半径范围2
Figure SMS_29
内所覆盖的权值之和最大的点作为中心点;在带权实例中,删除以该点为中心点、半径4/>
Figure SMS_30
内所覆盖的所有点;/>
Figure SMS_31
为设定的参数。
步骤S7所述的移除最远的若干个数据点,具体为移除最远的
Figure SMS_32
个数据点,其中z为噪声的数量,/>
Figure SMS_33
为设定的参数。
本发明还公开了一种包括了所述基于随机采样的分布式噪音数据聚类方法的用户分类方法,包括如下步骤:
A. 获取原始的用户基本信息;
B. 将步骤A获取的用户基本信息作为待分类的带噪音数据集,采用所述的基于随机采样的分布式噪音数据聚类方法进行分类;
C. 将步骤B得到的分类结果作为用户分类结果,完成用户的分类。
本发明提供的这种基于随机采样的带噪音数据分类方法及用户分类方法,通过分布采样、随机采样和迭代处理的方式,不仅实现了带噪音数据的分类,而且本发明的可靠性高、准确性好且效率较高。
附图说明
图1为本发明的数据分类方法的方法流程示意图。
图2为本发明的数据分类方法与现有的分类方法的分类效果对比示意图;其中,图2(a)为m取值为20、在不同k值条件下的本发明方法与现有技术的近似比对比示意图;图2(b)为m取值为50、在不同k值条件下的本发明方法与现有技术的近似比对比示意图;图2(c)为m取值为20、在不同k值条件下的本发明方法与现有技术的通讯复杂度对比示意图;图2(d)为m取值为50、在不同k值条件下的本发明方法与现有技术的通讯复杂度对比示意图;图2(e)为m取值为20、在不同k值条件下的本发明方法与现有技术的运行时间对比示意图;图2(f)为m取值为50、在不同k值条件下的本发明方法与现有技术的运行时间对比示意图。
图3为本发明的用户分类方法的方法流程示意图。
具体实施方式
如图1所示为本发明的数据分类方法的方法流程示意图:本发明提供的这种基于随机采样的分布式噪音数据聚类方法,包括如下步骤:
S1. 获取待分类的带噪音数据集;
S2. 将步骤S1获取的数据集进行划分,并进行分布式存储;
S3. 在分布式存储的各个节点上,各个节点对自身存储的数据进行随机采样,并将采样得到的数据初始化为中心点集,同时将所有数据集初始化为采样候选集;具体包括如下步骤:
采用如下算式作为优化目标函数:
Figure SMS_35
式中X为给定数据集中去除了噪音点的子集,且X=N\ZN为步骤S1获取的数据集中所有数据集合,Z为去除的噪音点的集合,\为集合删除操作,而且/>
Figure SMS_36
z为输入参数,表示待移除的噪音点数量上限;p为集合X中的数据点;将集合X分为K个簇,分别为/>
Figure SMS_37
,/>
Figure SMS_38
为所选的第j个中心点集的中心点;/>
Figure SMS_39
为数据点p到第j个中心点集的中心点/>
Figure SMS_40
的距离;随机采样的数据点的个数设定为/>
Figure SMS_41
,其中/>
Figure SMS_34
和/>
Figure SMS_42
均为设定的参数;所述目标函数用于优化最大类簇半径,使得尽可能找到紧密的k个类簇对数据进行分类,并找到偏离类簇的数据点作为噪音点移除;
通过本步骤的随机采样,至少存在一个不是噪音点的正常点的概率为
Figure SMS_43
;同时,在优化目标函数的过程中去除z个噪音点的影响;
S4. 在每个节点上,对数据集进行迭代处理:每一轮迭代时,随机采样若干个数据点,并在采样得到的数据点中进行二次采样,并将二次采样结果加入到中心点集中,然后将中心点集中的中心点设置范围内的数据点覆盖,并将覆盖的数据点从采样候选集中删除;迭代完成后,得到最终的中心点集;具体包括如下步骤:
根据未被覆盖的数据集的大小,采用分布采样的思想,从当前的候选采样集中随机选取若干个数据点,得到第一随机数据点;
然后再从第一随机数据点中再次随机选取若干个数据点,得到第二随机数据点;
将第二随机数据点加入到当前的中心点集中,并将更新后的中心点集作为当前的中心点集;
在当前的中心点集中,找到距离中心点在设定范围内的数据点进行标记,并将标记后的数据点在采样候选集合中删除;
重复以上步骤若干次,最终得到中心点集;
利用分布采样思想,每一次找到至少一个非噪音数据点打开,聚类结果可以在分机上保证2-近似,每一次迭代需要重新计算两两数据点的距离;
具体实施时:
在当前轮次的迭代中,对未被覆盖的数据集大小进行判断:
若未被覆盖的数据集中,数据点的个数大于设定值
Figure SMS_44
,则从当前的采样候选集中随机选取/>
Figure SMS_45
个数据点,作为第一随机数据点;然后从第一随机数据点中,再随机选取/>
Figure SMS_46
个数据点作为第二随机数据点;将第二随机数据点加入到当前的中心点集中;
若未被覆盖的数据集中,数据点的个数小于或等于设定值
Figure SMS_47
,则找到整数r满足/>
Figure SMS_48
;然后,从当前的采样候选集中随机选取/>
Figure SMS_49
个数据点,作为第一随机数据点;再从第一随机数据点中,随机选取/>
Figure SMS_50
个数据点作为第二随机数据点;将第二随机数据点加入到当前的中心点集中;其中,/>
Figure SMS_51
和/>
Figure SMS_52
均为设定的参数,z为噪声的数量,/>
Figure SMS_53
为当前采样候选集U中的数据个数,m为节点的数量;
将第二随机数据点加入到当前的中心点集后,在当前的中心点集中,找到距离中心点
Figure SMS_54
范围内的数据点并进行标记,将标记后的数据点在当前的采样候选集合中删除;/>
Figure SMS_55
为设定的参数;
重复以上步骤共
Figure SMS_56
次,最终得到中心点集;/>
Figure SMS_57
为设置的大于1的常数参数,用于控制聚类质量;/>
Figure SMS_58
取值越大,则聚类质量越高,但是所需的时间复杂度越大;k为待打开的中心点数量;/>
S5. 获取每个节点上的中心点集,并构造得到带权实例,并将数据上传到总节点;具体包括如下步骤:
以中心点集中的
Figure SMS_59
个候选中心点为中心点,将所有数据点分类给距离自己最近的候选中心点;每个中心点的权值为分配到该中心点的数据点的个数;/>
Figure SMS_60
为计算函数且/>
Figure SMS_61
k为待打开的中心点数量,/>
Figure SMS_62
为设置的一个大于设定值的实数(即足够大的实数);
S6. 在总节点上进行带权的k-中心噪声分类,得到最终的若干个中心点;具体包括如下步骤:
采用贪心迭代的方式,最终选取k个中心点;
在迭代过程中,每次选取给定半径范围2
Figure SMS_63
t 内所覆盖的权值之和最大的点作为中心点;在带权实例中,删除以该点为中心点、半径4/>
Figure SMS_64
内所覆盖的所有点;/>
Figure SMS_65
为设定的参数;
S7. 将数据集中的各个数据点分配到步骤S6得到的若干个中心点上,并移除最远的若干个数据点,完成基于随机采样的带噪音数据集的分类;具体为移除最远的
Figure SMS_66
个数据点,其中z为噪声的数量,/>
Figure SMS_67
为设定的参数。
本发明方法的时间复杂度是关于n的线性,准确的打开k个中心点,往往能够以较高的概率(
Figure SMS_68
)获得近似比为14的解,所移除的噪音点数量为/>
Figure SMS_69
,通讯复杂度是关于mk的线性函数。
以下结合一个实施例,对本发明方法的效果进行进一步说明:
使用真实数据集测试(HIGSS),该数据集包含11000000个蒙特卡罗波形数据,每个数据有28个特征,前21个特征(第2-22列)是由加速器中的粒子探测器测量的运动学特性,后7个特征是前21个特征的对应功能特征。实验中参数
Figure SMS_70
设置为0.1,/>
Figure SMS_71
设置为0.1,z取值为1024,m取值为50。
其中,图2(a)和图2(b)表示在不同的k值条件下,本发明方法与现有技术的近似比对比;图2(c)和图2(d)表示在不同的k值条件下,本发明方法与现有技术的通讯复杂度对比;图2(e)和图2(f)表示在不同的k值条件下,本发明方法与现有技术的运行时间对比;其中,
Figure SMS_73
为对比算法取参数/>
Figure SMS_74
的效果,/>
Figure SMS_75
为对比算法取参数/>
Figure SMS_76
,glz为基准算法,/>
Figure SMS_77
为本发明算法取参数/>
Figure SMS_78
,/>
Figure SMS_79
为本发明算法取参数/>
Figure SMS_72
。通过实验和图2可以看到,本发明方法具有一定的稳定性,可以以很快的速度完成数据分类的过程,而且效率较高。
如图3所示为本发明的用户分类方法的方法流程示意图:本发明公开的这种包括了所述基于随机采样的分布式噪音数据聚类方法的用户分类方法,包括如下步骤:
A. 获取原始的用户基本信息;
B. 将步骤A获取的用户基本信息作为待分类的带噪音数据集,采用所述的基于随机采样的分布式噪音数据聚类方法进行分类;
C. 将步骤B得到的分类结果作为用户分类结果,完成用户的分类。
具体实施时,本发明提供的这种用户分类方法,可以用于用户的资格评审:现有一家资格审查机构,需要收集用户信息来确认用户是否能够通过资格审查,以及确定用户的评级。但是,资格审查机构在进行独立采集随机抽样的时候会出现一些异常的信息,即噪音。噪音一般可以归结为以下两种。
输出错误:
同样的一笔数据,出现了两种不同的评判结果;
输入错误:
在收集数据时,由于数据源的随机性出现的错误(比如说,客户在填写信息时出现的误填)。
那么,针对该类情况,本发明的用户分类方法则具体包括如下步骤:
a. 收集原始的用户基本信息;
用户基本信息包括年龄,性别,资产情况等信息;
b. 将步骤a获取的用户基本信息作为带噪音的待分类数据集;
其中,噪音来源于标记错误(比如应该给客户标记为“通过”却最终标记为“不通过”,或者两个数据相同的客户一个标记为“通过”而另一个标记为“不通过”),或者输入错误(比如手机的用户基本信息本身就存在错误);
采用上述的基于随机采样聚类的带噪音数据分类方法,对待分类数据集进行数据分类;分类过程中能够找到数据中的噪音点,并丢弃噪音点;将相似情况的客户聚类成同一个簇,其余的离群值被当作噪音点丢弃;
c. 根据步骤b得到的分类结果,对用户进行分类;
经过上述步骤,最终得到去除噪音点的用户分类结果,可以帮助资格审查人员更好的分析用户结构。
或者,本发明的用户分类方法还可以用于服务推荐过程:
现有一家机构,需要收集用户信息来对用户进行分类,进而进行个性化的服务推荐。但是,机构在进行独立采集随机抽样的时候会出现一些异常的信息,即噪音。噪音一般可以归结为以下两种。
输出错误:
同样的一个用户,出现了两种不同的分类结果,从而导致推荐不同类型的服务;
输入错误:
在收集数据时,由于数据源的随机性出现的错误(比如说,用户在填写信息时出现的误填)。
那么,针对该类情况,本发明的用户分类方法则具体包括如下步骤:
a. 收集原始的用户基本信息;
用户基本信息包括年龄,性别,资产情况等信息;
b. 将步骤a获取的用户基本信息作为带噪音的待分类数据集;
其中,噪音来源于输出错误或者输入错误;
采用上述的基于随机采样聚类的带噪音数据分类方法,对待分类数据集进行数据分类;分类过程中能够找到数据中的噪音点,并丢弃噪音点;将相似情况的客户聚类成同一个簇,其余的离群值被当作噪音点丢弃;
c. 根据步骤b得到的分类结果,对用户进行分类;
经过上述步骤,最终得到去除噪音点的用户分类结果,根据最终得到的用户分类结果,进行后续的、针对性的服务推荐。

Claims (8)

1.一种基于随机采样的分布式噪音数据聚类方法,其特征在于包括如下步骤:
S1. 获取待分类的带噪音数据集;
S2. 将步骤S1获取的数据集进行划分,并进行分布式存储;
S3. 在分布式存储的各个节点上,各个节点对自身存储的数据进行随机采样,并将采样得到的数据初始化为中心点集,同时将所有数据集初始化为采样候选集;
S4. 在每个节点上,对数据集进行迭代处理:每一轮迭代时,随机采样若干个数据点,并在采样得到的数据点中进行二次采样,并将二次采样结果加入到中心点集中,然后将中心点集中的中心点设置范围内的数据点覆盖,并将覆盖的数据点从采样候选集中删除;迭代完成后,得到最终的中心点集;
S5. 获取每个节点上的中心点集,并构造得到带权实例,并将数据上传到总节点;
S6. 在总节点上进行带权的k-中心噪声分类,得到最终的若干个中心点;
S7. 将数据集中的各个数据点分配到步骤S6得到的若干个中心点上,并移除最远的若干个数据点,完成基于随机采样的带噪音数据集的分类。
2.根据权利要求1所述的基于随机采样的分布式噪音数据聚类方法,其特征在于步骤S3所述的随机采样,具体包括如下步骤:
采用如下算式作为优化目标函数:
Figure QLYQS_1
式中X为给定数据集中去除了噪音点的子集,且X=N\ZN为步骤S1获取的数据集中所有数据集合,Z为去除的噪音点的集合,\为集合删除操作,而且
Figure QLYQS_2
z为输入参数,表示待移除的噪音点数量上限;p为集合X中的数据点;将集合X分为K个簇,分别为/>
Figure QLYQS_3
c j 为所选的第j个中心点集的中心点;/>
Figure QLYQS_4
为数据点p到第j个中心点集的中心点c j 的距离;随机采样的数据点的个数设定为/>
Figure QLYQS_5
,其中/>
Figure QLYQS_6
和/>
Figure QLYQS_7
均为设定的参数;所述目标函数用于优化最大类簇半径,使得尽可能找到紧密的k个类簇对数据进行分类,并找到偏离类簇的数据点作为噪音点移除。
3.根据权利要求2所述的基于随机采样的分布式噪音数据聚类方法,其特征在于所述的步骤S4,具体包括如下步骤:
根据未被覆盖的数据集的大小,采用分布采样的思想,从当前的候选采样集中随机选取若干个数据点,得到第一随机数据点;
然后再从第一随机数据点中再次随机选取若干个数据点,得到第二随机数据点;
将第二随机数据点加入到当前的中心点集中,并将更新后的中心点集作为当前的中心点集;
在当前的中心点集中,找到距离中心点在设定范围内的数据点进行标记,并将标记后的数据点在采样候选集合中删除;
重复以上步骤若干次,最终得到中心点集。
4.根据权利要求3所述的基于随机采样的分布式噪音数据聚类方法,其特征在于所述的步骤S4,具体包括如下步骤:
在当前轮次的迭代中,对未被覆盖的数据集大小进行判断:
若未被覆盖的数据集中,数据点的个数大于设定值
Figure QLYQS_8
,则从当前的采样候选集中随机选取/>
Figure QLYQS_9
个数据点,作为第一随机数据点;然后从第一随机数据点中,再随机选取
Figure QLYQS_10
个数据点作为第二随机数据点;将第二随机数据点加入到当前的中心点集中;
若未被覆盖的数据集中,数据点的个数小于或等于设定值
Figure QLYQS_11
,则找到整数r满足
Figure QLYQS_12
;然后,从当前的采样候选集中随机选取
Figure QLYQS_13
个数据点,作为第一随机数据点;再从第一随机数据点中,随机选取
Figure QLYQS_14
个数据点作为第二随机数据点;将第二随机数据点加入到当前的中心点集中;其中,/>
Figure QLYQS_15
和/>
Figure QLYQS_16
均为设定的参数,z为噪声的数量,/>
Figure QLYQS_17
为当前采样候选集U中的数据个数,m为节点的数量;
将第二随机数据点加入到当前的中心点集后,在当前的中心点集中,找到距离中心点R opt 范围内的数据点并进行标记,将标记后的数据点在当前的采样候选集合中删除;R opt 为设定的参数;
重复以上步骤共
Figure QLYQS_18
次,最终得到中心点集;/>
Figure QLYQS_19
为设置的大于1的常数参数,用于控制聚类质量;/>
Figure QLYQS_20
取值越大,则聚类质量越高,但是所需的时间复杂度越大;k为待打开的中心点数量。
5.根据权利要求4所述的基于随机采样的分布式噪音数据聚类方法,其特征在于步骤S5所述的构造得到带权实例,具体包括如下步骤:
以中心点集中的
Figure QLYQS_21
个候选中心点为中心点,将所有数据点分类给距离自己最近的候选中心点;每个中心点的权值为分配到该中心点的数据点的个数;/>
Figure QLYQS_22
为计算函数且/>
Figure QLYQS_23
k为待打开的中心点数量,/>
Figure QLYQS_24
为设置的一个大于设定值的实数。
6.根据权利要求5所述的基于随机采样的分布式噪音数据聚类方法,其特征在于步骤S6所述的带权的k-中心噪声分类,具体包括如下步骤:
采用贪心迭代的方式,最终选取k个中心点;
在迭代过程中,每次选取给定半径范围2R opt 内所覆盖的权值之和最大的点作为中心点;在带权实例中,删除以该点为中心点、半径4R opt 内所覆盖的所有点;R opt 为设定的参数。
7.根据权利要求6所述的基于随机采样的分布式噪音数据聚类方法,其特征在于步骤S7所述的移除最远的若干个数据点,具体为移除最远的
Figure QLYQS_25
个数据点,其中z为噪声的数量,/>
Figure QLYQS_26
为设定的参数。
8.一种基于随机采样的分布式噪音数据聚类方法的用户分类方法,其特征在于包括如下步骤:
A. 获取原始的用户信息;
B. 将步骤A获取的用户信息作为待分类的带噪音数据集,采用权利要求1~7之一所述的基于随机采样的分布式噪音数据聚类方法进行分类;
C. 将步骤B得到的分类结果作为用户分类结果,完成用户的分类。
CN202310228838.5A 2023-03-10 2023-03-10 基于随机采样的分布式噪音数据聚类方法及用户分类方法 Active CN115952426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310228838.5A CN115952426B (zh) 2023-03-10 2023-03-10 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310228838.5A CN115952426B (zh) 2023-03-10 2023-03-10 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Publications (2)

Publication Number Publication Date
CN115952426A CN115952426A (zh) 2023-04-11
CN115952426B true CN115952426B (zh) 2023-06-06

Family

ID=85893009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310228838.5A Active CN115952426B (zh) 2023-03-10 2023-03-10 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Country Status (1)

Country Link
CN (1) CN115952426B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117289867B (zh) * 2023-09-28 2024-06-14 上海豪生酒店管理有限公司 基于大数据处理的信息处理平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
WO2018045610A1 (zh) * 2016-09-06 2018-03-15 北京百度网讯科技有限公司 用于执行分布式计算任务的方法和装置
US10586165B1 (en) * 2018-12-14 2020-03-10 Sas Institute Inc. Distributable clustering model training system
EP4033736A1 (en) * 2021-01-22 2022-07-27 Avago Technologies International Sales Pte. Limited Distributed machine-learning resource sharing and request routing

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2010324501B2 (en) * 2009-11-24 2016-05-12 Zymeworks Inc. Density based clustering for multidimensional data
EP2541409B1 (en) * 2011-06-30 2017-01-11 Sap Se Parallelization of large scale data clustering analytics
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN105263149B (zh) * 2015-09-29 2018-11-16 上海交通大学 移动无线传感器网络中节点自适应分布式重聚类方法
CN107291847B (zh) * 2017-06-02 2019-06-25 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法
CN107368599B (zh) * 2017-07-26 2020-06-23 中南大学 高维数据的可视化分析方法及其分析系统
CN108256570A (zh) * 2018-01-13 2018-07-06 惠州学院 基于k邻域相似性的数据聚类方法、装置和存储介质
US11461360B2 (en) * 2018-03-30 2022-10-04 AVAST Software s.r.o. Efficiently initializing distributed clustering on large data sets
CN112671739B (zh) * 2018-07-24 2023-04-18 中国计量大学 分布式系统的节点性质识别方法
CN109903554A (zh) * 2019-02-21 2019-06-18 长安大学 一种基于Spark的路网交通运行分析方法
GB2585890B (en) * 2019-07-19 2022-02-16 Centrica Plc System for distributed data processing using clustering
CN110909817B (zh) * 2019-11-29 2022-11-11 深圳市商汤科技有限公司 分布式聚类方法及系统、处理器、电子设备及存储介质
CN114330465A (zh) * 2020-09-30 2022-04-12 华为技术有限公司 聚类方法、装置和计算设备
CN112416976A (zh) * 2020-11-18 2021-02-26 简和网络科技(南京)有限公司 基于分布式多级协同的分布式拒绝服务攻击监控系统及方法
CN114742155A (zh) * 2022-04-11 2022-07-12 中南大学 基于随机采样聚类的带噪音数据分类方法及用户分类方法
CN115438722A (zh) * 2022-08-17 2022-12-06 华南理工大学 一种基于分布式聚类的大数据产品指标聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
WO2018045610A1 (zh) * 2016-09-06 2018-03-15 北京百度网讯科技有限公司 用于执行分布式计算任务的方法和装置
US10586165B1 (en) * 2018-12-14 2020-03-10 Sas Institute Inc. Distributable clustering model training system
EP4033736A1 (en) * 2021-01-22 2022-07-27 Avago Technologies International Sales Pte. Limited Distributed machine-learning resource sharing and request routing

Also Published As

Publication number Publication date
CN115952426A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
WO2021017679A1 (zh) 地址信息解析方法、装置、系统及数据获取方法
AU2016245868B2 (en) Automated model development process
CN107168995B (zh) 一种数据处理方法及服务器
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN111311030B (zh) 基于影响因素检测的用户信用风险预测方法及装置
US11568179B2 (en) Selecting an algorithm for analyzing a data set based on the distribution of the data set
CN115952426B (zh) 基于随机采样的分布式噪音数据聚类方法及用户分类方法
CN114722746A (zh) 一种芯片辅助设计方法、装置、设备及可读介质
CN113177643A (zh) 一种基于大数据的自动建模系统
KR20180059203A (ko) 지불 거절 사기 사용자의 예측 방법 및 프로그램
CN111858245A (zh) 一种异常数据的分析方法、装置、电子设备及存储介质
CN115630433A (zh) 一种基于机器学习和bim技术的建筑设计方法及系统
CN115062734A (zh) 可输出解释性信息的风控建模方法、装置、设备及介质
CN114782123A (zh) 一种信用评估方法及系统
CN114004691A (zh) 基于融合算法的额度评分方法、装置、设备及存储介质
CN113448955A (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN113034264A (zh) 客户流失预警模型的建立方法、装置、终端设备及介质
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN114510405B (zh) 指标数据评估方法、装置、设备、存储介质及程序产品
CN112241820A (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
CN114153815A (zh) 数据处理方法、装置、电子设备和存储介质
CN113986863A (zh) 一种云平台错误日志分类的方法、装置、设备及可读介质
CN113283512A (zh) 数据异常检测方法、装置、设备及存储介质
CN112308419A (zh) 数据处理方法、装置、设备及计算机存储介质
CN113537759A (zh) 一种基于权重自适应的用户体验度量模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant