CN115952426B

CN115952426B - 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Info

Publication number: CN115952426B
Application number: CN202310228838.5A
Authority: CN
Inventors: 冯启龙; 黄俊予; 马康; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-06
Anticipated expiration: 2043-03-10
Also published as: CN115952426A

Abstract

本发明公开了一种基于随机采样的分布式噪音数据聚类方法，包括获取待分类的带噪音数据集、划分并分布式存储；各节点对存储的数据进行随机采样并初始化中心点集和采样候选集；每个节点对数据集进行迭代处理并得到最终的中心点集；获取每个节点上的中心点集并构造得到带权实例；进行带权的k‑中心噪声分类得到最终的若干个中心点；将数据点分配到中心点上并移除最远的若干个数据点完成带噪音数据集的分类。本发明还公开了一种包括所述基于随机采样的分布式噪音数据聚类方法的用户分类方法。本发明通过分布采样、随机采样和迭代处理的方式，不仅实现了带噪音数据的分类，而且本发明的可靠性高、准确性好且效率较高。

Description

基于随机采样的分布式噪音数据聚类方法及用户分类方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于随机采样的分布式噪音数据聚类方法及用户分类方法。

背景技术

聚类是机器学习的最基本问题之一。聚类分析是根据数据的信息特征，将数据对象分组，使得组内的数据对象之间尽可能相似，而组间的数据对象之间则尽可能不同。聚类算法的用途非常广泛，在数据决策、数据推荐和数据分析等领域有着广泛应用；因此，聚类模型也一直是人们研究的重点。常用的聚类模型有k-均值聚类，k-中值聚类和k-中心聚类等。聚类问题是经典的NP难（NPHard）问题，即除非假定NP=P，否则无法在多项式时间内找到问题的最优解。因此，近似算法成为常用的聚类分析方法之一。

k-中心问题一直是聚类中的一个热门模型，其目标是在给定度量空间内找到k个中心点，将数据分配到中心点形成k个类簇，使得最大类簇半径最小化

目前，在度量空间中，已知k-中心问题的近似比为2是该问题的下界。但在实际应用中，数据聚类往往伴随着噪声的干扰，且已知k-中心模型对噪声数据极为敏感。在数据分析中，这些噪声的干扰往往会严重影响最终的聚类结果分析。如何在聚类的过程中去除噪音点的影响，这就是带噪音的聚类问题。

目前，带噪音的数据聚类问题，行业内虽然有对应的分布式聚类方法，但是现有方法的聚类精度较差，而且通讯复杂度和机器时间复杂度较高，实际应用时效果较差。

正因如此，基于带噪音数据聚类方法的用户分类方法，也受到了极大地影响。目前，由于带噪音数据在聚类过程中的可靠性问题和复杂度问题，基于带噪音数据聚类方法的用户分类方法在实际应用中也存在较大的问题，这将导致用户分类的结果不准确，从而影响后续的用户服务推荐和用户数据分析等过程，从而极大地影响用户的体验。

发明内容

本发明的目的之一在于提供一种精度较高、通讯复杂度较低、机器运行时间快且实用性好的基于随机采样的分布式噪音数据聚类方法。

本发明的目的之二在于提供一种包括了所述基于随机采样的分布式噪音数据聚类方法的用户分类方法。

本发明提供的这种基于随机采样的分布式噪音数据聚类方法，包括如下步骤：

S1. 获取待分类的带噪音数据集；

S2. 将步骤S1获取的数据集进行划分，并进行分布式存储；

S3. 在分布式存储的各个节点上，各个节点对自身存储的数据进行随机采样，并将采样得到的数据初始化为中心点集，同时将所有数据集初始化为采样候选集；

S4. 在每个节点上，对数据集进行迭代处理：每一轮迭代时，随机采样若干个数据点，并在采样得到的数据点中进行二次采样，并将二次采样结果加入到中心点集中，然后将中心点集中的中心点设置范围内的数据点覆盖，并将覆盖的数据点从采样候选集中删除；迭代完成后，得到最终的中心点集；

S5. 获取每个节点上的中心点集，并构造得到带权实例，并将数据上传到总节点；

S6. 在总节点上进行带权的k-中心噪声分类，得到最终的若干个中心点；

S7. 将数据集中的各个数据点分配到步骤S6得到的若干个中心点上，并移除最远的若干个数据点，完成基于随机采样的带噪音数据集的分类。

步骤S3所述的随机采样，具体包括如下步骤：

采用如下算式作为优化目标函数：

式中X为给定数据集中去除了噪音点的子集，且X=N\Z，N为步骤S1获取的数据集中所有数据集合，Z为去除的噪音点的集合，\为集合删除操作，而且/>

，z为输入参数，表示待移除的噪音点数量上限；p为集合X中的数据点；将集合X分为K个簇，分别为/>

，/>

为所选的第j个中心点集的中心点；/>

为数据点p到第j个中心点集的中心点/>

的距离；随机采样的数据点的个数设定为/>

，其中/>

和/>

均为设定的参数；所述目标函数用于优化最大类簇半径，使得尽可能找到紧密的k个类簇对数据进行分类，并找到偏离类簇的数据点作为噪音点移除。

所述的步骤S4，具体包括如下步骤：

根据未被覆盖的数据集的大小，采用分布采样的思想，从当前的候选采样集中随机选取若干个数据点，得到第一随机数据点；

然后再从第一随机数据点中再次随机选取若干个数据点，得到第二随机数据点；

将第二随机数据点加入到当前的中心点集中，并将更新后的中心点集作为当前的中心点集；

在当前的中心点集中，找到距离中心点在设定范围内的数据点进行标记，并将标记后的数据点在采样候选集合中删除；

重复以上步骤若干次，最终得到中心点集。

所述的步骤S4，具体包括如下步骤：

在当前轮次的迭代中，对未被覆盖的数据集大小进行判断：

若未被覆盖的数据集中，数据点的个数大于设定值

，则从当前的采样候选集中随机选取/>

个数据点，作为第一随机数据点；然后从第一随机数据点中，再随机选取/>

个数据点作为第二随机数据点；将第二随机数据点加入到当前的中心点集中；/>

若未被覆盖的数据集中，数据点的个数小于或等于设定值

，则找到整数r满足/>

；然后，从当前的采样候选集中随机选取

个数据点，作为第一随机数据点；再从第一随机数据点中，随机选取

个数据点作为第二随机数据点；将第二随机数据点加入到当前的中心点集中；其中，/>

和/>

均为设定的参数，z为噪声的数量，/>

为当前采样候选集U中的数据个数，m为节点的数量；

将第二随机数据点加入到当前的中心点集后，在当前的中心点集中，找到距离中心点

范围内的数据点并进行标记，将标记后的数据点在当前的采样候选集合中删除；/>

为设定的参数；

重复以上步骤共

次，最终得到中心点集；/>

为设置的大于1的常数参数，用于控制聚类质量；/>

取值越大，则聚类质量越高，但是所需的时间复杂度越大；k为待打开的中心点数量。

步骤S5所述的构造得到带权实例，具体包括如下步骤：

以中心点集中的

个候选中心点为中心点，将所有数据点分类给距离自己最近的候选中心点；每个中心点的权值为分配到该中心点的数据点的个数；/>

为计算函数且/>

，k为待打开的中心点数量，/>

为设置的一个大于设定值的实数。

步骤S6所述的带权的k-中心噪声分类，具体包括如下步骤：

采用贪心迭代的方式，最终选取k个中心点；

在迭代过程中，每次选取给定半径范围2

内所覆盖的权值之和最大的点作为中心点；在带权实例中，删除以该点为中心点、半径4/>

内所覆盖的所有点；/>

为设定的参数。

步骤S7所述的移除最远的若干个数据点，具体为移除最远的

个数据点，其中z为噪声的数量，/>

为设定的参数。

本发明还公开了一种包括了所述基于随机采样的分布式噪音数据聚类方法的用户分类方法，包括如下步骤：

A. 获取原始的用户基本信息；

B. 将步骤A获取的用户基本信息作为待分类的带噪音数据集，采用所述的基于随机采样的分布式噪音数据聚类方法进行分类；

C. 将步骤B得到的分类结果作为用户分类结果，完成用户的分类。

本发明提供的这种基于随机采样的带噪音数据分类方法及用户分类方法，通过分布采样、随机采样和迭代处理的方式，不仅实现了带噪音数据的分类，而且本发明的可靠性高、准确性好且效率较高。

附图说明

图1为本发明的数据分类方法的方法流程示意图。

图2为本发明的数据分类方法与现有的分类方法的分类效果对比示意图；其中，图2（a）为m取值为20、在不同k值条件下的本发明方法与现有技术的近似比对比示意图；图2（b）为m取值为50、在不同k值条件下的本发明方法与现有技术的近似比对比示意图；图2（c）为m取值为20、在不同k值条件下的本发明方法与现有技术的通讯复杂度对比示意图；图2（d）为m取值为50、在不同k值条件下的本发明方法与现有技术的通讯复杂度对比示意图；图2（e）为m取值为20、在不同k值条件下的本发明方法与现有技术的运行时间对比示意图；图2（f）为m取值为50、在不同k值条件下的本发明方法与现有技术的运行时间对比示意图。

图3为本发明的用户分类方法的方法流程示意图。

具体实施方式

如图1所示为本发明的数据分类方法的方法流程示意图：本发明提供的这种基于随机采样的分布式噪音数据聚类方法，包括如下步骤：

S1. 获取待分类的带噪音数据集；

S2. 将步骤S1获取的数据集进行划分，并进行分布式存储；

S3. 在分布式存储的各个节点上，各个节点对自身存储的数据进行随机采样，并将采样得到的数据初始化为中心点集，同时将所有数据集初始化为采样候选集；具体包括如下步骤：

采用如下算式作为优化目标函数：

，/>

为所选的第j个中心点集的中心点；/>

为数据点p到第j个中心点集的中心点/>

的距离；随机采样的数据点的个数设定为/>

，其中/>

和/>

均为设定的参数；所述目标函数用于优化最大类簇半径，使得尽可能找到紧密的k个类簇对数据进行分类，并找到偏离类簇的数据点作为噪音点移除；

通过本步骤的随机采样，至少存在一个不是噪音点的正常点的概率为

；同时，在优化目标函数的过程中去除z个噪音点的影响；

S4. 在每个节点上，对数据集进行迭代处理：每一轮迭代时，随机采样若干个数据点，并在采样得到的数据点中进行二次采样，并将二次采样结果加入到中心点集中，然后将中心点集中的中心点设置范围内的数据点覆盖，并将覆盖的数据点从采样候选集中删除；迭代完成后，得到最终的中心点集；具体包括如下步骤：

重复以上步骤若干次，最终得到中心点集；

利用分布采样思想，每一次找到至少一个非噪音数据点打开，聚类结果可以在分机上保证2-近似，每一次迭代需要重新计算两两数据点的距离；

具体实施时：

在当前轮次的迭代中，对未被覆盖的数据集大小进行判断：

若未被覆盖的数据集中，数据点的个数大于设定值

，则从当前的采样候选集中随机选取/>

个数据点作为第二随机数据点；将第二随机数据点加入到当前的中心点集中；

若未被覆盖的数据集中，数据点的个数小于或等于设定值

，则找到整数r满足/>

；然后，从当前的采样候选集中随机选取/>

个数据点，作为第一随机数据点；再从第一随机数据点中，随机选取/>

和/>

均为设定的参数，z为噪声的数量，/>

为当前采样候选集U中的数据个数，m为节点的数量；

为设定的参数；

重复以上步骤共

次，最终得到中心点集；/>

为设置的大于1的常数参数，用于控制聚类质量；/>

取值越大，则聚类质量越高，但是所需的时间复杂度越大；k为待打开的中心点数量；/>

S5. 获取每个节点上的中心点集，并构造得到带权实例，并将数据上传到总节点；具体包括如下步骤：

以中心点集中的

为计算函数且/>

，k为待打开的中心点数量，/>

为设置的一个大于设定值的实数（即足够大的实数）；

S6. 在总节点上进行带权的k-中心噪声分类，得到最终的若干个中心点；具体包括如下步骤：

采用贪心迭代的方式，最终选取k个中心点；

在迭代过程中，每次选取给定半径范围2

_t内所覆盖的权值之和最大的点作为中心点；在带权实例中，删除以该点为中心点、半径4/>

内所覆盖的所有点；/>

为设定的参数；

S7. 将数据集中的各个数据点分配到步骤S6得到的若干个中心点上，并移除最远的若干个数据点，完成基于随机采样的带噪音数据集的分类；具体为移除最远的

个数据点，其中z为噪声的数量，/>

为设定的参数。

本发明方法的时间复杂度是关于n的线性，准确的打开k个中心点，往往能够以较高的概率（

）获得近似比为14的解，所移除的噪音点数量为/>

，通讯复杂度是关于m和k的线性函数。

以下结合一个实施例，对本发明方法的效果进行进一步说明：

使用真实数据集测试（HIGSS），该数据集包含11000000个蒙特卡罗波形数据，每个数据有28个特征，前21个特征（第2-22列）是由加速器中的粒子探测器测量的运动学特性，后7个特征是前21个特征的对应功能特征。实验中参数

设置为0.1，/>

设置为0.1，z取值为1024，m取值为50。

其中，图2（a）和图2（b）表示在不同的k值条件下，本发明方法与现有技术的近似比对比；图2（c）和图2（d）表示在不同的k值条件下，本发明方法与现有技术的通讯复杂度对比；图2（e）和图2（f）表示在不同的k值条件下，本发明方法与现有技术的运行时间对比；其中，

为对比算法取参数/>

的效果，/>

为对比算法取参数/>

，glz为基准算法，/>

为本发明算法取参数/>

，/>

为本发明算法取参数/>

。通过实验和图2可以看到，本发明方法具有一定的稳定性，可以以很快的速度完成数据分类的过程，而且效率较高。

如图3所示为本发明的用户分类方法的方法流程示意图：本发明公开的这种包括了所述基于随机采样的分布式噪音数据聚类方法的用户分类方法，包括如下步骤：

A. 获取原始的用户基本信息；

具体实施时，本发明提供的这种用户分类方法，可以用于用户的资格评审：现有一家资格审查机构，需要收集用户信息来确认用户是否能够通过资格审查，以及确定用户的评级。但是，资格审查机构在进行独立采集随机抽样的时候会出现一些异常的信息，即噪音。噪音一般可以归结为以下两种。

输出错误：

同样的一笔数据，出现了两种不同的评判结果；

输入错误：

在收集数据时，由于数据源的随机性出现的错误（比如说，客户在填写信息时出现的误填）。

那么，针对该类情况，本发明的用户分类方法则具体包括如下步骤：

a. 收集原始的用户基本信息；

用户基本信息包括年龄，性别，资产情况等信息；

b. 将步骤a获取的用户基本信息作为带噪音的待分类数据集；

其中，噪音来源于标记错误（比如应该给客户标记为“通过”却最终标记为“不通过”，或者两个数据相同的客户一个标记为“通过”而另一个标记为“不通过”），或者输入错误（比如手机的用户基本信息本身就存在错误）；

采用上述的基于随机采样聚类的带噪音数据分类方法，对待分类数据集进行数据分类；分类过程中能够找到数据中的噪音点，并丢弃噪音点；将相似情况的客户聚类成同一个簇，其余的离群值被当作噪音点丢弃；

c. 根据步骤b得到的分类结果，对用户进行分类；

经过上述步骤，最终得到去除噪音点的用户分类结果，可以帮助资格审查人员更好的分析用户结构。

或者，本发明的用户分类方法还可以用于服务推荐过程：

现有一家机构，需要收集用户信息来对用户进行分类，进而进行个性化的服务推荐。但是，机构在进行独立采集随机抽样的时候会出现一些异常的信息，即噪音。噪音一般可以归结为以下两种。

输出错误：

同样的一个用户，出现了两种不同的分类结果，从而导致推荐不同类型的服务；

输入错误：

在收集数据时，由于数据源的随机性出现的错误（比如说，用户在填写信息时出现的误填）。

a. 收集原始的用户基本信息；

用户基本信息包括年龄，性别，资产情况等信息；

b. 将步骤a获取的用户基本信息作为带噪音的待分类数据集；

其中，噪音来源于输出错误或者输入错误；

c. 根据步骤b得到的分类结果，对用户进行分类；

经过上述步骤，最终得到去除噪音点的用户分类结果，根据最终得到的用户分类结果，进行后续的、针对性的服务推荐。

Claims

1.一种基于随机采样的分布式噪音数据聚类方法，其特征在于包括如下步骤：

S1. 获取待分类的带噪音数据集；

S2. 将步骤S1获取的数据集进行划分，并进行分布式存储；

2.根据权利要求1所述的基于随机采样的分布式噪音数据聚类方法，其特征在于步骤S3所述的随机采样，具体包括如下步骤：

采用如下算式作为优化目标函数：

式中X为给定数据集中去除了噪音点的子集，且X=N\Z，N为步骤S1获取的数据集中所有数据集合，Z为去除的噪音点的集合，\为集合删除操作，而且

，c _j为所选的第j个中心点集的中心点；/>

为数据点p到第j个中心点集的中心点c _j的距离；随机采样的数据点的个数设定为/>

，其中/>

和/>

3.根据权利要求2所述的基于随机采样的分布式噪音数据聚类方法，其特征在于所述的步骤S4，具体包括如下步骤：

重复以上步骤若干次，最终得到中心点集。

4.根据权利要求3所述的基于随机采样的分布式噪音数据聚类方法，其特征在于所述的步骤S4，具体包括如下步骤：

在当前轮次的迭代中，对未被覆盖的数据集大小进行判断：

若未被覆盖的数据集中，数据点的个数大于设定值

，则从当前的采样候选集中随机选取/>

个数据点，作为第一随机数据点；然后从第一随机数据点中，再随机选取

若未被覆盖的数据集中，数据点的个数小于或等于设定值

，则找到整数r满足

；然后，从当前的采样候选集中随机选取

和/>

均为设定的参数，z为噪声的数量，/>

为当前采样候选集U中的数据个数，m为节点的数量；

将第二随机数据点加入到当前的中心点集后，在当前的中心点集中，找到距离中心点R _opt范围内的数据点并进行标记，将标记后的数据点在当前的采样候选集合中删除；R _opt为设定的参数；

重复以上步骤共

次，最终得到中心点集；/>

为设置的大于1的常数参数，用于控制聚类质量；/>

5.根据权利要求4所述的基于随机采样的分布式噪音数据聚类方法，其特征在于步骤S5所述的构造得到带权实例，具体包括如下步骤：

以中心点集中的

为计算函数且/>

，k为待打开的中心点数量，/>

为设置的一个大于设定值的实数。

6.根据权利要求5所述的基于随机采样的分布式噪音数据聚类方法，其特征在于步骤S6所述的带权的k-中心噪声分类，具体包括如下步骤：

采用贪心迭代的方式，最终选取k个中心点；

在迭代过程中，每次选取给定半径范围2R _opt内所覆盖的权值之和最大的点作为中心点；在带权实例中，删除以该点为中心点、半径4R _opt内所覆盖的所有点；R _opt为设定的参数。

7.根据权利要求6所述的基于随机采样的分布式噪音数据聚类方法，其特征在于步骤S7所述的移除最远的若干个数据点，具体为移除最远的

个数据点，其中z为噪声的数量，/>

为设定的参数。

8.一种基于随机采样的分布式噪音数据聚类方法的用户分类方法，其特征在于包括如下步骤：

A. 获取原始的用户信息；

B. 将步骤A获取的用户信息作为待分类的带噪音数据集，采用权利要求1~7之一所述的基于随机采样的分布式噪音数据聚类方法进行分类；