CN110232420A

CN110232420A - 一种数据的聚类方法

Info

Publication number: CN110232420A
Application number: CN201910539920.3A
Authority: CN
Inventors: 王伟; 郭亮; 储泽楠; 王雅淇; 常庆丽; 赵凯; 韩毅
Original assignee: Anyang Institute of Technology
Current assignee: Anyang Institute of Technology
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-13

Abstract

本发明专利公开了一种数据聚类方法，首先采用BP神经网络利用完整的数据集作为样本集来进行训练，进行缺失属性值的预测补全。然后对异常数据去噪算法会根据补全的数据，采用K‑means算法进行初始算法聚类，找出落在簇集合之外的离群点，然后在用BP神经网络对离群点进行校验，判断是否是噪声点，保证数据的光滑性。最后根据前两步的算法预处理后的数据集进行K‑means算法进行聚类分析。本方法比原始的算法精确度有很大提高。

Description

一种数据的聚类方法

技术领域

本发明涉及数据处理，特别涉及一种数据的聚类方法，属于数据处理技术领域。

背景技术

数据的聚类方法常采用传统的K-means算法，而传统的K-means算法是“无监督学习”算法，即对未标记的数据集进行聚类分析。但是随着互联网的发展，数据的种类越来越复杂，收集数据的手段越来越多，通过各种手段和途径得到数据集，难免造成数据的不统一，和数据的属性缺失问题，数据采集异常等问题，采用传统的K-means对于这些属性缺少和采集异常的数据会舍弃掉，破坏了数据的完整性，从而会影响到算法的精度和可靠性，针对这样的一些问题需要一种可靠的数据的聚类方法。

发明内容

本发明的目的在于克服目前的数据聚类中采用传统的K-means算法存在的上述问题，提供一种数据的聚类方法。

为实现本发明的目的，采用了下述的技术方案：一种数据的聚类方法，依次通过以下算法对数据聚类：属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法，其中：

属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练，进行缺失属性值的预测补全，步骤如下：

输入：样本集D=;

输出：样本集B=；

具体的处理步骤如下：

1.1扫描数据集一遍，找出数据集的记录数记做N，以及数据集中属性不完整的数据集记做Q=；

1.2通过判断N的大小，如果N是大于100000条记录的数据，那么随机选取20%作为神经网络的训练样本，如果N是小于等于100000条记录的数据，则选取60%的数据集作为训练样本集；

1.3构造三层BP神经网络模型，分别为输入层，隐含层，和输出层；

1.4网络设置S型传递函数如下：

1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小，其中误差函数E设置函数如下：

其中t_i为期望输出；Q_i为网络的计算输出；

1.6根据第二步中选取的所有样本集，进行网络的建模，该模型根据数据集的属性作为输入，输出的节点个数设置为1，隐含层的设计使用经验公式：

其中m为输入层神经元个数,n为输出层神经元个数，b为[1,10]之间的常数；本算法中设置b=3；

1.7网络隐层和输出层激励函数分别为tansig和logsig函数，网络训练函数为traingdx,网络性能函数为mse，网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01；

1.8根据上述步骤网络模型的设置构造好网络模型，进行模型的训练并以此对

Q=中的缺失数据集进行预测，构造成完整的数据集记做B=；

异常数据去噪算法步骤如下：

2.1从步骤1.8中得到完整的数据集B=，对数据采用K-means算法进行初始算法聚类；

2.2找出落在簇集合之外的点称为离群点记做

2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比，定义一个误差范围，如果大于给定的阀值就认为是噪声点进行噪声处理，最后形成无噪声的数据集；

修复后的数据聚类算法：采用经典的K-means算法进行聚类分析。

本发明的积极有益技术效果在于：本发明根据BP神经网络对缺失的属性值进行预测，对异常的数据进行去噪，极大的提高了数据的完整性和可靠性；然后通过K-means对修复后的数据进行聚类。通过理论验证和实验结果都表明所提出的方法比原始的算法精确度有很大提高。

附图说明

图1是本方法的流程示意图。

图2是本方法的BP神经网络结构示意图。

图3是本方法的BP神经元模型示意图。

具体实施方式

本申请中采用的BP 神经网络算法是一种多层前馈网络，首先计算出网络中输出值与期望值的差值，然后通过使用函数求导的方法求出这个差值的偏导，沿着系统中信号传递的反方向进行反馈处理。

BP神经网络学习算法的基本思想为：从选用的样本中将数据输入到神经网络中，由系统中间的隐层去处理和计算结果，并将输出结果作为下一层的输入信号，由此得出神经网络输出层的结果与期望值之间的误差，然后沿着误差曲面极小值的方向不断调整神经网络中互连的神经元之间的连接权值，重复这个误差求解的过程，直到整个神经网络的输出误差达到系统要求的精度停止。

BP 神经网络的学习规则采用最速下降法，通过网络的反向传播来不断调整网络的权值和阈值，使网络的输出误差值最小。BP神经网络模型拓扑结构包括输入层、隐含层和输出层。BP神经元模型如图1所示。

设 BP 神经元的输入信号为 P，权值和阈值分别为 w 和 b，处理结果为 y，传递函数常用logsig函数和tansig函数。其中logsig函数的公式：

。

本申请的一种数据聚类方法的过程下：

输入：样本集；，聚类的簇数k

输出：聚类的划分簇，

具体的过程：

使用BP神经网络对数据集D的缺失属性进行补全：属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练，进行缺失属性值的预测补全，步骤如下：

输入：样本集D= ;

输出：样本集B=；

具体的处理步骤如下：

1.4网络设置S型传递函数如下：

其中t_i为期望输出；Q_i为网络的计算输出；

Q=中的缺失数据集进行预测，构造成完整的数据集记做B=；

采用离群点和BP神经网络对异常数据进行去噪处理，异常数据去噪算法步骤如下：

2.1从步骤1.8中得到完整的数据集B=，对数据采用K- means算法进行初始算法聚类；

2.2找出落在簇集合之外的点称为离群点记做

修复后的数据聚类算法：采用经典的K-means算法进行聚类分析，具体步骤如下：

3.1从A中随机选取k个样本作为初始向量即为初始的簇中心记为向量，

3.2令

3.3循环，往下执行；

3.4计算与各个向量的距离记做；

3.5根据距离最近的中心点确定的簇标记：；

3.6将样本归为相应的簇：；

3.7结束循环；

3.8循环令，执行；

3.9计算新的簇类向量；

3.10如果，这个时候需要将簇类向量更新为；

3.11否则保持当前簇类向量不变；

3.12结束循环，直到簇类向量不再变更为止。

本聚类方法加入了数据集的完整性恢复和噪声的检测不仅保证了数据的完整性，防止数据丢失重要的属性造成聚类精度低。

Claims

1.一种数据的聚类方法，其特征在于：依次通过以下算法对数据聚类：属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法，其中：

输入：样本集D=;

输出：样本集B=；

具体的处理步骤如下：

1.4网络设置S型传递函数如下：

其中t_i为期望输出；Q_i为网络的计算输出；

Q=中的缺失数据集进行预测，构造成完整的数据集记做B=；

异常数据去噪算法步骤如下：

2.2找出落在簇集合之外的点称为离群点记做

3.2令

3.3循环，往下执行；

3.4计算与各个向量的距离记做；

3.5根据距离最近的中心点确定的簇标记：；

3.6将样本归为相应的簇：；

3.7结束循环；

3.8循环令，执行；

3.9计算新的簇类向量；

3.10如果，这个时候需要将簇类向量更新为；

3.11否则保持当前簇类向量不变；

3.12结束循环，直到簇类向量不再变更为止。