CN110232420A - 一种数据的聚类方法 - Google Patents
一种数据的聚类方法 Download PDFInfo
- Publication number
- CN110232420A CN110232420A CN201910539920.3A CN201910539920A CN110232420A CN 110232420 A CN110232420 A CN 110232420A CN 201910539920 A CN201910539920 A CN 201910539920A CN 110232420 A CN110232420 A CN 110232420A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- network
- data set
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明专利公开了一种数据聚类方法,首先采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全。然后对异常数据去噪算法会根据补全的数据,采用K‑means算法进行初始算法聚类,找出落在簇集合之外的离群点,然后在用BP神经网络对离群点进行校验,判断是否是噪声点,保证数据的光滑性。最后根据前两步的算法预处理后的数据集进行K‑means算法进行聚类分析。本方法比原始的算法精确度有很大提高。
Description
技术领域
本发明涉及数据处理,特别涉及一种数据的聚类方法,属于数据处理技术领域。
背景技术
数据的聚类方法常采用传统的K-means算法,而传统的K-means算法是“无监督学习”算法,即对未标记的数据集进行聚类分析。但是随着互联网的发展,数据的种类越来越复杂,收集数据的手段越来越多,通过各种手段和途径得到数据集,难免造成数据的不统一,和数据的属性缺失问题,数据采集异常等问题,采用传统的K-means对于这些属性缺少和采集异常的数据会舍弃掉,破坏了数据的完整性,从而会影响到算法的精度和可靠性,针对这样的一些问题需要一种可靠的数据的聚类方法。
发明内容
本发明的目的在于克服目前的数据聚类中采用传统的K-means算法存在的上述问题,提供一种数据的聚类方法。
为实现本发明的目的,采用了下述的技术方案:一种数据的聚类方法,依次通过以下算法对数据聚类:属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法,其中:
属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全,步骤如下:
输入:样本集D=;
输出:样本集B=;
具体的处理步骤如下:
1.1扫描数据集一遍,找出数据集的记录数记做N,以及数据集中属性不完整的数据集
记做Q=;
1.2通过判断N的大小,如果N是大于100000条记录的数据,那么随机选取20%作为神经网络的训练样本,如果N是小于等于100000条记录的数据,则选取60%的数据集作为训练样本集;
1.3构造三层BP神经网络模型,分别为输入层,隐含层,和输出层;
1.4网络设置S型传递函数如下:
1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小,其中误差函数E设置函数如下:
其中ti为期望输出;Qi为网络的计算输出;
1.6根据第二步中选取的所有样本集,进行网络的建模,该模型根据数据集的属性作为输入,输出的节点个数设置为1,隐含层的设计使用经验公式:
其中m为输入层神经元个数,n为输出层神经元个数,b为[1,10]之间的常数;本算法中设置b=3;
1.7网络隐层和输出层激励函数分别为tansig和logsig函数,网络训练函数为traingdx,网络性能函数为mse,网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01;
1.8根据上述步骤网络模型的设置构造好网络模型,进行模型的训练并以此对
Q=中的缺失数据集进行预测,构造成完整的数据集记
做B=;
异常数据去噪算法步骤如下:
2.1从步骤1.8中得到完整的数据集B=,对数据采
用K-means算法进行初始算法聚类;
2.2找出落在簇集合之外的点称为离群点记做
2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比,定义一个
误差范围,如果大于给定的阀值就认为是噪声点进行噪声处理,最后
形成无噪声的数据集;
修复后的数据聚类算法:采用经典的K-means算法进行聚类分析。
本发明的积极有益技术效果在于:本发明根据BP神经网络对缺失的属性值进行预测,对异常的数据进行去噪,极大的提高了数据的完整性和可靠性;然后通过K-means对修复后的数据进行聚类。通过理论验证和实验结果都表明所提出的方法比原始的算法精确度有很大提高。
附图说明
图1是本方法的流程示意图。
图2是本方法的BP神经网络结构示意图。
图3是本方法的BP神经元模型示意图。
具体实施方式
本申请中采用的BP 神经网络算法是一种多层前馈网络,首先计算出网络中输出值与期望值的差值,然后通过使用函数求导的方法求出这个差值的偏导,沿着系统中信号传递的反方向进行反馈处理。
BP神经网络学习算法的基本思想为:从选用的样本中将数据输入到神经网络中,由系统中间的隐层去处理和计算结果,并将输出结果作为下一层的输入信号,由此得出神经网络输出层的结果与期望值之间的误差,然后沿着误差曲面极小值的方向不断调整神经网络中互连的神经元之间的连接权值,重复这个误差求解的过程,直到整个神经网络的输出误差达到系统要求的精度停止。
BP 神经网络的学习规则采用最速下降法,通过网络的反向传播来不断调整网络的权值和阈值,使网络的输出误差值最小。BP神经网络模型拓扑结构包括输入层、隐含层和输出层。BP神经元模型如图1所示。
设 BP 神经元的输入信号为 P,权值和阈值分别为 w 和 b,处理结果为 y,传递函数常用logsig函数和tansig函数。其中logsig函数的公式:
。
本申请的一种数据聚类方法的过程下:
输入:样本集;,聚类的簇数k
输出:聚类的划分簇,
具体的过程:
使用BP神经网络对数据集D的缺失属性进行补全: 属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全,步骤如下:
输入:样本集D= ;
输出:样本集B=;
具体的处理步骤如下:
1.1扫描数据集一遍,找出数据集的记录数记做N,以及数据集中属性不完整的数据集
记做Q=;
1.2通过判断N的大小,如果N是大于100000条记录的数据,那么随机选取20%作为神经网络的训练样本,如果N是小于等于100000条记录的数据,则选取60%的数据集作为训练样本集;
1.3构造三层BP神经网络模型,分别为输入层,隐含层,和输出层;
1.4网络设置S型传递函数如下:
1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小,其中误差函数E设置函数如下:
其中ti为期望输出;Qi为网络的计算输出;
1.6根据第二步中选取的所有样本集,进行网络的建模,该模型根据数据集的属性作为输入,输出的节点个数设置为1,隐含层的设计使用经验公式:
其中m为输入层神经元个数,n为输出层神经元个数,b为[1,10]之间的常数;本算法中设置b=3;
1.7网络隐层和输出层激励函数分别为tansig和logsig函数,网络训练函数为traingdx,网络性能函数为mse,网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01;
1.8根据上述步骤网络模型的设置构造好网络模型,进行模型的训练并以此对
Q=中的缺失数据集进行预测,构造成完整的数据集记做B=;
采用离群点和BP神经网络对异常数据进行去噪处理,异常数据去噪算法步骤如下:
2.1从步骤1.8中得到完整的数据集B=,对数据采用K-
means算法进行初始算法聚类;
2.2找出落在簇集合之外的点称为离群点记做
2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比,定义一个
误差范围,如果大于给定的阀值就认为是噪声点进行噪声处理,最后
形成无噪声的数据集;
修复后的数据聚类算法:采用经典的K-means算法进行聚类分析,具体步骤如下:
3.1从A中随机选取k个样本作为初始向量即为初始的簇中心记为向量,
3.2令
3.3循环,往下执行;
3.4计算与各个向量的距离记做;
3.5根据距离最近的中心点确定的簇标记:;
3.6将样本归为相应的簇:;
3.7结束循环;
3.8循环令,执行;
3.9计算新的簇类向量;
3.10如果,这个时候需要将簇类向量更新为;
3.11否则保持当前簇类向量不变;
3.12结束循环,直到簇类向量不再变更为止。
本聚类方法加入了数据集的完整性恢复和噪声的检测不仅保证了数据的完整性,防止数据丢失重要的属性造成聚类精度低。
Claims (1)
1.一种数据的聚类方法,其特征在于:依次通过以下算法对数据聚类:属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法,其中:
属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全,步骤如下:
输入:样本集D=;
输出:样本集B=;
具体的处理步骤如下:
1.1扫描数据集一遍,找出数据集的记录数记做N,以及数据集中属性不完整的数据集
记做Q=;
1.2通过判断N的大小,如果N是大于100000条记录的数据,那么随机选取20%作为神经网络的训练样本,如果N是小于等于100000条记录的数据,则选取60%的数据集作为训练样本集;
1.3构造三层BP神经网络模型,分别为输入层,隐含层,和输出层;
1.4网络设置S型传递函数如下:
1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小,其中误差函数E设置函数如下:
其中ti为期望输出;Qi为网络的计算输出;
1.6根据第二步中选取的所有样本集,进行网络的建模,该模型根据数据集的属性作为输入,输出的节点个数设置为1,隐含层的设计使用经验公式:
其中m为输入层神经元个数,n为输出层神经元个数,b为[1,10]之间的常数;本算法中设置b=3;
1.7网络隐层和输出层激励函数分别为tansig和logsig函数,网络训练函数为traingdx,网络性能函数为mse,网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01;
1.8根据上述步骤网络模型的设置构造好网络模型,进行模型的训练并以此对
Q=中的缺失数据集进行预测,构造成完整的数据集记
做B=;
异常数据去噪算法步骤如下:
2.1从步骤1.8中得到完整的数据集B=,对数据采用K-
means算法进行初始算法聚类;
2.2找出落在簇集合之外的点称为离群点记做
2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比,定义一个
误差范围,如果大于给定的阀值就认为是噪声点进行噪声处理,最
后形成无噪声的数据集;
修复后的数据聚类算法:采用经典的K-means算法进行聚类分析,具体步骤如下:
3.1从A中随机选取k个样本作为初始向量即为初始的簇中心记为向量,
3.2令
3.3循环,往下执行;
3.4计算与各个向量的距离记做;
3.5根据距离最近的中心点确定的簇标记:;
3.6将样本归为相应的簇:;
3.7结束循环;
3.8循环令,执行;
3.9计算新的簇类向量;
3.10如果,这个时候需要将簇类向量更新为;
3.11否则保持当前簇类向量不变;
3.12结束循环,直到簇类向量不再变更为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539920.3A CN110232420A (zh) | 2019-06-21 | 2019-06-21 | 一种数据的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539920.3A CN110232420A (zh) | 2019-06-21 | 2019-06-21 | 一种数据的聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232420A true CN110232420A (zh) | 2019-09-13 |
Family
ID=67856954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910539920.3A Pending CN110232420A (zh) | 2019-06-21 | 2019-06-21 | 一种数据的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232420A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782007A (zh) * | 2019-10-15 | 2020-02-11 | 中国航空无线电电子研究所 | 一种基于神经网络的飞行数据缺失补充方法 |
CN111953665A (zh) * | 2020-07-28 | 2020-11-17 | 深圳供电局有限公司 | 服务器攻击访问识别方法及系统、计算机设备、存储介质 |
CN112464289A (zh) * | 2020-12-11 | 2021-03-09 | 广东工业大学 | 一种隐私数据的清洗方法 |
CN112465347A (zh) * | 2020-11-26 | 2021-03-09 | 湖南科技大学 | 基于聚类分析与改进神经网络协同预测顶板稳定性的方法 |
CN112801113A (zh) * | 2021-02-09 | 2021-05-14 | 北京工业大学 | 基于多尺度可靠聚类的数据去噪方法 |
CN112884089A (zh) * | 2021-04-12 | 2021-06-01 | 国网上海市电力公司 | 一种基于数据挖掘的电力变压器故障预警系统 |
CN113421176A (zh) * | 2021-07-16 | 2021-09-21 | 昆明学院 | 一种异常数据智能筛选方法 |
CN115203191A (zh) * | 2022-09-14 | 2022-10-18 | 深圳市诚王创硕科技有限公司 | 一种计算机数据处理方法 |
-
2019
- 2019-06-21 CN CN201910539920.3A patent/CN110232420A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782007A (zh) * | 2019-10-15 | 2020-02-11 | 中国航空无线电电子研究所 | 一种基于神经网络的飞行数据缺失补充方法 |
CN110782007B (zh) * | 2019-10-15 | 2023-04-07 | 中国航空无线电电子研究所 | 一种基于神经网络的飞行数据缺失补充方法 |
CN111953665A (zh) * | 2020-07-28 | 2020-11-17 | 深圳供电局有限公司 | 服务器攻击访问识别方法及系统、计算机设备、存储介质 |
CN111953665B (zh) * | 2020-07-28 | 2022-08-30 | 深圳供电局有限公司 | 服务器攻击访问识别方法及系统、计算机设备、存储介质 |
CN112465347A (zh) * | 2020-11-26 | 2021-03-09 | 湖南科技大学 | 基于聚类分析与改进神经网络协同预测顶板稳定性的方法 |
CN112464289A (zh) * | 2020-12-11 | 2021-03-09 | 广东工业大学 | 一种隐私数据的清洗方法 |
CN112801113A (zh) * | 2021-02-09 | 2021-05-14 | 北京工业大学 | 基于多尺度可靠聚类的数据去噪方法 |
CN112884089A (zh) * | 2021-04-12 | 2021-06-01 | 国网上海市电力公司 | 一种基于数据挖掘的电力变压器故障预警系统 |
CN113421176A (zh) * | 2021-07-16 | 2021-09-21 | 昆明学院 | 一种异常数据智能筛选方法 |
CN113421176B (zh) * | 2021-07-16 | 2022-11-01 | 昆明学院 | 一种学生成绩分数中异常数据智能筛选方法 |
CN115203191A (zh) * | 2022-09-14 | 2022-10-18 | 深圳市诚王创硕科技有限公司 | 一种计算机数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232420A (zh) | 一种数据的聚类方法 | |
WO2018126984A2 (zh) | 一种基于mea-bp神经网络wsn异常检测方法 | |
CN103914735B (zh) | 一种基于神经网络自学习的故障识别方法及系统 | |
Yin et al. | Wasserstein generative adversarial network and convolutional neural network (WG-CNN) for bearing fault diagnosis | |
CN109617888B (zh) | 一种基于神经网络的异常流量检测方法及系统 | |
WO2020224297A1 (zh) | 计算机执行的集成模型的确定方法及装置 | |
CN107516135A (zh) | 一种支持多源数据的自动化监督性学习方法 | |
CN109670580A (zh) | 一种基于时间序列的数据修复方法 | |
CN109657945A (zh) | 一种基于数据驱动的工业生产过程故障诊断方法 | |
CN108958217A (zh) | 一种基于深度学习的can总线报文异常检测方法 | |
CN102075352A (zh) | 一种网络用户行为预测的方法和装置 | |
CN108491886A (zh) | 一种基于卷积神经网络的多元时序数据的分类方法 | |
CN113159113B (zh) | 信息恶意篡改下可修复遥测量的智能电网故障诊断方法 | |
CN110244557B (zh) | 一种工业过程多阶惯性闭环系统的闭环建模方法 | |
CN109523012B (zh) | 基于变分解耦合方式对符号有向网络的表达学习方法 | |
CN106647272A (zh) | 基于k均值改进卷积神经网络的机器人路径规划方法 | |
CN107563414A (zh) | 一种基于Kohonen‑SVM的复杂设备退化状态识别方法 | |
CN115051929A (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
US20240095535A1 (en) | Executing a genetic algorithm on a low-power controller | |
CN104092503A (zh) | 一种基于狼群优化的人工神经网络频谱感知方法 | |
Thota et al. | Early rumor detection in social media based on graph convolutional networks | |
Adnan et al. | Artificial neural network for software reliability assessment | |
Yang et al. | A self-adaptive sliding window technique for mining data streams | |
CN113268782B (zh) | 一种基于图神经网络的机器账号识别及伪装对抗方法 | |
CN110265092B (zh) | 基于人工智能的抗体-抗原分子对接评价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190913 |
|
WD01 | Invention patent application deemed withdrawn after publication |