CN109214466A

CN109214466A - 一种基于密度的新型聚类算法

Info

Publication number: CN109214466A
Application number: CN201811209168.8A
Authority: CN
Inventors: 翁利国; 邱海锋; 尉耀稳; 余彬; 陆岷; 王亿; 楼天华; 许瑞; 陈烨铧; 陶芳洁; 严洁; 楼东良; 沈鸿达
Original assignee: State Grid Corp of China SGCC; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Current assignee: State Grid Corp of China SGCC; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-01-15

Abstract

本发明公开了一种基于密度的新型聚类算法，属于数据处理技术领域，先对数据集中的数据进行原始标记，然后测量标记后的数据的相似度，根据相似度对数据进行处理初次分簇聚类，再处理离群点。本发明的新型聚类算法能有效处理大型数据集，计算时间较现有的聚类算法大大缩短，在处理海量多维数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域内的数据聚类要求。

Description

一种基于密度的新型聚类算法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于密度的新型聚类算法。

背景技术

所谓聚类，就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程。由聚类所生成的簇是一组数据对象的集合，同一簇中的数据对象应尽可能相似，不同簇中的数据对象应尽可能相异。随着科技的发展、技术的进步，聚类算法如今在很多领域得到了广泛的应用，如医疗卫生领域、社交网络平台、商场、线上购物平台等。目前的各种聚类算法不能有效的处理数据的聚类，存在数据聚类质量不高的缺陷。

发明内容

为了解决上述现有技术中存在的缺点和不足，本发明提供了一种能有效提高数据聚类质量的基于密度的新型聚类算法。

为了实现上述技术目的，本发明提供的基于密度的新型聚类算法，包括以下步骤，

S1、对数据集D中的数据进行原始标记；

S2、测量步骤S1中标记后的数据的相似度d；

S3、根据步骤S2中数据的相似度d对数据进行初次分簇聚类；

S4、处理步骤S3中未被分簇聚类的离群点。

优选的，所述步骤S1中，先使不同数量级和不同单位的数据经归一化处理后均在[0，1]的范围内，然后进行范围查询；若范围查询在对象υ上执行，则将该点标记为已处理；若范围查询未在对象υ上执行，则将该点标记为未处理；其中，υ表示进行范围查询时范围的核心点。

优选的，若所述范围查询处理的对象υ的邻居数少于μ，则将归一化处理后的数据标记为初步噪声点并存储在噪声列表中；若所述范围查询处理的对象υ的邻居数多于μ，则将该点标记为核心点；其中，μ表示个数。

优选的，所述新型聚类算法还包括步骤S5，步骤S5、对初步噪声点再次进行范围查询处理，若再次进行范围查询时初步噪声点的邻域范围内不存在未处理的核心点，则该初步噪声点为真正的离群点；若再次进行范围查询时初步噪声点的邻域范围内存在未处理的核心点，则该初步噪声点为边界点。

优选的，所述步骤S2中，假设数据集D存在任意两个点υ和ω，以点υ为圆心、以ε为半径建立圆O(υ)，以ω为圆心、以ε为半径建立圆O(ω)，求得核心点附近邻域的数据点。

优选的，所述步骤S2中，通过计算欧式距离确定两个核心点之间的位置关系，实现测量相似度d的目的；

d(υ，ω)＞3ε时，state＝0，表明两个核心点之间不存在连接关系；

时，state＝1，表明两个核心点之间存在强连接关系；

时，state＝-1，表明两个核心点之间存在弱连接关系。

优选的，所述步骤S3中，根据两个核心点之间的连接关系进行初次分簇聚类；

若两个核心点之间存在强连接关系，则两个核心点附近邻域的数据属于相同的簇；

若两个核心点之间不存在连接关系，则两个核心点附近邻域的数据属于不同的簇；

若两个核心点之间存在弱连接关系，存在O(υ)∪O(ω)的边界点η时，以η为圆心、以ε为半径的圆中有邻居数多于μ的情况下，υ和ω通过η相连接。

采用上述技术方案后，本发明提供的聚类算法具有如下优点：

1、本发明提供的聚类算法，能有效处理数据量较大的数据集，计算时间较现有的聚类算法大大缩短，在处理海量多维数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域的数据聚类要求。

2、通过范围查询确定初步噪声点，在完成步骤S4后，对初步噪声点再次进行范围查询，判断初步噪声点是真正离群点还是边界点。通过两次范围查询，提高对数据判断的准确性，从而有利于提高数据的聚类精确度。

3、通过计算欧式距离实现测量数据的相似度的目的，然后根据相似度判断两个核心点之间是否存在连接关系及连接关系的强弱，通过连接关系判断两个核心点附近邻域的数据是否属于相同的簇或是否能通过边界点连接，提高数据分簇聚类的合理性和便捷性。

附图说明

图1为本发明实施例一聚类算法的步骤S2中state＝-1时进行范围查询的示意图；

图2为本发明实施例一聚类算法中对初步噪声点进行再次范围查询时的示意图；

图3为本发明实施例一中三种算法处理三种数据集的聚类准确率柱状图；

图4a、4b、4c分别为三种算法在三种数据集上执行时间的对比折线图；

图5为三种算法在理论上的时间复杂度曲线图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。需要理解的是，下述的“上”、“下”、“左”、“右”、“纵向”、“横向”、“内”、“外”、“竖直”、“水平”、“顶”、“底”等指示方位或位置关系的词语仅基于附图所示的方位或位置关系，仅为了便于描述本发明和简化描述，而不是指示或暗示所指的装置/元件必须具有特定的方位或以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一

本发明实施例一提供的基于的新型聚类算法，包括以下步骤，

S1、对数据集D中的数据进行原始标记；

S2、测量步骤S1中标记后的数据的相似度d；

S3、根据步骤S2中数据的相似度d对数据进行初次分簇聚类；

S4、处理步骤S3中未被分簇聚类的离群点。

步骤S1中，先使不同数量级和不同单位的数据经归一化处理后均在[0，1]范围内，然后进行范围查询；若范围查询在对象υ上执行，则将该点标记为已处理；若范围查询未在对象υ上执行，则将该点标记为未处理。对象υ表示进行范围查询时范围的核心点，范围查询即对以某个点为圆心、以一定距离为半径的圆内的点的特征标记。

若范围查询处理的对象υ的邻居数少于μ，则将归一化处理后的数据标记为初步噪声点并存储在噪声列表中；若所述范围查询处理的对象υ的邻居数多于μ，则将该点标记为核心点。其中，μ表示以某个点为圆心、以一定距离为半径的圆内对象点的个数。

如图1所示，步骤S2中，假设数据集D有两个核心存在任意两个点υ和ω，以点υ为圆心、以ε为半径建立圆O(υ)，以ω为圆心、以ε为半径建立圆O(ω)，求得核心点附近邻域的数据点。

步骤S2中，通过计算欧式距离确定两个核心点之间的位置关系，实现测量相似度d的目的；

时，state＝1，表明两个核心点之间存在强连接关系；

时，state＝-1，表明两个核心点之间存在弱连接关系。

步骤S3中，根据两个核心点之间的连接关系对数据进行初次分簇聚类；

如图2所示，本实施例的聚类算法还包括步骤S5，对初步噪声点再次进行范围查询处理，若再次进行范围查询时初步噪声点的邻域范围内不存在未处理的核心点，则该初步噪声点为真正的离群点；若再次进行范围查询时初步噪声点的邻域范围内存在未处理的核心点，则该初步噪声点为边界点。

本实施例中，μ＝4，ε取0.5。

根据初次形成的簇再对初步噪声点进行范围查询，判断初步噪声点是真正离群点还是边界点。通过两次范围查询，提高对数据判断的精确度。

为了证明本实施例聚类算法用于处理数据的聚类质量，本实施例还设计了以下实验，所有实验均采用相同的实验环境进行。本实施例中，所有实验均在安装有MATLABR2012b的1.9GHz AMD CPU和8GB RAM的Windows 7操作系统下的PC端完成。

(1)选取三个数据集，详见表1。

表1.三个数据集的特性

数据集	数值型属性	类别型属性	大小
				KDD CUP-99	32	9	10000
Adult	6	8	48842
				Real-world	3	7	3000

其中，KDD CUP-99是计算机网络攻击入侵检测数据集，Adult是成年人收入数据集，Real-world是上海地区能源消耗和温室气体排放数据集。

(2)选取TWD-MD算法和Paired k-means算法与本实施例的聚类算法进行对比，然后分别运用TWD-MD算法、Paired k-means算法和本实施例的聚类算法对表1中的三种数据集进行聚类处理。

(3)对处理的结果进行评价。

一方面，采用ACC的指标来评价准确率，ACC的计算公式为公式一，

其中，a_i表示最终正确聚类的样本数量，k是簇的数量，n是数据集中样本的数量。ACC的值越高，代表聚类精度越高，算法的聚类效果越好。三种算法的准确率表格如图3所示，其中MMDBC表示本实施例的聚类算法，根据图3可知，采用本实施例的聚类算法对数据集进行聚类处理能获得更高的ACC。

另一方面，采用算法的执行时间作为另一评价标准，图4a、图4b、图4c反映了采用三种算法处理三种数据集时的聚类速度，从图4a、图4b、图4c可以看出，本实施例的聚类方法的聚类速度明显优于另两种算法。

侧面的，从三种算法的时间复杂度上进行评价，如图5所示，曲线①表示实施例聚类算法的时间复杂度，曲线②表示Paired k-means算法的时间复杂度，曲线③表示TWD-MD算法的时间复杂度。由图可知，本实施例聚类算法的时间复杂度是O(nlog₂n)，Paired k-means算法的时间复杂度是O(n³)，TWD-MD算法的时间复杂度是O(n²)。当n＞1时，O(nlog₂n)＜O(n²)＜O(n³)，因此，本实施例聚类算法明显优于另两种算法。

综上，本实施例的聚类算法能有效处理数据集中数据的聚类处理，计算时间较现有的聚类算法大大缩短，在处理海量数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域的数据聚类要求。

除上述优选实施例外，本发明还有其他的实施方式，本领域技术人员可以根据本发明作出各种改变和变形，只要不脱离本发明的精神，均应属于本发明权利要求书中所定义的范围。

Claims

1.一种基于密度的新型聚类算法，其特征在于，包括以下步骤，

S1、对数据集D中的数据进行原始标记；

S2、测量步骤S1中标记后的数据的相似度d；

S3、根据步骤S2中数据的相似度d对数据进行初次分簇聚类；

S4、处理步骤S3中未被分簇聚类的离群点。

2.根据权利要求1所述的新型聚类算法，其特征在于，所述步骤S1中，先使不同数量级和不同单位的数据经归一化处理后均在[0，1]的范围内，然后进行范围查询；若范围查询在对象υ上执行，则将该点标记为已处理；若范围查询未在对象υ上执行，则将该点标记为未处理；其中，υ表示进行范围查询时范围的核心点。

3.根据权利要求2所述的新型聚类算法，其特征在于，若所述范围查询处理的对象υ的邻居数少于μ，则将归一化处理后的数据标记为初步噪声点并存储在噪声列表中；若所述范围查询处理的对象υ的邻居数多于μ，则将该点标记为核心点；其中，μ表示个数。

4.根据权利要求3所述的新型聚类算法，其特征在于，所述新型聚类算法还包括步骤S5，

步骤S5、对初步噪声点再次进行范围查询处理，若再次进行范围查询时初步噪声点的邻域范围内不存在未处理的核心点，则该初步噪声点为真正的离群点；若再次进行范围查询时初步噪声点的邻域范围内存在未处理的核心点，则该初步噪声点为边界点。

5.根据权利要求1-4任一项所述的新型聚类算法，其特征在于，所述步骤S2中，假设数据集D存在任意两个点υ和ω，以点υ为圆心、以ε为半径建立圆O(υ)，以ω为圆心、以ε为半径建立圆O(ω)，求得核心点附近邻域的数据点。

6.根据权利要求5所述的新型聚类算法，其特征在于，所述步骤S2中，通过计算欧式距离确定两个核心点之间的位置关系，实现测量相似度d的目的；

时，state＝1，表明两个核心点之间存在强连接关系；

时，state＝-1，表明两个核心点之间存在弱连接关系。

7.根据权利要求6所述的新型聚类算法，其特征在于，所述步骤S3中，根据两个核心点之间的连接关系进行初次分簇聚类；