CN106339416B - 基于网格快速搜寻密度峰值的教育数据聚类方法 - Google Patents
基于网格快速搜寻密度峰值的教育数据聚类方法 Download PDFInfo
- Publication number
- CN106339416B CN106339416B CN201610668504.XA CN201610668504A CN106339416B CN 106339416 B CN106339416 B CN 106339416B CN 201610668504 A CN201610668504 A CN 201610668504A CN 106339416 B CN106339416 B CN 106339416B
- Authority
- CN
- China
- Prior art keywords
- data
- density
- point
- grid
- grid cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Discrete Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网格快速搜寻密度峰值的教育数据聚类方法,包括将整个数据集划分成若干个网格单元,分别计算各网格单元的密度,并向大密度的网格单元进行扩展,进而形成较大的网格单元合集,形成数据分区,然后运用基本CFSFDP算法分别对这些分区进行局部聚类,最后将得到的子类进行合并。本发明只关注各个数据点之间的相似性度量且无需指定数据集的中心点,确定类中心点的方案简洁而且精准,保持了CFSFDP算法的快速和高效,同时具有较高聚类质量。
Description
技术领域
本发明涉及一种数据聚类方法,尤其是涉及一种基于网格快速搜寻密度峰值的教育数据聚类方法。
背景技术
聚类分析是数据挖掘的一个重要方法,广泛应用于文本处理、Web搜索等多领域。其中比较典型的有k-means和DBSCAN算法,K-means算法将数据点划分到距离最近的中心点进行聚类,该类算法很难将非球形数据集聚类,DBSCAN算法可以对任意形状的数据集进行聚类,但须指定一个密度阈值,从而可以去除噪声点。基于密度峰值的空间聚类算法Clustering by Fast Search and Find of Density Peaks(简称CFSFDP),用于发现被低密度区域分离的高密度区域。与K-means算法相比,CFSFDP可自动获取类的个数,且算法的复杂度相对较低。与DBSCAN算法相比,CFSFDP可在噪声环境下聚类任意形状数据集且实现简单速度快。但同样也存在如下缺点:(1)算法使用全局密度阈值,并没有考虑数据空间的分布特性,所以当数据密度和类间距分布不均匀时,聚类质量不高;(2)当一个类中存在多密度峰值时,CFSFDP算法虽然对数据点按密度值降序进行排序,但聚类效果并不理想。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于网格快速搜寻密度峰值的教育数据聚类方法,解决了原CFSFDP算法中使用全局密度阈值,当数据密度和类间距分布不均匀时,聚类质量不高的问题。
本发明技术方案如下:一种基于网格快速搜寻密度峰值的教育数据聚类方法,依次包括以下步骤,
步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学好、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;
步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;
步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值dc,根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:计算类间相似度,合并两个满足类间相似条件的类;
步骤9:输出聚类结果。
优选的,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。
本发明所提供的技术方案的优点在于:
通过对待聚类数据的划分和扩展形成多个网格单元合集,将该合集作为一个数据分区,采用CFSFDP算法对各个分区进行局部聚类。在局部聚类时,各分区根据其数据分布密集程度选择合适的密度阈值进行聚类,因而由全局密度阈值导致的聚类质量下降的问题得以解决,同时保持了CFSFDP算法的快速和高效。当一个类中存在多密度峰值时,本发明的聚类效果提升。本发明只关注各个数据点之间的相似性度量(距离或其他衡量标准)且无需指定数据集的中心点,比k-means算法更适合没有坐标的数据集,其确定类中心点的方案简洁而且精准。
附图说明
图1为本发明聚类方法流程示意图。
图2为本发明实施例聚类输出结果。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
请结合图1,以教育数据聚类为例,本发明方法的具体实施是这样的,
步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,该数据集有多个属性,属性涵盖了学生在校学习和生活的所有方面,如学生个人信息,学生选课成绩信息,学生的毕业情况信息等等,把这些信息的子属性当作聚类算法的输入属性;
步骤2:教务数据集的属性(如性别,学业成绩,生源地等)都是有界的,设学业成绩上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)就是教务数据集。对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格区间,形成网格单元。对于每一维的网格单元,保证取值区间都是左闭右开的。为了提高计算效率和聚类效果,定义网格的边长side为:
其中a为比例系数,根据经验值进行指定,用来调整控制网格边长大小。本实施例中选取的a值都为1.5。根据网格边长,可计算出区间数目,计算公式如下:
根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元;
步骤3:把每个数据点都映射到所相对应的网格单元当中去,对于某个特定的数据对象来说,它所对应的网格在每个维度上面的所对应的下标为:
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值dc,教务数据集S={x1,x2,…,xn},相应的下标集为IS={1,2,…,n},dij=dist(xi,xj)为数据点xi和xj间的距离,当数据点为离散值时,局部密度ρi为:
其中j与i不相等且都属于IS,函数χ(x)为:
当数据点为连续值时,局部密度ρi为:
其中,参数dc>0为截断距离,ρi表示S中与数据点xi之间距离小于dc的数据点的个数,与密度更高的数据点的距离δi的计算公式为:
根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:当一个类中存在多密度峰值时,CFSFDP算法会将一个类划分成两个或多个类,此时需进行子类合并;在网格划分时,也可能将同一类中的数据点划分到两个相邻的网格当中,此时同样也需进行子类合并。因此当局部聚类完成后,应当对那些所在分区相邻并且关联性比较高的子类进行合并。假设存在两个类A,B,其密度阈值分别为dcA,dcB,边界区域点集分别为EA,EB,设p,q分别为EA,EB中的数据点,Dist{p,q}表示p和q之间的距离,边界区域中的点数为NA,NB,公式如下:
NA=|EA|,NB=|EB|
dc(A,B)的计算公式为:
dc(A,B)=min{dcA,dcB}
若类A和类B满足类间相似度:
则将类A、B进行合并;
步骤9:输出聚类结果。
本实施例的聚类结果如图2所示,其中分类1的特征:大部分是女生,学习综合成绩大部分为良好或中等,团员,江苏苏中,城镇户口居多。分类2的特征:大部分是女生,学习综合成绩大部分为良好,非江苏人居多,考生类别不详。分类3的特征:大部分是女生,学习综合成绩大部分为中等,团员,江苏城镇户口居多。分类4的特征:大部分是男生,学习综合成绩为中等,江苏苏北,农村户口居多。分类5的特征:大部分是男生,学习综合成绩大部分为中等,江苏苏北,城镇户口居多。分类6的特征:大部分是男生,学习综合成绩大部分为中等,江苏苏南,城镇户口居多。分类7的特征:大部分是男生极少女的,本三,学习综合成绩大部分为中等,考生类别未知居多。分类8的特征:大部分是男生,专转本居多,学习综合成绩大部分为中等,江苏苏北,考生类别未知居多。聚类也可以用于离群点的寻找,加入学习行为属性,可以寻找学习行为有问题的学生。
Claims (2)
1.一种基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,依次包括以下步骤,
步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学号 、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;
步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;
步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值=dc ,根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:计算类间相似度,合并两个满足类间相似条件的类;
步骤9:输出聚类结果。
2.根据权利要求1所述的基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610668504.XA CN106339416B (zh) | 2016-08-15 | 2016-08-15 | 基于网格快速搜寻密度峰值的教育数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610668504.XA CN106339416B (zh) | 2016-08-15 | 2016-08-15 | 基于网格快速搜寻密度峰值的教育数据聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106339416A CN106339416A (zh) | 2017-01-18 |
CN106339416B true CN106339416B (zh) | 2019-11-08 |
Family
ID=57824248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610668504.XA Active CN106339416B (zh) | 2016-08-15 | 2016-08-15 | 基于网格快速搜寻密度峰值的教育数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339416B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596648B (zh) * | 2018-03-20 | 2020-07-17 | 阿里巴巴集团控股有限公司 | 一种商圈判定方法和装置 |
CN108710796B (zh) * | 2018-05-15 | 2021-07-06 | 广东工业大学 | 入侵操作检测方法、装置、设备及计算机可读存储介质 |
CN108846435B (zh) * | 2018-06-13 | 2022-01-14 | 浙江工业大学 | 自动确定聚类中心的用户影评密度峰值聚类方法 |
CN111127062B (zh) * | 2018-11-01 | 2023-08-18 | 中国移动通信集团广东有限公司 | 一种基于空间搜索算法的群体欺诈识别方法及装置 |
CN109711459B (zh) * | 2018-12-24 | 2019-11-15 | 广东德诚科教有限公司 | 用户个性化行为评测方法、装置、计算机设备和存储介质 |
CN109840558B (zh) * | 2019-01-25 | 2022-06-17 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN109858544B (zh) * | 2019-01-28 | 2021-01-29 | 重庆邮电大学 | 基于区间阴影集和密度峰值聚类的钢材质量检测方法 |
CN110161464B (zh) * | 2019-06-14 | 2023-03-10 | 成都纳雷科技有限公司 | 一种雷达多目标聚类方法及装置 |
CN110488259B (zh) * | 2019-08-30 | 2022-11-04 | 成都纳雷科技有限公司 | 一种基于gdbscan的雷达目标分类方法及装置 |
CN113593262B (zh) * | 2019-11-14 | 2022-09-27 | 北京百度网讯科技有限公司 | 交通信号控制方法、装置、计算机设备和存储介质 |
CN111950632B (zh) * | 2020-08-12 | 2021-11-09 | 贝壳找房(北京)科技有限公司 | 用于实现小区信息聚类的方法、装置、介质以及电子设备 |
CN112395475B (zh) * | 2020-11-02 | 2021-11-26 | 清华大学 | 一种基于快速搜索与密度峰值聚类的服务商聚类方法 |
CN112561470A (zh) * | 2020-12-08 | 2021-03-26 | 海南省林业科学研究院(海南省红树林研究院) | 一种数字林业大数据系统的构建方法 |
CN115112032A (zh) * | 2022-06-06 | 2022-09-27 | 上海工程技术大学 | 一种球面栅极组件间距的测量方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887645A (zh) * | 2010-07-09 | 2010-11-17 | 天津职业技术师范大学 | 室内停车场有线式车辆检测器布线优化方法 |
CN102419774A (zh) * | 2011-12-15 | 2012-04-18 | 上海大学 | 一种面向snp数据的聚类方法 |
CN102831393A (zh) * | 2012-07-19 | 2012-12-19 | 安徽工业大学 | 电力杆塔轮廓的快速图像识别方法 |
US8463786B2 (en) * | 2010-06-10 | 2013-06-11 | Microsoft Corporation | Extracting topically related keywords from related documents |
CN103714153A (zh) * | 2013-12-26 | 2014-04-09 | 西安理工大学 | 基于限定区域数据取样的密度聚类方法 |
CN104899899A (zh) * | 2015-06-12 | 2015-09-09 | 天津大学 | 一种基于密度峰值的颜色量化方法 |
CN105138966A (zh) * | 2015-08-03 | 2015-12-09 | 西安电子科技大学 | 基于快速密度峰值聚类的极化sar图像分类方法 |
CN105184318A (zh) * | 2015-08-31 | 2015-12-23 | 浙江工业大学 | 一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法 |
CN105513127A (zh) * | 2015-12-25 | 2016-04-20 | 武汉大学 | 基于密度峰值聚类的杆状物规则化三维建模方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7412429B1 (en) * | 2007-11-15 | 2008-08-12 | International Business Machines Corporation | Method for data classification by kernel density shape interpolation of clusters |
-
2016
- 2016-08-15 CN CN201610668504.XA patent/CN106339416B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8463786B2 (en) * | 2010-06-10 | 2013-06-11 | Microsoft Corporation | Extracting topically related keywords from related documents |
CN101887645A (zh) * | 2010-07-09 | 2010-11-17 | 天津职业技术师范大学 | 室内停车场有线式车辆检测器布线优化方法 |
CN102419774A (zh) * | 2011-12-15 | 2012-04-18 | 上海大学 | 一种面向snp数据的聚类方法 |
CN102831393A (zh) * | 2012-07-19 | 2012-12-19 | 安徽工业大学 | 电力杆塔轮廓的快速图像识别方法 |
CN103714153A (zh) * | 2013-12-26 | 2014-04-09 | 西安理工大学 | 基于限定区域数据取样的密度聚类方法 |
CN104899899A (zh) * | 2015-06-12 | 2015-09-09 | 天津大学 | 一种基于密度峰值的颜色量化方法 |
CN105138966A (zh) * | 2015-08-03 | 2015-12-09 | 西安电子科技大学 | 基于快速密度峰值聚类的极化sar图像分类方法 |
CN105184318A (zh) * | 2015-08-31 | 2015-12-23 | 浙江工业大学 | 一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法 |
CN105513127A (zh) * | 2015-12-25 | 2016-04-20 | 武汉大学 | 基于密度峰值聚类的杆状物规则化三维建模方法及系统 |
Non-Patent Citations (6)
Title |
---|
"Clustering by fast search and find of density peaks";Alex Rodriguez 等;《Science》;20140523;第344卷(第6191期);第1492-1496页 * |
"Fuzzy clustering by fast search and find of density peaks";Rashid Mehmood 等;《2015 International Conference on Identification, Information, and Knowledge in the Internet of Things》;20151023;第258-261页 * |
"Grid Density Based Clustering Algorithm";Amandeep Kaur Mann 等;《International Journal of Adcanced Research in Computer Engineering & Technology(IJARCET)》;20130630;第2卷(第6期);第2143-2147页 * |
"基于网格的高效DBSCAN算法";张枫 等;《计算机工程与应用》;20070611;第43卷(第17期);第167-169页 * |
"基于网格聚类中边界点的处理";江先伟;《科技视界》;20121205(第34期);第67页 * |
网格聚类算法;赵慧等;《计算机技术与发展》;20100910;第20卷(第9期);第83-89页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106339416A (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339416B (zh) | 基于网格快速搜寻密度峰值的教育数据聚类方法 | |
Yao et al. | Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model | |
CN105045858B (zh) | 基于投票的出租车载客点推荐方法 | |
Lee et al. | A survey of algorithms for dense subgraph discovery | |
CN104008165B (zh) | 一种基于网络拓扑结构和节点属性的社团检测方法 | |
Wei et al. | On the spatial distribution of buildings for map generalization | |
CN109558494A (zh) | 一种基于异质网络嵌入的学者名字消歧方法 | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
Deng et al. | Recognizing building groups for generalization: a comparative study | |
CN106815310A (zh) | 一种对海量文档集的层次聚类方法及系统 | |
CN113626499B (zh) | 一种基于大数据数仓技术的学生画像挖掘实现方法 | |
CN105719191A (zh) | 多尺度空间下不确定行为语义的社交群体发现系统及方法 | |
CN103412888A (zh) | 一种兴趣点识别方法和装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN110347791A (zh) | 一种基于多标签分类卷积神经网络的题目推荐方法 | |
Zhu et al. | Grouping points by shared subspaces for effective subspace clustering | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Kang et al. | A random forest classifier with cost-sensitive learning to extract urban landmarks from an imbalanced dataset | |
Wu et al. | Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis | |
CN109582783A (zh) | 热点话题检测方法及装置 | |
Nguyen et al. | DBSTexC: Density-based spatio-textual clustering on twitter | |
Hu et al. | A framework to detect and understand thematic places of a city using geospatial data | |
Ozdikis et al. | Spatial statistics of term co-occurrences for location prediction of tweets | |
CN114661393A (zh) | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 | |
Lee et al. | Benchmarking community detection methods on social media data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |