CN110717086A - 一种海量数据聚类分析方法及装置 - Google Patents

一种海量数据聚类分析方法及装置 Download PDF

Info

Publication number
CN110717086A
CN110717086A CN201911270066.1A CN201911270066A CN110717086A CN 110717086 A CN110717086 A CN 110717086A CN 201911270066 A CN201911270066 A CN 201911270066A CN 110717086 A CN110717086 A CN 110717086A
Authority
CN
China
Prior art keywords
data
dimension
partition
point
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911270066.1A
Other languages
English (en)
Inventor
查文宇
曾理
徐浩
王纯斌
赵神州
张艳清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201911270066.1A priority Critical patent/CN110717086A/zh
Publication of CN110717086A publication Critical patent/CN110717086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量数据聚类分析方法及装置,本发明的目的在于实现一种基于并行计算的DBSCAN算法,解决传统密度聚类算法无法进行海量数据分析的问题。该发明提出了高效的交叠分区和类簇合并策略,能够快速的进行数据拆分和类簇合并,并且该方法充分考虑了负载均衡,可以在分布式框架下实现高效运算,从而支持海量数据的聚类,高效地解决了传统DBSCAN无法进行海量数据分析的问题,因此该方法具有较高的性能和实用价值。

Description

一种海量数据聚类分析方法及装置
技术领域
本发明涉及数据分析领域,特别涉及一种海量数据聚类分析方法及装置。
背景技术
随着社会经济的发展、电话、互联网的普及,电信诈骗犯罪率不断升高,而且由于电信诈骗借助于边界的通信手段,因此造成的社会危害范围更广。与一般的刑事案件不同,电信诈骗有一定门槛,一般是团伙作案,因此通过犯罪嫌疑人的通话和网络行为数据识别犯罪团伙成为公安机关遏制电信诈骗犯罪的一种有效途径。
随着大数据时代的到来,数据挖掘已经成为一把服务于公共安全领域的利器。通过数据挖掘对犯罪嫌疑人的数据分布规律进行挖掘,能够有效的识别其中的特征。犯罪团伙识别中最常见的方式为聚类算法。例如:李亮基于改进的GN算法设计了嫌疑人的社会网络识别算法,潘潇基于Louvain进行了电信诈骗的团伙识别。
但随着大数据时代的发展,人们的行为产生的数据特征和数据量快速增加,已经远远超出传统方法的数据处理能力。因此,传统的电信诈骗犯罪团伙识别方法并不能快速有效地在大数据环境下对犯罪团伙进行有效地甄别。为了更好的根据公安部门所掌握的数据来识别出电信诈骗犯罪团伙,创立一种支持多维度数据,高效,负载均衡的电信诈骗团伙甄别方法是很有必要的。
发明内容
本发明的目的在于:提供了一种海量数据聚类分析方法及装置,解决了随着大数据时代的发展,人们的行为产生的数据特征和数据量快速增加,已经远远超出传统方法的数据处理能力,因此,传统目标识别方法并不能快速有效地在大数据环境下对目标进行有效地甄别的问题。
本发明采用的技术方案如下:
一种海量数据聚类分析方法,包括以下步骤:
S1、基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区;
S2、在每个分区内对分区内的数据并行进行聚类,并保存聚类ID;
S3、将分区结果合并后可以得到全局的类簇ID。
基于疟疾传播动力学模型、多维空间GeoHash编码和交叠分区策略,疟疾是一种可以跨种群转播的疾病,可以通过水源、食物、身体接触等方式在宿主之间传播。在疾病的传播理论中基于传染病动力学一般分为 S、I、R 三个状态每个状态个体的特点如下:S 态-易感态个体,该状态的个体不不具备传播传染病的能力,但是在传染病传播的过程中可能会被患病个体传染;I 态-感染态个体,这类状态的个体已经患病,并且具有感染能力,可以将传染病传染给其他个体;R 态-恢复态个体,这个状态的个体是已经被治愈并且具有对该种传染病免疫能力的个体,或者已经死亡的个体,这一类个体不会再被传染,同时也失去了传染性。
疟疾的传播理论与DBSCAN算法有相似性,I状态和核心对象对应。类似于某个个体接触I状态的个体在一定概率上被转染,当一个和核心对象之间距离可达时,该点也可以划为类簇,不同的地方在于传染具备概率性而DBSCAN算法中不具有概率设定。与之类似的还有,S状态的个体和边界对象具备类似的属性。
进一步的,所述基于交叠分区的GeoHash编码命名为OverLap-GeoHash算法。整个算法的执行过程中,时间复杂度和空间复杂度最高的是DBSCAN算法,根据木桶原理,为了保证并行聚类效率,需要将数据尽量按区域等分。
GeoHash算法是一种空间编码算法,常用于二维的经纬度数据,能够将经纬度数据映射为一维的数值或字符串。本文将其扩展为多维数据,并结合交叠分区策略进行一定的改进,可以将数据映射为一维的数值,该数值即为分区的ID编码,如果待编码的点是交叠点则会映射为多个数值,每个数值对应一个分区的ID。
整个GeoHash编码算法流程如下:
Sa、统计全部数据在各维度的离散程度S;
Sb、初始化全部数据为待编码的数据D,初始编码长度为输入长度;
Sc、根据维度离散程度S顺序对D中的点进行GeoHash编码;
Sd、统计每个编码对应区域点的个数,对于超过给定阈值的区域,编码长度加1,重复Sc、Sd,直至所有区域的点均满足数目小于等于阈值。
其中OverLap-GeoHash算法为对GeoHash算法进行改进后的算法,即在步骤Sc中对于同一个点如果是交叠点会输出多个Hash值,从而将交叠点映射到多个分区。
在进行交叠分区的算法时,epsilon不能超过重要维度上下界之差的15%或本维度上下界之差的15%。这里的重要维度我们可以预设或通过每个维度的方差除以均值绝对值来度量,该值越大时该维度越重要,我们可以选择该值最大的维度为重要维度。
进一步的,所述步骤S1中基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括:
确定交叠分区的方法:将原始分区沿各个维度向外扩展epsilon邻域得到交叠分区。在进行DBSCAN算法的过程中,核心点的搜索邻域为以该点为中心的epsilon为半径的邻域,因此确定一个分区内点是否是核心点,只要将该分区向外扩展epsilon邻域。同时,将各个分区扩展至外接矩形,此时不影响每个点的邻域搜索,避免了普通分区策略中无法准确判定边界点是否是核心点的问题。
进一步的,所述步骤S1中GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括以下步骤:
S101、初始化Hash值为二进制数0、迭代次数为0、给定迭代次数N、每个维度上界和下界;
S102、对于任意数据D,选定维度为迭代次数关于维度数取模,当数据D在该维度的值不大于该维度的上界和下界的中点时,则Hash值左移一位,然后将该维度的上界更新为原该维度的中点,迭代次数加1;当数据D在该维度的值大于该维度的上界和下界的中点时,则Hash值左移一位加1,然后将该维度的下界更新为原该维度的中点,迭代次数加1;
S103、重复S102到迭代次数为N,当迭代次数为N时转入步骤S104;
S104、输出数据D所在区域的Hash值作为GeoHash编码;
S105、遍历原始数据,获取原始数据中所有数据的GeoHash编码。
进一步的,当步骤S103重复步骤S102到迭代次数为N-1时,转入步骤S106;
S106、判断数据D在该维度的值与该维度的上界和下界的中点距离是否不大于epsilon,若不大于epsilon,则输出两个Hash值,分别为Hash左移一位和Hash左移一位加1,迭代次数加1后转入步骤S3,若大于epsilon,则转入步骤S102。
进一步的,所述步骤S2中采用的聚类方法为DBSCAN聚类。
进一步的,所述步骤S3中采用最大连通图算法得到全局的类簇ID。
进一步的,所述步骤S3中采用最大连通图算法得到全局的类簇ID的具体方法包括以下步骤:
S301、遍历所有的交叠点,在任意交叠点P所属的分区集合SP={Si,Sj,..}中,对任意两个分区Si、Sj,交叠点P在Si中属于Cu类簇,在Sj中属于Cv类簇,当交叠点P在其中一个分区中为密度可达点且在另一个分区中为核心点时,则以Cu|Si和Cv|Sj为顶点,向图G中添加一条边;
S302、对图G进行最大连通图算法,每个最大连通子图对应一个类簇ID;
S303、遍历所有的点,每个点所属的类簇以Cm|Sn的形式表示,如果Cm|Sn为步骤S302中图G中的一个顶点则以该顶点在图G中的最大连通子图的类簇ID表示该点。
所述交叠点为对应多个GeoHash编码的数据点。
一种海量数据聚类装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现如上述的一种海量数据聚类分析方法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明一种海量数据聚类分析方法及装置,高效的类簇合并策略,以前的并行化DBSCAN算法在类簇合并的过程中基于全量数据的合并且类簇合并过程几乎都是基于迭代的,开销是非常大的,本方法通过交叠分区策略,在进行类簇合并的过程中只是基于少量的交叠点进行类簇合并,且类簇合并时基于图计算的,效率较高;
2.本发明一种海量数据聚类分析方法及装置,考虑了负载均衡,整个算法考虑了木桶原理的影响,采用GeoHash算法将数据进行按区域均分,在不耗费太大开销的情况下尽量将数据均分到对应的分区,从而保证负载均衡;
3.本发明一种海量数据聚类分析方法及装置,支持海量数据,支持多维度数据。传统的密度聚类没有实现并行化,且由于在邻域搜索中需要存储空间,因此能够处理的数据量很有限。本方法相比于一般的密度聚类,是基于hadoop/spark框架的并行化编程,可以将数据分片并行处理,然后进行结果合并,从而支持海量数据的聚类;
4.本发明一种海量数据聚类分析方法及装置,分布式计算提升了整个算法流程的计算效率。基于hadoop/spark框架的并行化编程,可以同时处理多个分区的聚类,能够提升算法的计算效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明的基于epsilon邻域的交叠分区示意图;
图2是传统GeoHash编码流程示意图;
图3是本发明GeoHash编码对数据进行分区处理第一步示意图;
图4是本发明GeoHash编码对数据进行分区处理第二步示意图;
图5是本发明GeoHash编码对数据进行分区处理第三步示意图;
图6是本发明GeoHash编码对数据进行分区处理第四步示意图;
图7是本发明GeoHash编码对数据进行分区处理第五步示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1至图7对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
实施例1
一种海量数据聚类分析方法,包括以下步骤:
S1、基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区;
S2、在每个分区内对分区内的数据并行进行聚类,并保存聚类ID;
S3、将分区结果合并后可以得到全局的类簇ID。
本发明的目的在于实现一种基于并行计算的DBSCAN算法,解决传统密度聚类算法无法进行海量数据分析的问题。该发明提出了高效的交叠分区和类簇合并策略,能够快速的进行数据拆分和类簇合并,并且该方法充分考虑了负载均衡,可以在分布式框架下实现高效运算,从而支持海量数据的聚类,高效地解决了传统DBSCAN无法进行海量数据分析的问题,因此该方法具有较高的性能和实用价值。
实施例2
本实施例在实施例1的基础上进一步的,进一步的,所述基于交叠分区的GeoHash编码命名为OverLap-GeoHash算法。整个算法的执行过程中,时间复杂度和空间复杂度最高的是DBSCAN算法,根据木桶原理,为了保证并行聚类效率,需要将数据尽量按区域等分。
GeoHash算法是一种空间编码算法,常用于二维的经纬度数据,能够将经纬度数据映射为一维的数值或字符串。本文将其扩展为多维数据,并结合交叠分区策略进行一定的改进,可以将数据映射为一维的数值,该数值即为分区的ID编码,如果待编码的点是交叠点则会映射为多个数值,每个数值对应一个分区的ID。
整个GeoHash编码算法流程如下:
Sa、统计全部数据在各维度的离散程度S;
Sb、初始化全部数据为待编码的数据D,初始编码长度为输入长度;
Sc、根据维度离散程度S顺序对D中的点进行GeoHash编码;
Sd、统计每个编码对应区域点的个数,对于超过给定阈值的区域,编码长度加1,重复Sc、Sd,直至所有区域的点均满足数目小于等于阈值。
其中OverLap-GeoHash算法为对GeoHash算法进行改进后的算法,在步骤Sc中对于同一个点如果是交叠点,即该点位于交叠分区中,则该点会输出多个Hash值,从而将交叠点映射到多个分区。在进行交叠分区的算法时,epsilon不能超过重要维度上下界之差的15%或本维度上下界之差的15%。这里的重要维度我们可以预设或通过每个维度的方差除以均值绝对值来度量,该值越大时该维度越重要,我们可以选择该值最大的维度为重要维度。
进一步的,所述步骤S1中基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区方法包括:
确定交叠分区的方法:将原始分区沿各个维度向外扩展epsilon邻域得到交叠分区。在进行DBSCAN算法的过程中,核心点的搜索邻域为以该点为中心的epsilon为半径的邻域,因此确定一个分区内点是否是核心点,只要将该分区向外扩展epsilon邻域。同时,将各个分区扩展至外接矩形,此时不影响每个点的邻域搜索,避免了普通分区策略中无法准确判定边界点是否是核心点的问题。
实施例3
本实施在实施例2的基础上进一步的,所述步骤S1中GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括以下步骤:
S101、初始化Hash值为二进制数0、迭代次数为0、给定迭代次数N、每个维度上界和下界;
S102、对于任意数据D,选定维度为迭代次数关于维度数取模,当数据D在该维度的值不大于该维度的上界和下界的中点时,则Hash值左移一位,然后将该维度的上界更新为原该维度的中点,迭代次数加1;当数据D在该维度的值大于该维度的上界和下界的中点时,则Hash值左移一位加1,然后将该维度的下界更新为原该维度的中点,迭代次数加1;
S103、重复S102到迭代次数为N,当迭代次数为N时转入步骤S104;
S104、输出数据D所在区域的Hash值作为GeoHash编码;
S105、遍历原始数据,获取原始数据中所有数据的GeoHash编码。
进一步的,当步骤S103重复步骤S102到迭代次数为N-1时,转入步骤S106;
S106、判断数据D在该维度的值与该维度的上界和下界的中点距离是否不大于epsilon,若不大于epsilon,则输出两个Hash值,分别为Hash左移一位和Hash左移一位加1,迭代次数加1后转入步骤S3,若大于epsilon,则转入步骤S102。
实施例4
本实施例在实施例1的基础上进一步的,所述步骤S2中采用的聚类方法为DBSCAN聚类。
实施例5
本实施例在实施例1的基础上进一步的,所述步骤S3中采用最大连通图算法得到全局的类簇ID。
进一步的,所述步骤S3中采用最大连通图算法得到全局的类簇ID的具体方法包括以下步骤:
S301、遍历所有的交叠点,在任意交叠点P所属的分区集合SP={Si,Sj,..}中,对任意两个分区Si、Sj,交叠点P在Si中属于Cu类簇,在Sj中属于Cv类簇,当交叠点P在其中一个分区中为密度可达点且在另一个分区中为核心点时,则以Cu|Si和Cv|Sj为顶点,向图G中添加一条边;
S302、对图G进行最大连通图算法,每个最大连通子图对应一个类簇ID;
S303、遍历所有的点,每个点所属的类簇以Cm|Sn的形式表示,如果Cm|Sn为步骤S302中图G中的一个顶点则以该顶点在图G中的最大连通子图的类簇ID表示该点。
所述交叠点为对应多个GeoHash编码的数据点。
实施例6
一种海量数据聚类装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现如上述的一种海量数据聚类分析方法。
实施例7
本实施例为一种OverLap-GeoHash的实例:
如图3所示,第1次迭代,选定第1个维度(纵轴),由于点大于该维度且不在epsilon邻域内,因此该点落入编码为二进制数1的区域;
如图4所示,第2次迭代,选定第2个维度(横轴),由于点大于该维度且不在epsilon邻域内,因此该点落入编码为二进制数11的区域;
如图5所示,第3次迭代,选定第1个维度,由于该点恰好在epsilon邻域内,因此该点落入两个区域,编码分别为二进制数111和110;
如图6所示,第4次迭代为最后一次迭代,选定了第2个维度,由于该点恰好在epsilon邻域内,因此该点落入两个区域,编码分别为二进制数1110和1111。
因此,第4次迭代结果加上第3次的110,该点共计落入三个区域,编码分别为二进制数:110、1110和1111,也就是说该点为上文中所说的交叠点,最终效果如图7所示。
实施例8
如图1所示,本实施例为交叠点的具体说明,在进行DBSCAN算法的过程中,核心点的搜索邻域为以该点为中心的epsilon为半径的邻域,因此确定一个分区内点是否是核心点,只要将该分区向外扩展epsilon邻域即可。如图1所示:
S1和S2为黑色矩形位置,将其沿各个维度向外扩展epsilon邻域得到序列标注的两个大矩形,我们称之为外矩形。此时点P为S1的外矩形和S2的外矩形的交集,我们称之为交叠点。
因此,将各个分区扩展至外接矩形,此时不影响每个点的邻域搜索,避免了普通分区策略中无法准确判定边界点是否是核心点的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种海量数据聚类分析方法,其特征在于:包括以下步骤:
S1、基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区;
S2、在每个分区内对分区内的数据并行进行聚类,并保存聚类ID;
S3、将分区结果进行合并得到全局的类簇ID。
2.根据权利要求1所述的一种海量数据聚类分析方法,其特征在于:所述步骤S1中基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括:
确定交叠分区的方法:将原始分区沿各个维度向外扩展epsilon邻域得到交叠分区。
3.根据权利要求2所述的一种海量数据聚类分析方法,其特征在于:在进行交叠分区的GeoHash编码算法时,epsilon不能超过重要维度上下界之差的15%或本维度上下界之差的15%。
4.根据权利要求2所述的一种海量数据聚类分析方法,其特征在于:所述步骤S1中GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括以下步骤:
S101、初始化Hash值为二进制数0、迭代次数为0、给定迭代次数N、每个维度上界和下界;
S102、对于任意数据D,选定维度为迭代次数关于维度数取模,当数据D在该维度的值不大于该维度的上界和下界的中点时,则Hash值左移一位,然后将该维度的上界更新为原该维度的中点,迭代次数加1;当数据D在该维度的值大于该维度的上界和下界的中点时,则Hash值左移一位加1,然后将该维度的下界更新为原该维度的中点,迭代次数加1;
S103、重复S102到迭代次数为N,当迭代次数为N时转入步骤S104;
S104、输出数据D所在区域的Hash值作为GeoHash编码;
S105、遍历原始数据,获取原始数据中所有数据的GeoHash编码。
5.根据权利要求4所述的一种海量数据聚类分析方法,其特征在于:当步骤S103重复步骤S102到迭代次数为N-1时,转入步骤S106;
S106、判断数据D在该维度的值与该维度的上界和下界的中点距离是否不大于epsilon,若不大于epsilon,则输出两个Hash值,分别为Hash左移一位和Hash左移一位加1,迭代次数加1后转入步骤S103,若大于epsilon,则转入步骤S102。
6.根据权利要求1所述的一种海量数据聚类分析方法,其特征在于:所述步骤S2中采用的聚类方法为DBSCAN聚类。
7.根据权利要求1所述的一种海量数据聚类分析方法,其特征在于:所述步骤S3中采用最大连通图算法得到全局的类簇ID。
8.根据权利要求7所述的一种海量数据聚类分析方法,其特征在于:所述步骤S3中采用最大连通图算法得到全局的类簇ID的具体方法包括以下步骤:
S301、遍历所有的交叠点,在任意交叠点P所属的分区集合SP={Si,Sj,..}中,对任意两个分区Si、Sj,交叠点P在Si中属于Cu类簇,在Sj中属于Cv类簇,当交叠点P在其中一个分区中为密度可达点且在另一个分区中为核心点时,则以Cu|Si和Cv|Sj为顶点,向图G中添加一条边;
S302、对图G进行最大连通图算法,每个最大连通子图对应一个类簇ID;
S303、遍历所有的点,每个点所属的类簇以Cm|Sn的形式表示,如果Cm|Sn为步骤S302中图G中的一个顶点则以该顶点在图G中的最大连通子图的类簇ID表示该点。
9.一种海量数据聚类装置,其特征在于:包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种海量数据聚类分析方法。
CN201911270066.1A 2019-12-12 2019-12-12 一种海量数据聚类分析方法及装置 Pending CN110717086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911270066.1A CN110717086A (zh) 2019-12-12 2019-12-12 一种海量数据聚类分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911270066.1A CN110717086A (zh) 2019-12-12 2019-12-12 一种海量数据聚类分析方法及装置

Publications (1)

Publication Number Publication Date
CN110717086A true CN110717086A (zh) 2020-01-21

Family

ID=69216674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911270066.1A Pending CN110717086A (zh) 2019-12-12 2019-12-12 一种海量数据聚类分析方法及装置

Country Status (1)

Country Link
CN (1) CN110717086A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522662A (zh) * 2020-04-23 2020-08-11 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN111563630A (zh) * 2020-05-11 2020-08-21 圆通速递有限公司 基于地址经纬度聚类的物流服务网点布局方法和系统
CN113378922A (zh) * 2021-06-09 2021-09-10 南京邮电大学 一种基于GeoHash的地理坐标点密度聚类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522662A (zh) * 2020-04-23 2020-08-11 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN111522662B (zh) * 2020-04-23 2020-11-27 柴懿晖 一种用于金融分析的节点系统及其实现方法
CN111563630A (zh) * 2020-05-11 2020-08-21 圆通速递有限公司 基于地址经纬度聚类的物流服务网点布局方法和系统
CN113378922A (zh) * 2021-06-09 2021-09-10 南京邮电大学 一种基于GeoHash的地理坐标点密度聚类方法
CN113378922B (zh) * 2021-06-09 2022-07-15 南京邮电大学 一种基于GeoHash的地理坐标点密度聚类方法

Similar Documents

Publication Publication Date Title
Pei et al. AMalNet: A deep learning framework based on graph convolutional networks for malware detection
Fournier‐Viger et al. A survey of itemset mining
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
Singh et al. Fuzzy-folded bloom filter-as-a-service for big data storage in the cloud
WO2021114921A1 (zh) 基于隐私保护的关系网络构建方法及装置
CN110717086A (zh) 一种海量数据聚类分析方法及装置
CN111400504B (zh) 企业关键人的识别方法和装置
CN112073415B (zh) 一种网络安全知识图谱的构建方法及装置
Nath et al. Incremental association rule mining: a survey
CN108363686A (zh) 一种字符串分词方法、装置、终端设备及存储介质
CN113361658A (zh) 一种基于隐私保护的图模型训练方法、装置及设备
US10742670B1 (en) Detecting and preventing execution of a malicious computer application using utility driven graph summarization
Yun et al. Efficient mining of maximal correlated weight frequent patterns
Al Abd Alazeez et al. EINCKM: An Enhanced Prototype-based Method for Clustering Evolving Data Streams in Big Data.
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
Nguyen et al. An efficient algorithm for mining frequent weighted itemsets using interval word segments
Said et al. DGSD: Distributed graph representation via graph statistical properties
CN110019845B (zh) 一种基于知识图谱的社区演化分析方法及装置
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN109492844B (zh) 业务策略的生成方法和装置
Khettabi et al. Clustering and parallel indexing of big IoT data in the fog‐cloud computing level
Huang et al. Discovering association rules with graph patterns in temporal networks
CN108696418B (zh) 一种社交网络中隐私保护方法及装置
CN109710633B (zh) 中间人信息的确定方法、装置及智能终端
CN110888888A (zh) 人员关系分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200121