CN113378922A - 一种基于GeoHash的地理坐标点密度聚类方法 - Google Patents

一种基于GeoHash的地理坐标点密度聚类方法 Download PDF

Info

Publication number
CN113378922A
CN113378922A CN202110644375.1A CN202110644375A CN113378922A CN 113378922 A CN113378922 A CN 113378922A CN 202110644375 A CN202110644375 A CN 202110644375A CN 113378922 A CN113378922 A CN 113378922A
Authority
CN
China
Prior art keywords
block
geohash
blocks
coordinate point
density clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110644375.1A
Other languages
English (en)
Other versions
CN113378922B (zh
Inventor
戴华
刘熠洋
陈玉
杨庚
李佳伟
周倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110644375.1A priority Critical patent/CN113378922B/zh
Publication of CN113378922A publication Critical patent/CN113378922A/zh
Application granted granted Critical
Publication of CN113378922B publication Critical patent/CN113378922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于GeoHash的地理坐标点密度聚类方法,该发明首先利用GeoHash将每个坐标点p进行处理,获取其GeoHash编码,并根据编码将坐标点p加入对应实块的坐标点集合,形成实块集合B;然后,利用块的邻接关系,对B进行处理,生成连通实块区域集合Ω;最后,对于Ω中每个连通实块区域中的坐标点,执行密度聚类算法,得到对应的簇集;所有生成的簇集的并集即为全局密度聚类的结果簇集。本发明采用了分治法的思想,易于实现,使得密度聚类的时间效率显著提高,并且能够保证结果的正确性。

Description

一种基于GeoHash的地理坐标点密度聚类方法
技术领域
本发明涉及密度聚类技术领域,具体的说是一种基于GeoHash的地理坐标点密度聚类方法。
背景技术
密度聚类是根据样本的密度分布来进行聚类。通常情况下,密度聚类从样本密度的角度出发,考察样本间的可连接性,并基于可连接样本不断扩展簇集,以获得最终的聚类结果。随着卫星定位技术、无线通信和移动设备的快速发展,获取运动物体时空轨迹数据变得简单便捷,密度聚类技术常被用以对数据进行分析和挖掘,提取有用的模式,例如位置预测、出行推荐、交通管理等。目前的密度聚类方法在轨迹数据挖掘的应用场景下时间效率较低。
现有技术中申请号为CN107330466A公开了极速地理GeoHash聚类方法,包括确定对POI样本进行聚类所需的聚类精度在树结构聚类数据库中对应的目标层;从目标层中选取用于聚类的节点,对节点对应的区域内的POI样本进行聚类,得到聚类结果,其一方面,对海量的POI样本快速完成聚类,另一方面,可以灵活地调整聚类精度,但是其操作相对复杂。申请公布号CN 110688436 A公开了一种基于行车轨迹的改进型GeoHash道路聚类方法,包括向服务端输入样本集,领域参数(hash,MinPts),设置样本距离度量方式,服务端进行第一次初始化设置:核心对象集合Ω为空集,未访问样本集合Γ=D,簇划分C为空集,操作步骤相对较多。
发明内容
为了解决上述问题,本发明提供了一种能够提高轨迹数据挖掘场景下密度聚类的时间效率的基于GeoHash的地理坐标点密度聚类方法。
为了达到上述目的,本发明是通过以下技术方案来实现的:
本发明是一种基于GeoHash的地理坐标点密度聚类方法,具体步骤如下:
步骤1、利用GeoHash对每个坐标点p进行处理,获取其GeoHash编码g,并根据g将该坐标点p加入对应实块b i 的坐标点集合PS,最终形成实块集合B = {b 1, b 2, …, b m };
步骤2、利用块的邻接关系,对实块集合B进行处理,生成连通实块区域集合Ω ={M 1, M 2, …, M n };
步骤3、对于Ω中每个连通实块区域M i 中的坐标点,执行密度聚类算法,得到对应的簇集C i
步骤4、对步骤3中生成的簇集进行合并,进而获得最终的全局密度聚类结果。
本发明的进一步改进在于:步骤2的具体过程如下:
步骤2.1、从B中取一个实块b i ,初始化当前仅包含b i 的连通实块区域M i
步骤2.2、从B中取出与M i 中的任一实块相邻的所有实块,并加入到M i 中;
步骤2.3、重复执行步骤2.2,直至B中的任一实块与M i 中的任一实块均不相邻;
步骤2.4、若当前B不为空,则转步骤2.1;否则,连通实块区域集合Ω = {M 1, M 2,…, M n }生成结束。
定义 1密度相连(Density Connected):给定两个点pq以及距离阈值δ,令Dist(p, q)表示点pq的欧几里得距离。若pq满足以下两个条件中的任意一个,则称pq密度相连:
(1)Dist(p, q) δ
(2)存在一系列点<p 1, p 2, ..., p k >使得Dist(p, p 1 ) δ,Dist(p 1 , p 2 ) δ,...,Dist(p k-1 , p k ) δ,Dist(p k , q) δ同时成立。
定义 2 簇(Cluster):给定坐标点集合P以及数量阈值α,如果P同时满足以下两个条件则称P为簇:
(1)坐标点集合P中点的数量大于或等于数量阈值α
(2)坐标点集合P中的任意两个不同的坐标点是密度相连的。
密度聚类算法用于在坐标点集合中挖掘簇。本发明中,利用GeoHash对地理空间进行划分,形成固定大小的矩形区域,该矩形区域称为块,每个块有一个唯一的GeoHash编码与之对应,记为b i = (g, PS),其中g表示块对应的GeoHash编码,PS表示块所包含的点集合,若b i .PS
Figure DEST_PATH_IMAGE001
,则称b i 为实块,否则称b i 为空块。块的长度l和宽度w由Geohash字符串的长度ε决定,假设密度聚类中的距离阈值为δ,且满足δ < min{l,w}。
本发明的有益效果是:首先利用GeoHash将每个坐标点p进行处理,获取其GeoHash编码,并根据编码将坐标点p加入对应实块的坐标点集合,形成实块集合B。然后,利用块的邻接关系,对B进行处理,生成连通实块区域集合Ω。最后,对于Ω中每个连通实块区域中的坐标点,执行密度聚类算法,得到对应的簇集。所有生成的簇集的并集即为全局密度聚类的结果簇集。本发明体现了分治法的思想,易于实现,使得密度聚类的时间效率显著提高,并且能够保证结果的正确性。
附图说明
图1是本发明连通实块区域划分示意图。
图2是本发明密度聚类流程图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
下面结合附图对本发明的技术方案做进一步的详细说明 :
如图1-2所示,本发明是一种基于GeoHash的地理坐标点密度聚类方法,具体步骤如下:
步骤1、利用GeoHash对每个坐标点p进行处理,获取其GeoHash编码g,并根据g将该坐标点p加入对应实块b i 的坐标点集合PS,最终形成实块集合B = {b 1, b 2, …, b m };
步骤2、利用块的邻接关系,对实块集合B进行处理,生成连通实块区域集合Ω ={M 1, M 2, …, M n },具体步骤为:步骤2.1、从B中取一个实块b i ,初始化当前仅包含b i 的连通实块区域M i ,初始化一个队列Q,从B中取出与b i 相邻的所有实块,依次加入到Q中;
步骤2.2、从Q中取出一个实块b j ,加入到M i 中,并从B中取出与b j 相邻的所有实块依次加入到Q中;
步骤2.3、重复执行步骤2.2,直至B中的任一实块与M i 中的任一实块均不相邻,即Q为空,连通实块区域M i 构造完毕;
步骤2.4、若当前B不为空,则转步骤2.1;否则,连通实块区域集合Ω = {M 1, M 2,…, M n }生成结束。
步骤3、对于Ω中每个连通实块区域M i 中的坐标点,执行密度聚类算法,如DBSCAN,挖掘所有满足定义2的簇,得到对应的簇集C i
步骤4、对步骤3中生成的簇集进行合并,进而获得最终的全局密度聚类结果,即所有生成的簇集的并集CS。假设生成的块集合B = {b 1, b 2, ..., b 9},且B中每一个块由一个Geohash字符串表示,如wtmk71、wtmk73等。在这些块中共有六个坐标点,点集合P = {p 1,p 2, ..., p 6},实块集合B = {b 1, b 3, b 8, b 9},共有三个连通实块区域,即Ω = {{b 1},{b 3}, {b 8, b 9}}。
本发明利用GeoHash对地理空间进行划分,形成固定大小的矩形区域,该矩形区域称为块,每个块有一个唯一的GeoHash编码与之对应,记为b i = (g, PS),其中g表示块对应的GeoHash编码,PS表示块所包含的点集合,若b i .PS
Figure 19523DEST_PATH_IMAGE001
,则称b i 为实块,否则称b i 为空块。块的长度l和宽度w由Geohash字符串的长度ε决定,假设密度聚类中的距离阈值为δ,且满足δ < min{l,w}。
本发明的效果体现在该方法时间的高效性以及结果的正确性两方面,具体内容如下所示:
一、时间高效性分析
本发明将全局密度聚类问题分为了多个局部密度聚类问题,局部密度聚类问题是全局密度聚类问题的较小实例,依次对局部密度聚类问题执行算法,从而解决全局密度聚类问题。具体来说,利用GeoHash技术首先将坐标点划分到多个连通实块区域中,再分别对各连通实块区域中的坐标点使用密度聚类算法。显然,该方法采用了分治法的思想,可以保证时间的高效性。
二、结果正确性分析
本发明假设δ < min{l,w},其中l,w表示块的长度和宽度,δ表示密度聚类中的距离阈值。假设两个坐标点p i p j 在不同的连通实块区域中,那么根据块的邻接关系可知,p i p j 之间的距离大于块的长和宽的最小值min{l,w},又因为min{l,w} > δ成立,所以p i p j 之间的距离大于δ。由此可得任何属于不同连通实块区域的两个坐标点不是密度相连的。又因为簇中任意两个坐标点都是密度相连的,所以一个簇中的所有点不可能属于不同的连通实块区域,即一个簇中的所有点在同一个连通实块区域中。因此,对每个连通实块区域中的坐标点所聚类得到的簇集就等同于对所有坐标点进行聚类所得到的簇集。综上所述,本发明可以保证结果的正确性。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种基于GeoHash的地理坐标点密度聚类方法,其特征在于:具体步骤如下:
步骤1、利用GeoHash对每个坐标点p进行处理,获取其GeoHash编码g,并根据g将该坐标点p加入对应实块b i 的坐标点集合PS,最终形成实块集合B = {b 1, b 2, …, b m };
步骤2、利用块的邻接关系,对实块集合B进行处理,生成连通实块区域集合Ω = {M 1,M 2, …, M n };
步骤3、对于Ω中每个连通实块区域M i 中的坐标点,执行密度聚类算法,得到对应的簇集C i
步骤4、对步骤3中生成的簇集进行合并,进而获得最终的全局密度聚类结果;其中,记为b i = (g, PS),其中g表示块对应的GeoHash编码,PS表示块所包含的点集合,若b i .PS
Figure DEST_PATH_IMAGE002
,则称b i 为实块,否则称b i 为空块;块的长度l和宽度w由Geohash字符串的长度ε决定,假设密度聚类中的距离阈值为δ,且满足δ < min{l,w}。
2.根据权利要求1所述一种基于GeoHash的地理坐标点密度聚类方法,其特征在于:步骤2的具体过程如下:
步骤2.1、从B中取一个实块b i ,初始化当前仅包含b i 的连通实块区域M i
步骤2.2、从B中取出与M i 中的任一实块相邻的所有实块,并加入到M i 中;
步骤2.3、重复执行步骤2.2,直至B中的任一实块与M i 中的任一实块均不相邻;
步骤2.4、若当前B不为空,则转步骤2.1;否则,连通实块区域集合Ω = {M 1, M 2, …,M n }生成结束。
CN202110644375.1A 2021-06-09 2021-06-09 一种基于GeoHash的地理坐标点密度聚类方法 Active CN113378922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110644375.1A CN113378922B (zh) 2021-06-09 2021-06-09 一种基于GeoHash的地理坐标点密度聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110644375.1A CN113378922B (zh) 2021-06-09 2021-06-09 一种基于GeoHash的地理坐标点密度聚类方法

Publications (2)

Publication Number Publication Date
CN113378922A true CN113378922A (zh) 2021-09-10
CN113378922B CN113378922B (zh) 2022-07-15

Family

ID=77573362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110644375.1A Active CN113378922B (zh) 2021-06-09 2021-06-09 一种基于GeoHash的地理坐标点密度聚类方法

Country Status (1)

Country Link
CN (1) CN113378922B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330466A (zh) * 2017-06-30 2017-11-07 上海连尚网络科技有限公司 极速地理GeoHash聚类方法
CN110688436A (zh) * 2019-08-19 2020-01-14 成都海天数联科技有限公司 一种基于行车轨迹的改进型GeoHash道路聚类方法
CN110717086A (zh) * 2019-12-12 2020-01-21 成都四方伟业软件股份有限公司 一种海量数据聚类分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330466A (zh) * 2017-06-30 2017-11-07 上海连尚网络科技有限公司 极速地理GeoHash聚类方法
CN110688436A (zh) * 2019-08-19 2020-01-14 成都海天数联科技有限公司 一种基于行车轨迹的改进型GeoHash道路聚类方法
CN110717086A (zh) * 2019-12-12 2020-01-21 成都四方伟业软件股份有限公司 一种海量数据聚类分析方法及装置

Also Published As

Publication number Publication date
CN113378922B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN109635989B (zh) 一种基于多源异构数据融合的社交网络链路预测方法
Chen et al. TrajCompressor: An online map-matching-based trajectory compression framework leveraging vehicle heading direction and change
CN109033011B (zh) 计算轨迹频繁度的方法、装置、存储介质及电子设备
CN109405839B (zh) 一种基于多路径的交通网络离线地图匹配算法
Biagioni et al. Map inference in the face of noise and disparity
CN108763558B (zh) 一种基于地图匹配的众包地图道路质量改进方法
CN110095127B (zh) 一种基于分段的隐马尔可夫模型地图匹配方法
CN112015835B (zh) Geohash压缩的地图匹配方法
CN109345617B (zh) 一种基于长条带多站点云的链式高精度拼接与平差方法
CN112399348B (zh) 一种移动轨迹的确定方法及装置、存储介质
US20170030723A1 (en) Simplification of trajectory representation
CN110580323A (zh) 基于割点分割机制的城市交通网络最大车流量的加速算法
Gervasoni et al. Convolutional neural networks for disaggregated population mapping using open data
Chen et al. Enabling smart urban services with gps trajectory data
CN111382765B (zh) 投诉热点区域聚类方法、装置、设备、介质
CN113611115B (zh) 一种基于路网敏感特征的车辆轨迹聚类方法
CN112381078B (zh) 基于高架的道路识别方法、装置、计算机设备和存储介质
CN113378922B (zh) 一种基于GeoHash的地理坐标点密度聚类方法
CN114664104B (zh) 一种路网匹配方法和装置
CN114245329B (zh) 通行方式识别方法、装置、设备及存储介质
CN116361327A (zh) 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统
CN114237265B (zh) 最优日常巡检路线的规划方法、系统、计算机及存储介质
CN105828434B (zh) 一种子网划分式DV-hop无线传感器网络定位方法
Lv et al. Route pattern mining from personal trajectory data
CN113465613A (zh) 一种城市轨道交通中隧道网络定位的地图匹配优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant