CN107291873B - 地理位置聚类方法 - Google Patents
地理位置聚类方法 Download PDFInfo
- Publication number
- CN107291873B CN107291873B CN201710456448.8A CN201710456448A CN107291873B CN 107291873 B CN107291873 B CN 107291873B CN 201710456448 A CN201710456448 A CN 201710456448A CN 107291873 B CN107291873 B CN 107291873B
- Authority
- CN
- China
- Prior art keywords
- data
- point
- point set
- cluster
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种地理位置聚类方法,首先验证数据点集中的数据是否符合正态分布,对于符合正态分布的,先计算核函数的带宽,再计算聚类的起始点,接着根据起始点和带宽计算得到起始点需要移动到的终点,并将该过程中访问过的数据均标记,并归类为一个簇,如果有没有被访问到的数据,则将标记过的点剔除后再重新计算新的起始点,重复第一次计算起始点移动的步骤,并得到另一个簇,将所有得到的簇两两进行组合,判断是否有需要合并的簇,因此采用本发明的地理位置聚类方法能够排除提取不正确或其它原因导致的异常点,从而生产正确、无噪音的地理位置数据,还可以消除由于地理位置生产者使用不同坐标系而产生的位置漂移。
Description
技术领域
本发明属于软件算法技术领域,具体涉及一种地理位置聚类方法。
背景技术
随着计算机技术的发展,现今,我们需要地图导航时,大都使用电子地图,从电子地图上输入目的地后,能够直接在地图上定位该目的地。但是,现有的算法会出现提取不正确、或其它原因导致的异常点,从而会导致生产的地理位置数据不准确。或者由于地理位置生产者使用不同坐标系而产生位置漂移的问题。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种能够排除提取不正确或其它原因导致的异常点,从而生产正确、无噪音的地理位置数据,并且还可以消除由于地理位置生产者使用不同坐标系而产生的位置漂移的地理位置聚类方法。
本发明提供了一种地理位置聚类方法,其特征在于,包括以下步骤:步骤1,判断数据点集是否符合正态分布,如果符合则进入步骤2,如果不符合则结束;
步骤2,根据所述数据点集的正态分布基于预定规则得出所述数据点集的核函数的带宽;
步骤3,根据所述数据点集基于预定规则确定起始点;
步骤4,根据所述起始点、所述带宽基于预定规则得到所述起始点移动到的终点,标记从所述起始点移动到所述终点的计算过程中访问过的所述数据点集中的数据,并将标记的数据归为一个簇;
步骤5,判断所述数据点集中的所有数据是否均被标记过,如果所述数据点集中的所有数据均被标记过则进入步骤7,如果所述数据点集中有未被标记的数据,则进入步骤6;
步骤6,将所述数据点集中被标记过的数据剔除,将未被标记的数据作为新的数据点集计算得到新的起始点,然后返回步骤4;
步骤7,将得到的所有簇两两进行组合,判断每个组合中的两个簇的终点之间的距离与距离阈值的大小,如果两个簇的终点之间的距离小于距离阈值,则将该两个簇合并,如果两个簇的终点之间的距离大于距离阈值,则将两个簇分别作为单独的簇,并基于预定规则将所述数据点集中属于多个簇的多簇数据的进行归类。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤1中,根据数据点集分布的偏度和峰度来判断数据点集是否符合正态分布,偏度和峰度的计算方法如下:
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤1中,如果数据点集不符合正态分布,在结束前,先对数据点集进行调整,如果调整后符合正态分布的则进入步骤2,如果不能调整成正态分布的则结束。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤2中,带宽的计算方法如下:
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,起始点采用中心点计算公式得到,中心点计算公式如下:
n为确定起始点时选用的数据点集中的数据个数;centraLon为中心点的经度;centraLat为中心点的纬度。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤4中从所述起始点移动到所述终点的方法如下:
步骤4-1,以起始点为中心点,查找所述数据点集中所有到中心点的距离小于带宽的数据并进行标记,并计算中心点到每个标记的数据的漂移向量;
步骤4-2,将步骤4-1中得到的所有漂移向量相加得到中心点的偏移向量,将中心点沿所述偏移向量移动,移动的距离为所述偏移向量的绝对值,移动后到达的点作为中间点;
步骤4-3,判断所述偏移向量与设定阈值的大小,如果大于设定阈值,则返回步骤4-1,并以步骤4-2中得到的中间点为中心点开始迭代计算,如果小于设定阈值,则记录下该中间点作为终点,并且将在该迭代过程中被标记过的点归类为一个簇。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,漂移向量采用以下方法得到:
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,数据点集中属于多个簇的多簇数据采用以下方法进行归类:在步骤4中聚类一个簇时,每执行一次步骤4-1,被标记的数据属于该簇的概率加1,将多簇数据属于各个簇的概率进行比较,将多簇数据归类于概率大的那个簇。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,在分布式平台上运行地理位置聚类方法。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,分布式平台为Spark平台。
本发明的优点如下:
根据本发明所涉及的地理位置聚类方法,首先验证数据点集中的数据是否符合正态分布,对于符合正态分布的,先计算核函数的带宽,再计算聚类的起始点,接着根据起始点和带宽计算得到起始点需要移动到的最终点,并将该过程中访问过的数据均标记,并归类为一个簇,然后判断标记的数据是包含了数据点集中的所有数据,如果有没有被访问到的点,则将标记过的点剔除后再重新计算新的起始点,重复第一次计算起始点移动的步骤,并得到另一个簇,将所有得到的簇两两进行组合,比较每个组合中的两个簇的终点之间的距离与距离阈值的大小,合并小于距离阈值的两个簇,大于距离阈值的两个簇则分别为单独的簇,因此采用本发明的地理位置聚类方法能够排除提取不正确或其它原因导致的异常点,从而生产正确、无噪音的地理位置数据,并且本发明还可以消除由于地理位置生产者使用不同坐标系而产生的位置漂移。
附图说明
图1是本发明中地理位置聚类方法的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明地理位置聚类方法作具体阐述。
如图1所示,在本实施例中,地理位置聚类方法包含以下步骤:
步骤S1,判断数据点集是否符合正态分布,如果符合则进入步骤2,如果不符合则结束。
根据数据点集分布的偏度和峰度来判断数据点集是否符合正态分布,偏度和峰度的计算方法如下:
在本实施例中,如果数据点集不符合正态分布,在结束前,先对数据点集进行调整,如果调整后符合正态分布的则进入步骤2,如果不能调整成正态分布的则说明该数据点集不适用本发明的地理位置聚类方法。
步骤S2,根据所述数据点集的正态分布基于预定规则得出所述数据点集的核函数的带宽。
核函数的带宽的计算方法如下:
步骤S3,根据数据点集基于预定规则确定起始点。
在开始对数据点集中的数据进行聚类之前,首先要选择对数据进行聚类的起点。由于我们计算的数据是地理位置数据,因此其本身就有一定的聚集性,尤其是当输入的数据源是一个城市的时候,那么根据我们输入的数据点集,根据以下中心点计算公式,起始点采用中心点计算公式得到,中心点计算公式如下:
将上述公式中x、y、z的表达式带入centraLat和centraLon的表
达式中后,centraLat和centraLon的计算公式分别如下:
n为确定起始点时选用的数据点集中的数据个数;centraLon为中心点的经度;centraLat为中心点的纬度;x、y、z为计算过程中间量。
步骤S4,根据起始点、带宽基于预定规则得到起始点移动到的终点,标记从起始点移动到终点时访问过的数据点集中的数据,并将标记的数据归为一个簇。
从所述起始点移动到所述终点的方法如下:
步骤4-1,以步骤3中确定的起始点为中心点,查找数据点集中所有到中心点的距离小于带宽的数据,并进行标记,为了下文描述,将这些数据记作记作集合M1,将集合M1中的数据归类于簇C,并将集合M1中的数据属于簇C的概率加1。然后,计算中心点到集合M1中每个数据的漂移向量。漂移向量即中心点到标记数据形成的向量。
漂移向量采用以下方法得到:
为数据点集的标准差;k(x)为Gaussian kernel函数;h为核函数的带宽;xi表示步骤4-1中标记的数据;x表示中心点。
步骤4-2,将步骤4-1中得到的所有漂移向量相加得到中心点的偏移向量,将中心点沿偏移向量移动,移动的距离为偏移向量的绝对值,移动后到达的点作为中间点。
步骤4-3,判断偏移向量与设定阈值的大小,如果大于设定阈值,则返回步骤4-1,并以步骤4-2中得到的中间点为中心点开始迭代计算,重复步骤4-1、步骤4-2、步骤4-3。具体为:返回步骤4-1并以步骤4-2中得到的中间点为中心点,查找数据点集中数据到该中心点的距离小于带宽的所有的数据,并进行标记,将这些数据记作记作集合M2,将集合M2中的数据也归类于簇C,并将集合M2中的数据属于簇C的概率加1,其中,集合M2中的数据与集合M1中的数据有部分是重复的。然后,计算起始点到集合M2中每个数据的漂移向量。如果小于设定阈值,则记录下该中间点作为终点。并且将在该迭代过程中被标记过的点归类为一个簇。
如果步骤4-3的判定结果一直为偏移向量大于设定阈值,则一直重复重复步骤4-1、步骤4-2、步骤4-3的步骤,每执行一次步骤4-1,被标记的数据属于该簇的概率加1。即:每重复一次,则产生一个集合Mi,不同集合Mi中包含有相同的数据,也包含有不同的数据,即,一个数据可能属于多个集合Mi,而这个过程中产生的所有集合Mi中的全部数据均归类为簇C,一个数据属于几个集合Mi,则其属于簇C的概率就为几。
步骤S5,判断数据点集中的所有数据是否均被标记过,如果数据点集中的所有数据均被标记过则进入步骤7,如果数据点集中有未被标记的数据,则进入步骤6。
步骤S6,将数据点集中被标记过的数据剔除,将未被标记的数据作为新的数据点集计算得到新的起始点,然后返回步骤4。其中,剔除的数据仅在计算新的起始点时被剔除,在返回步骤4时的计算过程中聚类的仍然是步骤1中需要进行聚类的数据点集。
步骤S7,将得到的所有簇两两进行组合,判断每个组合中的两个簇的终点之间的距离与距离阈值的大小,如果两个簇的终点之间的距离小于距离阈值,则将该两个簇合并,如果两个簇的终点之间的距离大于距离阈值,则将两个簇分别作为单独的簇。在本实施例中,距离阈值为50米。由于每个数据归类时可能不只属于一个簇,在此,将属于多个簇的数据称为多簇数据,因此,需要对多簇数据进行归类。在聚类每个点时,对每个数据属于哪个簇的概率进行了计算。在本实施例中,将多簇数据属于各个簇的概率进行比较,并将多簇数据归类于概率大的那个簇。
在本实施例中,将本发明的本地理位置聚类方法在分布式平台上运行,在分布式平台上运行,能够支持TB级别的数据,并且对数据上限没有要求。分布式平台包含:MapReduce平台、Hadoop平台、Storm平台、Spark平台等。由于本发明的地理位置聚类方法在聚类的过程中需要多次迭代才能收敛,因此,最优的,在分布式平台上,采用Spark平台运行本发明的本地理位置聚类方法,才能很好的保证本发明的地理位置聚类方法运行的性能。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。
Claims (8)
1.一种地理位置聚类方法,其特征在于,包括以下步骤:
步骤1,根据数据点集分布的偏度和峰度判断数据点集是否符合正态分布,所述偏度和所述峰度的计算方法如下:
如果符合正态分布则进入步骤2,如果不符合正态分布则结束;
步骤2,根据所述数据点集的正态分布基于预定规则得出所述数据点集的核函数的带宽,所述带宽计算方法如下:
步骤3,根据所述数据点集基于预定规则确定起始点;
步骤4,根据所述起始点、所述带宽基于预定规则得到所述起始点移动到的终点,标记从所述起始点移动到所述终点的计算过程中访问过的所述数据点集中的数据,并将标记的数据归为一个簇;
步骤5,判断所述数据点集中的所有数据是否均被标记过,如果所述数据点集中的所有数据均被标记过则进入步骤7,如果所述数据点集中有未被标记的数据,则进入步骤6;
步骤6,将所述数据点集中被标记过的数据剔除,将未被标记的数据作为新的数据点集计算得到新的起始点,然后返回步骤4;
步骤7,将得到的所有簇两两进行组合,判断每个组合中的两个簇的终点之间的距离与距离阈值的大小,如果两个簇的终点之间的距离小于距离阈值,则将该两个簇合并,如果两个簇的终点之间的距离大于距离阈值,则将两个簇分别作为单独的簇,并基于预定规则将所述数据点集中属于多个簇的多簇数据的进行归类。
2.根据权利要求1所述的地理位置聚类方法,其特征在于:
其中,步骤1中,如果数据点集不符合正态分布,在结束前,先对数据点集进行调整,如果调整后符合正态分布的则进入步骤2,如果不能调整成正态分布的则结束。
4.根据权利要求1所述的地理位置聚类方法,其特征在于:
其中,步骤4中从所述起始点移动到所述终点的方法如下:
步骤4-1,以所述起始点为中心点,查找所述数据点集中所有到所述中心点的距离小于所述带宽的数据并进行标记,并计算中心点到每个标记的数据的漂移向量;
步骤4-2,将步骤4-1中得到的所有漂移向量相加得到中心点的偏移向量,将中心点沿所述偏移向量移动,移动的距离为所述偏移向量的绝对值,移动后到达的点作为中间点;
步骤4-3,判断所述偏移向量与设定阈值的大小,如果大于设定阈值,则返回步骤4-1,并以步骤4-2中得到的所述中间点为中心点开始迭代计算,如果小于设定阈值,则记录下该中间点作为终点,并且将在该迭代过程中被标记过的点归类为一个簇。
6.根据权利要求4所述的地理位置聚类方法,其特征在于:
其中,所述数据点集中属于多个簇的多簇数据采用以下方法进行归类:
在步骤4中聚类一个簇时,每执行一次步骤4-1,被标记的数据属于该簇的概率加1,
将多簇数据属于各个簇的概率进行比较,将多簇数据归类于概率大的那个簇。
7.根据权利要求1所述的地理位置聚类方法,其特征在于:
其中,在分布式平台上运行地理位置聚类方法。
8.根据权利要求7所述的地理位置聚类方法,其特征在于:
其中,所述分布式平台为Spark平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710456448.8A CN107291873B (zh) | 2017-06-16 | 2017-06-16 | 地理位置聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710456448.8A CN107291873B (zh) | 2017-06-16 | 2017-06-16 | 地理位置聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291873A CN107291873A (zh) | 2017-10-24 |
CN107291873B true CN107291873B (zh) | 2020-02-18 |
Family
ID=60096482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710456448.8A Active CN107291873B (zh) | 2017-06-16 | 2017-06-16 | 地理位置聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291873B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555544B (zh) * | 2019-07-16 | 2022-04-08 | 广东工业大学 | 一种基于gps导航数据的交通需求估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824853A (zh) * | 2015-01-09 | 2016-08-03 | 日本电气株式会社 | 聚类设备和方法 |
CN106056136A (zh) * | 2016-05-20 | 2016-10-26 | 浙江工业大学 | 一种聚类中心快速确定的数据聚类方法 |
CN106203507A (zh) * | 2016-07-11 | 2016-12-07 | 上海凌科智能科技有限公司 | 一种基于分布式计算平台改进的k均值聚类方法 |
CN106709503A (zh) * | 2016-11-23 | 2017-05-24 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k‑dbscan |
-
2017
- 2017-06-16 CN CN201710456448.8A patent/CN107291873B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824853A (zh) * | 2015-01-09 | 2016-08-03 | 日本电气株式会社 | 聚类设备和方法 |
CN106056136A (zh) * | 2016-05-20 | 2016-10-26 | 浙江工业大学 | 一种聚类中心快速确定的数据聚类方法 |
CN106203507A (zh) * | 2016-07-11 | 2016-12-07 | 上海凌科智能科技有限公司 | 一种基于分布式计算平台改进的k均值聚类方法 |
CN106709503A (zh) * | 2016-11-23 | 2017-05-24 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k‑dbscan |
Non-Patent Citations (1)
Title |
---|
《神经网络辅助的GPS/INS组合导航自适应UKF算法》;谭兴龙 等;《测绘学报》;20150430;第44卷(第4期);第384-391页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107291873A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9852212B2 (en) | Dynamic clustering for streaming data | |
CN106227726B (zh) | 一种基于车辆轨迹数据的路径提取方法 | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN105338619B (zh) | 定位方法及装置 | |
US10820296B2 (en) | Generating wireless network access point models using clustering techniques | |
CN110956255B (zh) | 难样本挖掘方法、装置、电子设备及计算机可读存储介质 | |
JP2017162306A (ja) | 情報処理装置、類似検索プログラム、及び類似検索方法 | |
WO2017107865A1 (zh) | 图像检索系统、服务器、数据库及相关的方法 | |
CN110909868A (zh) | 基于图神经网络模型的节点表示方法和装置 | |
CN107291873B (zh) | 地理位置聚类方法 | |
CN114328785A (zh) | 提取道路信息的方法和装置 | |
WO2019119635A1 (zh) | 种子用户拓展方法、电子设备及计算机可读存储介质 | |
CN111858785B (zh) | 地图离散型要素的匹配方法、装置、系统及存储介质 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
JP6393982B2 (ja) | 空間分割方法、空間分割装置および空間分割プログラム | |
CN113780532B (zh) | 语义分割网络的训练方法、装置、设备及存储介质 | |
CN113689526B (zh) | 地图中无效区域的划分方法及装置、电子设备 | |
CN105828434B (zh) | 一种子网划分式DV-hop无线传感器网络定位方法 | |
CN105741345A (zh) | 点云法向量调整方法及系统 | |
CN114664104A (zh) | 一种路网匹配方法和装置 | |
US9436715B2 (en) | Data management apparatus and data management method | |
CN107727096B (zh) | 基于有效节点筛选的auv地形匹配定位方法 | |
CN111984812A (zh) | 一种特征提取模型生成方法、图像检索方法、装置及设备 | |
Wang et al. | Grid-Based Whole Trajectory Clustering in Road Networks Environment | |
CN117194591B (zh) | 一种球体轨迹到平面地图的显示方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |