CN104021274A

CN104021274A - 一种动态地理网格聚类算法

Info

Publication number: CN104021274A
Application number: CN201410199387.8A
Authority: CN
Inventors: 凌晨; 胡亮; 邢长胜; 何宇
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2014-05-08
Filing date: 2014-05-08
Publication date: 2014-09-03

Abstract

本申请公开一种动态地理网格聚类算法，首先找出区域中的最大、最小经纬度，再根据步进长度step对最大、最小经纬度之间的区域划分网格；计算出每个点所在的网格的编号，对同一个网格内的点进行聚类，计算出聚合重心点；然后将网格分别向上、下、左、右方向移动，移动长度保持一致，互为对称方向的移动次数保持一致，移动方向的顺序不限，每次移动后都对满足聚类条件的网格内的点进行聚类，所有的聚类点构成最终的聚类结果。本发明申请所述的方法解决了传统的基于网格的聚类算法精度不高、效率低的问题，通过本专利申请所述方法可以实现动态画网格，粗细粒度自由控制，灵活性高，且速度高效。

Description

一种动态地理网格聚类算法

技术领域

本申请属于数据挖掘技术领域，涉及聚类分析，尤其涉及一种动态地理网格的聚类分析算法。

背景技术

聚类分析是数据挖掘中广为研究的课题之一，是从数据中寻找数据间的相似性，并依此对数据进行分类，从而发现数据中隐含的有用信息或知识。网格方法是空间数据处理中常用的将空间数据离散化的方法，基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。

传统的地理网格地图是一种比较简单的地图类型。将地图区域按照平面坐标或者按照经纬度划分网格，以网格为单元描述地理位置信息。把这种特定的划分方式延伸到与数据融合中来，可以用在区域综合分析，统计空间制图，以及数据挖掘等方面。

目前，研究人员已经提出了很多基于网格的聚类算法，其中STING、WaveCluster和CLIQUE是具有代表性的基于网格的聚类算法，或者说是比较传统的基于网格的聚类算法。此外聚类算法还有蚁群聚类算法等传统的网格聚类算法，如STING，它的网格结构的最低层的划分粒度决定了自身算法聚类的质量。如果网格结构的最低层的划分粒度比较粗，网格单元的数量相对较少，则会减少聚类时间，聚类速度快，但是粗粒度会降低聚类精度；反之，如果网格结构的最低层的划分粒度比较细，就会得到较高的聚类精度，但同时处理开销会增加，从而导致聚类时间会较长。另一方面，如果网格结构的最低层的划分粒度过小，就会增加网格单元的数量，可能会导致落入网格单元中的数据点数目过少，从而不满足稠密度阈值要求而被忽略。蚁群聚类算法是聚类分析常用的算法，基于蚁群算法的聚类分析方法在聚类分析过程中，运行时间可能较长，对于要求实时性的系统性能不能达到要求。

发明内容

本专利申请要解决的技术问题是：针对传统的基于网格的聚类算法的不足，提供一种新的地理网格聚类算法，提高聚类的精度和实时性。

为了解决上述技术问题，本专利申请提供了一种动态地理网格聚类算法。具体步骤包括：

1)找出区域中的最大、最小经纬度，再根据步进长度step对最大、最小经纬度之间的区域划分网格，其中，步进长度可在聚合数据分析中根据实际情况自行调整；

2)计算出每个点所在的网格的编号，点Pn(Xn，Yn)网格编号的方法如下：

(1)计算点Pn所在的列数C(Pn)＝(Xn-Xmin)/step；

(2)计算点Pn所在的行数R(Pn)＝(Yn-Ymin)/step；

(3)计算点Pn所在的网格编号G(Pn)＝1+R(Pn)*(Xmax-Xmin)/step+C(Pn)

同一网格中的数据我们认为它们具有共同的聚类属性，对同一个网格内的点进行聚类，计算出聚合重心点；聚合重心点的计算方法可采用常规的重心点计算方法；

3)以第一次划分的网格为基础分别向上、下、左、右方向移动，移动方向的顺序不限，移动长度根据区域范围大小、点分布的密集程度以及聚类精度要求自行调整(一般小于步进长度)，互为对称方向的移动次数保持一致，每次移动后都重复步骤1)进行聚类。

较佳的，根据区域范围大小、点分布的密集程度以及聚类精度要求选取合适的移动长度，将网格向上、下、左、右方向各移动一次，移动方向顺序不限，每次移动后重复步骤1)进行聚类，所有的聚类点构成最终的聚类结果。

本申请的有益后果是：

1.传统的网格划分方法需要将整张地图进行划分然后对每个格子进行编号，本专利所述方法无需考虑地图边界，只取决于欲分析的数据的边界值；

2.动态平移网格时，粗细粒度自由控制，灵活性高，且速度高效。

附图说明

附图1为实施例中第一次划分的网格图；

附图2为网格右移示意图。

具体实施方式

本专利申请所述的一种动态地理网格聚类算法，在实现本方法时，在出现经纬度点的一块区域中找出最大、最小经纬度，例如，现有Pl-Pn个点P1(x1，y1)，P2(x2，y2)，…Pn(xn，yn)，首先取出P1-Pn个点中的最大、最小经纬度(Xmax，Xmin，Ymax，Ymin)；再根据步进长度step对最大、最小经纬度之间的区域划分网格，并且计算出每个点所在的网格的编号。在聚合数据分析中结合区域大小、点的分布情况以及聚类精度等自行调整步进长度的大小，例如区域范围较大，且点的分布较稀疏时，步进长度应稍大，反之，区域范围较小，且点的分布较密集，对聚类精度要求较高时，步进长度应稍小。

如果此时算出的点Pm的网格编号G(Pm)和点Pn的网格编号G(Pn)相同，那么我们认为点Pm和点Pn为落在同一网格的点，它们具有相同的聚类属性，可以进行聚类，然后计算出Pm和Pn的聚合重心点。

选取合适的移动长度，一般小于步进长度，此处以移动长度为半个步进长度为例，将网格上移，重新计算出最大、最小经纬度(Xmaxl，Xminl，Ymaxl，Yminl)：

Xmaxi＝Xmax、Xminl＝Xmin、Ymaxl＝Ymax+(step/2)、Yminl＝Ymin+(step/2)

再次画出网格，同样按照上面的步骤，计算出每个点所在的网格的编号，如果有相同聚类属性的点则再次进行聚合。

再将第一次划分的网格分别左移、右移、下移，移动长度保持一致，移动方向的顺序不限，互为对称方向的移动次数保持一致，每次移动完成后进行聚类操作，所有的聚类点构成最终的聚类结果。

如图1所示，在地图上有黑色、白色经纬度点，我们取中间的0，1，2，3...9这10个点为例，这10个点分别散列在3个网格(①，②，③)中。第一次根据步进长度step对最大、最小经纬度之间的区域划分网格后，我们可以直观的看出此时网格1中经纬度点1、2、3具有相同的聚类属性，网格2中经纬度点4、5、6、7具有相同聚类属性，网格3中经纬度点8，9，0具有相同聚类属性。对同一个网格内的点进行聚类。

此时会发现经纬度点3和经纬度点4位置非常接近，应处于同一网格，然而通过第一次网格划分后却割裂了两者之间的联系，这也是传统网格划分方法的弊端。为了减小误差，我们将网格向右移动(移动长度可在实际聚合数据分析中自行调出整使落在同一网格的点尽可能多的拥有相同聚类属性的最优值)，如附图2所示，实线为第一次划分的网格，虚线为右移后的网格。这时可以看出图2中虚线框出的网格中包含了经纬度点3，4，5，6，可以进行聚类操作。

同理，再以第一次划分的网格为基础分别向左、上、下移动，每次移动长度保持一致，每次移动后对同一网格内的点进行聚类操作。所有的聚类点构成最终的聚类结果。

以上实施方案的说明只适用于帮助理解本专利申请的原理，同时对本领域的一般技术人员，依据本专利申请实施例，在具体实施方式以及应用范围上均会有改变之处，因此本说明书内容不应理解为对本专利申请的限制。

Claims

1.一种动态地理网格聚类算法，其特征在于：1)找出区域中的最大、最小经纬度，再根据步进长度step对最大、最小经纬度之间的区域划分网格：2)计算出每个点所在的网格的编号，对同一个网格内的点进行聚类，计算出聚合重心点；3)以第一次划分的网格为基础向上、下、左、右方向移动，移动长度保持一致，互为对称方向的移动次数保持一致，移动方向的顺序不限，每次移动后重复步骤1)进行聚类，所有的聚类点构成最终的聚类结果。

2.如权利要求1所述的一种动态地理网格聚类算法，其特征在于，计算点Pn(Xn，Yn)网格编号的方法如下：

1)计算点Pn所在的列数C(Pn)＝(Xn-Xmin)/step：

2)计算点Pn所在的行数R(Pn)＝(Yn-Ymin)/step；

3)计算点Pn所在的网格编号G(Pn)＝1+R(Pn)*(Xmax-Xmin)/step+C(Pn)。

3.如权利要求1所述的一种动态地理网格聚类算法，其特征在于：在聚合数据分析中根据区域范围大小、点分布的密集程度以及聚类精度自行调整步进长度以及移动长度的大小。

4.如权利要求1所述的一种动态地理网格聚类算法，其特征在于：根据区域范围大小、点分布的密集程度以及聚类精度要求选取合适的移动长度，将第一次划分的网格向上、下、左、右方向各移动一次，移动方向顺序不限，每次移动后重复步骤1)进行聚类。