CN109117870B

CN109117870B - 基于ArcGIS二次开发的线聚类提取方法及系统

Info

Publication number: CN109117870B
Application number: CN201810803815.1A
Authority: CN
Inventors: 辜智慧; 张艳
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2020-11-13
Anticipated expiration: 2038-07-20
Also published as: CN109117870A

Abstract

本发明公开一种基于ArcGIS二次开发的线聚类提取方法及系统。在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，m的取值依次为从1到M，n的取值依次为从1到N，根据统计学原理和第m组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果，根据M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。该线聚类提取方法及系统能解决ArcGIS空间分析工具缺少聚类工具的技术问题。

Description

基于ArcGIS二次开发的线聚类提取方法及系统

技术领域

本发明涉及起讫(Origin-Destination，OD)线处理领域，尤其涉及一种基于ArcGIS二次开发的线聚类提取方法及系统。

背景技术

OD矩阵是用于战略规划和交通网络管理的最重要的信息来源之一。传统上，城市规划和交通工程依靠家庭调查问卷或每5-10年进行的普查和道路调查来开发OD矩阵估计方法。近年来，大数据和跟踪设施的改进使得可以为移动物体收集大量的旅行数据。然而，由于OD流量的大量交叉和重叠，在OD矩阵的先前研究中，基于对行政或交通空间单元的点统计，因为数据量增加而迅速变得难以辨认。

功能完备的地理空间分析软件ArcGIS对于OD线的处理功能较弱，只有两种相关算法，一是线密度分析，二是OD矩阵计算或轨迹生成。前者根据格网的设置，去计算格网内OD线的长度作为OD线密度分析，其结果可解释性非常差。因为它统计的是一个虚拟的经过频次和长度，而非实际的路线。后者的OD矩阵计算，实现较为简单，但也只是增加了OD线的一些相关属性，并不能将其空间关系表达清楚，尤其是在对海量数据进行分析时。OD轨迹生成，在ArcGIS中实现也相对困难，如果研究问题关于交通分析，这种实际轨迹的提取非常重要。但是，如果我们关心的是空间联系或者特别关注的领域，比如找到联系最密切的就业和居住中心，那么OD线的聚类工具则更为重要，而这正是ArcGIS空间分析工具中所缺少的。

发明内容

本发明的主要目的在于提供一种线聚类提取方法及系统，可以解决现有技术中ArcGIS空间分析工具缺少聚类工具的技术问题。

为实现上述目的，本发明第一方面提供一种基于ArcGIS二次开发的线聚类提取方法，其特征在于，所述方法应用在ArcGIS空间分析工具中，所述方法包括：

步骤101，获取简单线数据集，并根据最小搜索半径的数值、半径增加量的数值和循环次数的数值，按照预设半径公式计算第m个搜索半径的数值，所述简单线数据集包括N条具有起点坐标和终点坐标的简单线，所述N为正整数，所述m的取值依次为从1到M，所述M为正整数；

步骤102，在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与所述第n条简单线的相交角度小于或者等于预设角度，且与所述第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个所述缓冲区域为以第n条简单线的起点坐标和终点坐标分别为圆心，以所述第m个搜索半径的数值为半径构成的，所述n的取值依次为从1到所述N；

步骤103，根据统计学原理和第m组的N个所述第一统计结果计算得到具有显著性的第m个最小聚类结果；

步骤104，根据M个最小聚类结果和第m组的N个所述第一统计结果对N条所述简单线进行聚类统计，得到聚类结果集合。

为实现上述目的，本发明第二方面提供一种基于ArcGIS二次开发的线聚类提取系统，其特征在于，所述系统应用在ArcGIS空间分析工具中，所述系统包括：

获取计算模块，用于获取简单线数据集，并根据最小搜索半径的数值、半径增加量的数值和循环次数的数值，按照预设半径公式计算第m个搜索半径的数值，所述简单线数据集包括N条具有起点坐标和终点坐标的简单线，所述N为正整数，所述m的取值依次为从1到M，所述M为正整数；

第一统计模块，用于在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与所述第n条简单线的相交角度小于或者等于预设角度，且与所述第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个所述缓冲区域为以第n条简单线的起点坐标和终点坐标分别为圆心，以所述第m个搜索半径的数值为半径构成的，所述n的取值依次为从1到所述N；

计算模块，用于根据统计学原理和第m组的N个所述第一统计结果计算得到具有显著性的第m个最小聚类结果；

聚类统计模块，用于根据M个最小聚类结果和第m组的N个所述第一统计结果对N条所述简单线进行聚类统计，得到聚类结果集合。

本发明提供一种基于ArcGIS二次开发的线聚类提取方法及系统。该方法和系统在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，m的取值依次为从1到M，n的取值依次为从1到N，根据统计学原理和第m组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果，根据M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。将该线聚类提取方法及系统应用到ArcGIS空间分析工具中，能解决ArcGIS空间分析工具缺少聚类工具的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例中一种基于ArcGIS二次开发的线聚类提取方法的流程示意图；

图2为本发明第一实施例中步骤103的细化步骤的流程示意图；

图3为本发明第一实施例中步骤104的细化步骤的流程示意图；

图4为本发明第一实施例中基于第n条简单线和第m个搜索半径构成的缓冲区域的示意图；

图5为本发明第二实施例中一种基于ArcGIS二次开发的线聚类提取系统的结构示意图；

图6为本发明第二实施例中计算模块203的细化模块的结构示意图；

图7为本发明第二实施例中聚类统计模块204的细化模块的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中存在ArcGIS空间分析工具缺少聚类工具的技术问题。

为了解决上述技术问题，本发明提出一种基于ArcGIS二次开发的线聚类提取方法及系统。该方法和系统在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，m的取值依次为从1到M，n的取值依次为从1到N，根据统计学原理和第m组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果，根据M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。将该线聚类提取方法及系统应用到ArcGIS空间分析工具中，能解决ArcGIS空间分析工具缺少聚类工具的技术问题。

请参阅图1，为本发明第一实施例中一种基于ArcGIS二次开发的线聚类提取方法的流程示意图。具体的，该方法应用在ArcGIS空间分析工具中，该方法包括：

步骤101，获取简单线数据集，并根据最小搜索半径的数值、半径增加量的数值和循环次数的数值，按照预设半径公式计算第m个搜索半径的数值，简单线数据集包括N条具有起点坐标和终点坐标的简单线，N为正整数，m的取值依次为从1到M，M为正整数；

进一步的，半径公式为：

r_m＝r₁+(i-1)Δr

其中，r_m表示第m个搜索半径，r₁表示最小搜索半径，也表示第1个搜索半径，i表示循环次数，Δr表示半径增加量。

步骤102，在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个缓冲区域为以第n条简单线的起点坐标和终点坐标分别为圆心，以第m个搜索半径的数值为半径构成的，n的取值依次为从1到N；

步骤103，根据统计学原理和第m组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果；

具体的，请参阅图2，为本发明第一实施例中步骤103的细化步骤的流程示意图。该细化步骤包括：

步骤1031，获取已配置的显著性水平值，并测试第m组中的N个第一统计结果形成的数据分布的分布状况；

步骤1032，若第m组中的N个第一统计结果形成的数据分布满足正态分布，则基于显著性水平值按照正态分布公式计算得到第m个最小聚类结果；

步骤1033，若第m组中的N个第一统计结果形成的数据分布满足帕累托分布，则基于显著性水平值按照帕累托公式计算得到第m个最小聚类结果。

进一步的，正态分布公式为：

minlines＝average(Nls)+r*SD(Nls)

其中，minlines表示最小聚类结果，average表示平均值函数，Nls表示第m组中的N个第一统计结果，r为与显著性水平值相关的参数，当显著性水平值为99％时，r取值为2.58，当显著性水平值为95％时，r取值为1.96，SD表示标准差函数。

进一步的，帕累托公式为：

其中，p为与显著性水平值相关的参数，当显著性水平值为99％时，p取值为小于0.01，当显著性水平值为95％时，p取值为小于0.05，x_m表示最小聚类结果，x表示第m组中的N个第一统计结果，α表示回归系数，是一个正参数。

步骤104，根据M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。

具体的，请参阅图3，为本发明第一实施例中步骤104的细化步骤的流程示意图。该细化步骤包括：

步骤1041，在基于未标记的第a条简单线和第b个搜索半径构成的两个缓冲区域内，统计起点坐标与终点坐标分别在两个缓冲区域内，与第a条简单线的相交角度小于或者等于预设角度，且与第a条简单线的长度差大于或者等于预设倍数的第b个搜索半径的未标记的简单线的数目，得到第b组第a个第二统计结果，a为正整数且取值依次为从1至A，A为简单线数据集中未标记的简单线的数值，其中，根据统计学原理和第m组的N个第一统计结果计算得到第m个最大聚类结果，从第1至第M个最大聚类结果中，查找第一个满足第c个最大聚类结果小于第c个最小聚类结果条件的第c个搜索半径，b的初始值为c-1，c取值1至M中的一个；

步骤1042，从第b组A个第二统计结果中提取出数值最大的目标统计结果，判断目标统计结果是否大于第b个最小聚类结果；

步骤1043，若目标统计结果大于第b个最小聚类结果，则记i＝i+1，查询与目标统计结果对应的目标简单线，在基于目标简单线和第b个搜索半径构成的两个缓冲区域内，标记起点坐标与终点坐标分别在两个缓冲区域内，与目标简单线的相交角度小于或者等于预设角度，且与目标简单线的长度差大于或者等于预设倍数的第b个搜索半径的未标记的简单线及目标简单线，并记目标统计结果为第i个聚类结果，i的初始值为0；

步骤1044，判断未标记的简单线的数值是否为0，若未标记的简单线的数值不为0，则返回执行步骤1041，若未标记的简单线的数值为0，则基于i个聚类结果得到聚类结果集合；

步骤1045，若目标统计结果小于或等于第b个最小聚类结果，则当b大于1时，令b＝b-1，返回执行步骤1041，当b小于或者等于1时，基于i个聚类结果得到聚类结果集合。

需要强调的是，b的初始值为1至M中的一个，b的初始值为c-1，第c-1个搜索半径是基于统计特征得到的。具体表现为：根据统计学原理和第m组的N个第一统计结果计算得到第m个最大聚类结果，由于m的取值依次为从1到M，因此，一共有M个最大统计结果。从第1至第M个最大聚类结果中，依次查找，当出现第一个满足第c个最大聚类结果小于第c个最小聚类结果条件的第c个搜索半径时，第b个搜索半径的初始搜索半径(为最大搜索半径)为第c-1个搜索半径。即，b的初始值为c-1，c取值1至M中的一个。若M个最大聚类结果中，无满足第c个最大聚类结果小于第c个最小聚类结果条件的第c个搜索半径，则b的初始值为M。

进一步的，步骤1045中，若目标统计结果小于或等于第b个最小聚类结果，则当b大于1时，令b＝b-1，返回执行步骤1041。每执行一次该步骤，搜索半径的数值均会减去一个半径增加量。例如，M数值为10，c数值为6，则b的初始值为5。步骤101至103中均有10个搜索半径参与，在步骤104中，根据第5个搜索半径进行一次密度统计，当若目标统计结果小于或等于第5个最小聚类结果时，根据第4个搜索半径进行一次密度统计，循环执行，直到未标记的简单线数值为0或者第1个搜索半径(为最小搜索半径)进行完一次密度统计。

需要说明的是，请参阅图4，为本发明第一实施例中基于第n条简单线和第m个搜索半径构成的缓冲区域的示意图。其中，实线箭头表示简单线，虚线箭头表示第m个搜索半径，虚线箭头的起点所在的简单线表示第n条简单线，虚线圆表示以第n条简单线的起点坐标或者终点坐标为圆心，以第m个搜索半径的数值为半径构成的缓冲区域，统计起点坐标和终点坐标分别在两个虚线圆内，与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，该数目第m组第n个第一统计结果。一般的，预设角度为45度，预设倍数为2倍。即，一般统计起点坐标和终点坐标分别在两个缓冲区域内，与第n条简单线的相交角度小于或者等于45度角，且与第n条简单线的长度差大于或者等于2倍的第m个搜索半径的简单线的数目。

进一步的，本发明在参数选择上，通过操作者手动输入最小搜索半径的数值、半径增加量的数值和循环次数的数值，获取到该最小搜索半径的数值、该半径增加量的数值和该循环次数的数值后，计算第m个搜索半径的数值，并分别对N条简单线进行统计处理，得到M组N个第一统计结果。

值得强调的是，半径增加量的数值可以为0，也可以不为0，循环次数的数值可以为1，也可以不为1，即本发明在参数选择上具有两种方式。一种是操作者手动输入最小搜索半径的数值、数值为0的半径增加量和/或数值为1的循环次数，此时由半径公式可知，r_m的值恒定为r₁，说明搜索半径的数值是恒定的，m等于1。这种方法适用于在对简单线有足够的了解或有明确分析目的的情况下，可以直接主观的指定搜索半径的数值和显著性水平值。例如，如果想要在职住线数据中找到最强的联系区域来设置特殊的公交路线，可以将搜索半径设置为500米，这通常是公交车站的影响范围，最小聚类结果可以设置为一辆公共汽车的最小服务人数。另一种是操作者手动输入最小搜索半径的数值、数值不为0的半径增加量和数值不为1的循环次数，来使搜索半径的数值可变。这种方法适用于对简单线的了解不是很足，或分析的目的不明确的情况下，指定搜索半径的数值后，统计得到的聚类结果可能不是最优的。此时，采用指定最小搜索半径，数值不为0的半径增加量和数值不为1的循环次数的方式，实现搜索半径的自动化提取，能在缺乏先验知识的情况下，统计得到理想的聚类结果。

进一步的，根据统计学原理和第m组的N个第一统计结果进行计算，目标是得到具有显著性的第m个最小聚类结果。具体表现为通过测试第m组中的N个第一统计结果形成的数据分布的分布状况。一般的，大部分数据分布满足正态分布，因此若第m组中的N个第一统计结果形成的数据分布满足正态分布，则基于显著性水平值按照正态分布公式计算得到第m个最小聚类结果，其中，显著性水平值可为操作者手动选择的，包括95％和99％两个数值，显著性水平值也可为操作者手动输入的；若第m组中的N个第一统计结果形成的数据分布不满足正态分布，而是满足幂律分布，一般来说，空间中的大部分OD线都是离散的，只有少数聚集在一起。因此可以采用帕累托分布(幂律分布中的一种)来测试第m组中的N个第一统计结果形成的数据分布，并使用帕累托公式计算得到第m个最小聚类结果。其中，帕累托公式中的α表示回归系数，是一个正参数，可以从幂律模型f(x)＝cx^-(α+1)中得到，c表示回归系数。当搜索半径较小时，第一统计结果的数值大部分为1，α较大。随着搜索半径数值的增加，值为1的第一统计结果的数量减少，并且α减小。当α小于1时，帕累托分布后的随机变量的期望值为无穷大，其中分布的尾部具有无限区域，并且概率密度函数变得没有意义。因此，当α小于1时，最小聚类结果为无，并且不能找到中心线。

值得注意的是，若第m组中的N个第一统计结果形成的数据分布满足其他种类数据分布，可以采用相对应的分布公式计算。测试第m组中的N个第一统计结果形成的数据分布的分布状况，并采用与该分布状况对应的公式进行计算，其目的是为了找到合适的概率分布来提取具有更高显著性水平的最小聚类结果。

进一步的，在得到具有显著性的最小聚类结果后，需要N条简单线进行聚类统计。聚类统计的具体过程可参阅图3。需要说明的是，步骤102，在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个缓冲区域为以第n条简单线的起点坐标和终点坐标分别为圆心，以第m个搜索半径的数值为半径构成的，n的取值依次为从1到N。该步骤得到的M组中，每组的N个第一统计结果之间可能存在是重合统计的情况，比如，第m组中第1个第一统计结果里统计了第1条简单线、第2条简单线、第3条简单线和第4条简单线，第m组中第2个第一统计结果里统计了第1条简单线、第2条简单线、第4条简单线,、第5条简单线和第6条简单线。因此，步骤102统计得到的第一统计结果是不准确的。利用M组中，每组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果，基于M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。该步骤104中的聚类结果之间不存在重合统计的情况。这是由于对目标简单线的空间区域中的未标记的简单线和目标简单线进行了标记，使得下一次统计时，已标记的简单线不再参与密度统计的过程。

在本发明实施例中，在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，m的取值依次为从1到M，n的取值依次为从1到N，根据统计学原理和第m组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果，根据M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。将该线聚类提取方法及系统应用到ArcGIS空间分析工具中，能解决ArcGIS空间分析工具缺少聚类工具的技术问题。

请参阅图5，为本发明第二实施例中一种基于ArcGIS二次开发的线聚类提取系统的结构示意图。具体的，该系统应用在ArcGIS空间分析工具中，该系统包括：

获取计算模块201，用于获取简单线数据集，并根据最小搜索半径的数值、半径增加量的数值和循环次数的数值，按照预设半径公式计算第m个搜索半径的数值，简单线数据集包括N条具有起点坐标和终点坐标的简单线，N为正整数，m的取值依次为从1到M，M为正整数；

进一步的，半径公式为：

r_m＝r₁+(i-1)Δr

第一统计模块202，用于在基于第n条简单线和第m个搜索半径构成的两个缓冲区域内，统计与第n条简单线的相交角度小于或者等于预设角度，且与第n条简单线的长度差大于或者等于预设倍数的第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个缓冲区域为以第n条简单线的起点坐标和终点坐标分别为圆心，以第m个搜索半径的数值为半径构成的，n的取值依次为从1到N；

计算模块203，用于根据统计学原理和第m组的N个第一统计结果计算得到具有显著性的第m个最小聚类结果；

具体的，请参阅图6，为本发明第二实施例中计算模块203的细化模块的结构示意图。该细化模块包括：

获取测试模块2031，用于获取已配置的显著性水平值，并测试第m组中的N个第一统计结果形成的数据分布的分布状况；

第一计算模块2032，用于若第m组中的N个第一统计结果形成的数据分布满足正态分布，则基于显著性水平值按照正态分布公式计算得到第m个最小聚类结果；

第二计算模块2033，用于若第m组中的N个第一统计结果形成的数据分布满足帕累托分布，则基于显著性水平值按照帕累托公式计算得到第m个最小聚类结果。

进一步的，正态分布公式为：

minlines＝average(Nls)+r*SD(Nls)

其中，minlines表示第m个最小聚类结果，average表示平均值函数，Nls表示第m组中的N个第一统计结果，r为与显著性水平值相关的参数，当显著性水平值为99％时，r取值为2.58，当显著性水平值为95％时，r取值为1.96，SD表示标准差函数；

帕累托公式为：

其中，p为与显著性水平值相关的参数，当显著性水平值为99％时，p取值为小于0.01，当显著性水平值为95％时，p取值为小于0.05，x_m表示第m个最小聚类结果，x表示第m组中的N个第一统计结果，α表示回归系数，是一个正参数。

聚类统计模块204，用于根据M个最小聚类结果和第m组的N个第一统计结果对N条简单线进行聚类统计，得到聚类结果集合。

具体的，请参阅图7，为本发明第二实施例中聚类统计模块204的细化模块的结构示意图。该细化模块包括：

第二统计模块2041，用于在基于未标记的第a条简单线和第b个搜索半径构成的两个缓冲区域内，统计起点坐标与终点坐标分别在两个缓冲区域内，与第a条简单线的相交角度小于或者等于预设角度，且与第a条简单线的长度差大于或者等于预设倍数的第b个搜索半径的未标记的简单线的数目，得到第b组第a个第二统计结果，a为正整数且取值依次为从1至A，A为简单线数据集中未标记的简单线的数值，其中，根据统计学原理和第m组的N个第一统计结果计算得到第m个最大聚类结果，从第1至第M个最大聚类结果中，查找第一个满足第c个最大聚类结果小于第c个最小聚类结果条件的第c个搜索半径，b的初始值为c-1，c取值1至M中的一个；

提取判断模块2042，用于从第b组A个第二统计结果中提取出数值最大的目标统计结果，判断目标统计结果是否大于第b个最小聚类结果；

查询标记模块2043，用于若目标统计结果大于第b个最小聚类结果，则记i＝i+1，查询与目标统计结果对应的目标简单线，在基于目标简单线和第b个搜索半径构成的两个缓冲区域内，标记起点坐标与终点坐标分别在两个缓冲区域内，与目标简单线的相交角度小于或者等于预设角度，且与目标简单线的长度差大于或者等于预设倍数的第b个搜索半径的未标记的简单线及目标简单线，并记目标统计结果为第i个聚类结果，i的初始值为0；

判断处理模块2044，用于判断未标记的简单线的数值是否为0，若未标记的简单线的数值不为0，则返回第二统计模块2041，若未标记的简单线的数值为0，则基于i个聚类结果得到聚类结果集合；

得到模块2045，用于若目标统计结果小于或等于第b个最小聚类结果，则当b大于1时，令b＝b-1，返回第二统计模块2041，当b小于或者等于1时，基于i个聚类结果得到聚类结果集合。

关于本发明实施例的说明，可参阅有关本发明第一实施例的相关说明，这里不再赘述。

本方法及系统可以用于常见的OD数据挖掘，包括迁移、电话、世界贸易等，以综合大流量数据，提取主要模式，确认已知结构并发现未知结构。因为这种方法及系统能够识别不同区域之间的热链接，所以这种方法及系统也可以用来预测空间走廊以及现状的空间关系特征。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种基于ArcGIS二次开发的线聚类提取方法及系统的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于ArcGIS二次开发的线聚类提取方法，其特征在于，所述方法应用在ArcGIS空间分析工具中，所述方法包括：

步骤101，获取简单线数据集，并根据最小搜索半径的数值、半径增加量的数值和循环次数的数值，按照预设半径公式计算第m个搜索半径的数值，所述简单线数据集包括N条具有起点坐标和终点坐标的简单线，所述N为正整数，所述m的取值依次为从1到M，所述M为正整数，具体地，所述半径公式为：

r_m＝r₁+(i-1)Δr

其中，r_m表示所述第m个搜索半径，r₁表示所述最小搜索半径，也表示第1个搜索半径，i表示所述循环次数，Δr表示所述半径增加量；

步骤102，在基于第n条简单线和所述第m个搜索半径构成的两个缓冲区域内，统计与所述第n条简单线的相交角度小于或者等于预设角度，且与所述第n条简单线的长度差大于或者等于预设倍数的所述第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个所述缓冲区域为以所述第n条简单线的起点坐标和终点坐标分别为圆心，以所述第m个搜索半径的数值为半径构成的，所述n的取值依次为从1到所述N；

步骤104，根据M个最小聚类结果和第m组的N个所述第一统计结果对N条所述简单线进行聚类统计，得到聚类结果集合,步骤104的具体步骤包括：

步骤1041，在基于未标记的第a条简单线和第b个搜索半径构成的两个缓冲区域内，统计起点坐标与终点坐标分别在两个缓冲区域内，与所述第a条简单线的相交角度小于或者等于预设角度，且与所述第a条简单线的长度差大于或者等于预设倍数的所述第b个搜索半径的未标记的简单线的数目，得到第b组第a个第二统计结果，所述a为正整数且取值依次为从1至A，所述A为所述简单线数据集中未标记的简单线的数值，其中，根据统计学原理和第m组的N个第一统计结果计算得到第m个最大聚类结果，从第1至第M个最大聚类结果中，查找第一个满足第c个最大聚类结果小于第c个最小聚类结果条件的第c个搜索半径，所述b的初始值为c-1，所述c取值1至所述M中的一个；

步骤1042，从第b组A个所述第二统计结果中提取出数值最大的目标统计结果，判断所述目标统计结果是否大于第b个最小聚类结果；

步骤1043，若所述目标统计结果大于所述第b个最小聚类结果，则记i＝i+1，查询与所述目标统计结果对应的目标简单线，在基于所述目标简单线和所述第b个搜索半径构成的两个缓冲区域内，标记起点坐标与终点坐标分别在两个缓冲区域内，与所述目标简单线的相交角度小于或者等于预设角度，且与所述目标简单线的长度差大于或者等于预设倍数的所述第b个搜索半径的未标记的简单线及所述目标简单线，并记所述目标统计结果为第i个聚类结果，所述i的初始值为0；

步骤1044，判断未标记的简单线的数值是否为0，若未标记的简单线的数值不为0，则返回执行所述步骤1041，若未标记的简单线的数值为0，则基于i个聚类结果得到聚类结果集合；

步骤1045，若所述目标统计结果小于或等于所述第b个最小聚类结果，则当b大于1时，令b＝b-1，返回执行所述步骤1041，当b小于或者等于1时，基于i个聚类结果得到聚类结果集合。

2.根据权利要求1所述的方法，其特征在于，所述步骤103的具体步骤包括：

步骤1031，获取已配置的显著性水平值，并测试第m组中的N个所述第一统计结果形成的数据分布的分布状况；

步骤1032，若第m组中的N个所述第一统计结果形成的数据分布满足正态分布，则基于所述显著性水平值按照正态分布公式计算得到第m个最小聚类结果；

步骤1033，若第m组中的N个所述第一统计结果形成的数据分布满足帕累托分布，则基于所述显著性水平值按照帕累托公式计算得到第m个最小聚类结果。

3.根据权利要求2所述的方法，其特征在于，

所述正态分布公式为：

minlines＝average(Nls)+r*SD(Nls)

其中，minlines表示所述第m个最小聚类结果，average表示平均值函数，Nls表示第m组中的N个所述第一统计结果，r为与所述显著性水平值相关的参数，当所述显著性水平值为99％时，r取值为2.58，当所述显著性水平值为95％时，r取值为1.96，SD表示标准差函数；

所述帕累托公式为：

其中，p为与所述显著性水平值相关的参数，当所述显著性水平值为99％时，p取值为小于0.01，当所述显著性水平值为95％时，p取值为小于0.05，x_m表示第所述m个最小聚类结果，x表示第m组中的N个所述第一统计结果，α表示回归系数，是一个正参数。

4.一种基于ArcGIS二次开发的线聚类提取系统，其特征在于，所述系统应用在ArcGIS空间分析工具中，所述系统包括：

获取计算模块，用于获取简单线数据集，并根据最小搜索半径的数值、半径增加量的数值和循环次数的数值，按照预设半径公式计算第m个搜索半径的数值，所述简单线数据集包括N条具有起点坐标和终点坐标的简单线，所述N为正整数，所述m的取值依次为从1到M，所述M为正整数,具体地，所述半径公式为：

r_m＝r₁+(i-1)Δr

第一统计模块，用于在基于第n条简单线和所述第m个搜索半径构成的两个缓冲区域内，统计与所述第n条简单线的相交角度小于或者等于预设角度，且与所述第n条简单线的长度差大于或者等于预设倍数的所述第m个搜索半径的简单线的数目，得到第m组第n个第一统计结果，两个所述缓冲区域为以所述第n条简单线的起点坐标和终点坐标分别为圆心，以所述第m个搜索半径的数值为半径构成的，所述n的取值依次为从1到所述N；

聚类统计模块，用于根据M个最小聚类结果和第m组的N个所述第一统计结果对N条所述简单线进行聚类统计，得到类结果集合:

所述聚类统计模块的具体模块包括：

第二统计模块，用于在基于未标记的第a条简单线和第b个搜索半径构成的两个缓冲区域内，统计起点坐标与终点坐标分别在两个缓冲区域内，与所述第a条简单线的相交角度小于或者等于预设角度，且与所述第a条简单线的长度差大于或者等于预设倍数的所述第b个搜索半径的未标记的简单线的数目，得到第b组第a个第二统计结果，所述a为正整数且取值依次为从1至A，所述A为所述简单线数据集中未标记的简单线的数值，其中，根据统计学原理和第m组的N个第一统计结果计算得到第m个最大聚类结果，从第1至第M个最大聚类结果中，查找第一个满足第c个最大聚类结果小于第c个最小聚类结果条件的第c个搜索半径，所述b的初始值为c-1，所述c取值1至所述M中的一个；

提取判断模块，用于从第b组A个所述第二统计结果中提取出数值最大的目标统计结果，判断所述目标统计结果是否大于第b个最小聚类结果；

查询标记模块，用于若所述目标统计结果大于所述第b个最小聚类结果，则记i＝i+1，查询与所述目标统计结果对应的目标简单线，在基于所述目标简单线和所述第b个搜索半径构成的两个缓冲区域内，标记起点坐标与终点坐标分别在两个缓冲区域内，与所述目标简单线的相交角度小于或者等于预设角度，且与所述目标简单线的长度差大于或者等于预设倍数的所述第b个搜索半径的未标记的简单线及所述目标简单线，并记所述目标统计结果为第i个聚类结果，所述i的初始值为0；

判断处理模块，用于判断未标记的简单线的数值是否为0，若未标记的简单线的数值不为0，则返回所述第二统计模块，若未标记的简单线的数值为0，则基于i个聚类结果得到聚类结果集合；

得到模块，用于若所述目标统计结果小于或等于所述第b个最小聚类结果，则当b大于1时，令b＝b-1，返回所述第二统计模块，当b小于或者等于1时，基于i个聚类结果得到聚类结果集合。

5.根据权利要求4所述的系统，其特征在于，所述计算模块的具体模块包括：

获取测试模块，用于获取已配置的显著性水平值，并测试第m组中的N个所述第一统计结果形成的数据分布的分布状况；

第一计算模块，用于若第m组中的N个所述第一统计结果形成的数据分布满足正态分布，则基于所述显著性水平值按照正态分布公式计算得到第m个最小聚类结果；

第二计算模块，用于若第m组中的N个所述第一统计结果形成的数据分布满足帕累托分布，则基于所述显著性水平值按照帕累托公式计算得到第m个最小聚类结果。

6.根据权利要求5所述的系统，其特征在于，

所述正态分布公式为：

minlines＝average(Nls)+r*SD(Nls)

所述帕累托公式为：

其中，p为与所述显著性水平值相关的参数，当所述显著性水平值为99％时，p取值为小于0.01，当所述显著性水平值为95％时，p取值为小于0.05，x_m表示所述第m个最小聚类结果，x表示第m组中的N个所述第一统计结果，α表示回归系数，是一个正参数。