CN111651501A

CN111651501A - 一种面向地理大数据的空间聚合尺度选择方法

Info

Publication number: CN111651501A
Application number: CN202010484892.2A
Authority: CN
Inventors: 李海峰; 朱佳玮; 陶超; 肖俊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-11
Anticipated expiration: 2040-06-01
Also published as: CN111651501B

Abstract

本发明公开了一种面向地理大数据的空间聚合尺度选择方法，包括：对研究区域进行不同格网大小下的等距离格网划分；生成不同尺度的尺度快照；对不同尺度快照建立点云；对各个尺度快照的点云进行拓扑特征提取；对各个尺度快照进行尺度效应分析，获取关键尺度；根据关键尺度，选择所需的空间聚合尺度。本发明方法引入拓扑分析方法，通过多阶拓扑不变量刻画不同聚合尺度下数据的聚类模式、环状模式以及类间模式，并通过模式的演变量化尺度效应的影响，进而找到尺度突变点来判断合适的研究尺度范围，由此选择的空间聚合尺度更符合实际需求。

Description

一种面向地理大数据的空间聚合尺度选择方法

技术领域

本发明属于地理信息分析技术领域，涉及一种面向地理大数据的空间聚合尺度选择方法。

背景技术

地理数据的挖掘离不开尺度。一般而言，地理大数据都是个体粒度的时空数据，但进行人地关系研究时，研究者关注的时空间粒度会更大，需要从个体粒度转换至群体层面。因此，为了理解城市空间，进行研究时空间聚合的操作是不可避免的，即我们需要预先对研究区域进行划分成多个空间单元，并将数据与空间单元进行关联映射，然后以预定义的空间单元作为基本研究单位展开分析。大多数研究采用规则格网对研究区域进行划分，聚合尺度没有统一的规范和标准。但是空间单元大小不同将会影响对地理格局等的理解，因此选择契合研究场景的尺度对地理数据挖掘至关重要。

目前对尺度效应分析的研究可以从所关注的数据分为两类。对于空间分布数据，其大多数研究通过检查不同聚合尺度如何影响统计结果，如属性的均值，方差，协方差和相关系数，从单个变量到多个变量，从线性回归到泊松回归模型。对空间交互数据的关注较少，其中多数研究都集中在距离衰减效应上，利用重力模型用作研究与空间交互相关的尺度效应，但这些研究仅限于理论模型，还有少部分研究关注交互矩阵中的社区结构变化，即聚类模式变化。总言之，传统分析主要依靠统计分析和聚类分析，局限于短程关系和有限阶模式，为了更好的分析和选择尺度，需要引入更多的模式刻画数据全貌。同时，为了更好地理解地理数据内含的尺度性，选择合适的聚合尺度，需要考虑以下问题：(1)随着聚合尺度的变化，数据中的模式是如何变化的，哪些模式是稳定的，哪些模式发生了突变；(2)是否存在一个“突变”的情况，即有一个关键的尺度，在这个尺度前和尺度后存在不同的变化趋势。所以需要跨尺度的定量研究，对尺度效应进行进一步探索。

发明内容

有鉴于此，本发明的目的在于提供一种面向地理大数据的空间聚合尺度选择方法，本发明方法引入拓扑分析方法，通过多阶拓扑不变量刻画不同聚合尺度下数据的聚类模式、环状模式以及类间模式，并通过模式的演变量化尺度效应的影响，进而找到尺度突变点来判断合适的研究尺度范围，由此选择的空间聚合尺度更符合实际需求。

本发明的目的是这样实现的，一种面向地理大数据的空间聚合尺度选择方法，包括以下步骤：

步骤1，输入研究区域的空间交互数据或空间分布数据；

步骤2，对研究区域进行等距离的规则格网划分，格网大小选择为[s₁，s₂，...，s_M]，升序排列；

步骤3，对于空间交互数据：将出发地点与到达地点映射至划分的格网中，并将点对之间的交互映射成格网间的交互，对于每个尺度可以得到一个新的空间交互矩阵，即M个尺度快照，假设某一快照中格网数为N，该快照的大小即为N*N；

对于空间分布数据：将分布点映射至格网，并将格网内分布点的各属性进行统计作为格网的属性值，对于每个尺度可以得到一个新的空间属性矩阵，即M个尺度快照，假设某一快照中格网数为N，有K个属性，则对应快照的大小为N*K；

步骤4，对于空间交互数据：假设某尺度快照中格网数为N，则该快照即为N维空间中的点云，每一个格网对应一个点，尺度快照中的每一行即为对应格网的交互特征，是该格网在N维空间的坐标；

对于空间分布数据：假设某尺度快照中格网数为N，有K个属性，则点云所在高维空间维度则对应为K，每一个格网对应一个点，尺度快照中的每一行即为对应格网的属性特征，是该格网在K维空间的坐标；

对M个尺度快照都建立点云；

步骤5，对各个尺度快照的点云进行拓扑特征提取；

步骤6，对各个尺度快照进行尺度效应分析，获取关键尺度；

步骤7，小于或等于所述关键尺度被选择作为所需的空间聚合尺度。

具体地，在步骤5中所述的拓扑特征提取，包含以下步骤：

步骤501，对各个尺度快照的点云计算所有点对之间的距离d；

步骤502，对每一个尺度快照下的点对距离进行升序排序，得到阈值区间为0至最大距离d_max，阈值划分个数为t，则可选取的阈值为：

步骤503，对每一个阈值∈建立维托里斯-里普斯复形(Vietoris Rips,VR)VR_∈，定义如下：

VR_∈＝{σ＝(p₀，...，p_k)|d(p_i，p_j)＜∈，0≤i，j≤k}

其中p表示点云中的点，d是步骤501中的距离的函数，σ表示单纯形，k是单纯形σ的维度，VR_∈由多个不同维度的σ组成，具体构建方式如下:

给定当前阈值∈，首先，扫描每一对点，如果两点距离小于∈，则对这两个点连线，获得1维单纯形，遍历完毕后，可以得到复形的骨架；然后再对骨架中每一个顶点遍历，识别它们的邻点并递增地建立高维复形，在1维单纯形中加入所有2维单纯形，再加入所有维单纯形，依此类推，最后即可得到该阈值下的维托里斯-里普斯复形VR_∈。

根据步骤502中给定阈值∈划分数目t，此步骤后每一个尺度的点云对应一个由t个维托里斯-里普斯复形组成的复形流；

步骤504，对各尺度下的复形流进持续同调分析，即先对复形流中每一个维托里斯-里普斯复形进行同调分析，构造同调群，目的是提取当前复形中的聚类模式与环状模式，然后通过对复形流进行持续性分析，可以得到聚类模式与环状模式出现和消失的阈值；

步骤505，对每个尺度快照生成的点云使用两张持续图分别对步骤504中得到的聚类模式及环状模式的持续信息进行总结；

持续图为散点图形式，表征一个尺度快照的点云所对应的复形流在持续同调过程中所有出现过的模式及其持续信息，其中持续图的横坐标为模式出现阈值，纵轴为消失阈值，图上的一个点表示一个模式，该点离对角线越远则表示该模式持续时间越长、越稳定。

步骤506，通过滤波将各尺度快照的点云分别投影至一维空间；

步骤507，对每一个尺度分析时，首先将分布在一维空间中的点按值域范围分割成b个重叠度为a的子集，然后对每个子集内部进行聚类，对重叠子集聚类时，一个点可能落到多个类别中；

步骤508，使用步骤507得到聚类结果为各尺度分别构建图，其中图中的节点表示不同的聚类类别，如果不同类别中存在共享的点，则使用边连接对应节点，自步骤506至此可以得到各尺度以图结构形式表达的类间模式。

具体地，在步骤6中所述的尺度效应分析，包含以下步骤：

步骤601，通过计算持续图之间的全要素距离W，可以量化不同尺度之间聚类模式、环状模式的差异，计算公式如下：

其中，X，Y表示要进行比较的两个尺度对应的两张持续图，η表示对两张持续图上点与点的匹配方式，x为X上的点，η(x)为Y中与x匹配的点，inf表示最大下界，旨在对两张图上的点进行最优匹配以后，计算两张图上匹配的点对之间的距离，汇总求和即为两张图的全要素距离，表征两个尺度在所比较的模式下的差异；

对所有尺度计算两两之间在聚类模式、环状模式上的差异以后得到两个距离矩阵；

步骤602，将聚类模式和环状模式对应的距离矩阵分别作为输入，使用多维尺度变换嵌入至二维空间，得到在聚类模式、环状模式上的保距嵌入图，图上的点代表尺度快照，根据点的分布情况，找到离群尺度c₁和c₂；

步骤603，以格网大小为s₁的尺度快照为原点，根据聚类模式和环状模式对应的距离矩阵中其它尺度快照与该快照的距离，分别得到在聚类模式和环状模式上的变化曲线，找到两个曲线中波动对应的尺度c₃和c₄；

步骤604，统计表征各尺度快照类间模式的图上的节点数与边数，得到节点数与边数的比值，找到比值大于等于1的尺度，记为c₅；

步骤605，找到步骤601、602、603、604得到的c₁、c₂、c₃、c₄和c₅中的最小值，得到关键尺度。

本发明方法为了更好地理解地理数据内含的尺度性，选择合适的聚合尺度，综合考虑以下两个问题：1、随着聚合尺度的变化，数据中的模式是如何变化的，哪些模式是稳定的，哪些模式发生了突变；2、是否存在一个“突变”的情况，即有一个关键尺度，在这个尺度前和尺度后存在不同的变化趋势，由此进行了跨尺度的定量研究，使得所选择的空间聚合尺度更加符合数据和实践的需要。

附图说明

图1本发明方法的流程示意图；

图2本发明方法实施例的流程框架示意图；

图3本发明实施例的生成距离矩阵热力图；

图4本发明实施例的全要素距离矩阵二维空间图；

图5本发明实施例的聚类模式和环状模式上的结果示意图。

具体实施方式

下面结合实施例和附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

如图1所示，一种面向地理大数据的空间聚合尺度选择方法，包括以下步骤：

步骤1，输入研究区域的空间交互数据或空间分布数据；

对M个尺度快照都建立点云；

步骤5，对各个尺度快照的点云进行拓扑特征提取；

步骤6，对各个尺度快照进行尺度效应分析，获取关键尺度；

具体地，在步骤5中所述的拓扑特征提取，包含以下步骤：

步骤501，对各个尺度快照的点云计算所有点对之间的距离d；

VR_∈＝{σ＝(p₀，...，p_k)|d(p_i，p_j)＜∈，0≤i，j≤k}

具体地，在步骤6中所述的尺度效应分析，包含以下步骤：

如图2所示，按照本实施例的流程框架图进行实验。

(1)数据预处理

步骤1.1：输入空间交互数据，该数据从出租车轨迹数据生成。

本实施例以从出租车轨迹数据中提取的空间交互数据为例，但本发明提出的方法和思路对空间分布数据以及其他轨迹数据来源生成的空间交互数据同样适用。

步骤1.2：对研究区域进行等距离的规则格网划分，格网大小选择以下十二种：250米、500米、750米、1000米、1250米、1500米、1750米、2000米、2250米、2500米、2750米及3000米。

本发明提出的方法和思路不局限于当前划分方案，对各种不同选择数目和格网大小的组合均适用。

步骤1.3：将空间交互数据的出发地点与到达地点映射至划分的格网中，并将点对之间的交互映射成格网间的交互，对于每个尺度可以得到一个新的空间交互矩阵，即十二个尺度快照，假设某一快照中格网数为N，该快照的矩阵大小即为N*N，本实施例中对应网格数分别为7280、3783、2568、1609、1044、736、541、412、330、275、223、191。

本实施例说明的是对空间交互数据的映射方式，当输入数据为空间分布数据时，则将分布点映射至格网，并将格网内分布点的各属性进行统计作为格网的属性值，统计可以是求落在格网内所有点的各属性的均值、总和等。假设分布点有K个属性，则对应快照的矩阵大小为N*K。

步骤1.4：假设某尺度快照中格网数为N，则该快照即为N维空间中的点云，每一个格网对应一个点，尺度快照中的每一行即为对应格网的交互特征，是该格网在高维空间的坐标。对十二个尺度快照都建立点云。

如果是空间分布数据的尺度快照，则点云所在高维空间维度则对应为属性值的个数。

(2)拓扑特征提取

步骤2.1：对各个尺度的点云计算所有点对之间的距离，这里采用欧式距离，假设第i个格网的点坐标为(x₁，x₂，...，x_N),第j个格网的点坐标为(y₁，y₂，...，y_N)，其中N为维度，它们之间的距离为：

本实施例采用的是欧式距离，但是本发明不限于欧式距离，任何对格网之间的距离定义方式(例：余弦距离、马氏距离等)都适用于本发明。

步骤2.2：对每一个尺度下的点对距离进行升序排序，得到阈值区间为0至最大距离，阈值划分数为1000，假设距离最大值为1000，则选取的阈值为[1,2,3,…,999,1000]。

本发明实施例阈值划分数目不限于1000。

步骤2.3：对每一个阈值∈建立维托里斯-里普斯(VR)复形，定义如下：

VR_∈＝{σ＝(p₀，...，p_k)|d(p_i，p_j)＜∈，0≤i，j≤k}

其中p_i表示点云中的点，d是步骤1中的距离函数，σ表示单纯复形，VR复形具体构建方式如下:

假设当前阈值为100，首先，扫描每一对点，如果两点距离小于100，则对这两个点连线，获得1维单纯形。遍历完毕后，可以得到复形的骨架；然后再对骨架中每一个顶点遍历，识别它们的邻点并递增地建立高维复形(在1维单纯形中加入所有2维单纯形，再加入所有维单纯形，依此类推)，最后即可得到该阈值下的VR复形。

按步骤2.2阈值划分数目，此步骤后每一个尺度的点云对应拥有1000个VR复形的复形流。

步骤2.4：对各尺度下的复形流进持续同调分析，即对每一个复形进行同调分析，构造同调群，提取当前复形中的0维拓扑不变量(即聚类模式)与1维拓扑不变量(环状模式)。通过对复形流的持续同调分析，可以得到拓扑不变量出现和消失的阈值。假设对应阈值99的复形中，格网1、2对应点相连，格网2、3对应点相连，格网3、4对应点相连，但是格网1与格网3、4对应点都不相连，格网2、4也不存在连边。但是在阈值变为100时，格网4、1产生了连边，那么这四个点形成了一个按序号递增头尾相连，没有其它多余连边的环状结构，该拓扑不变量出现的阈值即为100。如果这四个点直到阈值变为200才出现新的连边情况，则该拓扑不变量消失阈值为200。

步骤2.5：一张持续图可以表征一个尺度的点云复形流在持续同调过程中所有出现过的拓扑不变量及其持续信息。其中持续图的横坐标为拓扑不变量出现阈值，纵轴为消失阈值，图上的一个点表示一个拓扑不变量，该点离对角线越远则表示该拓扑不变量越稳定。对每个尺度快照生成的点云使用两张持续图分别对持续同调过程中出现的聚类模式和环状模式进行总结。

步骤2.6：通过滤波将各点云数据分别投影至一维空间。本实例采用的是基于邻域信息的t-分布邻域嵌入方法，其它基于邻域信息的方法也适用于本发明，同时投影至的低维空间维度不局限于一维。

步骤2.7：对每一个尺度分析时，首先将分布在一维空间中的点按值域范围分割成重叠的子集，本实施例采用方案为划分成100个子集，且子集之间的重叠度为10％；然后对每个子集内部进行聚类，采用聚类方法为谱聚类，对重叠子集聚类时，一个点可能落到多个类别中。其它划分数目和重叠度以及聚类方法都可针对应用本发明的研究场景调整。

步骤2.8：构建图对每一个点云的类间信息表达，将每一个聚类的类别当作图中的一个节点，同时如果节点之间共享一个或多个格网点，则通过边连接节点。

(3)尺度效应分析

步骤3.1：通过计算持续图之间的全要素距离，量化不同尺度之间聚类模式、环状模式的差异，计算公式如下：

其中，X，Y表示要进行比较的两个尺度对应的两张持续图，η表示对两张持续图上点与点的匹配方式，旨在对两张图上的点进行完美匹配以后，计算两张图上匹配的点对之间的距离，汇总求和即为两张图的距离，即全要素距离。

对所有尺度计算两两之间在聚类模式、环状模式上的差异以后得到全要素距离矩阵。生成距离矩阵热力图如附图3，其中序号1-12对应250米-3000米的尺度快照，可以看到在聚类模式上随着尺度差异的增加，尺度之间的距离也在变大，例如250米的尺度快照与500米的尺度快照在聚类模式上的距离要小于250米与1000米的距离，且这种距离变化是单调递增的；但是在环状模式上这种规律被打破，全要素之间的距离在序号10，即尺度为2500米时间出现了突变。

步骤3.2：将全要素距离矩阵作为输入，使用多维尺度变换嵌入至二维空间，结果如图4，同样的，序号1-12对应250米-3000米的尺度快照。可以看到对尺度之间在聚类模式上的距离嵌入以后，代表不同尺度快照的点基本呈同心圆式分布，并且随着尺度的增加，两个连续尺度之间的弧长是逐渐增加的，这意味着在尺度差固定的情况下，小尺度对之间的距离是小于大尺度对之间的距离的，举例即250米的尺度快照与500米的尺度快照在聚类模式上的距离要小于1000米与1250米的。而在环状模式上，小尺度间，1至9号点出现了组团现象，但是10号点，即2500米时出现异常，远离组团。

步骤3.3：以250米的尺度快照为原点，计算其它尺度快照与该快照的距离，得到在聚类模式和环状模式上的变化波动曲线，结果如图5，可以看到聚类模式波动曲线变化平稳，而环状模式波动曲线在2250米后，即2500米处发生突变。

步骤3.4：将表征各尺度快照的类间模式的图结构可视化，结果见图5，可以看到在2500米以前，图中都有一个较大的组团，其中的节点相互连接紧密，只有少数分散节点；而在2500米及以后，图中大的组团被几个中等大小的组团替代，且组团间的连接变得十分稀疏。对图中的节点数与边数比值统计发现，2500米以前该比值小于等于1，而在2500米及以后发生逆转，比值大于1。

步骤3.5：对(3)中步骤1、2、3、4总结，可以得出2500米处环状模式和类间模式均发生了突变，且是突变发生最小尺度，因此2500米是一个关键尺度，对该研究区域的空间交互数据进行研究时，应该在小于该关键尺度的范围中做选择。

有发明内容和实施例可知，本发明提供了一种面向地理大数据的空间聚合尺度选择方法，本发明方法引入拓扑分析方法，通过多阶拓扑不变量刻画不同聚合尺度下数据的聚类模式、环状模式以及类间模式，并通过模式的演变量化尺度效应的影响，进而找到尺度突变点来判断合适的研究尺度范围，由此选择的空间聚合尺度更符合实际需求。

Claims

1.一种面向地理大数据的空间聚合尺度选择方法，其特征在于，包括以下步骤：

步骤1，输入研究区域的空间交互数据或空间分布数据；

对M个尺度快照都建立点云；

步骤5，对各个尺度快照的点云进行拓扑特征提取；

步骤6，对各个尺度快照进行尺度效应分析，获取关键尺度；

2.根据权利要求1所述的空间聚合尺度选择方法，其特征在于，在步骤5中所述的拓扑特征提取，包含以下步骤：

步骤501，对各个尺度快照的点云计算所有点对之间的距离d；

步骤503，对每一个阈值∈建立维托里斯-里普斯复形VR_∈，定义如下：

VR_∈＝{σ＝(p₀，...，p_k)|d(p_i，p_j)＜∈，0≤i，j≤k}

3.根据权利要求1或2所述的空间聚合尺度选择方法，其特征在于，在步骤6中所述的尺度效应分析，包含以下步骤：