CN113673619B

CN113673619B - 一种基于拓扑分析的地理大数据空间潜模式分析方法

Info

Publication number: CN113673619B
Application number: CN202110996741.XA
Authority: CN
Inventors: 肖俊; 张芳宁; 张云生; 施庆章; 李海峰
Original assignee: Hunan Aerospace Yuanwang Science & Technology Co ltd; Central South University
Current assignee: Hunan Aerospace Yuanwang Science & Technology Co ltd; Central South University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-08-04
Anticipated expiration: 2041-08-27
Also published as: CN113673619A

Abstract

本发明公开了一种基于拓扑分析的地理大数据空间潜模式分析方法，包括步骤：获取城市路网数据，得到街道网络图；使用城市交通网络统计指标、规则度特征和拓扑特征对所述街道网络图进行特征描述；计算拓扑特征之间的基尼系数；使用规则度特征将城市划分为单纯形；使用拓扑映射器作为特征的拓扑结构可视化工具，对单纯形进行识别并转换为由复形，将复形聚类成组；将聚类后的城市与对应城市的经济发展指标相结合进行相关性分析。本发明所提取的结构从整体上反映了各个城市路网的规则性，发现了潜在子结构，结合城市GDP总量信息，发现其结构划分与城市经济水平和地理区位因素相关。

Description

一种基于拓扑分析的地理大数据空间潜模式分析方法

技术领域

本发明属于测绘技术领域，尤其涉及一种基于拓扑分析的地理大数据空间潜模式分析方法。

背景技术

近年来，随着信息通讯技术的发展以及各种传感器和定位技术的普及,产生了大量具有时空标记、能够描述个体行为的空间大数据，包括手机定位数据、出租车数据、共享自行车数据、公交智能卡数据、社交网络数据、视频大数据等，为分析和理解城市结构的动态、人类活动时空规律以及定量理解社会经济环境提供了巨大的机会。这些具有地理属性的大数据兴起，也对时空大数据的空间挖掘能力提出了新的诉求。丰富时空数据分析方法，将有助于理解、应对进而解决空间与时间上更为复杂的自然地理格局和过程耦合问题，满足国家可持续发展需求，服务于社会决策和智慧城市的建设。

近年来，来自不同领域的学者对不同类型的时空数据进行了大量研究，其中包括计算机科学、地理学、和复杂性科学等交叉领域。他们试图挖掘海量群体的时空行为模式，并建立合适的解释性模型，得到地理学研究中的新见解。然而，大数据具有高维、高噪声、动态性、多模态等特征，数据量不断增长且具有复杂性，使用传统数据分析方法分析大数据会存在一定的局限性。

其一是数据分析的方法上，方法本身的和方法使用上的具有局限性。这些方法以统计分析为基础，需要对数据做出一些基本假设如数据满足正态分布。或者主要从数据“表面”的统计量出发，通过参数设计，获得关于对于人类行为规律与模式的认知，而没有从数据隐藏的基本结构出发，这种方法原理上可能存在先天的缺陷。在方法使用上，满足如果数据不满足这种分布和假设或者其分布不明确的情况下，这些方法得不到很好的效果。其二，目前的研究聚焦于问题的差异性，而缺乏深入研究问题的普适性。对不同类型的数据的共性和内在结构进行分析与表征的研究较少。

不论是地理现象或者群体的时空行为，这些复杂的模式背后存在一些隐藏的基本结构，而非仅仅是表面上的统计性质。从数学的角度来看，这个过程本质就是寻找高维数据背后的低维结构。时空大数据不仅有其“地理坐标”，还具有“特征坐标”，当描述时空大数据的特征坐标越来越多，高维数据的处理变得不可避免，而高维信息处理的关键在于找到嵌入在其中的低维流形结构。因此需要将三维坐标的概念更加泛化到一般的非欧空间或者流形空间。洞察数据潜在流形的结构与背后“形状”有助于更好地理解数据。如何从数据的隐藏结构和内在特性出发，理解地理现象、人类活动行为及其运行规律，从大数据背后挖掘可学习的潜空间特征，是目前时空大数据研究领域的重要问题之一。

复杂的网络方法为交通网络的研究提供了可靠的视角和有效的方法。交通网络通常被建模为复杂的网络结构，即图结构。其中节点代表交叉点和死角，边代表链接它们的街道线段。在空间上将这些边嵌入图中，这些边具有长度和方向两个重要属性。有向图能够表示实际交通流量的方向(例如单向街道上的车辆交通)，但无向图通过与街道段对应1：1建模，更好地模拟了城市形态。

时空大数据一般经过连续且离散化采样提取并收集存储，因而能够将时空大数据看作是空间上有相关关系的时间序列集合，即时空序列。对时空序列的建模、分析及预测称为时空序列模式分析。在时空序列分析框架中，时空序列聚类是理解数据内在特性的重要方法。

回顾城市交通数据相关研究，从描述城市空间结构的城市交通网络分析，能够发现，对于城市街道进行复杂网络建模已经提出了很多特征和指标。但如何对多高维特征空间进行描述和分析，并且寻找到其低维的内蕴结构，还缺少一种有效的分析方法，且目前对中国范围内城市的交通网络的空间方向和顺序的研究还较少。

近年来，包括信息通信技术和志愿者地理信息在内的技术发展迅速，产生了大量的带地理坐标的空间数据。这些空间大数据不仅有其“地理坐标”，还具有“特征坐标”，当描述空间大数据的特征坐标越来越多，高维数据的处理变得不可避免，而高维信息处理的关键在于找到嵌入在其中潜在的低维流形结构。通常采用降维的方法如PCA、t-SNE的方法来分析和可视化高维数据的潜在低维结构，这些分析方法虽然能够在嵌入的低维空间中保持高维空间中的部分局部或者全局结构，但是忽略了高维数据原始的拓扑结构。而这些结构在单细胞 RNA测序数据集、神经网络可视化和时间序列可视化等高维数据研究中被发现是很重要的。

发明内容

综上所述，因此需要一种方法既能捕捉高维空间种的局部拓扑结构，并且嵌入到低维空间时能够保持数据的全局模式。本发明从拓扑数据分析的视角，寻找高维数据的低维结构，并对数据的低维潜模式进行分析。

描述复杂的网络结构通常会利用高维特征，而高维信息处理的关键在于找到嵌入在其中的低维流形结构。本发明以城市交通网络为例，对网络定量分析提取网络结构特征，研究高维特征空间中存在的几何拓扑性质和低维结构，提出一种拓扑数据分析框架。利用交通网络的基本统计属性、拓扑中心度和规则度等特征，对城市街道形态结构进行拓扑数据分析研究。寻找到高维空间中潜在的结构和形状，用拓扑映射器将此结构嵌入到低维空间中，从而更好地刻画高维数据的基本特征，并且利用其他信息揭示数据“形状”的背后含义。

本发明公开的一种基于拓扑分析的地理大数据空间潜模式分析方法，包括以下步骤：

获取城市路网数据，使用参数描述城市路网数据后得到街道网络图；

使用城市交通网络统计指标、规则度特征和拓扑特征对所述街道网络图进行特征描述；

计算拓扑特征之间的基尼系数；

使用所述规则度特征将城市划分为不同的单纯形；

使用拓扑映射器作为所述特征的拓扑结构可视化工具，使用UMAP作为所述拓扑映射器的透镜对所述街道网络图中的单纯形进行识别，并转换为由复形组成的图结构，将所述复形聚类成组；

将单纯形和聚类后的复形中的城市与对应城市的经济发展指标相结合进行相关性分析。

进一步地，所述拓扑特征包括中介中心性和紧密中心性，所述中介中心性定义为：

其中n_jk是节点j和k之间的最短路径数，n_jk(i)是j和k之间包含节点i的最短路径数；

所述紧密中心性定义为：

其中N是网络中的节点总数，d_ij是节点i和j之间的最短距离。

进一步地，所述规则度特征包括X比率、T比率、死角比率、规整度、直线度、方向熵、方向有序度和平均迂回率；所述X比率表示X交叉点，所述T 比率表示T交叉点的比率，所述死角比率表示死节点所占的比例，所述规整度定义为:

其中，k是节点的度数，P(k＝4)和P(k＝3)是度分别等于4和3的节点数；所述平均迂回度描述当交通网络目前边的状态和所有节点之间的边都是直线时的所增加的迂回程度；

所述方向熵描述街道方向的无序程度，方向熵H₀公式如下：

其中n代表分箱的总数，P(O_i)代表落入第i个分箱的交通网络的比例；

所述方向有序度描述街道在同一方向上对齐的程度将方向熵进行归一化和线性化，方向有序度定义如下：

其中H₀为方向熵，H_G为现实世界中最小熵，H_max为方向熵最大值；

所述平均迂回描述当交通网络目前边的状态和所有节点之间的边都是直线时的所增加的迂回程度。

进一步地，所述拓扑映射器的参数包括函数f、覆盖V和聚类算法。

进一步地，构建所述拓扑映射器的步骤如下：

对数据在原始空间中定义一个函数属于f的有限覆盖 V＝{V_j}_j∈J，J是一个索引集，使得/>

其中f是标量函数，V_i是R中的开区间，设U表示X的覆盖，由f^-1(V_j)中每个j的点所引起的点簇而获得；U的一维神经结构表示为M:＝N₁(U),称为 (X,f)的拓扑映射图；M是一种(X,f)的拓扑摘要的多尺度表征。

进一步地，所述经济发展指标包括经济发展水平、国内生产总值和人口确定的传统经济区划。

进一步地，设置重叠度30％生成复形，与城市GDP总量结合进行拓扑数据分析。

进一步地，聚类算法为k-means，重叠度设置为40％，特征空间维度为8 维。

进一步地，根据可视化结果找到高维数据的潜在子结构，所述潜在子结构即死角率和T比率更高的网络形成的结构分支。

本发明的有益效果如下：

1)实例研究表明，本发明所提取的结构从整体上反映了各个城市路网的规则性，根据结果可将其分为三种即规则网络、较为规则网络、欠规则网络。

2)本发明发现了潜在的子结构即死角率和T比率更高的网络形成的结构分支，这是传统分析方法所忽略的。

3)根据可视化结果，将城市进行分组，用来描述他们形状的含义，结合城市GDP总量信息，对数据潜在结构进行分析，发现其结构划分于城市经济水平和地理区位因素相关。

附图说明

图1本发明的不同对象拓扑结构所对应的贝蒂数；

图2单纯形示意图；

图3单纯复形示意图；

图4不同类型的复形的生成方式；

图5基于城市交通网络特征的拓扑数据分析框架；

图6拓扑等价(贝蒂数相同)；

图7拓扑的等价表示；

图8部分交通网络形态的简化模型；

图9部分城市的方向玫瑰图；

图10 mapper可视化结构；

图11子复形C2可视化结构；

图12 PCA降维后规则度的可视化结果；

图13 PCA降维后平均迂回度的可视化结果；

图14对数据进行分层聚类得到的树形图；

图15高维特征的可视化结构与对应城市GDP的关系；

图16城市GDP与交通网络拓扑性质的基尼系数的相关性研究。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

拓扑依靠的三个关键思想使得通过形状提取模式是有意义的。拓扑以度量空间为基础，度量空间指的是在任意对点之间都具有距离概念的集合。第一个关键思想是拓扑以无坐标的方式研究形状。这意味着所提取的拓扑结构不取决于所选的坐标系，而仅取决于指定形状的距离函数。因此这种方法让拓扑能够比较来自不同坐标系的数据的性质。

第二个关键思想是拓扑研究在较小形变下不变的模式。在数学上，不变性意味着从拓扑性质而言，一个圆、一个椭圆和一个五边形拓扑意义上等价，因为通过拉伸和变形，它们可以进行任意转换。从拓扑性质而言它们都是一个一维的环状结构。拓扑的这种固有特性使它对噪声的敏感度大大降低，因此，尽管有无数的变化或变形，拓扑仍具有描述物体形状的能力。

拓扑的第三个关键思想是形状的压缩表示。拓扑通过研究单纯复形或网络的有限组合对象来识别形状，如图6将圆形用五边形来表示，简化了曲面但是保留的相同的拓扑性质(贝蒂数)。这个五边形包括5个节点和5条边，通过这种有限的结构可以还原由无限点构成的圆的拓扑结构，因此可以看作是对数据的一种压缩表示。在这种压缩表达中丢失了一些信息(例如曲率)，但是保留了重要的特征，即一维环的存在。如图7中利用一维环状五边形去表示一维圆环，将圆的拓扑结构保留下来。

拓扑数据分析能同时检测大尺度和小尺度的模式，而主成分分析(Principalcomponent analysis，PCA)和多维尺度分析(Multidimensional scaling，MDS) 产生非结构化散点图描述整体结构，聚类方法产生不同或无关的簇(相同的局部结构)。因此PCA、MDS和聚类分析等分析方法往往会忽略其中一些模式。

为了探索高维数据潜在模式，本发明提出了一个拓扑数据分析框架，并用全国37个城市的交通网络数据进行了实例研究。首先，对交通路网数据进行复杂网络建模并对得到的网络进行特征提取，提取城市交通网络结构特征和基本属性。然后，使用UMAP作为Mapper的透镜寻找高维特征空间中的低维结构并简化为复形进行可视化，得到全局结构和单纯复形内部细微的子复形结构。 Mapper是一种拓扑数据分析方法，它以单纯复形的形式提取高维数据的低维拓扑骨架，从而描述原始高维空间的拓扑结构。

下面对本发明使用的重要概念进行如下定义：

拓扑不变量

同调群是拓扑学中用于研究拓扑不变量的重要概念。通常情况下只需要知道同调群的秩就能对拓扑结构有较好的理解，即贝蒂数。

定义：空间X的第k个贝蒂数其中k为负整数。

粗略来说，贝蒂数计算数据各个维度的孔洞数，i维贝蒂数对应的就是i维孔洞的数量，见图1。图中，一个一维空间中的点在不同维度的贝蒂数依次为 (1,0,0)，即它在1维和2维没有空洞。而图中的一个三维空间中的圆环，在不同维度的贝蒂数为(1,2,1)，即其在1维空间有2个空洞，在2维空间有一个空洞。

单纯复形

为了描述度量空间的拓扑结构，需要一种将空间简化分解为较小的组件的方法。这些较小组件的拓扑结构简单，并且其组合在一起可以恢复整体拓扑结构。这种较小组件表示形式的构成要素是单纯形，它是任意点集的凸包。进而，由单纯形进行有意义的组合形成单纯复形，对拓扑结构进行高维的概括。

定义：对于一个k维单纯形σ＝[x₀,…,x_k]是集合{x₀,…,x_k},c∈R^d的凸包，其中x₀,…,x_k是仿射无关的。x₀,…,x_k是单纯形σ的顶点，而由 {x₀,…,x_k}的子集定义的单纯形称为σ的面。最简单的单纯形的包括单点，线段，三角形和四面体(分别在0维、1维、2维和3维上)，如图2所示，从左至右分别为0维单纯形，1维单纯形，2维单纯形，3维单纯形。

单纯复形则是对单纯形进行有意义的组合，形成的稍复杂的拓扑结构。通过单纯复形的构建能充分反映度量空间的拓扑结构。

定义：单纯复形K由一组单纯形组成，满足以下条件：

1)来自K的单纯形的每个面也位于K中。

2)任意两个单纯形σ₁,σ₂∈K的交集要么为空集，要么是σ₁和σ₂的公共面，或者两者都是。

3)图3是具有两个相连组件单纯复形示意图，左为3维单纯复形，右为5维单纯复形。单纯复形K的维数是其任何单纯形的最大维数。单纯复形的概念与超图的概念紧密相关。两者区别在于超图的超边缘的子集本身不一定是超边缘。

构造复形

通常情况下，拓扑数据分析研究的数据是由点云的形式组成。需要从度量空间构造复形进而描述对应点云空间的拓扑结构，从点云中构建复形的常用方法有复形，Vietoris–Rips(VR)复形等。这些两种方法构造的方式如图4所示。

在代数拓扑和拓扑数据分析中，复形是由任意度量空间中的点云构成的抽象单纯复形，用于捕获相关的点云或其点云的分布的拓扑信息。而VR 复合体是可以从任何度量空间和距离定义的抽象单纯复形。关于这两种复合体的定义如下：

复形：给定有限点云X和以及正数ε>0,/>复形C_ε(X)的定义为：将X的元素作为C_ε(X)的顶点集。对于每个/>如果以σ点为中心的一组ε球具有非空交点，那么σ∈C_ε(X)。

VR复形：给定欧几里得空间E_n中的点集{x_α}，则VR复合体R_ε定义为：对于任意度量空间M以及距离δ>0,通过为直径最大为δ的每个有限点集形成一个单纯形形成的抽象单纯复形。VR复合体的结构易于扩展到更高的维度，因此在拓扑数据分析中常用其来描述点云的拓扑结构。

研究区域和研究数据

本发明选取中国的省会城市和新一线城市，一共37个城市作为研究区域。从政治、经济和文化发展的角度，这些城市在其所在的地区中发挥重要作用，同时这些城市的城市化速度也最快。此外，它们往往是地区的交通中心，作为城市交通连接的枢纽。选择研究这些城市不仅可以检验所提出的框架的有效性，并且可以为中国城市发展提供一定的借鉴。

这些城市的路网数据在OpenStreetMap(OSM)网站上获取。OSM数据的获取包括以下步骤：首先，从BaiduBaike(https://baike.baidu.com)获得了所有城市的市辖区名单。随后使用OSMnx，一个由geoffboeing创建的python库来检索交通网络的数据集。选择道路的标准是车辆能够行驶的道路。选取的37 个城市交通网络的基本统计信息如表1所示，使用了四个参数描述交通网络，包括城市交通网络中的节点和边数，城市中的街道平均长度以及平均节点度。并且根据国家统计局公布2020年经济数据和各地的经济年报获取了这些城市的GDP数据，其中中国台湾的台北数据缺失。所有城市平均节点数为51807.81，平均边数为21938.95。在所有37个城市数据中，北京的交通网络节点和边数最多，而拉萨的节点和边数最少。37个城市路网数据的街道平均长度为342.7456米。其中街道平均长度最长的是呼和浩特为543.47米，而深圳街道平均长度为201.2 米，在所有城市中最短。

表1中国不同城市交通网络的基本统计信息和2020年GDP总量

如图5所示，本发明提出一个基于数据特征的拓扑数据分析框架，包括三个步骤：数据获取和处理，特征提取与选择，使用mapper进行结构可视化分析，进而研究得到结构背后代表的含义。

为了描述城市交通网络的特性，本发明分别选则了不同特征进行分析。首先，选择了城市交通网络基本统计指标、并计算了规则度特征和拓扑特征(即中介中心性和紧密中心性)对城市的交通网络进行了特征描述。通过计算城市内部节点指标之间的基尼系数，从而量化了整个城市交通网络的特征。

随后，使用mapper作为数据的拓扑结构可视化工具，对生成的复形结构进行分析。此框架基于拓扑数据分析中的拓扑映射器Mapper方法，它对数据中的图案或形状进行识别然后转换为由复形组成的图结构(由数据组成的节点和有重叠组成的边)，从而对数据拓扑结构可视化。识别数据中的形状(模式) 能帮助研究者在没有先验的情况下，发现并识别有意义的子复形从而获得对数据见解。出现的典型形状是“环”(连续的圆形部分)和“喇叭形”(长的线性部分)。本发明以非正式定义的方式描述这些复形模式，然后使用这些形状来识别有意义的组，类似于聚类中的簇。例如，可以选择集中在复形末尾的节点中的数据点，对其使用标准统计分析这些子复形。

给定一个高维点云在X空间中存在一个函数f：X→R，拓扑映射器利用了覆盖神经结构的拓扑概念，对数据进行降维表征并探索的数据的拓扑信息。

为了构建拓扑映射器，首先对数据在原始空间中定义一个函数属于f的有限覆盖V＝{V_j}_j∈J(J是一个索引集)，使得/>因为f 是标量函数，所以V_i是R中的开区间。设U表示X的覆盖，由f^-1(V_j)中每个j的点所引起的点簇而获得。U的一维神经结构表示为M:＝N₁(U),称为(X,f)的拓扑映射图。M是一种(X,f)的拓扑摘要的多尺度表征。拓扑映射器的构造有很大的灵活性，它主要依赖于三个参数：函数f、覆盖V和聚类算法。

函数f起着透镜的作用，通过相应合适的透镜可以帮助研究者从不同视角观察数据，不同的透镜提供不同的见解。如何根据具体实践或经验法则之外定义拓扑透镜是目前拓扑映射器的一个开放性问题。

f(X)的覆盖V由有限个作为覆盖元素的开区间组成，其中V＝{V_j},j∈J。常用的方法是使用大小一致的重叠间隔。设n为区间数，p为相邻区间的重叠量。调整这些参数会增加或减少M提供的聚合量。

通过计算位于f^-1(V_j)内的点的聚类，并在聚类中具有非空相交时将它们连接起来。本实施例使用的聚类算法为k-means或者基于密度的聚类算法 DBSCAN。

均匀流形近投影(Uniform Manifold Approximation and Projection,UMAP) 是一种保留高维数据拓扑结构的降维技术，旨在建模和保留低维空间中数据点的高维拓扑和全局结构。与t-SNE相比，它保留了更多的局部拓扑结构和更多的全局数据结构，并且运行时间更短。该算法基于关于数据的三个假设：

1.数据均匀分布在黎曼流形上。

2.黎曼度量是局部常数(或者是可以逼近的常数)。

3.该流形在局部具有连接性。

根据这些假设，对具有模糊拓扑结构的流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来进行降维。

具体来说，首先使用描述城市规则度的特征，将城市划分为不同的单纯形以分析不同城市之间的交通网络形态之间的差异，并将得到的聚类结果与传统数据分析方法进行了对比。其次，使用基本统计指标和拓扑特征进行拓扑数据分析，并将得到的结果与经济发展指标进行比较，包括由经济发展水平，国内生产总值(GDP)和人口确定的传统经济区划。这样进行比较是基于一个假设，即属于同一集群的城市将处于相同的经济区划中，并且在GDP和人口的维数空间中将接近。如果观察到城市交通网络特征与经济发展之间存在相关性，则将提取两者的相关系数，以检验所观察到的关系的统计意义。

城市交通网络的拓扑特征

网络的拓扑性质由基本网络指标所确定，例如节点度或中心性。在这一部分，使用中心性分析交通网络，该结构量化了网络中某些节点或链接的重要性。在各种中心性测量中，采用了两个指标：中介中心性和紧密中心性。中介中心性以最短路径数描述节点或链接的重要性。如果交通网络上的所有车辆都遵循沿着最短路径通过节点和边的原则，并且所有节点和边都有相等数量的车辆从该节点或边出发，那么中介中心性可以用来描述一个节点或一条边吸引的潜在交通量。换句话说，它表示节点或边缘对网络的控制程度。中介中心性定义为：

其中n_jk是节点j和k之间的最短路径数，n_jk(i)是j和k之间包含节点i的最短路径数。节点的中介中心性随求和指标所含的节点对数而变化。因此，通过除以节点数(不包括节点本身来重新调整中介中心性的值。用于将有向网络的中介中心性标准化为0到1的范围，其中N是交通网络中的节点数。

紧密中心性评估网络中某一个节点与其他所有节点的接近程度。它是网络中从一个节点到所有其他节点的距离之和的倒数。由于距离之和取决于图中的节点数，因此紧密中心性通过最小可能距离N-1之进行标准化。如果一个节点平均距离和其他节点较近，则该节点将被视为更为中心。紧密中心性定义为：

其中N是网络中的节点总数，d_ij是节点i和j之间的最短距离。

因为本发明针对以城市为单位的整体路网结构，计算了每个节点的中介中心性之后，采用采用基尼系数来表征城市内部交通网络结构中介中心性特征。基尼系数在经济学中被广泛用于衡量收入等经济量的不平等。其定义为：

其中x_i是节点i的对应的中介中心性值，n是交通网络中的节点数。

城市交通网络的规则度特征

城市街道结构的起源可以大致分为两类，第一种类型是自下而上的自组织街道结构。在这种情况下，大多数街道都是未经规划而建造的。第二种情况是自上而下的规划街道结构，其中精心设计了城市街道以实现高效率的交通流量，从而减少了严重的交通拥堵。在很大程度上，许多城市是这两个组织的组合，但是每个城市的规划程度各不相同，如图8所示，真实街道一般由多种模型混合组成。

本发明的基本思想是，受更多政策因素影响的城市具有更规则的街道模式。因此本节中选择了8种特征表针交通网络的规则度：X比率、T比率、死角比率、规整度、直线度、方向熵、方向有序度、平均迂回率。

X比率和T比率分别表示X交叉点和T交叉点的比率。规则的街道模式包含更多的四向交叉点(也称为X交叉点)，较少的三向交叉点(也称为T交叉点)。死角比率描述死节点所占的比例。本发明改进了这两种比率以减小边大于4或小于2的其他相交的影响，将交通网络的规整度定义为:

其中，k是节点的度数。P(k＝4)和P(k＝3)是度分别等于4和3的节点数。通常情况下度等于3的节点多于度等于4的节点，因此规则性的值通常大于0。

平均迂回度描述当交通网络目前边的状态和所有节点之间的边都是直线时的所增加的迂回程度。

方向熵描述街道方向的无序程度，方向熵越高街道不同朝向越多。首先计算每个街道的双向罗盘方位(例如，街道同时具有90°和270°方位)。然后，计算该区域的街道方向熵H₀公式如下：

其中n代表分箱的总数(即36个，每个分箱宽度为绕指针10度)，P(O_i)代表落入第i个分箱的交通网络的比例。所能出现的最大熵H_max是一个确定值，等于箱数的对数：3.584。现实世界中的最小熵H_G是理想网格的最小熵，等于 1.386。

方向有序度描述街道在同一方向上对齐的程度，即有更多的南北、东西等对向走向的街道。将方向熵进行归一化(最小-最大缩放)和线性化，方向有序度定义如下：

了解街道的配置和方向有助于定义城市的空间逻辑和秩序，而熵的度量揭示了城市街道的秩序和混乱。可以用方向玫瑰图将城市街道方向特征进行可视化，如图9所示，极坐标直方图条的方向表示罗盘方位角，方向为上北下南。而条形的长度表示城市街道段在这些方位角中所占的比例。可以看到，合肥和西安有较高的定向顺序(它们的内部定向一致，东西或南北走向)，而东莞和昆明有较低的定向顺序(它们的街道沿各个方向更均匀地定向)。

平均迂回描述当交通网络目前边的状态和所有节点之间的边都是直线时的所增加的迂回程度。为了探索交通网络方向上的空间有序/无序的性质，系统地解释城市的异同，本发明对多维特征空间中进行拓扑数据分析。首先，将特征标准化以进行适当的缩放，然后使用UMAP作为透镜对这些特征使用mapper 进行分析。

实验结果与分析

通过mapper降维发现高维数据的整体结构

本节对高维特征空间进行拓扑数据分析得到低维的拓扑骨架表示，从而探索交通网络方向上的空间有序/无序的性质，系统地解释城市的异同。首先将计算的所有特征标准化，进行适当的缩放，然后使用UMAP作为透镜对这些特征使用mapper进行分析。聚类算法选择k-means，重叠度选择40％，特征空间维度为8维。得到的结果如表2所示，并进行了简单的描述。

表2 Mapper潜在结构可视化结果

从局部上，对包含大部分城市的复杂复形c进行分析，如图10所示(颜色越浅，有序度越高)。复形c包括了余下的33个城市，同时也形成了更加复杂的结构。从整体上看，这些城市的规则程度并没有复形a和b那么强。而且注意到，边的形成是因为分割的数据之间有重叠，换而言之是因为节点间存在联系。复形c中包含了大量的边结构，意味着这些数据之间具有较强的联系。根据复形C边链接的情况，发现可以将其分成两个子复形C1和C2，因为两者之间的联系仅依靠一条边而产生。为了探索子复形的区别，将方向有序度作为节点的颜色进行可视化，如图10。发现相对于子复形C1，C2中包含的城市的交通网络朝向更加无序(方向熵更大且方向有序度更低)。

如图11，进一步分析相对复杂的子复形C2，与C1不同，C2包括了一个分支结构。分支1仅由一个节点构成，包含兰州、拉萨两个城市。它们与子复形C2其他成员的区别在于，其交通网络的平均迂回度和死角比率较高。分支2 的结构包括的城市(武汉、深圳、东莞等)交通网络比分支1和子复形包含的其余城市的T比率要高，因此形成了另一个分支。

将mapper的结果与传统数据分析的方法对比，图12和图13是PCA降维后的结果，图14是单链接分层聚类方法的结果。其中图12中降维后的数据颜色代表不同的规则度，图13中不同颜色代表不同的平均迂回度。可以观察到 PCA降维方法虽然能够将规整度较高的城市区分开，但是却将平均迂回率较高的两个城市分隔较远。而在单链接分层聚类的结果中，虽然也能观察到橙色部分形成的簇与mapper的结果对应，即复形a(合肥、银川、郑州)和复形b (西安、石家庄)。但是对于一些分支结构形成的子组(分支结构)，单链接分层聚类不能很好的捕捉。这两种传统数据分析无法轻易地检测到在特征空间中相关的子组，因为它们不能捕捉到一些数据原始的结构信息。可见本发明的聚类结果有助于理解不同城市道路网络规则性，为城市规划人员对交通路网的研究提供一种定量分析的方法。

数据潜在结构与城市GDP总量的关系

随后，本部分选择另一部分反应街道路网基础性质和拓扑性质的特征，并且与城市GDP总量结合等进行了拓扑数据分析。与上部分不同的是，选择重叠度选择30％生成复形。

表3 城市交通网络基本特征和拓扑指标的拓扑数据分析结果

如图15所示，第一个复形由三个城市组成，包括北京、上海和天津。三个城市属于中国直辖市，该地区的经济发展比中国其他地区的城市要好。这些城市的交通网络要么呈现矩形网格形状，要么具有多个离散的异构中心。并且由于市辖区规模，其整体交通网络的体量也是最大的(节点数和边数)。

第二个复形由五个城市组成，包括成都、武汉、广州等。这些城市大多数各个经济区的中心：成都(西南城市群)、武汉(中部城市群)、广州和深圳(珠三角城市群)。

第三个复形由七个城市组成，包括重庆、杭州、南京、青岛、东莞、佛山等。这些城市大都属于新一线城市，各个经济区的次中心城市。

第四个复形可分为2个子复形。子复形a的城市大都是西南、西北等经济欠发达地区，其城市整体经济水平发展程度较为落后，交通网络规模相对较小。子复形b包括沈阳、长春、哈尔滨等东北地区城市以及长沙、合肥、郑州、石家庄等中部城市。

以上分析表明，所提取的数据潜在结构在一定程度上可以反映城市的经济发展水平。为了进一步验证所观察到的关系的统计显著性，对城市GDP和交通网络中介中心性基尼系数进行了相关性分析，如图16。相关性分析结果进一步证实了交通网络的拓扑性质与经济发展水平之间的关系，即交通网络中介中心性的基尼系数与城市经济发展水平具有一定统计意义。

本发明的有益效果如下：

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，包括以下步骤：

计算拓扑特征之间的基尼系数；

使用所述规则度特征将城市划分为不同的单纯形；

使用拓扑映射器作为所述单纯形的拓扑结构可视化工具，使用UMAP作为所述拓扑映射器的透镜对所述街道网络图中的单纯形进行识别，并转换为由复形组成的图结构，将所述复形聚类成组；

将单纯形和聚类后的复形中的城市与对应城市的经济发展指标相结合进行相关性分析；

所述规则度特征包括X比率、T比率、死角比率、规整度、直线度、方向熵、方向有序度和平均迂回率；所述X比率表示X交叉点，所述T比率表示T交叉点的比率，所述死角比率表示死节点所占的比例，所述规整度定义为:

其中，k是节点的度数，P(k＝4)和P(k＝3)是度分别等于4和3的节点数；所述平均迂回率描述当交通网络目前边的状态和所有节点之间的边都是直线时的所增加的迂回程度；

所述方向熵描述街道方向的无序程度，方向熵H₀公式如下：

其中n代表方向的总数，P(O_i)代表落入第i个方向的交通网络的比例；

所述方向有序度描述街道在同一方向上对齐的程度，将方向熵进行归一化和线性化，方向有序度定义如下：

其中H₀为方向熵，H_G为现实世界中最小熵，H_max为方向熵最大值。

2.根据权利要求1所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，

所述城市交通网络统计指标包括城市交通网络中的节点和边数，城市中的街道平均长度以及平均节点度；

所述拓扑特征包括中介中心性和紧密中心性，所述中介中心性定义为：

所述紧密中心性定义为：

其中N是网络中的节点总数，d_ij是节点i和j之间的最短距离。

3.根据权利要求1所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，所述拓扑映射器的参数包括函数f、覆盖V和聚类算法。

4.根据权利要求3所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，构建所述拓扑映射器的步骤如下：

对数据在原始空间中定义一个函数属于f的有限覆盖/>J是一个索引集，使得/>

其中f是标量函数，V_j是R中的开区间，设U表示X的覆盖，由f^-1(V_j)中每个j的点所引起的点簇而获得；U的一维神经结构表示为M：＝N₁(U)，称为(X，f)的拓扑映射图；M是一种(X，f)的拓扑摘要的多尺度表征。

5.根据权利要求1所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，所述经济发展指标包括经济发展水平、国内生产总值和人口确定的传统经济区划。

6.根据权利要求1所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，设置重叠度30％生成复形，与所述经济发展指标结合进行拓扑数据分析。

7.根据权利要求1所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，聚类算法为k-means，重叠度设置为40％，特征空间维度为8维。

8.根据权利要求1所述的基于拓扑分析的地理大数据空间潜模式分析方法，其特征在于，从聚类成组的复形中发现潜在子结构，所述潜在子结构即死角比率和T比率更高的网络形成的结构分支。