CN107818534B

CN107818534B - 一种具有空间约束的人类活动网络区域划分方法

Info

Publication number: CN107818534B
Application number: CN201711047786.2A
Authority: CN
Inventors: 贾涛; 喻雪松
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2022-04-01
Anticipated expiration: 2037-10-31
Also published as: CN107818534A

Abstract

本发明提供一种具有空间约束的人类活动网络区域划分方法，属于智慧城市规划的应用领域，为了从人类交互角度发现最佳的城市区域划分，本发明结合社交媒体签到数据和城市交通小区数据，并且对交互网络的拓扑结构增加了明确的空间约束，设计了一种具有空间约束的网络区域划分方法。该方法胜过了仅使用空间聚类的区域划分方法，能很好的提取人类交互行为影响下所形成的区域、比较人类交互区域与城市行政区划的关系，可为城市规划等领域提供决策支持。

Description

一种具有空间约束的人类活动网络区域划分方法

技术领域

本发明属于智慧城市规划的应用领域，具体涉及一种具有空间约束的人类活动网络区域划分方法。

背景技术

地理学中的区域通常定义为地球表面的一些部分，具有使其独特于其他部分的某些特征。这些特征不仅仅与文化、经济、地形或政治相关，也与人流、信息流和商品流中的人类交互有关。在这方面，区域同时也是空间的分类，这种分类不仅能帮助管理公共资源，同时也能作为理解许多问题的框架。多种区域划分体系被广泛用于各种领域，包括地理学、心理学、城市规划和交通运输范畴等。例如，OMB(Office of Management and Budget)的地理学家研究了一种使用社会经济和人口统计数据的基于核的统计区；认知区域则已被心理学家在相对较大的尺度进行了研究；城市规划者则通过英国2001年人口普查数据中的迁移流动提出了经济功能区；交通运输研究者则通过捷克2010年人口普查数据设计了运输功能区。行政区划分是一个典型的例子，目前中国的行政区主要是由政府机构在数十年前决定的。然而，现有的区划是否仍能很好的反映现实则是不得而知的，因此提出一种新的划分作为辅助，以期更好的行政管理是有价值且合理的。

尽管如此，得到最佳的区域划分仍然不是简单的工作。目前基本有三种广泛使用的区域划分的方法：非空间聚类、空间聚类和网络划分。非空间聚类是基于属性的相似，也就是说具有相同属性的空间单元被聚为一类，不管他们是否空间上相邻。此外，考虑空间影响，通常有两种不同的方式。一方面，一旦区域得到了，就可以根据空间标准进行分割和融合的空间操作。另一方面，通过应用空间相似度测量，空间影响可以被潜在的加入到聚类过程中。这种空间区域划分的方法，对于理解空间分布和属性依赖性的模式是很有用的。但是，因为控制空间影响是很困难的，得到的区域可能是地理上呈片段化的。

空间聚类方法是通过融合相邻的空间单元得到的空间划分。因此在属性上，同一个区域内的空间单元，比不在同一区域内的更为相似。出于不同的目的很多空间聚类方法被提出了，但是其中大部分都不适用于区域划分。一个典型的例子是AZP(自动分区程序)法，该方法使用了试错法的最优化策略，包括三个步骤：首先随机选择n个空间单元作为核，并将其他单元就近分配，得到初始解；然后迭代地将空间单元重新分配给相邻的区域以精炼解，这样即可求得聚类开销最小的局部最优解；第三步，为了找到全局最优解，需要集成启发式策略如模拟退火或禁忌搜索等。这种区域划分方法可以用来得到特定数量的不规整形状区域，但是由于高计算开销而不能用于大量的空间单元。

网络划分法将网络划分为社区，这样不同社区节点之间的连接较期望弱。不同于前面概述的方法，这种区域划分法是从物理网络科学中引入的，以解决地理问题并使用空间网络，这些空间网络中的节点是空间单元、边则是人类交互，因而社区类似于区域。近来，随着地理技术的扩增，该方法被广泛应用于不同的数据以划分区域，例如用于人口普查数据中的通勤流、签到数据中的社交连接、电话拨打数据和钞票追踪数据。然而，大部分研究简单的将该方法直接用于了空间网络而不考虑空间对网络拓扑的作用，而且仅有很少的研究通过调整模块度或给边增加了地理权重来凸显空间的影响。

发明内容

因此，本发明旨在利用海量微博签到数据，设计一种包含人类交互信息的区域网络模型，并基于此，研制一种具有空间约束的网络划分法。在这项发明中，明确地给人类活动交互网络的增加了空间约束条件，也就是说，本发明引入了一种空间影响系数k，通过移除拓扑距离大于k的边来约束网络。基于此，本发明不仅避免了对网络空间本质性的忽视，还提供了一种易于控制的考察空间对划分区域影响的潜在方法。具体来说，本发明使用社交媒体签到数据构造了反映人类活动行为的加权空间交互网络，该网络以交通小区为节点，交通小区之间的空间交互行为作为边；其次，本发明提出了一种具有空间约束值k的网络划分方法，即在给定的空间影响系数k下通过最大化网络模块度来获得一个最佳区域划分；第三，利用ARI与AMI指数，通过统计比较不同空间影响系数k下的最佳划分，识别最佳空间影响系数k下的最佳划分。通过实验，本发明的划分结果也与使用空间聚类方法的结果进行了比较，证明了本发明的适应性与优越性。

本发明的技术方案如下：

一种具有空间约束的人类活动网络区域划分方法，包括人类活动交互网络模型的构造以及利用构造的网络模型进行具有空间约束的网络划分，以提取最佳划分区域；

所述人类活动交互网络模型的构造过程包括以下步骤：

步骤1.1、对微博签到数据进行坐标系纠正，将纠正过的数据以签到用户为单位，按时间顺序构造签到轨迹；

步骤1.2、用签到轨迹构建签到网络，其中网络节点是签到位置，边是将两个签到位置连接起来的轨迹片段，边的权重是由经过的轨迹片段数决定的；

步骤1.3、将签到网络叠置在TAZ数据上，通过空间求交操作，每一条边都被标记为跨越TAZ或在同一TAZ内的，然后移除同一TAZ内的边，而保留了跨越TAZ的边，并将两个TAZ之间多条签到网络边合为一条，权重为其总和；

根据以上步骤得到人类活动交互网络，即TAZ网络，节点是TAZ，边是上述得到的跨越TAZ的边。

所述利用构造的网络模型进行具有空间约束的网络划分，以提取最佳划分区域过程中，通过将网络模块度最大化来分割网络：

引入空间影响系数k，通过将拓扑距离大于k的边移除来实现空间约束；k值为整数，最小值为1，最大值为网络的直径；k值越大，空间约束越弱；k值越小，空间约束越强；当k值为1时，网络退化为空间1阶拓扑连接网络；当k值为网络直径时，网络结构不发生变化。

所述利用构造的网络模型进行具有空间约束的网络划分，以提取最佳划分区域，具体包括以下步骤：

步骤2.1、对TAZ网络，计算拓扑距离矩阵，其中两个交通小区若相邻则其拓扑距离为1；在拓扑距离矩阵基础上，通过将拓扑距离大于k的边移除实现空间约束操作；

步骤2.2、按下式[1]计算网络中所有边的边介数，其中e为TAZ网络中的边，i、j为网络节点，即TAZ，V为TAZ集合，b_ij为原签到网络中从TAZ i到j的加权最短路径数，b_ij(e)为其中经过边e的加权最短路径数；然后移除具有最大边介数的边；每次移除边后，检查是否产生了新的社区；若无，由于网络结构发生了变化则需要对所有边重新计算边介数；否则进入下一步；

边介数(e)＝∑_{i，j∈V and i≠j} b_ij(e)/b_ij [1]

步骤2.3、由于产生了新的社区，故需按照如下公式[2]计算当前网络的模块度Q，其中m为TAZ网络总边权，C是TAZ社区，P为社区集，i、j为TAZ网络节点，A_ij是TAZ网络中ij之间边权，k_i(或k_j)为i(或j)的加权度；当新模块度Q和对应社区划分被保存了，则重新进行第二步直到网络完全被划分为单独的点；最终，找到最大的模块度，其对应的社区就是最佳区域的划分；基于步骤2.1-2.3，得到空间影响系数k下的最佳区域划分；

Q(P)＝1/2m∑_C∈P∑_i，j∈C A_ij-k_i*k_j/2m [2]。

基于步骤2.1-2.3，通过确定最佳k值得到全局意义上的最佳划分区域；具体过程如下：

计算不同k值下的区域划分与实际行政区划的ARI和AMI指数，指数越大一致性越强，最大值对应的系数k就是最佳空间约束值，对应的划分就是全局意义上的最佳区域划分；

ARI指数计算公式如下式[3]，其中P、Q是网络的不同划分，N₀₀为两种划分中属于不同类的点对数，N₁₁为两种划分中属于同类的点对数，N₀₁为在P中属于同一类而Q中不同类的点对数，N₁₀为在P中不同类而在Q中属于同一类的点对数；

AMI指数计算公式如下式[4]，其中P、Q为网络不同划分，C_p和C_Q为P、Q中的类别数，N为TAZ总数，n_ij是P中聚类i和Q中聚类j之间相同的TAZ个数，a_i为P中类别i中的TAZ个数，b_j为Q中类别j中的TAZ个数；

与现有技术相比，本发明具有以下优点和有益效果：

本发明方法有以下三个特点。

(1)本发明方法使用具有空间约束的网络划分策略，是一种新颖的区域划分方法，该方法使用人类移动的空间限制来影响空间网络的构造，而非影响网络划分程序。因此具有不同空间影响系数的网络能得到不同的区域划分。

(2)本发明方法得到的最佳区域可以通过一致度测量的结果调整空间影响系数来得到。重要的是，这些区域是地理聚合紧密且不重叠的，这提供了一种新的城市规划设计和区域资源管理的源数据。

(3)本发明方法比另一种基于TAZ空间聚类的方法要更优越，后者是利用签到密度、将邻接的TAZ通过自然分割法的思路进行聚类的。从一致度测量的角度，本方法比空间聚类方法的结果要更好。

附图说明

图1(a)为TAZ网络提取流程图；(b)为TAZ网络可视化图(根据长度，边分为5级)；

图2(a)，(c)，(e)，(g)和(i)为不同空间影响系数下的区域划分图，反映了不同k值的区域划分产生过程，其中上图显示了边长的概率分布、虚线为k下最大边长，下图显示了网络划分重复次数；(b)，(d)，(f)，(h)和(j)将不同k值的最佳区域划分地图可视化图；(a)与(b)对应k为1，(c)与(d)对应k为2，(e)与(f)对应k为3，(g)与(h)对应k为4，(i)与(j)对应k为5；

图3(a)为5个区域划分下的区域大小排序分布图；(b)为核心区图；

图4为不同空间影响系数k值下区域划分与行政区划之间的一致度计算结果图；

图5为最佳区划与行政区划的空间匹配图；

图6最佳区域特征分析图：(a)为区内流；(b)为区间流；

图7为从AMI和ARI角度对比本方法与基于TAZ的空间聚类法对比图，此处两种方法得到的区域数相同；其中(a)为基于AMI指数的不同空间影响系数k值下区域划分与行政区划之间的一致度计算结果图，(b)为基于ARI指数的不同空间影响系数k值下区域划分与行政区划之间的一致度计算结果图。

具体实施方式

下面结合附图及实施例对本发明作进一步说明。

对原始签到数据，首先进行坐标纠正和数据过滤的预处理。当前的签到数据是在GCJ-02地理参考下的，这使其坐标与在现实空间中的位置存在系统偏差。因此这里的坐标纠正是将GCJ-02坐标系转换为WGS84坐标系，这样签到数据就能与其他地理数据保持一致。无效数据是包括信息缺失(包括坐标、签到时间、用户ID的缺失)和信息无效(指签到位置在TAZ边界范围外)，使用数据过滤是为了识别这些无效数据并简单的移除他们。与此同时，将过滤的签到记录以签到用户按时间顺序构造签到轨迹。

然后，用签到轨迹构造签到网络，其中网络节点是签到位置，边是将两个签到位置连接起来的轨迹片段。要注意的是同一个边可能会有多个轨迹片段经过，因此边的权重是由经过的轨迹片段数决定的。同时，可以将过滤得到的签到数据叠置在交通小区数据之上，以计算签到密度，这样可以真实反映交通小区的人类活动情况，但是却不包含人类交互信息，该数据可用于辅助分析。

最后，通过将签到网络叠置在交通小区数据上，以获得TAZ网络，即人类活动交互网络。特别地，通过空间求交操作，每一条边都被标记为跨越TAZ或在同一TAZ内。跨越TAZ的边的两个端点是处于不同的TAZ内的，而同一TAZ内的边的两个端点在同一个TAZ之内。在本发明中，本发明想要保留不同TAZ中的人类交互关系，并且忽略同一TAZ内的，且这也有助于隐私的保护。因此本发明移除了同一TAZ内的边，而保留了跨越TAZ的边。通过将这种规则应用于签到网络，本发明得到了交通小区网络，其中网络节点是TAZ，边是前述跨越TAZ的边，权重是前述跨越TAZ的边权。

以深圳市的数据为例，TAZ网络的提取过程如图1(a)所示，可视化TAZ网络如图1(b)所示。从统计角度来看，本发明从原始1926262条记录中抽取得到了1072399条新签到记录。一方面，这些新签到记录被叠置于TAZ数据上以获得具有签到密度的421个TAZ。另一方面，签到记录构造的447295条签到轨迹被进一步用于构造具有14127个节点和126088条边的签到网络。最终，通过与491个TAZ空间求交，本发明得到了具有417个节点和31829条边的TAZ网络。

使用TAZ网络，本发明提出了一种用于提取最佳区域划分的具有空间约束的网络划分方法，该方法利用了TAZ之间的人类交互的全局知识。受到网络科学中的社区发现技术的启发，本发明的目标是将地理空间划分为聚合紧密且不重叠的区域，同时保持区域之间的高度交互性。为了量化空间约束对区域划分的影响，本发明引入了空间影响系数k，其作用是将网络中拓扑距离大于k的边移除。因此k值越高，空间约束越弱，而k值越小，空间约束越强。而为了划分网络，本发明还需要最大化网络模块度。这是因为与随机网络相比，高模块度反映了区域内部的人类交互密集性而区域之间的人类交互很少。

该方法包括四步，如下所示：

(1)对TAZ网络，计算拓扑距离矩阵，其中两个交通小区若相邻则其拓扑距离为1。在拓扑距离矩阵基础上，通过将拓扑距离大于k的边移除实现空间约束操作。

(2)按下式[1]计算网络中所有边的边介数，其中e为TAZ网络中的边，i、j为网络节点(即TAZ)，V为TAZ集合，b_ij为原签到网络中从TAZi到j的加权最短路径数，b_ij(e)为其中经过边e的加权最短路径数。然后移除具有最大边介数的边。每次移除边后，检查是否产生了新的社区。若无，由于网络结构发生了变化则需要对所有边重新计算边介数；否则进入下一步。

边介数(e)＝∑_{i，j∈V and i≠j} b_ij(e)/b_ij [1]

(3)由于产生了新的社区，故需按照如下公式[2]计算当前网络的模块度Q，其中m为TAZ网络总边权，C是TAZ社区，P为社区集，i、j为TAZ，A_ij是TAZ网络中ij之间边权，k_i(或k_j)为i(或j)的加权度。当新模块度Q和对应社区划分被保存了，则重新进行第二步直到网络完全被划分为单独的点。最终，找到最大的模块度，其对应的社区就是最佳区域的划分。

Q(P)＝1/2m∑_C∈P∑_i，j∈C A_ij-k_i*k_j/2m [2]

(4)基于以上三步，可以得到空间影响系数k下的最佳区域划分。然而要得到全局意义上的最佳区域划分，就需要确定最佳k值。因此，计算不同k值下的区域划分与实际行政区划的ARI和AMI指数，由于指数越大一致性越强，最大值对应的系数k就是最佳空间约束值，对应的划分就是全局意义上的最佳区域划分。这里ARI指数计算公式如下式[3]，其中P、Q是网络的不同划分，N₀₀为两种划分中属于不同类的点对数，N₁₁为两种划分中属于同类的点对数，N₀₁为在P中属于同一类而Q中不同类的点对数，N₁₀为在P中不同类而在Q中属于同一类的点对数；AMI指数计算公式如下式[4]，其中P、Q为网络不同划分，C_p和C_Q为P、Q中的类别数，N为TAZ总数，n_ij是P中聚类i和Q中聚类j之间相同的TAZ个数，a_i为P中类别i中的TAZ个数，b_j为Q中类别j中的TAZ个数。

正如本发明的方法阐述的，不同的区域划分结果可以由不同的空间影响系数得到。本发明中k值从1到5逐渐减弱了空间约束，其共同点是大约99％的签到信息都发生在大约70％的空间范围内。不同k值的区域划分可视化结果如图2所示，本发明可以考察空间约束是如何影响区域划分的，与10个行政区划的对比反映了不同的空间组织。

K为1时(图2(a))，33％的短边被保留了，同时一共划分产生了18个区，最大模块度为0.82。与10个行政区划相比(图2(b))，本发明可以发现宝安和龙岗区分别被分为了三个区；南山、龙华和大鹏区分别被分为了两个区；福田和罗湖区一起被划分为三个区；盐田和坪山区被很清楚地划分了出来；光明新区则由于签到记录缺失没有被完全划分得到。

K为2时(图2(c))，49％的短边被保留了，同时一共划分产生了14个区，最大模块度为0.77。重要的是，与k为1时相比，其与10个行政区划之间的一致性要更好。例如，宝安和龙岗区分别被划分为三个区；龙华区被划分为两个区；剩下6个行政区都能被很清楚的划分出来。

而当k为3时(图2(e))，59％的短边、中等边及部分长边被保留了，同时一共划分产生了18个区，最大模块度为0.7，TAZ网络也更为密集。然而其与行政区划的吻合程度则由于区域的碎片化而显得很弱，例如宝安和龙华区出现了小型区域(图2(f))。

总的来说，随着k值的增加，越多长边被保留了，TAZ网络变得越密集了，得到的区域数也越多。例如k为4和5时分别得到的27个和107个区域(图2(g)与图2(i))。这两种划分下，一方面，TAZ倾向于集中在几个大的区域内；另一方面，单独的TAZ倾向于划分为独立的区域。后两种k值对应的区域划分与行政区划的不一致性较高，可能与保留了较多的长边有关。

图2不同空间影响系数下的区域划分：(a)，(c)，(e)，(g)和(i)反映了不同k值的区域划分产生过程，其中上图显示了边长的概率分布、虚线为k下最大边长，下图显示了网络划分重复次数；(b)，(d)，(f)，(h)和(j)将不同k值的最佳区域划分地图可视化。

空间影响系数越大，划分的区域数也越多，区域尺度的大小区别也越大。这里区域的尺度通过组成TAZ的数量表示。如图3(a)所示，由区域大小分布按等级降序排列的区域大小等级图用于反映异质性。可以很清晰的看出当k值达到4或5时区域划分异质性的增加。换言之，此时仅有少数区域具有较多TAZ，而大多数区域仅由少数TAZ组成。例如，尺度小于2的区域在k为4和5时分别占63％和95％。尽管如此，本发明仍可以通过核心区的概念来深入考察区域的划分。无论何种网络划分下TAZ都被分为同一类，这样TAZ的集合就是核心区。如图3(b)所示，在5种划分下一共可提取23个核心区。这些核心区包括了最热门的中央商务区(CBD)如罗湖区的东门商圈、福田区的华强北商圈等，他们一共涵盖了83％左右的签到记录，覆盖了45％左右的空间范围。

图3的5个区域划分反映了TAZ不同的空间组织，因此需要决定得出一种地理聚合紧密且不重叠的最佳区域划分。为此，本发明使用ARI(Adjusted Rand Index)指数和AMI(Adjusted Mutual Information)指数，对划分区域和行政区划进行一致度测算。ARI指数利用聚类过程中的正误识和负误识测量一致度，而AMI指数是从信息论角度计算一致度。因此，这两个测度是从不同角度计算一致度，两者结果的一致性可以反映最佳划分的鲁棒性。结果如图4所示，可以很清楚的看到k＝2时对应的ARI和AMI结果都是最大值，分别为61％和71％；而k＝5时对应的ARI和AMI结果都是最小值，分别为23％和32％。这个结果与本发明前面与行政区划的可视化对比是一致的，并且进一步指示了由于现实中的人类活动及其空间交互的影响，最佳区划与行政区划的相似性达到71％。

从空间上，本发明将最佳区划与行政区划进行空间求交以提取核心区，其结果涵盖了97％的签到数据。本发明可以简单的对核心区进行计数，以此理解其一致度。如图5所示，本发明可以清楚得看到，大部分南部的行政区显示了最佳区划与行政区划间的高一致度，如南山、福田、坪山、盐田、罗湖和大鹏新区，而其他的行政区一致度较低，如宝安、龙华和龙岗区。然而，这些区内的低一致度并不说明本发明的区域划分方法所得到的结果是无效的。反而其可以作为一种替代，以更好地理解行政区划边界在人类交互行为影响下的划分。例如，宝安、龙华和龙岗区分别可细分为3个、2个和4个区域。

从签到流的角度，本发明检查了每个区域与城市其余区域连接的程度，用区内流比例进行测量。区内流比例是区域内流动占区域所有流动的比率，比率越大，区域的孤立性越强。如图6(a)所示，本发明可以清楚看到对应大鹏新区内的区域(ID为14)是连接性最差的，其次是对应宝安(ID为12)和龙华区(ID为2)内的区域。这些区域地理上与中心区距离较远，可能导致了连接较少。相反的，对应福田区的区域(ID为8)是连接性最好的，随后是两个分别对应宝安(ID为13)和罗湖区(ID为3)内的区域，这些区域位于市中心，更重要的是其中具有连通香港的关口，可能增强了其连接性。

为进一步检查区域连接的程度，本发明生成了以区域为节点、签到流为边的网络。这个网络中，边的宽度表示了两个区域之间签到流的数量。如图6(b)所示，区域间签到流按数量使用自然分割法被分为5级，并且三个南部行政区之间的签到流量很高，即对应南山(ID为7)、福田(ID为8)和罗湖区(ID为3)内的区域。这些签到流占所有签到流的63％，暗示了这三个区对深圳的重要性。事实上，最近的社会经济统计数据表明这三个区也是深圳单位面积GDP最高的三个区。结构上，龙岗区内的区域(ID为1)具有最大的边介数，这说明它在区域之间连接中起到了桥的作用。

Claims

1.一种具有空间约束的人类活动网络区域划分方法，其特征在于：包括人类活动交互网络模型的构造以及利用构造的网络模型进行具有空间约束的网络划分，以提取最佳划分区域；

所述人类活动交互网络模型的构造过程包括以下步骤：

根据以上步骤得到人类活动交互网络，即TAZ网络，节点是TAZ，边是上述得到的跨越TAZ的边；

2.根据权利要求1所述的一种具有空间约束的人类活动网络区域划分方法，其特征在于：所述利用构造的网络模型进行具有空间约束的网络划分，以提取最佳划分区域，具体包括以下步骤：

边介数(e)＝∑_{i,j∈Vand i≠j}b_ij(e)/b_ij [1]

步骤2.3、由于产生了新的社区，故需按照如下公式[2]计算当前网络的模块度Q，其中m为TAZ网络总边权，C是TAZ社区，P为社区集，i、j为TAZ网络节点，A_ij是TAZ网络中ij之间边权，k_i为i的加权度，k_j为ij的加权度；当新模块度Q和对应社区划分被保存了，则重新进行第二步直到网络完全被划分为单独的点；最终，找到最大的模块度，其对应的社区就是最佳区域的划分；基于步骤2.1-2.3，得到空间影响系数k下的最佳区域划分；

Q(P)＝1/2m∑_C∈P∑_i,j∈CA_ij-k_i*k_j/2m [2]。

3.根据权利要求2所述的一种具有空间约束的人类活动网络区域划分方法，其特征在于：通过确定最佳k值得到全局意义上的最佳划分区域；具体过程如下：