CN105095591A

CN105095591A - 一种多尺度城市扩张关联规则提取方法

Info

Publication number: CN105095591A
Application number: CN201510491235.XA
Authority: CN
Inventors: 解鹏; 刘耀林; 刘殿峰; 赵翔; 刘艳芳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-11-25
Anticipated expiration: 2035-08-11
Also published as: CN105095591B

Abstract

本发明公开了一种多尺度城市扩张关联规则提取方法，首先依据城市发展的区域特征设计挖掘变量，并通过地理信息系统空间分析方法，获取变量空间数据。以多级别规则格网的采样方式对挖掘变量进行空间统计，并对挖掘变量连续值进行离散化处理，形成事务数据库。然后利用已有关联规则生成算法分别在各级尺度格网挖掘关联规则。对各级尺度上的挖掘结果与对应格网单元进行空间匹配之后，通过本方法提出的空间尺度匹配系数，确定最合适的格网尺度进行规则分析。本发明解决了传统关联规则分析，因对空间尺度划分的不确定性而导致挖掘结果非空间尺度最佳结果的难题。

Description

一种多尺度城市扩张关联规则提取方法

技术领域

本发明属于城市规划技术领域，具体涉及一种多尺度城市扩张关联规则提取方法。

背景技术

城市扩张及其驱动力分析是一个复杂动力学过程。关联规则挖掘通过挖掘城市扩张速度与驱动力之间的关联规则，以此来探索城市扩张模式。关联规则挖掘最重要的是建立空间事务集数据库。关联规则最初是用于挖掘超市货物销售活动中，货物与货物之间同时售出的关联关系。将关联规则挖掘用于空间模式的发现，需要解决连续空间分割和连续属性分割两个重要问题，才能形成空间事物数据库。其过程是：整个研究空间分割成若干密集规则分布的格网，每个格网构成一个事务单元；针对每个事务单元中连续的属性进行连续属性分割，转换成为分类属性。对于如何有效的进行连续属性分割，目前已经有很多有效的方法。比如等宽分割法、等深分割法、自然断裂发以及基于聚类算法的分割方法。但是如何对空间进行有效分割的方法很少。如何选择合适的事务单元尺度进而挖掘空间关联规则，是关联规则挖掘用于城市扩张驱动力分析的一个难题。如果事务单元过大会造成信息过于粗糙，使得发现的规则可用性降低。如果事务单元过小，关联规则模型过度拟合其结果是规则的针对性过强而普适性过低。因此迫切需要一种方法来解决关联规则挖掘事务单元尺度选取的问题。

发明内容

为了解决上述的技术问题，本发明提供了一种多尺度城市扩张关联规则提取方法。

本发明所采用的技术方案是：一种多尺度城市扩张关联规则提取方法，其特征在于，包括以下步骤：

步骤1：收集研究区域数据，包括数据集A、数据集B和数据集C；

所述的数据集A包括Y1年土地利用分类图、Y2年土地利用分类图；

所述的数据集B包括Y1年数字高程模型图。

所述的数据集C包括城市主干道、次干道、高速公路、铁路、城市中心(市政府所在地)、区县中心(区县政府所在地)以及区县级行政区划图；

步骤2：针对行政区划范围以M米单位距离为尺度间隔，生成2M米至10M米九级规则格网，分别即为Z1至Z9，格网单元采用方形格网，同时生成格网中心点；

步骤3：对研究区域中的城市进行初步分析确定城市扩张挖掘变量，即城市扩张驱动因子与城市扩张强度因子；

步骤4：针对步骤3中所述的挖掘变量，利用地理信息系统空间分析方法提取挖掘变量数据集；

步骤5：利用地理信息系统空间分析方法，使用Z1至Z9格网对步骤3中所述的挖掘变量进行空间统计

步骤6：分别针对Z1至Z9各级格网中的各个挖掘变量进行离散化处理；

步骤7：利用关联规则分析方法，分别对Z1至Z9各级格网中离散化后的挖掘变量进行分析，提取城市扩张关联规则；

步骤8：利用将步骤7中提取的关联规则与对应级别的格网进行空间匹配；

步骤9：计算关联规则空间尺度匹配系数，获得最适合空间尺度值；

步骤10：绘制关联规则空间分布图。

作为优选，步骤3中所述的城市扩张驱动因子包括格网单元至城市中心距离、格网单元至区县中心距离、格网单元至主干道距离、格网单元至次干道距离、格网单元至铁路距离、格网单元至高速公路距离、格网单元至河流与湖泊距离、格网单元内平均高程、格网单元内平均坡度、格网单元内建设用地强度、格网单元内未开发用地强度；所述的城市扩张强度因子是指格网单元内新增建设用地强度。

作为优选，步骤4的具体实现包括以下子步骤：

步骤4.1：格网单元至城市中心距离、格网单元至区县中心距离、格网单元至主干道距离、格网单元至次干道距离、格网单元至铁路距离、格网单元至高速公路距离、格网单元至河流与湖泊距离的提取，分别以城市中心、区县中心、主干道、次干道、铁路、高速公路、河流与湖泊要素为源生成对应要素的覆盖整个城市范围距离缓冲区栅格数据集；

步骤4.2：数字高程模型图即为栅格化的高程图，直接作为高程数据使用；

步骤4.3：以数字高程模型图为基础提取坡度数据；

步骤4.4：计算格网单元内建设用地强度和格网单元内未开发用地强度所需的数据建设用地图层和未开发用地图层，是通过Y1和Y2年土地利用数据分别进行重分类为建设用地与未开发用地获得；

步骤4.5：计算城市扩展强度因子其所需的数据新增建设用地图层，是通过Y1年与Y2年建设用地图层进行空间叠置分析后获取；

步骤4.6：计算网单元内建设用地强度、格网单元内未开发用地强度和城市扩展强度因子所需的数据格网单元面积，是通过对Z1至Z9各级格网中网格单元分别进行几何面积计算获得，其值存储在Z1至Z9各级格网数据中，无需另行存储。

作为优选，步骤5中所述的使用Z1至Z9格网对步骤3中所述的挖掘变量进行空间统计，实现过程是将城市扩张驱动因子和城市扩张强度因子采样值以分区统计的形式关联到格网中，分区统计方法包括平均值统计、总量统计；

其中：

格网单元至城市中心距离、格网单元至区县中心距离、格网单元至主干道距离、格网单元至次干道距离、格网单元至铁路距离、格网单元至高速公路距离、格网单元至河流与湖泊距离，以格网单元所覆盖范围的对应要素生成距离缓冲区栅格数据的平均距离值作为格网的采样值；

格网单元内平均高程、格网单元内平均坡度：以格网单元所覆盖范围的平均高程和平均坡度作为格网的采样值；

格网单元内建设用地用开发强度，以格网单元所覆盖范围内建设用地面积与格网单元面积的比值作为格网的采样值；

格网单元内未开发用地强度，以格网单元所覆盖范围内未开发的用地面积与格网单元面积的比值作为格网的采样值；

格网单元内城市扩张强度，以格网单元所覆盖范围新增建设用地面积与格网单元面积的比值作为格网的采样值。

作为优选，步骤6中所述的分别针对Z1至Z9各级格网中的各个挖掘变量进行离散化处理，离散化方法包括等深法、等宽法、自然断裂法和基于聚类法。

作为优选，步骤7中所述的关联规则分析方法，包括Apriori关联规则挖掘方法和FP-Growth关联规则挖掘方法。

作为优选，步骤7所述的FP-Growth关联规则挖掘方法使用一种频繁模式树的数据结构；

频繁模式树由频繁项头表和项前缀树构成，频繁模式树的构建流程包括以下子步骤：

步骤A1：选取步骤6所提含有挖掘变量离散化结果的格网作为输入数据，每个格网单元为一个事务单元，单元内由步骤6中所提离散化的挖掘变量构成的集合为一条事务，集合中元素称为事务项；输入一个最小支持度阈值；

步骤A2：遍历步骤A1输入格网的各事务单元，统计事务项出现的频率并记录，生成事务项频率降序表Tb；

步骤A3：创建FP-tree的根节点T，然后再次遍历输入的格网数据；

步骤A4：检测是否完成遍历，若是执行步骤A6，若否选取一条事务t，按照步骤A2事务项频率降序表Tb中事务项的排序，对事务t包含的事务项进行排序；

步骤A5：按照步骤A4中的事务项排序，依次将其插入到T中，每插入一个事务项更新Tb中通名项与该项的连接索引，重复执行步骤A4；

步骤A6：导出以T为根节点的FP-tree以及事务项频率降序表Tb。

构建完成频繁模式树之后要对该树进行频繁模式发掘，其频繁模式发掘算法流程包括以下子步骤：

步骤B1：输入一个FP-tree树，其对应事务项频率排序表Tb，以及前缀项列表Pre；

步骤B2：判断Tb是否为空，若为空结束算法，若非空执行下一步；

步骤B3：从Tb中取出一个事务项A插入到前缀项列表Pre中，并将A从Tb中删除；

步骤B4：依据事务项A的索引，找到事务项A在TP-tree中的节点，并由这些节点向TR-tree的根节点T进行回溯遍历；

步骤B5：判断回溯遍历结果，若为空重复执行步骤B1，若非空执行下一步；

步骤B6：输出以Pre为前缀的频繁项集；

步骤B7：依据步骤B3中的遍历结果，重新调用TF-tree生成算法，构建一个新的T’与Tb’，以T’、Tb’和Pre为输入参数递归调用本频繁模式发掘算法；

作为衡量规则价值程度重要指标，支持度support、置信度confidence和提升度lift的计算公式如下：

\sup p o r t (A \cup B) = \frac{c o u n t (A \cup B)}{N};

c o n f i d e n c e (A &RightArrow; B) = \frac{\sup p o r t (A \cup B)}{\sup p o r t (B)};

l i f t = \frac{\sup p o r t (A \cup B)}{\sup p o r t (A) * \sup p o r t (B)};

式中：A表示前件条件，B表示后件条件，count(A∪B)表示同时满足条件A和B的事务发生的次数，N表示事务数据库包含事务记录的总数。

作为优选，步骤8中所述的空间匹配，其空间匹配策略包括最大提升度匹配和最大置信度匹配。

作为优选，步骤9中所述的空间尺度匹配系数计算公式如下。

{SSI}_{i} = \frac{{mc}_{i} - {mc}_{m i n}}{{mc}_{\max} - {mc}_{m i n}} \times \frac{{ml}_{i} - {ml}_{m i n}}{{ml}_{\max} - {ml}_{m i n}};

式中：SSI_i代表第i级格网的空间尺度匹配系数，mc_i和ml_i分别代表第i级格网匹配规则集合的平均置信度和平均提升度，mc_min和ml_min分别代表第i级格网匹配规则集合的最小置信度和最小提升度，mc_max和ml_max分别代表第i级格网匹配规则集合的最大置信度和最大提升度。

作为优选，步骤10中所述的绘制关联规则空间分布图，制图方式包括依据规则后件制图、依据最大置信度制图和依据最大提升度制图。

本发明的优点在于解决了传统空间关联规则用于城市扩张驱动力分析挖掘时，事务单元尺度确定的难题。本发明所改进的方法可以用于空间关联规则最适事务单元尺度的筛选，从而提高关联规则用于城市扩张驱动力分析挖掘的准确性。

附图说明

图1：本发明实施例的流程图；

图2：本发明实施例的研究区域概况图；

图3：本发明实施例的FP树生成算法流程图；

图4：本发明实施例的频繁项集挖掘算法流程图；

图5：本发明实施例的最大提升度匹配算法流程图；

图6：本发明实施例的各尺度关联规则分布图；其中图6-1为200米关联规则分布图，图6-2为300米关联规则分布图，图6-3为400米关联规则分布图，图6-4为500米关联规则分布图，图6-5为600米关联规则分布图，图6-6为700米关联规则分布图，图6-7为800米关联规则分布图，图6-8为900米关联规则分布图，图6-9为1000米关联规则分布图；

图7：本发明实施例的高强度城市扩张关联规则分布图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

以武汉主城区及周边区域为研究区，请见图1，本发明提供的一种多尺度城市扩张关联规则提取方法，包括以下步骤：

步骤1：收集数据，包括数据集A、数据集B和数据集C；数据集A：2005年、2011年土地利用分类图(见图2)，其中土地利用分类包含5种类型，建设用地、耕地、林地、水域和未利用地；数据集B：数字高程模型数据(DEM)；数据集C：重要基础设施数据,包括主干道、次干道、高速公路、铁路、城市中心(市政府所在地)、区县中心(区县政府所在地)。

步骤2：针对研究区范围以100米单位距离为尺度间隔，生成200米至1000米九级规则格网，分别即为Z1至Z9，格网单元采用方形格网，同时生成格网中心点；

具体实现包括以下子步骤：

步骤2.1：利用ArcGIS的创建鱼鳞网工具，以100米为尺度间隔，分别创建覆盖整个研究区的200米至1000米尺度的空间规则格网，记为Z1，Z2,…,Z9。

步骤2.2：利用ArcGIS空间选择工具将Z1至Z9各级格网中与研究区无重叠的部分提取并删除。

步骤3：依据国内外有关城市扩张研究以及武汉市具体特征，对武汉市进行初步分析确定城市扩张挖掘变量，即城市扩张驱动因子与城市扩张强度因子；

城市扩张驱动因子包括格网单元至城市中心距离、格网单元至区县中心距离、格网单元至主干道距离、格网单元至次干道距离、格网单元至铁路距离、格网单元至高速公路距离、格网单元至河流与湖泊距离、格网单元内平均高程、格网单元内平均坡度、格网单元内建设用地强度、格网单元内未开发用地强度；城市扩张强度因子是指格网单元内新增建设用地强度。

具体实现包括以下子步骤：

步骤4.1：格网单元至城市中心距离、格网单元至区县中心距离、格网单元至主干道距离、格网单元至次干道距离、格网单元至铁路距离、格网单元至高速公路距离、格网单元至河流与湖泊距离的提取,分别以城市中心、区县中心、主干道、次干道、铁路、高速公路、河流与湖泊要素为源生成对应要素的覆盖整个城市范围距离缓冲区栅格数据集；

步骤4.2：数字高程模型图即为栅格化的高程图，本身可直接作为高程数据使用；

步骤4.3：以数字高程模型图为基础提取坡度数据；

步骤4.4：计算格网单元内建设用地强度和格网单元内未开发用地强度所需的数据建设用地图层和未开发用地图层，是通过2005和2011年土地利用数据分别进行重分类为建设用地与未开发用地获得；

步骤4.5：计算城市扩展强度因子其所需的数据新增建设用地图层，是通过2005年与2011年建设用地图层进行空间叠置分析后获取。

步骤5：利用地理信息系统空间分析方法，使用Z1至Z9格网对步骤3中所述的挖掘变量进行空间统计；

使用Z1至Z9格网对步骤3中所述的挖掘变量进行空间统计，实现过程是将城市扩张驱动因子和城市扩张强度因子采样值以分区统计的形式关联到格网中，分区统计方法包括平均值统计、总量统计；

其中：

步骤6：分别针对Z1至Z9各级格网中的各个挖掘变量进行离散化处理；离散化方法包括等深法、等宽法、自然断裂法和基于聚类法。

各因子离散区间不同，具体离散阈值如下表1所示：

表1具体离散阈值表

步骤7：利用关联规则分析方法，分别对Z1至Z9各级格网中离散化后的挖掘变量进行分析，提取城市扩张关联规则；实施例中采用FP-Growth进行关联规则挖掘。

步骤7中的算法使用了一种被称为频繁模式树(FrequentPatternTree)的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。频繁模式树的构建流程图如3所示，其具体实现包括以下步骤：

步骤A6：导出以T为根节点的FP-tree以及事务项频率降序表Tb。

步骤B6：输出以Pre为前缀的频繁项集；

作为衡量规则价值程度重要指标，支持度(support)、置信度(confidence)和提升度(lift)的计算公式如下：

\sup p o r t (A \cup B) = \frac{c o u n t (A \cup B)}{N};

c o n f i d e n c e (A &RightArrow; B) = \frac{\sup p o r t (A \cup B)}{\sup p o r t (B)};

l i f t = \frac{\sup p o r t (A \cup B)}{\sup p o r t (A) * \sup p o r t (B)};

式中：A表示前件条件B表示后件条件，count(A∪B)表示同时满足条件A和B的事务发生的次数，N表示事务数据库包含事务记录的总数。

关联规则挖掘过程中设置最小支持度为0.02，最小置信度为0.3，最小提升度为3。

步骤8：利用将步骤7中提取的关联规则与对应级别的规则格网进行空间匹配；其空间匹配策略是最大提升度匹配策略。

请见图5，最大提升度匹配算法包括以下步骤：

1)遍历全体规则列表并按提升度对其降序排列；

2)选取一个格网；

3)选取一条规则；

4)判断规则与格网是否匹配，若否重复执行步骤2)，若是执行下一步；

5)将格网ID与规则ID连接，并保存；

6)判断格网是否遍历完成，若否重复执行步骤2)，若是执行下一步；

7)将步骤5)中保存的格网ID与规则ID连接信息输出到文件。

步骤9：计算关联规则空间尺度匹配系数，获得最适合空间尺度值；空间尺度匹配系数计算公式如下。

{SSI}_{i} = \frac{{mc}_{i} - {mc}_{m i n}}{{mc}_{\max} - {mc}_{m i n}} \times \frac{{ml}_{i} - {ml}_{m i n}}{{ml}_{\max} - {ml}_{m i n}}

Z1至Z9各级格网的平均置信度、平均提升度以及空间尺度匹配系数如下表2；

表2：Z1至Z9各级格网的平均置信度、平均提升度以及空间尺度匹配系数

步骤10：绘制关联规则空间分布图。制图方式包括依据规则后件制图、依据最大置信度制图和依据最大提升度制图。

以各格网单元所匹配规则的后件作为制图要素，进行制图如图6。依据步骤9中就算结果，在具有空间尺度匹配系数最大值的600米格网尺度上，绘制重点城市扩张区域如图7。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种多尺度城市扩张关联规则提取方法，其特征在于，包括以下步骤：

所述的数据集B包括Y1年数字高程模型图；

所述的数据集C包括城市主干道、次干道、高速公路、铁路、城市中心、区县中心以及区县级行政区划图；所述的城市中心为市政府所在地，所述的区县中心为区县政府所在地；

步骤10：绘制关联规则空间分布图。

2.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤3中所述的城市扩张驱动因子包括格网单元至城市中心距离、格网单元至区县中心距离、格网单元至主干道距离、格网单元至次干道距离、格网单元至铁路距离、格网单元至高速公路距离、格网单元至河流与湖泊距离、格网单元内平均高程、格网单元内平均坡度、格网单元内建设用地强度、格网单元内未开发用地强度；所述的城市扩张强度因子是指格网单元内新增建设用地强度。

3.根据权利要求2所述的多尺度城市扩张关联规则提取方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.3：以数字高程模型图为基础提取坡度数据；

4.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤5中所述的使用Z1至Z9格网对步骤3中所述的挖掘变量进行空间统计，实现过程是将城市扩张驱动因子和城市扩张强度因子采样值以分区统计的形式关联到格网中，分区统计方法包括平均值统计、总量统计；

其中：

5.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤6中所述的分别针对Z1至Z9各级格网中的各个挖掘变量进行离散化处理，离散化方法包括等深法、等宽法、自然断裂法和基于聚类法。

6.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤7中所述的关联规则分析方法，包括Apriori关联规则挖掘方法和FP-Growth关联规则挖掘方法。

7.根据权利要求6所述的多尺度城市扩张关联规则提取方法，其特征在于：所述的FP-Growth关联规则挖掘方法使用一种频繁模式树的数据结构；

步骤A6：导出以T为根节点的FP-tree以及事务项频率降序表Tb；

步骤B6：输出以Pre为前缀的频繁项集；

\sup p o r t (A \cup B) = \frac{c o u n t (A \cup B)}{N};

c o n f i d e n c e (A &RightArrow; B) = \frac{\sup p o r t (A \cup B)}{\sup p o r t (B)};

l i f t = \frac{\sup p o r t (A \cup B)}{\sup p o r t (A) * \sup p o r t (B)};

8.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤8中所述的空间匹配，其空间匹配策略包括最大提升度匹配和最大置信度匹配。

9.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤9中所述的空间尺度匹配系数计算公式如下：

{SSI}_{i} = \frac{{mc}_{i} - {mc}_{m i n}}{{mc}_{\max} - {mc}_{m i n}} \times \frac{{ml}_{i} - {ml}_{m i n}}{{ml}_{\max} - {ml}_{m i n}};

10.根据权利要求1所述的多尺度城市扩张关联规则提取方法，其特征在于：步骤10中所述的绘制关联规则空间分布图，制图方式包括依据规则后件制图、依据最大置信度制图和依据最大提升度制图。