CN113723850A

CN113723850A - 一种空间基尼系数自动批量计算方法及系统

Info

Publication number: CN113723850A
Application number: CN202111047570.2A
Authority: CN
Inventors: 王育红; 徐君; 左雨芳; 冯峰; 郁宗桥
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-30

Abstract

本发明公开了一种空间基尼系数自动批量计算方法及系统，包括：为一级、二级研究区数据集添加指定字段；检索统计补充字段后的一级研究区数据集要素所包含的二级研究区、研究对象数量，并赋给一级研究区要素相应的指定字段；检索统计补充字段后的二级研究区数据集要素所在一级研究区的ID、所含的二级研究区要素和研究对象数量，并赋给二级研究区要素相应的指定字段；对赋值后的二级研究区数据集计算汇总空间基尼系数因子，并求出空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成一级研究区数据集中所有要素的空间基尼系数计算。本发明可批量自动计算空间基尼系数，以衡量其空间分布的均匀或集中程度。

Description

一种空间基尼系数自动批量计算方法及系统

技术领域

本发明涉及一种空间基尼系数自动批量计算方法及系统，属于地理空间信息处理与分析的技术领域。

背景技术

1912年，意大利经济学家科拉多·基尼(Corrado Gini)在洛伦茨曲线基础上，提出了基尼系数(也称洛伦茨系数)的概念，以定量衡量一个国家或地区居民收入的差距程度。1991年，美国经济学家保罗·克鲁格曼(Paul R.Krugman)依据基尼系数原理，进一步提出了空间基尼系数的概念，用于测算当时美国制造业的行业集聚程度。在这两种概念思想的影响启发下，来自经济学、管理学、地理学、生态学、统计学等多个学科专业的众多专家学者，围绕空间基尼系数持续开展了大量深入性研究工作，相关理论和应用成果层出不穷，内容不断丰富完善。目前，空间基尼系数已成为衡量自然、人文地理要素空间分布总体均衡程度的一个重要指标，广泛应用于国土资源管理、旅游景区创建、产业集聚评价、区域分析与规划等领域，所使用的计算模型累计已达十几种之多。

尽管成果颇多，但由于Excel、SPSS、ArcGIS等常用数据管理与分析软件平台，缺乏针对性的专用功能模块，空间基尼系数在计算方式上还存在靠人工手动操作、数据统计汇总工作量大、人机交互频繁、效率低、易出错、计算过程知识难于共享等不足。

发明内容

为弥补上述不足，本发明依托全球广为使用的世界知名GIS软件系统平台——ArcGIS，针对基于信息熵的空间基尼系数计算模型，提出了一种空间基尼系数自动批量计算方法及系统，可批量自动计算多个一级研究区所含研究对象的空间基尼系数，以衡量其空间分布的均匀或集中程度。

本发明具体采用以下技术方案解决上述技术问题：

一种空间基尼系数自动批量计算方法，所述方法基于地理信息平台ArcGIS，包括以下步骤：

步骤1：为所收集的原始一级、二级研究区数据集分别添加指定字段；

步骤2：通过空间包含查询依次检索统计每个补充字段后的一级研究区数据集中的要素所包含的二级研究区数量、研究对象数量，并将统计所得各数量赋给该要素相应的指定字段；

步骤3：通过空间位于/包含查询依次检索统计每个补充字段后的二级研究区数据集中的要素所在一级研究区的ID、所含的二级研究区要素数量和所含的研究对象的数量、每个二级研究区要素的空间基尼系数因子的信息，并将统计所得各信息赋予二级研究区要素的相应指定字段；

步骤4：对赋值后的二级研究区数据集计算、汇总空间基尼系数因子，求出空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成所有一级研究区数据集内所有要素的空间基尼系数计算。

进一步地，作为本发明的一种优选技术方案，所述步骤1中为所收集的原始一级研究区数据集添加两个指定字段，包括：

NumofZones字段：用于存储每个一级研究区要素所包含的二级研究区要素数量；

NumofObjects字段：用于存储每个一级研究区要素所包含的研究对象要素数量；

进一步地，作为本发明的一种优选技术方案，所述步骤1中为所收集的原始二级研究区数据集添加五个指定字段，包括：

IDofRegion字段：用于存储每个二级研究区要素所在一级研究区要素的ObjectID值；

NumofZInR字段：用于存储每个二级研究区要素所在一级研究区要素所含的二级研究区要素数量；

NumofOInR字段：用于存储每个二级研究区要素所在一级研究区要素所含的研究对象要素数量；

NumofOInZ字段：用于存储每个二级研究区要素自身所含的研究对象要素数量；

Factor字段：用于存储每个二级研究区要素的空间基尼系数因子，其值根据NumofZInR、NumofOInR、NumofOInZ三个字段的值计算获得。

进一步地，作为本发明的一种优选技术方案，所述步骤2中将统计所得各数量，赋给该要素相应的指定字段，包括步骤：

依次读取补充字段后的一级研究区数据集中的每条要素；

查询获取当前一级研究区要素所包含的二级研究区要素，并计算所选二级研究区要素的数量，将其赋给“所含二级研究区要素记录数”变量；对“所含二级研究区要素记录数”变量值进行加1运算以确保执行后续处理，将“所含二级研究区要素记录数”变量值，赋于当前一级研究区要素的NumofZones字段；

查询获取计算当前一级研究区要素所包含的研究对象区要素，并计算所选研究对象要素的数量，并将其赋给“所含研究对象记录数量”变量；对“所含研究对象记录数量”变量值进行加1运算以确保执行后续处理；将“所含研究对象记录数量”变量值，赋给当前所选一级研究区要素的NumofObjects字段；

重复以上步骤，直到一级研究区数据集中的每个要素被读取赋值。

进一步地，作为本发明的一种优选技术方案，所述步骤3中将统计所得各信息赋给二级研究区要素的相应指定字段，包括步骤：

依次读取补充字段后的二级研究区数据集中的每一条要素，标记为“当前二级区要素”；

查询检索当前二级研究区要素所在的一级研究区要素，标记为“所在一级研究区要素”；分别读取所在一级研究区要素的ObjectID、NumofZones、NumofObjects字段值，对应赋给Value1、Value2、Value3变量；

选择当前二级区要素所包含的研究对象要素，并计算所选择的当前二级研究区要素所包含的研究对象要素的数量，赋给Value4变量；对Value4变量进行加1运算，得到输出值，以确保进行下一步的赋值处理；

分别将所得到的Value1、Vaule2、Value3、Value4变量值赋给当前二级研究区要素的IDofRegion、NumZInR、NumOInR、NumOInZ字段，并将当前二级研究区要素的Factor字段值暂时设为0；

重复以上步骤，直到二级研究区数据集中的每个要素被读取赋值。

进一步地，作为本发明的一种优选技术方案，所述步骤4中计算每个二级研究区要素空间基尼系数因子Factor字段值时，采用公式：

其中，：Factor_i为第i个二级研究区要素的Factor字段值；NumofOInZ_i为第i个二级研究区要素的NumofOInZ字段值；NumofOInR_i为第i个二级研究区要素的NumofOInR字段值；NumofZInR_i为第i个二级研究区要素的NumofOInZ字段值；为避免出现对0进行对数运算出现错误，当NumofOInZ_i为0时，直接将Factor_i设为0。

进一步地，作为本发明的一种优选技术方案，所述步骤4中计算空间基尼系数时，采用如下公式：

其中，基尼系数_k为第k个一级研究区要素的空间基尼系数；n为k个一级研究区要素所包含的二级研究区要素数量；Factor_i为第i个二级研究区要素的Factor字段值。

本发明还提出一种空间基尼系数自动批量计算系统，所述系统基于地理信息平台ArcGIS，应用于上述的空间基尼系数自动批量计算方法，包括：

补充字段模块，用于为所收集的原始一级、二级研究区数据集分别添加指定字段；

赋值R记录模块，用于通过空间包含查询依次检索统计每个补充字段后的一级研究区数据集中要素所包含的二级研究区数量、研究对象数量，并将统计所得各数量赋给该要素相应的指定字段；

赋值Z记录模块，用于通过空间位于/包含查询依次检索统计每个补充字段后的二级研究区数据集中要素所在一级研究区的ID、所含的二级研究区要素数量和所含的研究对象的数量、每个二级研究区要素的空间基尼系数因子的信息，并将统计所得各信息赋给二级研究区数据集相应的指定字段；

计算系数模块，用于对赋值后的二级研究区数据集计算汇总空间基尼系数因子，求出空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成所有一级研究区数据集内所有要素的空间基尼系数计算。

进一步地，作为本发明的一种优选技术方案，所述补充字段模块为所收集的原始一级研究区数据集添加指定字段，包括：NumofZones、NumofObjects字段，以及为所收集的原始二级研究区数据集添加指定字段，包括：IDofRegion、NumofZInR、NumofOInR、NumofOInZ、Factor字段。

本发明采用上述技术方案，能产生如下技术效果：

本发明的方法及系统，在收集组织好的一级研究区、二级研究区和研究对象三个空间数据集原始数据之后，使用补充字段模块为一、二级研究区数据集批量补充添加指定字段；使用赋值R记录模块，通过空间包含查询、统计计算，为一级研究区要素的指定字段自动分配相应数据；使用赋值Z记录模块，通过统计位于/包含查询、统计计算，为二级研究区要素的指定字段自动分配相应数据；使用计算系数工具，通过因子计算、统计汇总、关联连接，自动计算获得每个一级研究区要素的空间基尼系数。

因此，本发明的方法及系统，将传统繁琐的手动计算过程概况封装为四个可执行的处理步骤及模块，只需在ArcGIS平台的相应工具运行界面中选择输入数据集参数，即可批量自动计算多个一级研究区所含研究对象的空间基尼系数，以衡量其空间分布的均匀或集中程度。本发明克服了常规方法处理环节及派生数据多、工具参数输入易混淆出错、人机交互频繁、中间等待时间长等不足，能够通过空间关系分析与统计自动获得基础计算数据资料，计算结果准确、执行效率提高20倍以上。

附图说明

图1为本发明的空间基尼系数自动批量计算方法的流程示意图。

图2为本发明的空间基尼系数自动批量计算方法的数据组织结构图。

图3为本发明的空间基尼系数自动批量计算系统的模块运行效果图。

图4为本发明系统中补充字段模块的流程示意图。

图5为本发明系统中赋值R记录模块的流程示意图。

图6为本发明系统中赋值Z记录模块的流程示意图。

图7为本发明系统中计算系数模块的流程示意图。

图8为本发明验证例的实验数据集的示意图。

图9为本发明验证例的处理后的一级研究数据集示意图。

图10为本发明验证例的处理后的二级研究数据集示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明涉及一种空间基尼系数自动批量计算方法，所述方法基于地理信息平台ArcGIS，主要涉及两项改进：一是采用GeoDatabase模型，提出定义了面向空间基尼系数自动计算的三层数据组织结构，该结构由一级研究区数据集、二级研究区数据集、研究对象数据集三个空间数据集(要素类)及其相关字段组成；二是采用ModelBuilder技术，通过重新组合封装ArcGIS现有基本工具，设计了能够批量执行相应操作处理的四个新工具：补充字段工具、赋值R记录工具、赋值Z记录工具、计算系数工具。本发明所提方法，具体包括以下步骤：

步骤1：利用补充字段工具，为所收集的原始一级、二级研究区数据集分别添加指定字段，使其能够存储支持空间基尼系数自动计算的相关数据，具体如下：

首先，为实现上述空间基尼系数的自动计数，采用ArcGIS新一代空间数据管理模型与技术GeoDatabase，设计定义了管理相关数据的三层数据结构。该结构由三个数据集(亦称要素类或空间表)，其具体字段组成与关联关系如图2所示，其中，研究对象数据集中ObjectID和Shape两个字段是系统自动产生的两个字段，每个数据集都必须有。一级研究区数据集的NumofZones、NumofObjects两个字段为所补充添加的指定字段；二级研究区数据集的IDofRegion、NumofZInR、NumofOInR、NumofOInZ、Factor五个字段为所补充添加的指定字段。

下面分别描述这三个数据集中各字段的基本特征与用途。

①ObjectID：数据类型为长整型。在创建数据集时，由ArcGIS系统自动定义添加该字段，用于存储每个要素记录的唯一标识，其取值由系统自动维护。

②Shape：数据类型为几何型。在创建数据集时，由ArcGIS系统自动定义添加该字段，用于存储每个要素记录的空间位置及几何图形数据，其值由测绘部门采集获得。一个空间数据集只允许存储一种几何类型(点、线、面)的要素记录。一、二级研究区要素的几何类型只能是面，而研究对象要素可是点、线、面三种中的任一种。图2假设研究对象为点状要素。

③NumofZones：数据类型为长整型。用来存储每个一级研究区要素所包含的二级研究区要素数量，其值由赋值R工具通过空间包含查询统计获得。

④NumofObjects：数据类型为长整型。用来存储每个一级研究区要素所包含的研究对象要素数量，其值由赋值R工具通过空间包含查询统计获得。

⑤IDofRegion：数据类型为长整型。用来存储每个二级研究区要素所在一级研究区要素的ObjectID值，其值由赋值Z工具通过空间位于查询统计获得，与所在一级研究区要素的ObjectID字段值保持一致。

⑥NumofZInR：数据类型为长整型。用来存储每个二级研究区要素所在一级研究区要素所含的二级研究区要素数量，其值由赋值Z工具通过空间位于查询统计获得，与所在一级研究区要素的NumofZones字段值保持一致。

⑦NumofOInR：数据类型为长整型。用来存储每个二级研究区要素所在一级研究区要素所含的研究对象要素数量，其值由赋值Z工具通过空间位于查询统计获得，与所在一级研究区要素的NumofObjects字段值保持一致。

⑧NumofOInZ：数据类型为长整型。用来存储每个二级研究区要素自身所含的研究对象要素数量，其值由赋值工具Z通过空间包含查询统计获得。

⑨Factor：数据类型为浮点型。用来存储每个二级研究区要素的空间基尼系数因子，其值由计算系数工具根据NumofZInR、NumofOInR、NumofOInZ三个字段的值计算获得。

除上述字段之外，用户可根据需要在上述一、二研究区数据集和研究对象数据集三个数据集中自行添加定义其他字段，以记录存储描述一级研究区要素、二级研究区要素、研究对象要素其他特征的相关数据，如研究区要素的名称、面积等等。

步骤2：利用赋值R记录工具，通过空间包含查询依次检索统计每个补充字段后的一级研究区数据集中的要素所包含的二级研究区要素数量、研究对象要素数量，并将统计所得各数量赋给一级研究区数据集中该要素相应的指定字段，得到赋值后的一级研究区数据集，具体如下：

依次读取补充字段后的一级研究区数据集中的每条要素；

查询获取当前一级研究区要素所包含的二级研究区要素，并计算所选二级研究区要素的数量，将其赋给“所含二级研究区要素记录数”变量；对“所含二级研究区要素记录数”变量值进行加1运算得到输出值以确保执行后续处理，然后将“所含二级研究区要素记录数”变量值，赋给当前一级研究区要素的NumofZones字段；

查询获取计算当前一级研究区要素所包含的研究对象区要素，并计算所选研究对象要素的数量，并将其赋给“所含研究对象记录数量”变量；对“所含研究对象记录数量”变量值进行加1运算得到输出值以确保执行后续处理；然后将“所含研究对象记录数量”变量值，赋给当前所选一级研究区要素的NumofObjects字段；

步骤3：利用赋值Z记录工具，通过空间位于/包含查询依次检索统计每个补充字段后的二级研究区数据集中要素所在一级研究区的ID、所含的二级研究区要素数量和所含的研究对象的数量、每个二级研究区要素的空间基尼系数因子的信息，并将统计所得各信息赋给二级研究区数据集中要素相应的指定字段内，得到赋值后的二级研究区数据集，具体如下：

选择当前二级区要素所包含的研究对象要素，并计算所选择的当前二级区要素所包含的研究对象要素的数量，赋给Value4变量；对所选研究对象数量变量进行加1运算，得到输出值，以确保执行后续处理；

分别将所得到的Value1、Vaule2、Value3、Value4变量值，赋给当前二级区要素的IDofRegion、NumZInR、NumOInR、NumOInZ字段，并将当前二级研究区要素的Factor字段值暂时设为0；

步骤4：利用计算系数工具，对赋值后的二级研究区数据集计算、汇总空间基尼系数因子，求出空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成所有一级研究区数据集内所有要素的空间基尼系数计算，具体如下：

首先，根据每个二级研究区要素的NumOInZ、NumOInR、NumZinR字段值，采用如下公式，计算其Factor字段值，即空间基尼系数因子值：

其中：Factor_i为第i个二级研究区要素的Factor字段值；NumofOInZ_i为第i个二级研究区要素的NumofOInZ字段值；NumofOInR_i为第i个二级研究区要素的NumofOInR字段值；NumofZInR_i为第i个二级研究区要素的NumofOInZ字段值。为避免出现对0进行对数运算出现错误，当NumofOInZ_i为0时，直接将Factor_i设为0。

在获得每个二级研究区要素的Factor字段值后，再按照计算空间基尼系数的如下公式，进一步执行后续相关处理：

其中：空间基尼系数_k为第k个一级研究区要素的空间基尼系数；n为第k个一级研究区要素所包含的二级研究区要素数量。

然后，按IDofRegion字段值对上步所得“具有基尼系数因子值的二级研究区数据集”进行分组汇总统计，计算位于相同一级研究区内的所有二级研究区要素的Factor字段值之和，并将所得结果记录在中间临时数据表——“汇总表1”的“Sum_Factor”字段中；

再将，“汇总表1”的“Sum_Factor”字段名称修改为“基尼系数”；

接着，通过计算字段，以1加上现有值的方式对“汇总表2”的“基尼系数”字段值进行调整，以获得真正意义上的空间基尼系数，得到汇总表3。

其次，删除因已经参与计算系数工具处理赋值后一级研究区数据集中存在的“基尼系数”字段，以避免多次运行计算系数工具该数据集会产生多个重复字段的情况；

最后，依据规则：“汇总表3”的“IDofRegion”字段值与“删除已有基尼系数字段的一级研究区数据集”的“ObjectID”字段值相等，将“汇总表3”每个记录的“基尼系数”字段值连接追加到“删除已有基尼系数字段的一级研究区数据集”的相应要素上，完成所有一级研究区要素空间基尼系数的计算。

由此，本发明方法实现了批量自动计算多个一级研究区要素所含研究对象的空间基尼系数，以衡量其空间分布的均匀或集中程度。空间基尼系数值在[0,1]内。值越小越均匀，值越大越集中。值0表示研究对象完全平均分布在每个二级研究区要素内，值1表示研究对象全部集中分布在一个二级研究区要素内。

根据上述方法，本发明还提出了一种空间基尼系数自动批量计算系统，所述系统基于地理信息平台ArcGIS，可应用于上述的空间基尼系数自动批量计算方法，该系统具体如下：

首先，根据一般的计算模型及数据结构定义，在常规情况下可通过ArcGIS提供的“添加字段”、“按位置查询”、“数据编辑”、“计算字段”、“汇总统计”等现有工具与功能，对所得原始基本数据进行处理分析，来获得每个一级研究区要素的空间基尼系数。但这种方式存在处理过程逻辑不清、工具参数输入多、人机交互频繁、易出错、效率低等不足。

为弥补上述不足，本发明系统采用ArcGIS ModelBuilder可视化建模技术，通过重新组合封装现有工具，设计开发了四个面向空间基尼系数批量自动计算的新工具，使得本发明的系统同样地实现自动批量计算，本发明主要涉及两项改进：一是采用GeoDatabase模型，提出定义了面向空间基尼系数自动计算的三层数据组织结构，该结构由一级研究区数据集、二级研究区数据集、研究对象数据集三个空间数据集(要素类)及其相关字段组成；二是采用ModelBuilder技术，通过重新组合封装ArcGIS现有基本工具，设计了能够批量执行相应操作处理的四个新工具：补充字段模块、赋值R记录模块、赋值Z记录模块、计算系数模块，其运行效果如图3所示。

其中，所述补充字段模块，主要用于为所收集的原始一级、二级研究区数据集分别添加指定字段。本实施例中，每个数据集都必须有ObjectID和Shape两个字段，这两个字段是由ArcGIS系统自动产生，一级研究区数据集的NumofZones、NumofObjects两个字段为补充添加的指定字段；二级研究区数据集的IDofRegion、NumofZInR、NumofOInR、NumofOInZ、Factor五个字段为补充添加的指定字段。

所述赋值R记录模块，主要用于通过空间包含查询依次检索统计每个补充字段后的一级研究区数据集中的要素所包含的二级研究区要素数量、研究对象要素数量，并将统计所得各数量对应赋予一级研究区要素添加的指定字段NumofZones、NumofObjects内，得到赋值后的一级研究区数据集；

所述赋值Z记录模块，主要用于通过空间位于/包含查询依次检索统计每个补充字段后的二级研究区数据集中的要素所在一级研究区的ID、所含的二级研究区要素数量和所含的研究对象的数量、每个二级研究区要素的空间基尼系数因子的信息，并将统计所得各信息对应赋予二级研究区要素添加的指定字段IDofRegion、NumofZInR、NumofOInR、NumofOInZ、Factor内，得到赋值后的二级研究区数据集；

所述计算系数模块，主要用于对赋值后的二级研究区数据集计算、汇总空间基尼系数因子，求出空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成所有一级研究区数据集内所有要素的空间基尼系数计算。

本发明系统中的补充字段模块，主要功能是为一级、二级研究区数据自动批量补充添加七个指定字段，其所含现有工具及执行顺序如图4所示，具体如下：

Step1-1：使用“添加字段1”工具，为一级研究区数据集添加“NumofZones”字段，处理后的一级研究区数据集，用新名称“一级区数据集1”加以标识。

Step1-2：使用“添加字段2”工具，再为一级区数据集1添加“NumofObjects”字段，处理后的一级研究区数据集，用新名称“一级区数据集2”加以标识。至此完成一级研究区数据集补充添加字段的处理。以此为前提，执行下一步处理。

Step1-3：使用“添加字段3”工具，为二级研究区数据集添加“IDofRegion”字段，处理后的二级研究区数据集，用新名称“二级区数据集1”加以标识。

Step1-4：使用“添加字段4”工具，再为二级区数据1集添加“NumZinR”字段，处理后的二级研究区数据集，用新名称“二级区数据集2”加以标识。

Step1-5：使用“添加字段5”工具，再为二级区数据集2添加“NumOinR”字段，处理后的二级研究区数据集，用新名称“二级区数据集3”加以标识。。

Step1-6：使用“添加字段6”工具，再为二级区数据集3添加“NumOinZ”字段，处理后的二级研究区数据集，用新名称“二级区数据集4”加以标识。

Step1-7：使用“添加字段7”工具，再为二级区数据集4添加“Factor”字段，处理后的二级研究区数据集，用新名称“二级区数据集5”。

上述的图4中，带“P”字符的椭圆图标代表输入数据集参数，在运行时用户可根据需要设置选择其具体取值；圆角矩形图标代表ArcGIS系统现有工具或自己开发的新工具，工具名称标签后的数字编号，代表该工具在整个新工具中的执行顺序；椭圆图标代表相应工具的处理结果或派生数据，ArcGIS将其统称为变量，变量可以作为后续工具的输入继续执行相应处理，一个工具和连接到此工具的所有变量称为一个流程；带箭头的连接实线代表处理的执行顺序，通过连接线可将多个流程连接起来形成更复杂的流程。带箭头的连接虚线，代表所连接的变量是所连接工具的执行前提条件，只在前提条件变量内容非空、为True或大于0时，所连接的工具才能执行。

因此，利用补充字段模块为一级、二级研究区数据集自动批量补充添加七个指定字段，得到补充字段后的一级、二级研究区数据集。

本发明系统中的赋值R记录模块，主要功能是统计计算每个补充字段后的一级研究区数据集中的要素所包含的二级研究区数量、研究对象数量，并将其赋值给一级研究区数据集中要素对应的NumofZones、NumofObjects字段，其所含现有工具及执行顺序如图5所示，具体如下：

Step2-1：通过“迭代要素选择1”工具，依次读取获得补充字段后的一级研究区数据集中的每条要素，标记为“当前单个一级研究区要素”。

Step2-2：通过“按位置选择图层2”工具，查询获取当前一级研究区要素所包含的二级研究区要素。

Step2-3：通过“获取计算3”工具，计算“所选二级研究区要素”的数量，并将其赋给“所含二级研究区要素记录数”变量。

Step2-4：使用“增一工具4”工具，对“所含二级研究区要素记录数”变量值进行加1运算，并将结果赋给“输出值1”变量。“增一工具”是使用Python语言自行设计开发的一个新工具，主要用于对“获取计数”工具获取的“记录数量”变量值加“1”，以避免直接使用“记录数量”作为前提条件变量，当其值为0时后续的“计数字段5”工具不执行。

Step2-5：在获得“输出值1”变量值之后，使用“计算字段5”工具，将“所含二级研究区要素记录数”变量值赋当前一级研究区要素的NumofZones字段，得到赋值后的当前一级研究区要素。

Step2-6：通过“按位置选择图层6”工具，查询获取计算当前一级研究区要素所包含的研究对象区要素。

Step2-7：通过“获取计算7”工具，计算“所选研究对象要素”的数量，并将其赋给“所含研究对象记录数量”变量。

Step2-8：通过“增一工具8”工具，对“所含研究对象记录数量”变量值进行加1运算，并将结果赋给“输出值2”变量。

Step2-9：在获得“输出值2”变量值之后，通过“计算字段9”工具，将“所含研究对象记录数量”变量值，赋给当前所选一级研究区要素的NumofObjects字段，得到再赋值后的当前一级研究区要素。

本发明系统中的赋值Z记录模块，主要功能是统计计算每个补充字段后的二级研究区要素所在一级研究区的ID、所含的二级研究区要素数量和所含的研究对象的数量、每个二级研究区要素的空间基尼系数因子的信息，并赋值给二级研究区数据集中要素对应的IDofRegion、NumZInR、NumOInR、NumOInZ、Factor字段，其所含现有工具及执行顺序如图6所示，具体如下：

Setp3-1：通过“迭代要素选择1”工具，依次读取获得补充字段后的二级研究区数据集中的一条要素，标记为“当前单个二级研究区要素”。

Step3-2：通过“按位置选择图层2”工具，查询检索当前单个二级研究区要素所在的一级研究区要素，标记为“所在单个一级研究区要素”。

Step3-3：根据“所在单个一级研究区要素”，通过“获取字段值3”工具，读取所在一级研究区要素的ObjectID字段值，并赋给“Value1”变量。

Step3-4：根据“所在单个一级研究区要素”，通过“获取字段值4”工具，读取所在一级研究区要素的NumofZones字段值，并赋给“Value2”变量。

Step3-5：根据“所在单个一级研究区要素”，通过“获取字段值5”工具，读取所在一级研究区要素的NumofObjects字段值，并赋给“Value3”变量。

Step3-6：根据步骤1得到的“当前单个二级研究区要素”，通过“按位置选择图层6”工具，选择当前二级研究区要素所包含的研究对象要素。

Step3-7：通过“获取计数7”工具，计算“所选研究对象要素”的数量，赋给“Value4”变量。

Step3-8：通过“增一工具8”工具，对“所选研究对象数量”变量进行加1运算，并将其赋给“输出值”变量。

Step3-9：在获得“输出值”变量值之后，通过“计算字段9”工具，将“Value1”变量值赋给当前二级区要素的IDofRegion字段，本次赋值后的当前要素记录，用“当前二级研究区要素1”加以标识。

Step3-10：根据“当前要素记录1”，通过“计算字段10”工具，将“Value2”变量值赋给当前二级研究区要素的NumZInR字段，本次赋值后的当前要素记录，用“当前二级研究区要素2”加以标识。

Step3-11：根据“当前要素记录2”，通过“计算字段11”工具，将“Value3”变量值赋给当前二级区要素的NumOInR字段，本次赋值后的当前要素记录，用“当前二级研究区要素3”加以标识。

Step3-12：根据“当前要素记录3”，通过“计算字段12”工具，将“Value4”变量值赋给当前二级区要素的NumOInZ字段，本次赋值后的当前要素记录，用“当前二级研究区要素4”标识。

Step3-13：根据“当前要素记录4”，通过“计算字段13”工具，将当前二级研究区要素的Factor字段值暂时设为0，本次赋值后的当前要素记录，用“当前二级研究区要素5”标识。

本发明系统中的计算系数模块，主要功能是根据赋值后的二级研究区数据计算、汇总空间基尼系数因子，求出算空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，其所含现有工具及执行顺序如图7所示，具体如下：

Step4-1：通过“计算字段1”工具，根据每个赋值后的二级研究区要素的NumOInZ、NumOInR、NumZinR字段值，按如下公式计算其Factor字段值，即空间基尼系数因子值，处理后所得数据集用“具有基尼系数因子值的二级区数据集”加以标识：

式中：Factor_i为第i个二级研究区要素的Factor字段值；NumofOInZ_i为第i个二级研究区要素的NumofOInZ字段值；NumofOInR_i为第i个二级研究区要素的NumofOInR字段值；NumofZInR_i为第i个二级研究区要素的NumofOInZ字段值。为避免出现对0进行对数运算出现错误，当NumofOInZ_i为0时，直接将Factor_i设为0。

在计算获得每个二级研究区要素的Factor字段值之后，根据计算空间基尼系数的如下公式，进一步执行如下处理：

式中：基尼系数_k为第k个一级研究区要素的空间基尼系数；n为k个一级研究区要素所包含的二级研究区要素数量。

Step4-2：通过“汇总统计数2”工具，按IDofRegion字段值对上步所得“具有基尼系数因子值的二级数据集”进行分组汇总统计，计算位于相同一级研究区内的所有二级研究区要素的Factor字段值之和，并将所得结果记录在中间临时数据表——“汇总表1”的“Sum_Factor”字段中。

Step4-3：通过“更改字段3”工具，将“汇总表1”的“Sum_Factor”字段名称修改为“基尼系数”，得到汇总表2。

Step4-4：通过“计算字段4”工具，以1加上现有值的方式对“汇总表2”的“基尼系数”值进行调整，以获得真正意义上的空间基尼系数，得到汇总表3。

Step4-5：通过“删除字段5”工具，删除因上次运行计算系数工具赋值后一级研究区数据集中存在的“基尼系数”字段，以避免多次运行计算系数工具该数据集会产生多个重复字段的情况。

Step4-6：通过“连接字段6”工具，依据规则：“汇总表3”的“IDofRegion”值与“删除已有基尼系数字段的一级区数据集”的“ObjectID”字段值相等，将“汇总表3”每个记录的“基尼系数”字段值连接追加到“删除已有基尼系数字段的一级研究区数据集”的相应要素上，以完成所有一级研究区数据集内所有要素的空间基尼系数的计算。

为了便于检查核对，本发明给出一个验证例，该验证例使用如图8所示的三个自制实验数据集，对本发明所提方法与系统的正确性与执行效率进行了检验。其中，一级研究区数据集包含6个要素、二级研究区数据集包含24个要素、研究对象数据集包含72个要素。每个一级研究区要素都包含4个二级研究区要素，12个研究对象要素。在数据制作完成后，分别使用上述系统的模块内工具对其执行处理，所得结果分别如图9、10所示，其中空间基尼系数完全正确且与图上研究对象实际情况相符合。四个模块的工具执行时间分别是0.05s、0.52s、9.42s、3.62s，总用时13.61s，计算效率比人工计算提高20倍以上。

综上，本发明的方法及系统，将传统繁琐的手动计算过程概况封装为四个可执行的处理步骤及模块，只需在ArcGIS平台的相应工具运行界面中选择输入数据集参数，即可批量自动计算多个一级研究区所含研究对象的空间基尼系数，以衡量其空间分布的均匀或集中程度。克服了常规方法处理环节及派生数据多、工具参数输入易混淆出错、人机交互频繁、中间等待时间长等不足，能够通过空间关系分析与统计自动获得基础计算数据资料，实现空间基尼系数快速化、高效化的自动批量计算。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种空间基尼系数自动批量计算方法，其特征在于，所述方法基于地理信息平台ArcGIS，包括以下步骤：

步骤1：为所收集的原始一级、二级研究区数据集分别补充添加指定字段；

步骤2：通过空间包含查询依次检索统计每个补充字段后一级研究区数据集中的要素所包含的二级研究区要素数量、研究对象数量，并将统计所得各数量，赋给该要素相应的指定字段；

步骤3：通过空间位于/包含查询依次检索统计每个补充字段后的二级研究区数据集中的要素所在一级研究区要素的ID、所含二级研究区要素数量、所含研究对象数量及其自身所含研究对象数量，每个二级研究区要素的空间基尼系数因子的信息，并将统计所得各信息赋给二级研究区要素的相应指定字段；

步骤4：对赋值后的二级研究区数据集计算、汇总空间基尼系数因子，求出空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成一级研究区数据集中所有要素的空间基尼系数计算。

2.根据权利要求1所述的空间基尼系数自动批量计算方法，其特征在于，所述步骤1中为所收集的原始一级研究区数据集添加两个指定字段，包括：

NumofObjects字段：用于存储每个一级研究区要素所包含的研究对象要素数量。

3.根据权利要求1所述的空间基尼系数自动批量计算方法，其特征在于，所述步骤1中为所收集的原始二级研究区数据集添加五个指定字段，包括：

4.根据权利要求2所述的空间基尼系数自动批量计算方法，其特征在于，所述步骤2中将统计所得各数量，赋给该要素相应的指定字段，包括步骤：

依次读取补充字段后的一级研究区数据集中的每条要素；

查询获取当前一级研究区要素所包含的二级研究区要素，并计算所选二级研究区要素的数量，将其赋给“所含二级研究区要素记录数”变量；对“所含二级研究区要素记录数”变量值进行加1运算以确保执行后续处理，然后将“所含二级研究区要素记录数”变量值，赋给当前一级研究区要素的NumofZones字段；

查询获取计算当前一级研究区要素所包含的研究对象要素，并计算所选研究对象要素的数量，并将其赋给“所含研究对象记录数量”变量；对“所含研究对象记录数量”变量值进行加1运算以确保执行后续处理；然后将“所含研究对象记录数量”变量值赋给当前所选一级研究区要素的NumofObjects字段；

5.根据权利要求3所述的空间基尼系数自动批量计算方法，其特征在于，所述步骤3中将统计所得各信息赋给二级研究区要素的相应指定字段，包括步骤：

查询检索当前二级研究区要素所在的一级研究区要素，标记为“所在一级研究区要素”；分别读取所在一级研究区要素的ObjectID、NumofZones、NumofObjects字段值，对应赋给Value1、Vaule2、Value3变量；

查询检索当前二级区要素所包含的研究对象要素，计算所选择研究对象要素的数量，赋给Value4变量；对所选研究对象数量变量进行加1运算，得到输出值，以确保进行下一步的赋值处理；

分别将所得到的Value1、Vaule2、Value3、Value4变量值赋给当前二级研究区要素的IDofRegion、NumZInR、NumOInR、NumOInZ字段，并将当前二级研究区要素的Factor字段的字段值暂时设为0；

6.根据权利要求3所述的空间基尼系数自动批量计算方法，其特征在于，所述步骤4中计算每个二级研究区要素空间基尼系数因子Factor字段值时，采用公式：

其中，Factor_i为第i个二级研究区要素的Factor字段值；NumofOInZ_i为第i个二级研究区要素的NumofOInZ字段值；NumofOInR_i为第i个二级研究区要素的NumofOInR字段值；NumofZInR_i为第i个二级研究区要素的NumofOInZ字段值；当NumofOInZ_i为0时，直接将Factor_i设为0。

7.根据权利要求1所述的空间基尼系数自动批量计算方法，其特征在于，所述步骤4中计算空间基尼系数时，采用如下公式：

其中，空间基尼系数_k为第k个一级研究区要素的空间基尼系数；n为k个一级研究区要素所包含的二级研究区要素数量；Factor_i为第i个二级研究区要素的Factor字段值。

8.一种空间基尼系数自动批量计算系统，其特征在于，所述系统基于地理信息平台ArcGIS，应用于权利要求1至7任一项所述的空间基尼系数自动批量计算方法，包括：

赋值R记录模块，用于通过空间包含查询依次检索统计每个补充字段后的一级研究区要素所包含的二级研究区数量、研究对象数量，并将统计所得各数量赋给该要素相应的指定字段；

赋值Z记录模块，用于通过空间位于/包含查询依次检索统计每个补充字段后的二级研究区要素所在一级研究区的ID、所含的二级研究区要素数量和所含的研究对象的数量、每个二级研究区要素的空间基尼系数因子的信息，并将统计所得各信息赋给二级研究区要素的相应指定字段；

计算系数模块，用于对赋值后的二级研究区数据集计算、汇总空间基尼系数因子，求出空间基尼系数，并将所得空间基尼系数连接追加到赋值后的一级研究区数据集相应要素，产生所需计算结果，完成所有一级研究区数据集内所有要素的空间基尼系数计算。

9.根据权利要求8所述的空间基尼系数自动批量计算系统，其特征在于，所述补充字段模块为所收集的原始一级研究区数据集添加指定字段，包括：NumofZones、NumofObjects字段，以及为所收集的原始二级研究区数据集添加指定字段，包括：IDofRegion、NumofZInR、NumofOInR、NumofOInZ、Factor字段。