CN115048617A - 一种基于信息论的空间因子空间分层异质性强弱的评价方法 - Google Patents

一种基于信息论的空间因子空间分层异质性强弱的评价方法 Download PDF

Info

Publication number
CN115048617A
CN115048617A CN202210309651.3A CN202210309651A CN115048617A CN 115048617 A CN115048617 A CN 115048617A CN 202210309651 A CN202210309651 A CN 202210309651A CN 115048617 A CN115048617 A CN 115048617A
Authority
CN
China
Prior art keywords
objects
spatial
target
heterogeneity
target variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210309651.3A
Other languages
English (en)
Other versions
CN115048617B (zh
Inventor
白鹤翔
王辉
李艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202210309651.3A priority Critical patent/CN115048617B/zh
Publication of CN115048617A publication Critical patent/CN115048617A/zh
Application granted granted Critical
Publication of CN115048617B publication Critical patent/CN115048617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)

Abstract

本发明属于空间信息技术领域,具体涉及一种基于信息论的空间因子空间分层异质性强弱的评价方法。本发明的目的是为了能够更为有效的定量分析相关因子对目标地理现象的解释能力强弱,解决现有q统计难以处理名义目标变量以及存在误判可能性两方面的不足,提供了一种基于互信息的空间因子空间分层异质性强弱的评价方法。本发明的优点在于无需大量模拟即可根据少量样本点快速有效的得到目标区域各类地物逐像元的概率分布。本发明可有效处理决策变量为类别数据以及连续值数据的情况;只要条件因子同决策变量之间不是相关独立的随机变量,该方法即可度量出条件因子的空间分层异质性。

Description

一种基于信息论的空间因子空间分层异质性强弱的评价方法
技术领域
本发明属于空间信息技术领域,具体涉及一种基于信息论的空间因子空间分层异质性强弱的评价方法。
背景技术
空间异质性是地理相关现象建模的一个重要概念,已被公认为地理科学的第二定律。一般来说,空间异质性是指地理现象在空间上的变异。它是分析地理空间数据(如人口、社区、生态系统和景观分析)的一个重要主题。空间异质性有着不同的形式,其中空间分层异质性是指目标变量在空间因子,如土地利用、气候分带、生态分区和地理区划等,所自然形成的不同分层或区域间的模式变化。
空间分层异质性在分析地理相关现象时是不可或缺的。空间分层异质性对于正确建模和理解目标地理现象非常重要,忽视不同区域间的目标现象形成机制的差异会导致有偏差甚至错误的建模。空间分层异质性可通过一致性程度发现可能存在的因果关系。目前空间分异性已被广泛应用于生产生活实践中。如分析国家级经济技术开发区经济增长率空间分异及影响因素,农地非农化空间非均衡及形成机理的探索,人口老龄化的格局分析,住宅价格的空间差异特征与影响机制的探究,污染物的空间分布特征分析,以及城市人居环境演变及驱动力研究等等。其应用领域十分广泛,并且同国计民生息息相关。
目前q统计是检测和度量空间分层异质性的唯一可用方法。其已广泛应用于许多实际问题的处理中。q统计将空间分层异质性解释为每个分层内的方差与整个研究区域的总方差之间的比率。比率越小,层内方差和总方差之间的差异越大,SSH越显著。然而,在实际应用中q统计量仍存在两个问题。一个是它不能用于处理名义目标变量。二是在某些情况下,q统计可能会忽略空间分层异质性。例如,假设研究区域内有两个分层。每一分层内的目标都服从高斯分布,且均值相同。这两个分层之间的区别是方差不同。在这种情况下,易得q统计值为零,这表示不存在空间分层异质性。然而,这两个分层之间存在着明显的异质性。
本发明从信息论的角度提出了新的空间分层异质性探测方法,以解决q- 统计量的上述两个限制。该方法对于名义目标变量和连续值目标变量使用相同的流程但不同的指标进行度量。两个指标都首先使用某种互信息的扩展来度量由空间因子所形成的分层与目标变量之间的一致性程度,并须将其规范化到 [0,1]区间,以度量目标变量的空间分层异质性,最后使用置换检验以验证空间分层异质性在统计意义是否显著。面向名义变量,本发明直接将其进行归一化。对于连续值变量,本发明对每个由空间因子所形成的分层和整个研究区域目标变量的概率密度函数的相对熵进行平均归一化,以定量描述其空间分层异质性。
发明内容
本发明的目的是为了能够更为有效的定量分析相关因子对目标地理现象的解释能力强弱,解决现有q统计难以处理名义目标变量以及存在误判可能性两方面的不足,提供了一种基于互信息的空间因子空间分层异质性强弱的评价方法。
为解决上述技术问题,本发明采用的技术方案,一种基于信息论的空间因子空间分层异质性强弱的评价方法,包含以下步骤:
步骤1.根据条件因子S将目标地理区域划分为m个互不相交的子区域,分别为s1,s2,...,sm;其中每个子区域内所有对象在条件因子S上的取值完全相同;记
Figure BDA0003567476230000036
为子区域si内对象个数所占比例,其中|si|为si子区域内对象个数,n为目标地理区域内所有对象的总数;
步骤2.获取目标地理区域内所有n个对象在目标变量d上的测量值,此时目标地理区域内每个对象上有一个其所属子区域的描述以及其目标变量一个测量值;
步骤3.根据目标变量d的测量值以及条件因子S构建的m个互不相交的子区域,计算S与d之间的扩展互信息,具体计算方法为:
(1)若目标变量d为名义变量,则使用公式
Figure BDA0003567476230000031
计算S与d的扩展互信息;其中,I(d,S)为目标变量d与条件因子S的互信息, H(d)为目标变量d的信息熵;具体的若n个对象在d上的可能取值有w种,这 w种取值记为d1,d2,...,dw,且其所占比例分别为
Figure BDA0003567476230000032
Figure BDA0003567476230000033
同时,记
Figure BDA0003567476230000034
为si区域内目标变量取值为di的对象的个数与该区域所有对象的个数比值,则
Figure BDA0003567476230000035
(2)若目标变量d为连续值变量,则首先将目标变量d在所有对象上的最大值和最小值分别记为Maxd和Mind,并将区间[Mind,Maxd]等分为k个区间,记为D1,...,Dk;对于目标地理区域胡每个对象x,若其在d上的取值d(x)满足i< (d(x)-Mind)×k/(Maxd-Mind)≤i+1,则对象x在d上的取值位于区间Di;当所有对象处理结束后,分别计算每个区间中的对象个数与所有对象个数的比值,并记为
Figure BDA0003567476230000041
并且在每个子区域si中计算每个区间中的对象个数与该子区域内所有对象个数的比值,并记为
Figure BDA0003567476230000042
随后,对于每个分区si计算
Figure BDA0003567476230000043
最后使用
Figure BDA0003567476230000044
计算S与d之间的扩展互信息;
步骤4.将原始数据随机置换N次,在每次置换中,首先随机置换所有对象在目标变量d上的取值,然后按照步骤3中的方法计算S与d之间的扩展互信息;所有置换完成后,使用公式(N′+1)/(N+1)计算S与d之间的扩展互信息的统计显著性,其中,N'为所有置换中出现置换后扩展互信息大于等于原始数据扩展互信息的次数;
步骤5.S与d之间的扩展互信息及(N′+1)/(N+1)即可用以度量S因子对于目标变量的空间分层异质性程度。
与现有技术相比,本发明具有以下特点:
(1)可有效处理决策变量为类别数据以及连续值数据的情况;
(2)只要条件因子同决策变量之间不是相关独立的随机变量,该方法即可度量出条件因子的空间分层异质性。
附图说明
图1为本发明的实现流程图。
具体实施方式
如图1所示,本实施例中使用了一个关于房地产价格的相关数据集,其下载地址为:https://geodacenter.github.io/data-and-lab/baltim/。我们选择了该数据集中的三个因子对本专利实施方式进行说明,分别为该房产是否包含一个独立的单元、是否在本地居住、以及房屋出售价格。为方便起见,后面使用DWELL, CITCOU以及PRICE来表示这三个因子。我们按照以下步骤评价DWELL用以对CITCOU进行描述以及DWELL用以对PRICE进行描述时的空间分层异质性的强弱:
步骤1.将DWELL作为条件因子S对研究区域进行划分。由于该实例中所有数据对象在S上的取值为0或1,可以将其划分为两个不同的子区域,子区域内S的取值完全相同,并记这两个子区域记为S={s1,s2}。
步骤2.在该数据集中,有两个目标变量,分别为名义变量CITCOU和连续值变量PRICE。在该步骤中,我们可以计算得到每个子区域中对象的个数以及其所占比例,具体的s1中对象的数目为98,s2中的对象数目为113、s1中对象个数所占比例为
Figure BDA0003567476230000051
s2中对象个数所占比例为
Figure BDA0003567476230000052
步骤3.(1)对于目标变量CITCOU,由于其为名义变量,因此使用公式
Figure BDA0003567476230000053
计算DWELL属性的空间分层异质性。具体的,所有对象在CITCOU上的可能取值有2种,分别为d1=0,d2=1。两种类别所占比例分别为
Figure BDA0003567476230000054
Figure BDA0003567476230000055
由此可得
Figure BDA0003567476230000056
同时,s1区域内目标变量取值为d1的对象所占比例为62/211=0.2939,s1区域内目标变量取值为d2的对象所占比例为36/211=0.1706,s2区域内目标变量取值为 d1的对象所占比例为21/211=0.0995,s2区域内目标变量取值为d2的对象所占比例为92/211=0.4360。因此
Figure BDA0003567476230000061
最终计算IN(d,S)=0.1077/0.6702=0.1606
(2)目标变量PRICE为连续值变量,其最大值和最小值分别为165和3.5。本实施实例中,首先将区间[3.5,165]划分为k=6个区间,分别为D1=[3.5,30.42)、 D2=[30.42,57.34)、D3=[57.34,84.26)、D4=[84.26,111.18)、D5=[111.18,138.1)、 D6=[138.1,165)。然后,将每个对象PRICE上的值映射到这6个区间上。例如,若对象x的PRICE的取d(x)为92,由于(92-3.5)×6/(165-3.5)在4和5之间,其取值改为D4。之后,对于每个子区域si使用下述公式
Figure BDA0003567476230000062
计算可得R(s1,d)=0.2076,R(s2,d)=0.1714。最后使用
Figure BDA0003567476230000063
计算S与d之间的扩展互信息Ic(d,S)=0.1428。
步骤4.进行置换检验。将所有对象的目标变量CITCOU和PRICE分别进行随机置换,基于置换后的数据,按照步骤3中的方法重新计算扩展互信息,我们将原始数据随机置换N=1000次,所有置换完成后,记录打乱之后的扩展互信息大于打乱之前的扩展互信息的次数N'=0,因此(N′+1)/(N+1)= 1/1001<0.01。
通过上述步骤可得,DWELL用以对CITCOU进行描述以及DWELL用以对PRICE进行描述时的空间分层异质性程度分别为0.1606和0.1428,且二者在置信度为0.01时,均统计显著。

Claims (1)

1.一种基于信息论的空间因子空间分层异质性强弱的评价方法,其特征在于:包括以下步骤:
步骤1.根据条件因子S将目标地理区域划分为m个互不相交的子区域,分别为s1,s2,...,sm;其中每个子区域内所有对象在条件因子S上的取值完全相同;记
Figure FDA0003567476220000011
为子区域si内对象个数所占比例,其中|si|为si子区域内对象个数,n为目标地理区域内所有对象的总数;
步骤2.获取目标地理区域内所有n个对象在目标变量d上的测量值,此时目标地理区域内每个对象上有一个其所属子区域的描述以及其目标变量一个测量值;
步骤3.根据目标变量d的测量值以及条件因子S构建的m个互不相交的子区域,计算S与d之间的扩展互信息,具体计算方法为:
(1)若目标变量d为名义变量,则使用公式
Figure FDA0003567476220000012
计算S与d的扩展互信息;其中,I(d,S)为目标变量d与条件因子S的互信息,H(d)为目标变量d的信息熵;具体的若n个对象在d上的可能取值有w种,这w种取值记为d1,d2,...,dw,且其所占比例分别为
Figure FDA0003567476220000013
Figure FDA0003567476220000014
同时,记
Figure FDA0003567476220000015
为si区域内目标变量取值为di的对象的个数与该区域所有对象的个数比值,则
Figure FDA0003567476220000016
(2)若目标变量d为连续值变量,则首先将目标变量d在所有对象上的最大值和最小值分别记为Maxd和Mind,并将区间[Mind,Maxd]等分为k个区间,记为D1,...,Dk;对于目标地理区域胡每个对象x,若其在d上的取值d(x)满足i<(d(x)-Mind)×k/(Maxd-Mind)≤i+1,则对象x在d上的取值位于区间Di;当所有对象处理结束后,分别计算每个区间中的对象个数与所有对象个数的比值,并记为
Figure FDA0003567476220000021
并且在每个子区域si中计算每个区间中的对象个数与该子区域内所有对象个数的比值,并记为
Figure FDA0003567476220000022
随后,对于每个分区si计算
Figure FDA0003567476220000023
最后使用
Figure FDA0003567476220000024
计算S与d之间的扩展互信息;
步骤4.将原始数据随机置换N次,在每次置换中,首先随机置换所有对象在目标变量d上的取值,然后按照步骤3中的方法计算S与d之间的扩展互信息;所有置换完成后,使用公式(N′+1)/(N+1)计算S与d之间的扩展互信息的统计显著性,其中,N'为所有置换中出现置换后扩展互信息大于等于原始数据扩展互信息的次数;
步骤5.S与d之间的扩展互信息及(N′+1)/(N+1)即可用以度量S因子对于目标变量的空间分层异质性程度。
CN202210309651.3A 2022-03-28 2022-03-28 一种基于信息论的空间因子空间分层异质性强弱的评价方法 Active CN115048617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210309651.3A CN115048617B (zh) 2022-03-28 2022-03-28 一种基于信息论的空间因子空间分层异质性强弱的评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210309651.3A CN115048617B (zh) 2022-03-28 2022-03-28 一种基于信息论的空间因子空间分层异质性强弱的评价方法

Publications (2)

Publication Number Publication Date
CN115048617A true CN115048617A (zh) 2022-09-13
CN115048617B CN115048617B (zh) 2024-04-12

Family

ID=83158207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210309651.3A Active CN115048617B (zh) 2022-03-28 2022-03-28 一种基于信息论的空间因子空间分层异质性强弱的评价方法

Country Status (1)

Country Link
CN (1) CN115048617B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3021538A1 (en) * 2015-06-11 2016-12-15 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Systems and methods for finding regions of interest in hematoxylin and eosin (h&e) stained tissue images and quantifying intratumor cellular spatial heterogeneity in multiplexed/hyperplexed fluorescence tissue images
WO2018214675A1 (zh) * 2017-05-24 2018-11-29 大连理工大学 一种量化分析城市建成环境对道路行程时间影响的方法
CN108959192A (zh) * 2018-06-27 2018-12-07 中国科学院地理科学与资源研究所 一种基于模拟退火的地理探测器最优离散化方法
CN112734616A (zh) * 2021-01-11 2021-04-30 云南省测绘资料档案馆(云南省基础地理信息中心) 一种滑坡敏感性分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3021538A1 (en) * 2015-06-11 2016-12-15 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Systems and methods for finding regions of interest in hematoxylin and eosin (h&e) stained tissue images and quantifying intratumor cellular spatial heterogeneity in multiplexed/hyperplexed fluorescence tissue images
WO2018214675A1 (zh) * 2017-05-24 2018-11-29 大连理工大学 一种量化分析城市建成环境对道路行程时间影响的方法
CN108959192A (zh) * 2018-06-27 2018-12-07 中国科学院地理科学与资源研究所 一种基于模拟退火的地理探测器最优离散化方法
CN112734616A (zh) * 2021-01-11 2021-04-30 云南省测绘资料档案馆(云南省基础地理信息中心) 一种滑坡敏感性分析方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAOJUN WANG ET AL.: "Spatial Heterogeneity Analysis: Introducing a New Form of Spatial Entropy", 《ENTROPY》, vol. 20, no. 6, 23 May 2018 (2018-05-23) *
JIN-FENG WANG ET AL.: "A measure of spatial stratified heterogeneity", 《ECOLOGICAL INDICATORS》, vol. 67, 31 August 2016 (2016-08-31), pages 250 - 256 *
刘姗;杜明义;谢张林;: "基于信息熵的华北地区雨量站点分区", 环球人文地理, no. 09, 28 May 2017 (2017-05-28), pages 20 - 21 *

Also Published As

Publication number Publication date
CN115048617B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
Goyal et al. Identification of homogeneous rainfall regimes in Northeast Region of India using fuzzy cluster analysis
Shao et al. Community detection based on distance dynamics
Maletić et al. Persistent topological features of dynamical systems
Bargiela et al. Multiple regression with fuzzy data
Silva et al. Quantifying the interdisciplinarity of scientific journals and fields
Wang et al. A data-driven network analysis approach to predicting customer choice sets for choice modeling in engineering design
Chen Equivalent relation between normalized spatial entropy and fractal dimension
CN109541172A (zh) 土壤属性值的计算方法及装置
Terzi Monthly Rainfall Estimation Using Data‐Mining Process
Yu et al. The analysis and measurement of building patterns using texton co-occurrence matrices
Kanishka et al. Streamflow estimation in ungauged basins using watershed classification and regionalization techniques
Roushangar et al. Identifying complexity of annual precipitation variation in Iran during 1960–2010 based on information theory and discrete wavelet transform
Ghimire et al. Insights on streamflow predictability across scales using horizontal visibility graph based networks
Shi et al. A spatial anomaly points and regions detection method using multi‐constrained graphs and local density
Peptenatu et al. A new fractal index to classify forest fragmentation and disorder
Dehghanian et al. Performance evaluation of a fuzzy hybrid clustering technique to identify flood source areas
Mooney et al. Using complex networks to model two‐and three‐dimensional soil porous architecture
Kim et al. Quantifying climate internal variability using an hourly ensemble generator over South Korea
CN115048617A (zh) 一种基于信息论的空间因子空间分层异质性强弱的评价方法
Dungan Focusing on feature-based differences in map comparison
Ayala-Cabrera et al. GPR data analysis using multi-agent and clustering approaches: A tool for technical management of water supply systems
Rolim et al. Exploring spatiotemporal chaos in hydrological data: evidence from Ceará, Brazil
Yin et al. A hybrid method for fast detection of spatial disease clusters in irregular shapes
Blair et al. ModelingThree‐Dimensional Microstructure in Heterogeneous Media
Bhatti et al. 1.14 Spatial Metrics: The Static and Dynamic Perspectives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant