CN108959192A - 一种基于模拟退火的地理探测器最优离散化方法 - Google Patents

一种基于模拟退火的地理探测器最优离散化方法 Download PDF

Info

Publication number
CN108959192A
CN108959192A CN201810678269.3A CN201810678269A CN108959192A CN 108959192 A CN108959192 A CN 108959192A CN 201810678269 A CN201810678269 A CN 201810678269A CN 108959192 A CN108959192 A CN 108959192A
Authority
CN
China
Prior art keywords
breakpoint
statistic
vector
detector
geographical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810678269.3A
Other languages
English (en)
Inventor
徐成东
王劲峰
邢丁凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences Beijing
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
China University of Geosciences Beijing
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences Beijing, Institute of Geographic Sciences and Natural Resources of CAS filed Critical China University of Geosciences Beijing
Priority to CN201810678269.3A priority Critical patent/CN108959192A/zh
Publication of CN108959192A publication Critical patent/CN108959192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于模拟退火的地理探测器最优离散化方法,其步骤为:第一步确定分层(stratified)数目、解释变量和被解释变量,第二步根据分层数目和解释变量,初始化断点向量,并计算初始地理探测器q统计量,第三步以获取最大的地理探测器q统计量为目标,使用模拟退火算法优化断点向量,第四步输出经模拟退火算法优化后得到的断点向量和其所对应的地理探测器q统计量,进而能用于更好的探测驱动因子。本发明具有实用性广、计算精度高、对异常值不敏感等优点,适用于地理、社会、生物等诸多领域。

Description

一种基于模拟退火的地理探测器最优离散化方法
技术领域
本发明涉及一种基于模拟退火的地理探测器最优离散化方法,属于地球空间信息技术领域。
背景技术
空间分异性是自然和社会经济过程的空间表现,是人类认识自然的重要途径。空间分层异质性是指层内方差小于层间方差的现象,它反映了自然或社会过程中潜在的驱动力或地理空间现象,空间分层异质性的度量和建模是地学的基石之一(王劲峰和徐成东,2017)。
地理探测器是一种测量空间分层异质性并解释其背后驱动力的新方法,地理探测器q统计量能有效反映并量化解释变量和被解释变量之间的关系。地理探测器q统计量方法要求解释变量应为离散型变量(Wang,Li et al.2010),如果解释变量是连续的,例如地面温度、降雨量、植被覆盖指数等,则应在使用地理探测器之前通过分类算法或先验知识等对数据进行离散化。地理探测器自提出后,已广泛应用于社会、地理、卫生、农业等多个领域,但现在仍然没有有效的方法对输入的连续变量进行离散化,而离散化后的类型量却是这个方法中的关键参数(Wang,Zhang et al.2016)。
目前现有的常用的分类方法有等间隔、分位数、自然断点法、k-means等方法。等间隔方法将数据的范围划分为指定的相等子范围,断点根据数据范围确定,不考虑每个间隔的数目。当数据分布不均匀时,该方法不能有效揭示变量间关系(Cao,Ge et al.2013);分位数方法将连续数据划分为指定的类,每个类具有相同的数据个数,并且不考虑数据的分布,该方法不适用于非线性分布数据(Murray and Shyy 2000);自然断点法划分的标准是使每个层内的平均方差最小,使层间的方差更大。当数据是非线性分布时,该方法比大多数传统方法更为适用;k-means算法以K簇的初始分区开始,通过将对象分配给初始定义的簇来最小化均方误差,但其不确定性较大,最终结果可能并非全局最优解(Jain 2008)。
以上方法尽管在许多领域都有广泛应用,但它们只是在对单变量进行离散化时表现良好,而在空间异质性建模方面,因为这些传统方法在对解释变量进行离散化时,没有考虑解释变量和被解释变量之间的关系,所以效率较低,此外,这些方法不能用来探测空间分异性并给出其显著性检验。
整体而言,传统的分类方法可以用来离散化连续型数据,但它们只是针对对象的空间位置或空间属性进行离散化,并没有考虑解释变量之间的关联及其决定因素,因而无法探测空间分异性并揭示其背后驱动因子。
发明内容
本发明解决的技术问题:克服现有技术未考虑解释变量和被解释变量之间的关系且不能探测空间分异性并给出其显著性检验的不足,提供一种基于模拟退火的地理探测器最优离散化方法,能够得到既考虑解释变量与被解释变量之间的关系,又能够探测空间分异性并给出其显著性检验的最佳分层方式,提高地理探测器q统计量。
本发明的技术方案:一种基于模拟退火的地理探测器最优离散化方法,包括如下步骤:
步骤1、首先确定待离散的解释变量X,确定被解释变量Y,X和Y均为连续型数据;根据实际使用需求,自定义分层数d,作为最终解释变量X离散化后的层数;
步骤2、初始化断点向量,从X中随机抽取d-1个数值,记为初始断点向量V1,然后根据断点向量V1对X进行分层,并保证分层后每层至少有两个数值,使用X的断点向量V1对应到被解释变量Y,进而得到Y的分层,利用Y的分层计算初始地理探测器q统计量q(o)
步骤3、以获取最大的地理探测器q统计量为目标,使用模拟退火算法优化断点向量,在每一次的优化中,从X中的数值中排除掉已被选择过的断点,在X余下的数值中选择新的断点向量,记为Vi+1,计算新的地理探测器q统计量q(n),结合模拟退火算法中的Metropolis准则判断是否接受新断点向量,从而不断循环寻找最优断点向量和最大的地理探测器q统计量,最终得到最优断点向量及其所对应的最大地理探测器q统计量;其中,如果根据断点划分的某层的数值个数少于2个,则所述断点将不会被采用,继而重复步骤3,以寻找到满足条件的最优断点;
步骤4、输出经优化后得到的最优断点向量和其所对应的最大地理探测器q统计量。
步骤2和步骤3中,使用模拟退火算法对解释变量X选择优化的断点向量后,使用优化后的断点向量决定被解释变量Y中的分层,利用分层后的Y计算地理探测器q统计量。
步骤2和步骤3中,在对解释变量X进行分层时,每个层内的数值个数应大于或等于2;在步骤3中,使用模拟退火算法寻找最优断点向量时,以地理探测器q统计量最大为目标。
本发明与传统技术相比的优点在于:本发明同时考虑解释变量与被解释变量之间的相互作用关系,对连续数据进行最优离散化。与传统方法相比,此算法利用地理探测器q统计量作为离散化结果评判指标,能更好的实现连续数据的离散化,能有效探测空间分异性;更为重要的是,根据本发明得到的地理探测器q统计量较之传统方法,值更高,说明它能更大程度探测出因子之间的关系。
附图说明
图1为本发明的实现流程图;
图2为本发明提供的模拟退火算法优化过程图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明的具体实施步骤如下:
步骤1、确定待离散的解释变量X和被解释变量Y,X和Y均为连续型数据且无缺失值及除数字之外的其他符号;根据实际使用需求,自定义分层数d输入算法中,作为最终连续数据离散化后的层数。例如用户将解释变量X分为5类,则算法将输出4个断点用来离散X。
步骤2、初始化断点向量,从解释变量X中随机抽取d-1个断点,记为断点向量V1,然后将解释变量X根据随机抽取的断点进行分层,并保证每层内至少有两个数值,使用X的断点向量V1对应到被解释变量Y,进而得到Y的分层,利用Y的分层计算地理探测器q统计量,记为q(o)
地理探测器的q统计量计算公式如下:
SST=Nσ2
其中,h=1,2…L是解释变量的层;Nh和N分别为h层和整个区域中的观测值的个数;SSW和SST分别是层内方差之和和全区总方差。地理探测器q统计量表示了解释变量能够解释被解释变量的q×100%。q统计量越大,两个变量之间的线性或非线性关系越强。q的取值范围在区间[0,1]之间,q=1表示被解释变量完全由解释变量决定,q=0意味着两变量之间没有关联。
步骤3、以获取最大的地理探测器q统计量为目标,使用模拟退火算法优化断点向量,如图2所示。在每一次的优化中,从X中的数值中排除掉已被选择过的断点,在X余下的数值中选择与前一个断点向量中的值较为接近的断点,记为Vi+1;使用r/n表示V1和Vi+1之间的细微的差别,其中r是服从正态分布的随机数,在本方法中,n定义为5,计算新的地理探测器q统计量,记为q(n),如果q(n)>q(o),则接受Vi+1并将其分配给已定义的空向量,使之成为下一个循环中的旧断点向量;如果q(n)<=q(o),根据模拟退火算法中的Metropolis准则来接受或拒绝新的断点向量,Metropolis准则可表示为:
其中,Δq=q(n)-q(o),K是玻尔兹曼常数,T表示温度,它根据一定速率逐渐下降。
本发明根据该准则,在0和1之间取一个随机数ξ,如果ξ<exp(q(n)-q(o)/K*T),则接受Vi+1,如果ξ>=exp(q(n)-q(o)/K*T),拒绝Vi+1,并返回到第二步重新开始。将该步骤中,接受次数达到20次或尝试了300个新的断点之后,减小T并继续开始循环寻找全局最优断点向量,定义初始T为1,T的下降速率为0.99,当T下降到10-8时,或拒绝的次数大于500次时,循环终止,停止最佳断点向量和最大的地理探测器q统计量的寻找;否则返回步骤2,重新开始。
其中需要注意的是,因为地理探测器q统计量的计算公式必须保证每层中至少有两个样本点,所以如果根据断点划分的某层的数值少于两个,那么,该断点将不会被采用,继而重复步骤3,以寻找到满足条件的最优断点。
步骤4、以逗号分隔值文件(.csv)的形式输出经优化后得到的断点,同时输出根据该断点分层后计算出的地理探测器q统计量。
本发明未详细阐述部分属于本领域技术人员的公知技术。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (3)

1.一种基于模拟退火的地理探测器最优离散化方法,其特征在于,步骤如下:
步骤1、首先确定待离散的解释变量X,选定被解释变量Y,X和Y均为连续型数据;根据实际使用需求,自定义分层数目d,作为解释变量X离散化后的层数;
步骤2、初始化断点向量,从X中随机抽取d-1个数值,记为初始断点向量V1,然后根据断点向量V1对X进行分层,并保证分层后每层至少有两个数值,使用X的断点向量V1对应到被解释变量Y,进而得到Y的分层,利用Y的分层计算初始地理探测器q统计量q(o)
步骤3、以获取最大的地理探测器q统计量为目标,使用模拟退火算法优化断点向量;在每一次的优化中,从X中的数值中排除掉已被选择过的断点,然后在X余下的数值中选择新的断点向量,记为Vi+1,计算新的地理探测器q统计量q(n),结合模拟退火算法中的Metropolis准则判断是否接受新断点向量,从而不断循环寻找最优断点向量和最大的地理探测器q统计量,得到最优断点向量及其所对应的最大地理探测器q统计量;其中,如果根据断点划分的某层的数值个数少于2个,则所述断点将不会被采用,继而重复步骤3,以寻找到满足条件的最优断点;
步骤4、输出经优化后得到的最优断点向量和其所对应的最大地理探测器q统计量。
2.根据权利要求1所述的一种基于模拟退火的地理探测器最优离散化方法,其特征在于:步骤2和步骤3中,采用模拟退火算法对X的断点向量进行优化,使用优化后的断点向量决定被解释变量Y中的分层,利用分层后的Y计算地理探测器q统计量;在步骤3中,利用地理探测器q统计量作为离散化结果的评判指标。
3.根据权利要求1或2所述的一种基于模拟退火的地理探测器最优离散化方法,其特征在于:步骤2和步骤3中,在对连续变量X进行分层时,每个层内的数值个数应大于或等于2;在步骤3中,使用模拟退火算法寻找最优断点向量时,以地理探测器q统计量最大为目标。
CN201810678269.3A 2018-06-27 2018-06-27 一种基于模拟退火的地理探测器最优离散化方法 Pending CN108959192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810678269.3A CN108959192A (zh) 2018-06-27 2018-06-27 一种基于模拟退火的地理探测器最优离散化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810678269.3A CN108959192A (zh) 2018-06-27 2018-06-27 一种基于模拟退火的地理探测器最优离散化方法

Publications (1)

Publication Number Publication Date
CN108959192A true CN108959192A (zh) 2018-12-07

Family

ID=64487023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810678269.3A Pending CN108959192A (zh) 2018-06-27 2018-06-27 一种基于模拟退火的地理探测器最优离散化方法

Country Status (1)

Country Link
CN (1) CN108959192A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183962A (zh) * 2020-09-11 2021-01-05 中国地质大学(武汉) 一种基于地理探测器的流域水污染风险因子分析方法
CN113190985A (zh) * 2021-04-21 2021-07-30 北京农业信息技术研究中心 一种分层异质区域内数据误差的分析方法及系统
CN115048617A (zh) * 2022-03-28 2022-09-13 山西大学 一种基于信息论的空间因子空间分层异质性强弱的评价方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183962A (zh) * 2020-09-11 2021-01-05 中国地质大学(武汉) 一种基于地理探测器的流域水污染风险因子分析方法
CN112183962B (zh) * 2020-09-11 2022-07-19 中国地质大学(武汉) 一种基于地理探测器的流域水污染风险因子分析方法
CN113190985A (zh) * 2021-04-21 2021-07-30 北京农业信息技术研究中心 一种分层异质区域内数据误差的分析方法及系统
CN115048617A (zh) * 2022-03-28 2022-09-13 山西大学 一种基于信息论的空间因子空间分层异质性强弱的评价方法
CN115048617B (zh) * 2022-03-28 2024-04-12 山西大学 一种基于信息论的空间因子空间分层异质性强弱的评价方法

Similar Documents

Publication Publication Date Title
CN108764663B (zh) 一种电力客户画像生成管理的方法及系统
CN108959192A (zh) 一种基于模拟退火的地理探测器最优离散化方法
US8392352B2 (en) Creation of neuro-fuzzy expert system from online analytical processing (OLAP) tools
Njong et al. Characterizing weights in the measurement of multidimensional poverty: An application of data-driven approaches to Cameroonian data
CN105160149B (zh) 一种模拟调峰机组的需求响应调度评估体系构建方法
CN107423754B (zh) 一种基于参数多属性自主智能决策的辐射源自动识别系统
CN101320449A (zh) 基于组合评价方法的配电网评估方法
CN109902741A (zh) 一种制冷系统故障诊断方法
CN105005711A (zh) 获取统计线损的方法及装置
CN105913366A (zh) 一种基于工业电力大数据的区域工业景气指数构建方法
CN113888005A (zh) 一种建筑设计动态流程管理系统及方法
Desjardins et al. Interactive visual clustering
Mojaheed et al. Using ELECTRE-AHP as a mixed method for personnel selection
Hong et al. Comprehensive evaluation of the technology innovation capability of China’s high-tech industries based on fuzzy borda combination method
CN114626655A (zh) 一种区域综合能源系统多标准综合评价方法
Chen et al. Port strategic alliance partner selection using grey target model based on error propagation and vertical projection distance
CN108846746A (zh) 一种结合离散统计和极限学习机的碳交易行为建模方法
Kavitha et al. Implementation of fuzzy multi criteria decision technique to identify the best location for call center
CN112733943A (zh) 一种基于数据混剪技术的热泵故障诊断模型迁移方法
CN108021623B (zh) 一种提高地图符号赋权客观性的方法及系统
Wu et al. ITARA and ELECTRE III three-way decision model in the spherical fuzzy environment and its application in customer selection
Fang et al. Prediction method of coincident design day for design cooling load calculation
CN110598973A (zh) 一种基于iap的绿色家具产品认证过程风险评价方法
Zekić-Sušac Machine learning in energy consumption management
Wang et al. Improving user interaction in mobile-cloud database query processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication