CN112632407A - 一种顾及地理环境异质性的空间抽样方法 - Google Patents

一种顾及地理环境异质性的空间抽样方法 Download PDF

Info

Publication number
CN112632407A
CN112632407A CN202011505590.5A CN202011505590A CN112632407A CN 112632407 A CN112632407 A CN 112632407A CN 202011505590 A CN202011505590 A CN 202011505590A CN 112632407 A CN112632407 A CN 112632407A
Authority
CN
China
Prior art keywords
environment
geographic
spatial
point
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011505590.5A
Other languages
English (en)
Other versions
CN112632407B (zh
Inventor
杨文涛
单良
欧旦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Science and Technology
Original Assignee
Hunan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Science and Technology filed Critical Hunan University of Science and Technology
Priority to CN202011505590.5A priority Critical patent/CN112632407B/zh
Publication of CN112632407A publication Critical patent/CN112632407A/zh
Application granted granted Critical
Publication of CN112632407B publication Critical patent/CN112632407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/40Monitoring or fighting invasive species

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种顾及地理环境异质性的空间抽样方法,涉及地理、生态与计算科学等多学科交叉技术领域,解决两个问题:(1)随机空间负样本抽样方法没有顾及地理环境的异质性,而地理环境差异是空间抽样时需要考虑的一个重要因素;(2)现有的随机采样方式,会抽取到潜在的物种入侵点,即正样本,从而直接影响入侵物种空间分布预测精度。本申请提供了一种顾及地理环境异质性的空间抽样方法,该方法顾及空间点事件正、负样本采集的地理环境特征的差异性,解决了负样本随机空间抽样可能误采样到正样本点的难题。

Description

一种顾及地理环境异质性的空间抽样方法
技术领域
本发明涉及地理、生态与计算科学等多学科交叉技术领域,特别涉及一种顾及地理环境异质性的空间抽样方法。
背景技术
地理过程或现象的突变或质变往往发生于有限的时空范围内,通常以空间点事件进行抽象表达,例如:生物入侵空间点事件、犯罪空间点事件、滑坡空间点事件等,如何准确预测空间点事件是地理、生态与计算科学等多学科交叉研究热点。
通过收集历史上空间点事件与未出现点事件的地理环境信息,建立空间点事件分布与地理环境变量间的关联关系是空间点事件预测的常用策略。然而,现有数据库中往往只记录了点事件发生的位置信息(正样本点),缺乏点事件不会发生点的位置信息(负样本点)。空间随机抽样是生成负样本点主要技术手段,即通过已知正样本点缓冲区来定义正样本区,在缓冲区外的进行随机空间点样本抽样,该技术假设:与点事件发生空间位置越邻近的区域越可能发生相同的点事件。然而,当缓冲区或邻近区域内存在较大的环境差异,不考虑环境特征而直接假定缓冲区中均为正样本可能存在一定偏差;同时,在缓冲区之外进行空间随机抽样,同样因不考虑到地理环境特征可能误采样到潜在正样本信息,从而导致入侵物种的空间分布预测的可靠性。
现有空间抽样技术中存在如下问题:(1)随机空间负样本抽样方法没有顾及地理环境的异质性,而地理环境差异是空间抽样时需要考虑的一个重要因素;(2)现有的随机采样方式,会抽取到潜在的物种入侵点,即正样本,从而直接影响入侵物种空间分布预测精度。
为了解决上述技术问题,本申请提供的一种顾及地理环境异质性的空间抽样方法,该方法顾及空间点事件正、负样本采集的地理环境特征的差异性,解决了负样本随机空间抽样可能误采样到正样本点的难题。
发明内容
本发明的目的在于提供一种顾及地理环境异质性的空间抽样方法,该方法顾及空间点事件正、负样本采集的地理环境特征的差异性,解决了负样本随机空间抽样可能误采样到正样本点的难题。
本发明提供了一种顾及地理环境异质性的空间抽样方法,包括以下步骤:
S1:将研究区离散格网化,检验每个网格中是否存在地理环境变量观测值,若不存在,则利用反距离加权的空间插值方法进行补全,保证每个格网中均存在地理环境变量观测值;
S2:对收集到的正样本点对应的地理环境变量观测值进行基于主成分分析的降维处理,累计方差贡献率大于80%对应的前p个主成分识别为该研究区地理环境特征;
S3:根据地理环境特征得出整个研究区与负样本区的极差比例,确定每个地理环境特征的权重,并通过对地理环境特征归一化加权操作构建地理环境加权特征空间;
S4:通过空间随机抽样技术生成采样点,在地理环境加权特征空间中,利用共享邻近的异常统计指标度量候选负样本点与正样本点的地理环境异质性,异常度大于给定阈值的采样点选为负样本点;
S5:若需要生成R个负样本点,重复步骤S4,直至产生R个随机且不重复的选取负样本点,且选取负样本点的异常度大于设定的阈值,即获取到R个顾及地理环境特征的负样本点。
进一步地,所述步骤S2具体包括:
S21:对n个正样本点,每个正样本点有m个地理环境变量观测值的原始矩阵X,用
Figure BDA0002844831480000031
维矩阵表示为:
Figure BDA0002844831480000032
对矩阵X进行中心标准化处理得到
Figure BDA0002844831480000033
维标准化矩阵X*,其中:
Figure BDA0002844831480000034
式中,i=1,2,…,n;j=1,2,…,m;
Figure BDA0002844831480000035
sj分别为第j个环境变量的均值和方差;
S22:通过标准化矩阵X*建立
Figure BDA0002844831480000036
维相关矩阵R,即:
R=X*TX*/(N-1) (3)
并计算满足
Figure BDA0002844831480000037
的特征值λ1≥λ2≥…≥λm与对应的
Figure BDA0002844831480000038
维特征向量μ1,μ2,…,μm;
S23:依据累计方差贡献率确定主成分个数,累计方差贡献率可以表示为:
Figure BDA0002844831480000039
累计方差贡献率大于80%对应的前p,p≤m个主成分用于表示原始m个地理环境变量,主成分的个数为p,p个主成分对应的
Figure BDA00028448314800000310
维特征向量矩阵为U=[μ1,μ2,…,μp],则原始m个地理环境变量值可以通过矩阵运算转换为p维地理环境特征值:
Figure BDA00028448314800000311
其中,zk(i),i=1,2,…,n;k=1,2,…,p表示第i个正样本点的第k个环境特征值;zk为第k个环境特征。
进一步地,所述步骤S3具体包括:
S31:计算第k个环境特征zk的权重w(k),表达式如下:
Figure BDA00028448314800000312
其中,max(zk,PA)与max(zk,SA)分别为第k个环境特征在整个研究区与正样本中的最大值,min(zk,PA)与min(zk,SA)分别为第k个环境特征在整个研究区与正样本中的最小值;
S32:计算样本点在环境加权特征向量值
Figure BDA0002844831480000041
其中:
Figure BDA0002844831480000042
其中,
Figure BDA0002844831480000043
为第i个正样本的第k个环境加权特征值;
S33:计算第i个正样本与第s,s=1,2,…,n,s≠i个正样本在环境加权特征空间中的距离:
Figure BDA0002844831480000044
对Dis(i,s)从小到大排序,选择第L小的距离值,将该值定义为第i个正样本的L近邻距离L-dis(i)。
进一步地,所述步骤S4具体包括:
S41:通过空间随机采样生成o点,根据o的空间位置信息提取该点的地理环境变量值[x1(o),...,xm(o)],并基于公式(5)计算出该采样点p维环境特征向量值:
Figure BDA0002844831480000045
依据公式(7)的运算生成空间样本点o在环境加权特征映射中向量值
Figure BDA0002844831480000046
Figure BDA0002844831480000047
S42:计算空间样本点o与其它n个正样本点在环境加权特征空间中的距离:
Figure BDA0002844831480000048
S43:对Dis(o,i),i=1,2,…,n从小到大进行排序,选择到o点距离最小的L个正样本点集,即q1,q2,…,qk,统计Dis(o,q),q=q1,…,qk,小于L-dis(q)的个数,并设为T,T表示与p互为L近邻的正样本数目;
S44:计算采样点o的异常度D=(L-T)/L,D的取值范围为[0,1],设定阈值判断D是否为负样本空间采样点。
与现有技术相比,本发明具有如下显著优点:
本发明提出的一种顾及地理环境异质性的空间抽样方法,充分考虑了空间点事件的地理环境特征,主要技术优点如下:
1)顾及地理环境特征以及贡献度,增强了本发明的实用性;
2)地理环境特征下的共享近邻的异常探测方法,科学的识别潜在的负样本空间数据,提高负样本空间采样准确度。
附图说明
图1为本发明实施例提供的一种顾及地理环境异质性的空间抽样方法的整体结构流程图;
图2为本发明实施例提供的气象站与一年蓬生物入侵点分布图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参照图1-2,本发明提供了一种顾及地理环境异质性的空间抽样方法,包括以下步骤:
S1:将研究区离散格网化,即划分为相同大小的正方形网格,检验每个网格中是否存在地理环境变量观测值,若不存在,则利用反距离加权的空间插值方法进行补全,保证每个格网中均存在地理环境变量观测值;
S2:对收集到的正样本点对应的地理环境变量观测值进行基于主成分分析的降维处理,累计方差贡献率大于80%对应的前p个主成分识别为该研究区地理环境特征;
S3:根据地理环境特征得出整个研究区与负样本区的极差比例,确定每个地理环境特征的权重,并通过对地理环境特征归一化加权操作构建地理环境加权特征空间;
S4:通过空间随机抽样技术生成采样点,在地理环境加权特征空间中,利用共享邻近的异常统计指标度量候选负样本点与正样本点的地理环境异质性,异常度大于给定阈值的采样点选为负样本点;
S5:若需要生成R个负样本点,重复步骤S4,直至产生R个随机且不重复的选取负样本点,且选取负样本点的异常度大于设定的阈值,即获取到R个顾及地理环境特征的负样本点。
实施例1
所述步骤S2具体包括:
S21:对n个正样本点,每个正样本点有m个地理环境变量观测值的原始矩阵X,用
Figure BDA0002844831480000061
维矩阵表示为:
Figure BDA0002844831480000062
对矩阵X进行中心标准化处理得到
Figure BDA0002844831480000063
维标准化矩阵X*,其中:
Figure BDA0002844831480000064
式中,i=1,2,…,n;j=1,2,…,m;
Figure BDA0002844831480000065
sj分别为第j个环境变量的均值和方差;
S22:通过标准化矩阵X*建立
Figure BDA0002844831480000066
维相关矩阵R,即:
R=X*TX*/(N-1) (3)
并计算满足
Figure BDA0002844831480000067
的特征值λ1≥λ2≥…≥λm与对应的
Figure BDA0002844831480000068
维特征向量μ1,μ2,…,μm;
S23:依据累计方差贡献率确定主成分个数,累计方差贡献率可以表示为:
Figure BDA0002844831480000071
累计方差贡献率大于80%对应的前p(p≤m)个主成分用于表示原始m个地理环境变量,主成分的个数为p,p个主成分对应的
Figure BDA0002844831480000072
维特征向量矩阵为U=[μ1,μ2,…,μp],则原始m个地理环境变量值可以通过矩阵运算转换为p维地理环境特征值:
Figure BDA0002844831480000073
其中,zk(i)(i=1,2,…,n;k=1,2,…,p)表示第i个正样本点的第k个环境特征值;zk为第k个环境特征。
实施例2
所述步骤S3具体包括:
S31:计算第k个环境特征zk的权重w(k),表达式如下:
Figure BDA0002844831480000074
其中,max(zk,PA)与max(zk,SA)分别为第k个环境特征在整个研究区与正样本中的最大值,min(zk,PA)与min(zk,SA)分别为第k个环境特征在整个研究区与正样本中的最小值;
S32:计算样本点在环境加权特征向量值
Figure BDA0002844831480000075
其中:
Figure BDA0002844831480000076
其中,
Figure BDA0002844831480000077
为第i个正样本的第k个环境加权特征值;
S33:计算第i个正样本与第s(s=1,2,…,n,s≠i)个正样本在环境加权特征空间中的距离:
Figure BDA0002844831480000078
对Dis(i,s)从小到大排序,选择第L小的距离值,将该值定义为第i个正样本的L近邻距离L-dis(i)。
实施例3
所述步骤S4具体包括:
S41:通过空间随机采样生成o点,根据o的空间位置信息提取该点的地理环境变量值[x1(o),...,xm(o)],并基于公式(5)计算出该采样点p维环境特征向量值:
Figure BDA0002844831480000081
依据公式(7)的运算生成空间样本点o在环境加权特征映射中向量值
Figure BDA0002844831480000082
Figure BDA0002844831480000083
S42:计算空间样本点o与其它n个正样本点在环境加权特征空间中的距离:
Figure BDA0002844831480000084
S43:对Dis(o,i)(i=1,2,…,n)从小到大进行排序,选择到o点距离最小的L个正样本点集,即q1,q2,…,qk,统计Dis(o,q)(q=q1,…,qk,)小于L-dis(q)的个数,并设为T,T表示与p互为L近邻的正样本数目;
S44:计算采样点o的异常度D=(L-T)/L,异常度反映了随机采样点o与正样本数据在地理环境加权空间中邻近程度,D的取值范围为[0,1],D值越大,表示D的异常度越高,o点与正样本集的地理环境差异越大,该样本越有可能为潜在的负样本,设定阈值(如:0.80)判断D是否为负样本空间采样点。
实施例4
本发明适用于地理学、生态学与公共安全等诸多领域,如生物入侵、地质灾害以及犯罪空间点事件负样本生成等。本发明以生物入侵负样本生成为实施例进行说明。参照图2,实施例采用我国长江经济带区域内包含60个一年蓬入侵点正样本数据,地理环境变量全为气候变量,即1985~2015年长江经济带197个气象站点收集的11个气候变量数据,分别为:年平均气温、冷季平均温度、暖季平均温度、冷季平均湿度、暖季平均湿度、年平均降水量、月均气温日较差、最干月份平均湿度、最湿月份平均湿度、最湿月份平均温度以及最干月份平均温度。
步骤(1):将研究区划分为离散的格网点(格网的大小为
Figure BDA0002844831480000091
),由于气象站较为离散的分布在研究区,较多网格中不包含气象站点,需要对这些网格气象变量缺失值进行补充,利用空间插值方法中的反距离加权算法对整个研究区的气候变量值进行估计,并评价插值精度是否满足分析要求。表1给出了不同变量空间插值精度,可以发现相对误差大于10%的变量包括:最湿月份平均温度以及最干月份平均温度,这2个气候变量(地理环境变量)需要删除,剩余的9个气候变量(地理环境变量)参与后续分析,即:最湿月份平均温度、冷季平均温度、暖季平均温度、冷季平均湿度、暖季平均湿度、年平均降水量、月均气温日较差、最干月份平均湿度、最湿月份平均湿度。
表1地理环境变量空间插值精度
Figure BDA0002844831480000092
步骤(2):基于收集到60个一年蓬入侵点正样本数据,采用主成分分析对剩余9个地理环境变量降维分析,识别出该研究区地理环境特征,具体而言:
对60个正样本的9个地理环境变量值构成
Figure BDA0002844831480000093
维矩阵X:
Figure BDA0002844831480000094
对矩阵X进行中心标准化处理得到
Figure BDA0002844831480000095
维标准化矩阵X*,其中:
Figure BDA0002844831480000101
式中,i=1,2,…,60;j=1,2,…,9;
Figure BDA0002844831480000102
sj分别为第j个环境变量的均值和方差;
通过标准化矩阵X*建立
Figure BDA0002844831480000103
维相关矩阵R,即:
R=X*TX*/60 (3)
并计算满足
Figure BDA0002844831480000104
的特征值λ1≥λ2≥…≥λ9与对应的
Figure BDA0002844831480000105
维特征向量μ1,μ2,…,μ9。其中,λ1=0.482,λ2=0.102,λ3=0.095,λ4=0.082,λ5=0.076,λ6=0.068,λ7=0.043,λ8=0.033,λ9=0.019,由特征值可以计算其累计方差贡献率,结果如下:η1=48.2%,η2=58.4%,η3=67.9%,η4=76.1%,η5=83.7%,η6=90.5%,η7=94.8%,η8=98.1%,η9=100.0%。由于η5=83.7%大于80%,因此,主成分的个数为5,5个主成分对应的
Figure BDA0002844831480000106
维特征向量矩阵为U=[μ1,μ2,μ3,μ4,μ5],则原始9维地理环境向量值可以通过矩阵运算转换为5维环境特征向量;
Figure BDA0002844831480000107
其中,zk(i)(i=1,2,…,60;k=1,2,…,5)表示第i个正样本的第k个环境特征值;zk为第k个环境特征。
步骤(3):计算5个环境特征权重w(k),进而通过地理环境特征归一化以及其权重的组合构建环境加权特征空间,具体而言:
计算第k个环境特征权重w(k),表达式如下:
Figure BDA0002844831480000108
其中,详细参数计算结果列入表2。
表2地理环境参数与环境特征权重统计结果
Figure BDA0002844831480000109
Figure BDA0002844831480000111
对环境特征进行归一化处理后,并构建环境加权特征空间
Figure BDA0002844831480000112
Figure BDA0002844831480000113
Figure BDA0002844831480000114
其中,
Figure BDA0002844831480000115
为第k个环境加权特征。对60个已知的正样本,计算每个样本在环境加权特征空间中向量值
Figure BDA0002844831480000116
并计算第i个正样本与第s(s=1,2,…,60,s≠i)个正样本在环境加权特征空间中的距离:
Figure BDA0002844831480000117
对Dis(i,s)从小到大排序,选择第8(L=8)小的距离值,将该值定义为第i个正样本的8近邻距离L-dis(i)。
步骤(4):通过空间随机抽样技术生成采样点,在环境加权特征空间中,基于互为L近邻的异常指标度量候选负样本与正样本的地理环境异质性,异质性高的采样点样被判别为负样本,具体而言:
通过空间随机采样生成o点,根据o的空间位置信息提取该点所在网格的原始9个地理环境变量值
Figure BDA00028448314800001111
并基于降维公式(5)与映射公式(7)操作可以生成空间样本点o在环境加权特征映射中向量值
Figure BDA0002844831480000118
Figure BDA0002844831480000119
计算o与其它60个样本点在环境加权特征空间中的距离:
Figure BDA00028448314800001110
对Dis(o,i)(i=1,2,…,60)从小到大进行排序,选择到o点距离最小的8个正样本点集(2,8,12,24,29,36,41,54)。其中,Dis(o,2)<L-dis(2),Dis(o,8)>L-dis(8),Dis(o,12)>L-dis(12),Dis(o,24)>L-dis(24),Dis(o,29)>L-dis(29),Dis(o,36)>L-dis(36),Dis(o,41)>L-dis(41),Dis(o,54)>L-dis(54),
Dis(o,i)(i=1,2,…,60)小于L-dis(i)的个数为1,即:T=1,60个正样本中仅有1个与o互为8近邻,计算采样点o的异常度
Figure BDA0002844831480000121
异常值大于通过设定阈值(0.80)可以判断点o为有效负样本空间采样点。
步骤(5):若需要生成30个生物入侵负样本点,重复步骤(4),至到有30个随机且不重复选取负样本点的异常度大于设定的0.90,即获取到30个负样本空间采样点。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (4)

1.一种顾及地理环境异质性的空间抽样方法,其特征在于,包括以下步骤:
S1:将研究区离散格网化,检验每个网格中是否存在地理环境变量观测值,若不存在,则利用反距离加权的空间插值方法进行补全,保证每个格网中均存在地理环境变量观测值;
S2:对收集到的正样本点对应的地理环境变量观测值进行基于主成分分析的降维处理,累计方差贡献率大于80%对应的前p个主成分识别为该研究区地理环境特征;
S3:根据地理环境特征得出整个研究区与负样本区的极差比例,确定每个地理环境特征的权重,并通过对地理环境特征归一化加权操作构建地理环境加权特征空间;
S4:通过空间随机抽样技术生成采样点,在地理环境加权特征空间中,利用共享邻近的异常统计指标度量候选负样本点与正样本点的地理环境异质性,异常度大于给定阈值的采样点选为负样本点;
S5:若需要生成R个负样本点,重复步骤S4,直至产生R个随机且不重复的选取负样本点,且选取负样本点的异常度大于设定的阈值,即获取到R个顾及地理环境特征的负样本点。
2.如权利要求1所述的一种顾及地理环境异质性的空间抽样方法,其特征在于,所述步骤S2具体包括:
S21:对n个正样本点,每个正样本点有m个地理环境变量观测值的原始矩阵X,用
Figure FDA0002844831470000013
维矩阵表示为:
Figure FDA0002844831470000011
对矩阵X进行中心标准化处理得到
Figure FDA0002844831470000012
维标准化矩阵X*,其中:
Figure FDA0002844831470000021
式中,i=1,2,…,n;j=1,2,…,m;
Figure FDA0002844831470000022
sj分别为第j个环境变量的均值和方差;
S22:通过标准化矩阵X*建立
Figure FDA0002844831470000023
维相关矩阵R,即:
R=X*TX*/(N-1) (3)
并计算满足
Figure FDA0002844831470000024
的特征值λ1≥λ2≥…≥λm与对应的
Figure FDA0002844831470000025
维特征向量μ1,μ2,…,μm;
S23:依据累计方差贡献率确定主成分个数,累计方差贡献率可以表示为:
Figure FDA0002844831470000026
累计方差贡献率大于80%对应的前p,p≤m个主成分用于表示原始m个地理环境变量,主成分的个数为p,p个主成分对应的
Figure FDA0002844831470000027
维特征向量矩阵为U=[μ1,μ2,…,μp],则原始m个地理环境变量值可以通过矩阵运算转换为p维地理环境特征值:
Figure FDA0002844831470000028
其中,zk(i),i=1,2,…,n;k=1,2,…,p表示第i个正样本点的第k个环境特征值;zk为第k个环境特征。
3.如权利要求1所述的一种顾及地理环境异质性的空间抽样方法,其特征在于,所述步骤S3具体包括:
S31:计算第k个环境特征zk的权重w(k),表达式如下:
Figure FDA0002844831470000029
其中,max(zk,PA)与max(zk,SA)分别为第k个环境特征在整个研究区与正样本中的最大值,min(zk,PA)与min(zk,SA)分别为第k个环境特征在整个研究区与正样本中的最小值;
S32:计算样本点在环境加权特征向量值
Figure FDA00028448314700000210
其中:
Figure FDA0002844831470000031
其中,
Figure FDA0002844831470000032
为第i个正样本的第k个环境加权特征值;
S33:计算第i个正样本与第s,s=1,2,…,n,s≠i个正样本在环境加权特征空间中的距离:
Figure FDA0002844831470000033
对Dis(i,s)从小到大排序,选择第L小的距离值,将该值定义为第i个正样本的L近邻距离L-dis(i)。
4.如权利要求1所述的一种顾及地理环境异质性的空间抽样方法,其特征在于,所述步骤S4具体包括:
S41:通过空间随机采样生成o点,根据o的空间位置信息提取该点的地理环境变量值[x1(o),...,xm(o)],并基于公式(5)计算出该采样点p维环境特征向量值:
Figure FDA0002844831470000034
依据公式(7)的运算生成空间样本点o在环境加权特征映射中向量值
Figure FDA0002844831470000035
Figure FDA0002844831470000036
S42:计算空间样本点o与其它n个正样本点在环境加权特征空间中的距离:
Figure FDA0002844831470000037
S43:对Dis(o,i),i=1,2,…,n从小到大进行排序,选择到o点距离最小的L个正样本点集,即q1,q2,…,qk,统计Dis(o,q),q=q1,…,qk小于L-dis(q)的个数,并设为T,T表示与p互为L近邻的正样本数目;
S44:计算采样点o的异常度D=(L-T)/L,D的取值范围为[0,1],设定阈值判断D是否为负样本空间采样点。
CN202011505590.5A 2020-12-18 2020-12-18 一种顾及地理环境异质性的空间抽样方法 Active CN112632407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011505590.5A CN112632407B (zh) 2020-12-18 2020-12-18 一种顾及地理环境异质性的空间抽样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011505590.5A CN112632407B (zh) 2020-12-18 2020-12-18 一种顾及地理环境异质性的空间抽样方法

Publications (2)

Publication Number Publication Date
CN112632407A true CN112632407A (zh) 2021-04-09
CN112632407B CN112632407B (zh) 2022-10-14

Family

ID=75317375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011505590.5A Active CN112632407B (zh) 2020-12-18 2020-12-18 一种顾及地理环境异质性的空间抽样方法

Country Status (1)

Country Link
CN (1) CN112632407B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122144A1 (en) * 2017-10-25 2019-04-25 International Business Machines Corporation Regression for metric dataset
CN109918610A (zh) * 2019-02-25 2019-06-21 南京泛在地理信息产业研究院有限公司 基于地理环境相似度的负样本可信度度量方法及负样本采用方法
CN110362949A (zh) * 2019-07-23 2019-10-22 电子科技大学 一种基于神经网络的滑坡敏感性评估方法
CN110969260A (zh) * 2019-10-22 2020-04-07 成都信息工程大学 不平衡数据过采样方法、装置及存储介质
CN112001435A (zh) * 2020-08-18 2020-11-27 中国地质环境监测院 区域滑坡预警中训练样本集的构建方法、系统及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002230814A1 (en) * 2000-11-02 2002-05-15 Essential Reality, Llc Electronic user worn interface device
JP2008065860A (ja) * 2007-11-26 2008-03-21 Olympus Corp 操作入力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122144A1 (en) * 2017-10-25 2019-04-25 International Business Machines Corporation Regression for metric dataset
CN109918610A (zh) * 2019-02-25 2019-06-21 南京泛在地理信息产业研究院有限公司 基于地理环境相似度的负样本可信度度量方法及负样本采用方法
CN110362949A (zh) * 2019-07-23 2019-10-22 电子科技大学 一种基于神经网络的滑坡敏感性评估方法
CN110969260A (zh) * 2019-10-22 2020-04-07 成都信息工程大学 不平衡数据过采样方法、装置及存储介质
CN112001435A (zh) * 2020-08-18 2020-11-27 中国地质环境监测院 区域滑坡预警中训练样本集的构建方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨文涛,吕春彤,陈浩: "《地理环境条件约束的入侵物种虚拟负样本生成方法》", 《干旱区资源与环境》 *
赵维双,宋凯,田凤权: "《技术经济学》", 30 April 2020 *

Also Published As

Publication number Publication date
CN112632407B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
Cabaneros et al. A review of artificial neural network models for ambient air pollution prediction
CN110363347B (zh) 基于决策树索引的神经网络预测空气质量的方法
Nourani et al. Application of a hybrid association rules/decision tree model for drought monitoring
CN112506990B (zh) 一种基于时空信息的水文数据异常检测方法
CN113496104B (zh) 基于深度学习的降水预报订正方法及系统
CN109655298B (zh) 一种大跨度金属屋面的故障实时预警方法及装置
Chivers et al. Imputation of missing sub-hourly precipitation data in a large sensor network: A machine learning approach
Chen et al. Probabilistic forecasting of drought: a hidden Markov model aggregated with the RCP 8.5 precipitation projection
CN112907113B (zh) 一种考虑空间相关性的植被变化成因识别方法
Chawsheen et al. Seasonal time-series modeling and forecasting of monthly mean temperature for decision making in the Kurdistan Region of Iraq
CN113008806B (zh) 一种农产品产地重金属空间分布确定方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN112347652B (zh) 基于水文气象地区线性矩频率分析的暴雨高风险区划方法
CN114997534A (zh) 基于视觉特征的相似降雨预报方法和设备
CN110852906B (zh) 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统
CN112632407B (zh) 一种顾及地理环境异质性的空间抽样方法
CN109840386B (zh) 基于因子分析的损伤识别方法
Pascual et al. Probabilistic and deterministic results of the ANPAF analog model for Spanish wind field estimations
CN109190783B (zh) 城市水网渗漏空间聚集性检测及关键影响因素识别方法
CN111506636A (zh) 一种基于自回归和近邻算法的居民用电行为分析的系统及方法
CN113742929B (zh) 一种针对格点气象实况的数据质量评价方法
Tan et al. Investigation of the effects of the classification of building stock geometries determined using clustering techniques on the vulnerability of galvanized iron roof covers against severe wind loading
CN114880954A (zh) 一种基于机器学习的滑坡敏感性的评估方法
CN115439287A (zh) 一种基于机器学习的地质灾害危险性评价方法
Chauke Trend analysis and inter-annual variability in wind speed in South Africa

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant