CN112819207B

CN112819207B - 基于相似性度量的地质灾害空间预测方法、系统及存储介质

Info

Publication number: CN112819207B
Application number: CN202110069545.8A
Authority: CN
Inventors: 罗显刚; 孔若楠; 朱双; 徐战亚; 谢玉明; 操丽; 田壮; 赵前军
Original assignee: Wuhan Zhongdi Yunshen Technology Co ltd
Current assignee: Wuhan Zhongdi Yunshen Technology Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2024-02-06
Anticipated expiration: 2041-01-19
Also published as: CN112819207A

Abstract

本发明属于地质灾害预报技术领域，公开了一种基于相似性度量的地质灾害空间预测方法、系统及存储介质，地质灾害影响因子提取；选取等量非地质灾害样本；因子选取；计算各个因子权重；对地质灾害点进行相似性聚类，得到典型地质灾害类型；计算相似度，划分为地灾或非地灾；计算指标验证预测精度，进行精度评价；进行易发区等级划分和地质灾害危险性预测。本发明基于BPNN神经网络进行权重计算，采取改进后的K‑means聚类算法进行研究区地理环境相似度度量，根据相似度计算结果进行地质灾害空间预测，避免了主观因素影响过多，方法更加完整、全面，填补了现有技术在地质灾害预测领域的应用空缺。

Description

基于相似性度量的地质灾害空间预测方法、系统及存储介质

技术领域

本发明属于地质灾害预报技术领域，尤其涉及一种基于相似性度量的地质灾害空间预测方法、系统及存储介质。

背景技术

目前，作为世界上受地质灾害威胁最为严重的国家之一，我国每年发生的地质灾害都对人民的生命财产安全造成难以估量的损失，地质灾害破坏力大，突发性强，预防较为困难，所以对于地质灾害的预测预报工作刻不容缓。

近些年来，地质灾害预测方法与技术层出不穷。从最初的定性模型开始，这种方法的缺点在于过于依赖专家的专业知识，主观因素过强，结果也不一定准确。后来，主流方法从定性模型专为半定量模型，由专家设置每个地质灾害因子相对于其他因子的权重，但依然带有较强的主观因素，不够准确。早期的研究阶段主要是研究降雨与地质灾害的关系，使用的模型大部分是和降雨有关的降雨对数模型、临界雨量模型等。后来的研究重心逐渐转为降雨和地质环境因子与地质灾害之间的关系，信息量法、逻辑回归法、频率比法等之类的统计模型被广泛使用。经过了多年的发展，各种机器学习方法也在本领域得到了广泛应用，机器学习方法通过获取地质灾害影响因子与滑坡历史数据并对已有样本进行学习训练，建立模型后输出地质灾害发生的概率，代表性的方法有支持向量机，人工神经网络，随机森林等。

目前，地质灾害预测模型的研究方法较为单一，以机器学习监督模型为主的方法逐渐遇到瓶颈，但是以地理学第三定律为基础的地理相似性理论在本领域应用较少。因此，亟需一种新的地质灾害空间预测方法。

通过上述分析，现有技术存在的问题及缺陷为：地质灾害预测模型的研究方法较为单一，以机器学习监督模型为主的方法逐渐遇到瓶颈，但是以地理学第三定律为基础的地理相似性理论在本领域应用较少。

解决以上问题及缺陷的难度为：考虑到地理环境因子的多样性，现有的相似性度量方法不足以解决多类型因子的相似性度量问题，因此相似性的度量方法需要进一步改进。

解决以上问题及缺陷的意义为：通过该方法，可以以地理学第三定律为基础的地理相似性理论解决地质灾害的空间预测问题，考虑到了环境因素的主导影响，对地质灾害的预警有更好的进步。

发明内容

针对现有技术存在的问题，本发明提供了一种基于相似性度量的地质灾害空间预测方法、系统及存储介质。

本发明是这样实现的，一种基于相似性度量的地质灾害空间预测方法，包括以下步骤：

步骤一，地质灾害影响因子提取：从DEM数据、遥感影像、地质图数据中获取备选的地质灾害影响因子，并对所获取到的致灾因子进行标准化处理，制成相应图层；

步骤二，从研究区域的地质灾害详查历史数据中获取地质灾害点数据，检验数据完整性并通过经纬度、发生时间的关键属性制成研究区域地质灾害点图层，同时在非地质灾害地区选取等量非地质灾害样本；

步骤三，因子选取：将步骤二获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，最终得到地质灾害影响因子；

步骤四，采用主成分分析方法对筛选因子后的样本数据进行主成分分析，输入样本数据进行数据降维；

步骤五，分别将研究区滑坡样本与非滑坡样本分别使用K-means聚类算法进行相似性聚类，得到典型地质灾害类型与非地质灾害类型；

步骤六，随机选取研究区滑坡与非滑坡环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据步骤五的相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，划分为地灾或非地灾；

步骤七，根据结果计算混淆矩阵、召回率和准确率的关键信息进行精度评价，并根据计算指标验证预测精度；

步骤八，根据步骤六获取的相似度结果进行地质灾害预测和易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测。

进一步，步骤一中，所述提取备选灾害因子，包括：

基于ArcGIS平台，从研究区域的DEM数据、遥感影像等基础数据提取初步选择的影响因子，由于各个因子的量纲不同，因此提取因子后对连续因子采取正则化处理，即对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1，p-范数的计算公式公式如下：

||X||p＝(|x1|^p+|x2|^p+...+|xn|^p)^1/p；

对于离散型因子可以使用数值代替类别；进行数据预处理后，继续使用ArcGIS软件进行制图，制作目标区域的致灾因子地图。

进一步，步骤二中，从研究区域的地质灾害详查历史数据中获取历史灾害点数据，在ArcGIS中根据经纬度进行导入，将地质灾害点与步骤一中的因子图层相交得到地质灾害样本数据，表示为：

(x₁,x₂,…,x_n)；

其中，x_i表示第i种致灾因子在该灾害点的值。

进一步，步骤二中，还选择与灾害点数目相同的非灾害点作为对照数据，与灾害点进行相同处理，也表示在地图中。

进一步，步骤三中，所述将步骤二获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，包括：

(1)采用随机森林方法进行因子重要性评估：

用基尼指数作为评价指标来衡量，得到影响因子重要性排序，提出重要性为0的因子，基尼指数计算公式如下：

(2)Pearson相关系数PCC

用PCC方法计算因子相关程度，计算公式如下：

其中，x和y均为数据集，具有n个连续取值属性。计算后得到相关性强的因子，剔除后为最终的影响因子。

进一步，步骤五中，所述相似性度量方法，包括：

(1)离散因子相似度计算：

依据离散因子类型分析二人之间相似性，给出的结论只能是相似不相似，假如用区间[0,1]之间的值来表示相似程度，0表示不相似，1表示相似，因此，在属性为标称类型情况下，相似度只能取0和1中的一种。

(2)连续因子相似度计算：

采用欧式距离计算环境因子与发生地质灾害点之间的相似性。

其中，x和y分别为包含有n个属性值的数据。

(3)总体相似度计算：

环境单元与地质灾害单元的整体相似度可以在各个因子的相似度值的基础上采取多种方法，如加权平均值法、最小限制因子法或线性加权法等。

(4)基于相似度度量方法进行Kmeans方法的改进，将历史灾害点数据进行聚类分析，得到几类聚类结果。最优聚类个数使用SSE进行选取：

其中，C_i是第i个簇，p是C_i中的样本点；m_i是C_i的质心，即C_i中所有样本的值；SSE是所有样本的聚类误差，代表聚类效果的好坏。

进一步，步骤七中，所述计算指标如下：

其中，TP表示真阳性，TN表示真阴性，FT表示假阳性，FN表示假阴性。

进一步，步骤八中，所述根据步骤六获取的相似度结果，进行易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测，包括：

(1)将目标区域单元相似度计算结果在ArcGIS软件中进行自然断点法分类，进行制图，不同区域标为不同颜色，颜色越深表示越危险，得到地质灾害敏感性评估图；

(2)根据地质灾害敏感性评估图，基于地理相似程度进行地质灾害的预警，采取不同的措施，为指挥调度提供决策支持。

本发明的另一目的在于提供一种基于相似性度量的地质灾害空间预测系统，其特征在于，所述基于相似性度量的地质灾害空间预测系统包括：

图层从DEM数据、遥感影像、地质图数据中获取备选的地质灾害影响因子，并对所获取到的致灾因子进行标准化处理，制成相应图层；

非地质灾害样本获取模块，用于从研究区域的地质灾害详查历史数据中获取地质灾害点数据，检验数据完整性并通过经纬度、发生时间的关键属性制成研究区域地质灾害点图层，同时在非地质灾害地区选取等量非地质灾害样本；

因子权重计算模块，用于将获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，最终得到地质灾害影响因子；采用主成分分析方法，将筛选因子后的滑坡样本与非滑坡样本进行主成分分析，进行数据降维；

分别将研究区滑坡样本与非滑坡样本分别使用K-means聚类算法进行相似性聚类，得到典型地质灾害类型与非地质灾害类型；

随机从上述数据中获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，划分为地灾或非地灾；

地质灾害危险性预测模块，用于根据结果计算混淆矩阵、召回率和准确率的关键信息进行精度评价，并根据计算指标验证预测精度；

根据获取的相似度结果进行地质灾害预测和易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述的基于相似性度量的地质灾害空间预测方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明基于地理学第三定律的地理相似性理论，提出了一种基于相似性度量的地质灾害空间预测方法。本发明地理学第三定律的地理相似性理论知识，提出了基于相似性度量的地质灾害空间预测方法，提供了一种空间预测的新思路，可以着重研究位置地理构型的相似性以进行地质灾害的空间预测，由此填补现有技术上该理论应用的空缺。

本发明提供的基于相似性度量的地质灾害空间预测方法选择RF以及PCC方法进行因子分析与选取，基于主成分分析方法进行数据降维，采取改进后的K-means聚类算法进行研究区地理环境相似度度量，根据相似度计算结果进行地质灾害空间预测，与传统方法相比，该方法考虑到环境的相似程度，避免了主观因素影响过多，方法更加完整、全面，填补了该方法在地质灾害预测领域的应用空缺。

对比的技术效果或者实验效果。

在地质灾害预测领域，机器学习方法运用较为广泛，本文以机器学习中随机森林模型最为对比模型，以相同研究区域进行实验，得到如下实验结果：

研究区为湖北省蕲春县，研究数据采用该县116个滑坡点，同时随机选取116个非滑坡数据，数据情况如下：

选取14个环境因子数据分别为：高程、坡向、坡度、地形、NDVI、曲率、地形湿度指数、土壤类型、距河流距离、距公路距离、距铁路距离、距断层距离、年均降雨、岩性；

使用随机森林方法建模，将70％数据用于训练，30％数据进行验证，得到如下分类结果以及图3ROC曲线结果所示。

混淆矩阵

各指标情况

评价指标

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于相似性度量的地质灾害空间预测方法流程图。

图2是本发明实施例提供的基于相似性度量的地质灾害空间预测方法原理图。

图3是本发明实施例提供的ROC曲线图。

图4是本发明实施例提供的因子相关性分析图。

图5是本发明实施例提供的因子重要性分析图。

图6(a)是本发明实施例提供的滑坡数据误差平方和图。图6(b)是本发明实施例提供的滑坡数据平均轮廓系数图。图6(c)是本发明实施例提供的非滑坡数据误差平方和图。图6(d)是本发明实施例提供的非滑坡数据平均轮廓系数图。

图7(a)是本发明实施例提供的滑坡聚类结果图。图7(b)是本发明实施例提供的非滑坡聚类结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于相似性度量的地质灾害空间预测方法、系统及存储介质，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于相似性度量的地质灾害空间预测方法包括以下步骤：

S101，地质灾害影响因子提取：从DEM数据、遥感影像、地质图数据中获取备选的地质灾害影响因子，并对所获取到的致灾因子进行标准化处理，制成相应图层；

S102，从研究区域的地质灾害详查历史数据中获取地质灾害点数据，检验数据完整性并通过经纬度、发生时间的关键属性制成研究区域地质灾害点图层，同时在非地质灾害地区选取等量非地质灾害样本；

S103，因子选取：将S102获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，最终得到地质灾害影响因子；

S104，采用主成分分析方法，将筛选因子后的滑坡样本与非滑坡样本进行主成分分析，进行数据降维；

S105，分别将研究区滑坡样本与非滑坡样本分别使用K-means聚类算法进行相似性聚类，得到典型地质灾害类型与非地质灾害类型；

S106，获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据S105的相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，划分为地灾或非地灾；

S107，根据结果计算混淆矩阵、召回率和准确率的关键信息进行精度评价，并根据计算指标验证预测精度；

S108，根据S106获取的相似度结果进行地质灾害预测和易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测。

本发明还提供一种基于相似性度量的地质灾害空间预测系统，所述基于相似性度量的地质灾害空间预测系统包括：

获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据S105的相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，划分为地灾或非地灾；

下面结合实施例对本发明作进一步描述。

实施例1

针对现有技术的以上缺陷或空缺，本发明基于地理学第三定律的地理相似性理论，提出了一种基于相似性度量的地质灾害空间预测方法。该方法基于地理第三定律，可以提出了一种空间预测的新思路，可以着重研究位置地理构型的相似性以进行地质灾害的空间预测，由此填补现有技术上该理论应用的空缺。

为实现上述目的，本发明提供了一种基于相似性度量的地质灾害空间预测方法，依次包括如下步骤：

(1)地质灾害影响因子提取：从DEM数据、遥感影像、地质图等数据中获取备选的地质灾害影响因子，并对所获取到的致灾因子进行标准化处理，制成相应图层。

(2)从研究区域的地质灾害详查历史数据中获取地质灾害点，检验数据完整性并通过经纬度、发生时间等关键属性制成研究区域地质灾害点图层，同时在非地质灾害地区选取等量非地质灾害样本。

(3)因子选取：将步骤二中获得的样本点提取因子数据制成样本数据集，采用RF方法和Pearson相关系数(PCC)对滑坡的影响因素进行筛选，最终得到地质灾害影响因子。

(4)采用主成分分析方法，将筛选因子后的滑坡样本与非滑坡样本进行主成分分析，进行数据降维；

(5)分别将研究区滑坡样本与非滑坡样本分别使用K-means聚类算法进行相似性聚类，得到典型地质灾害类型与非地质灾害类型；

(6)获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据S105的相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，划分为地灾或非地灾；

(7)根据结果计算混淆矩阵、召回率、准确率等关键信息，进行精度评价。

(8)根据步骤6获取的相似度结果，进行易发性等级划分，制成相应的地质灾害敏感性图，根据该地图来进行地质灾害危险性预测。

本发明基于地理学第三定律的地理相似性理论知识，提出了基于相似性度量的地质灾害空间预测方法，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于相似性度量的地质灾害空间预测方法选择RF以及PCC方法进行因子分析与选取，基于主成分分析进行数据降维，采取改进后的K-means聚类算法进行研究区地理环境相似度度量，根据相似度计算结果进行地质灾害空间预测，与传统方法相比，该方法考虑到环境的相似程度，避免了主观因素影响过多，方法更加完整、全面，填补了该方法在地质灾害预测领域的应用空缺。

实施例2

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合图2详细讲述本发明的具体实施方式。

如图2所示，基于耦合模型的空间相似性地质灾害预测的具体实施方法如下步骤：

(1)提取备选灾害因子：基于ArcGIS平台，从研究区域的DEM数据、遥感影像等基础数据提取初步选择的影响因子，由于各个因子的量纲不同，因此提取因子后对连续因子采取正则化处理，即对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1，p-范数的计算公式公式如下：

||X||p＝(|x1|^p+|x2|^p+...+|xn|^p)^1/p (1)

对于离散型因子，例如坡向，可以使用数值代替类别。进行数据预处理后，继续使用ArcGIS软件进行制图，制作目标区域的致灾因子地图。

(2)从研究区域的地质灾害详查历史数据中获取历史灾害点数据，在ArcGIS中根据经纬度进行导入，将地质灾害点与步骤一中的因子图层相交得到地质灾害样本数据，表示为(x₁,x₂,…,x_n)，其中x_i表示第i种致灾因子在该灾害点的值。为了实验准确性，还需选择与灾害点数目相同的非灾害点作为对照数据，与灾害点进行相同处理，也表示在地图中。

(3)因子选取：将步骤二中获得的样本点提取因子数据制成样本数据集，采用随机森林方法和Pearson相关系数(PCC)对滑坡的影响因素进行筛选。

3.1)采用随机森林方法进行因子重要性评估：

用基尼指数作为评价指标来衡量，得到影响因子重要性排序，提出重要性为0的因子。基尼指数计算公式如下：

3.2)Pearson相关系数(PCC)

用PCC方法计算因子相关程度，计算公式如下：

(4)采用BPNN(后向传播神经网络)作为模型，以均方根误差为评价指标，输入样本数据建立神经网络，计算各个因子权重；在BPNN过程中，通过随机分配初始权值，重复计算10次，直到大多数训练数据集达到了0.01RMSE目标。如果RMSE目标未能实现，则训练将在1000个epoch时终止。在10次重复计算之间若没有显著差异，则所得结果则是可信的、合理的。

(5)根据离散因子与连续因子的数据类型采用不同的相似性度量方法，根据此方法进行K-means聚类算法的改进，对地质灾害点进行相似性聚类，相似性计算方法分别分离散因子方法和连续因子方法：

5.1)离散因子相似度计算：

5.2)连续因子相似度计算：

式中x和y分别为包含有n个属性值的数据。

5.3)总体相似度计算：

5.4)基于相似度度量方法进行Kmeans方法的改进，将历史灾害点数据与非滑坡样本数据分别进行聚类分析，得到几类聚类结果。最优聚类个数使用SSE(sum of thesquared errors，误差平方和)进行选取：

其中，C_i是第i个簇，p是C_i中的样本点，m_i是C_i的质心(C_i中所有样本的值)，SSE是所有样本的聚类误差，代表了聚类效果的好坏。

(6)获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据步骤5的相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，选取其中相似度最高的值作为该单元相似度，设置不同的相似度阈值，根据阈值划分为地灾或非地灾。

(7)计算指标验证预测精度，计算指标如下：

(8)根据相似度的大小进行地质灾害预测并进行易发区等级划分，制作地质灾害敏感性制图，进行地质灾害预测。

8.1)将目标区域单元相似度计算结果在ArcGIS软件中进行自然断点法分类，进行制图，不同区域标为不同颜色，颜色越深表示越危险，得到地质灾害敏感性评估图。

8.2)根据地质灾害敏感性评估图，可以基于地理相似程度进行地质灾害的预警，采取不同的措施，为指挥调度提供决策支持。

下面结合具体实施例对本发明的效果作进一步描述。

实施例

研究区域为湖北省蕲春县，使用研究区116个滑坡数据与非滑坡样本数据，选取14个环境因子数据分别为：高程、坡向、坡度、地形、NDVI、曲率、地形湿度指数、土壤类型、距河流距离、距公路距离、距铁路距离、距断层距离、年均降雨、岩性。

进行PCC因子相关性分析与随机森林因子重要性分析：如图4因子相关性分析所示。图5因子重要性分析所示。

结合重要性分析与相关性分析的结果，剔除地形湿度指数因子，最终选取13个因子；

对滑坡样本以及非滑坡环境样本分别进行正则化以及主成分分析，基于K-means聚类算法进行相似度聚类，聚类个数基于误差平方和以及平均轮廓系数进行选择：如图6(a)滑坡数据误差平方和与图6(b)滑坡数据平均轮廓系数所示。图6(c)非滑坡数据误差平方和与图6(d)非滑坡数据平均轮廓系数所示。因此对滑坡样本与非滑坡样本分别聚类个数为5个与6个。

聚类结果如图7(a)滑坡聚类结果所示、图7(b)非滑坡聚类结果所示。

随机选取等量滑坡样本与非滑坡样本与上述聚类中心进行相似度计算，根据相似度计算结果中最高的值进行样本分类，划分为滑坡与非滑坡，验证结果如下：

混淆矩阵

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于相似性度量的地质灾害空间预测方法，其特征在于，所述基于相似性度量的地质灾害空间预测方法包括以下步骤：

从DEM数据、遥感影像、地质图数据中获取备选的地质灾害影响因子，并对所获取到的致灾因子进行标准化处理，制成相应图层；

从研究区域的地质灾害详查历史数据中获取地质灾害点数据，检验数据完整性并通过经纬度、发生时间的关键属性制成研究区域地质灾害点图层，同时在非地质灾害地区选取等量非地质灾害样本；

将获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，最终得到地质灾害影响因子；

采用后向传播神经网络BPNN作为模型，以均方根误差为评价指标，输入样本数据建立神经网络，计算各个因子权重；

根据离散因子与连续因子的数据类型采用不同的相似性度量方法，进行K-means聚类算法的改进，对地质灾害点进行相似性聚类，得到典型地质灾害类型；

获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，设置不同的相似度阈值，根据阈值划分为地灾或非地灾；

根据结果计算混淆矩阵、召回率和准确率的关键信息进行精度评价，并根据计算指标验证预测精度；

根据获取的相似度结果进行地质灾害预测和易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测；

所述相似性度量方法，包括：

(1)离散因子相似度计算：

依据离散因子类型分析二人之间相似性，给出的结论只能是相似不相似，假如用区间[0,1]之间的值来表示相似程度，0表示不相似，1表示相似，因此，在属性为标称类型情况下，相似度只能取0和1中的一种；

(2)连续因子相似度计算：

采用欧式距离计算环境因子与发生地质灾害点之间的相似性；

其中，x和y分别为包含有n个属性值的数据；

(3)总体相似度计算：

环境单元与地质灾害单元的整体相似度可以在各个因子的相似度值的基础上采取多种方法，如加权平均值法、最小限制因子法或线性加权法；

(4)基于相似度度量方法进行Kmeans方法的改进，将历史灾害点数据进行聚类分析，得到几类聚类结果；最优聚类个数使用SSE进行选取：

2.如权利要求1所述的基于相似性度量的地质灾害空间预测方法，其特征在于，提取备选灾害影响因子，包括：

||X||p＝(|x1|^p+|x2|^p+...+|xn|^p)^1/p；

3.如权利要求1所述的基于相似性度量的地质灾害空间预测方法，其特征在于，所述从研究区域的地质灾害详查历史数据中获取历史灾害点数据，在ArcGIS中根据经纬度进行导入，将地质灾害点与因子图层相交得到地质灾害样本数据，表示为：

(x₁,x₂,…,x_n)；

其中，x_i表示第i种致灾因子在该灾害点的值。

4.如权利要求1所述的基于相似性度量的地质灾害空间预测方法，其特征在于，选择与灾害点数目相同的非灾害点作为对照数据，与灾害点进行相同处理，也表示在地图中。

5.如权利要求1所述的基于相似性度量的地质灾害空间预测方法，其特征在于，所述将获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，包括：

(1)采用随机森林方法进行因子重要性评估：

用基尼指数作为评价指标来衡量，得到影响因子重要性排序，剔除重要性为0的因子，基尼指数计算公式如下：

(2)Pearson相关系数PCC

用PCC方法计算因子相关程度，计算公式如下：

其中，x和y均为数据集，具有n个连续取值属性；计算后得到相关性强的因子，剔除后为最终的影响因子。

6.如权利要求1所述的基于相似性度量的地质灾害空间预测方法，其特征在于，所述计算指标如下：

7.如权利要求1所述的基于相似性度量的地质灾害空间预测方法，其特征在于，所述根据获取的相似度结果，进行易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测，包括：

8.一种如权利要求1-7任意一项所述的基于相似性度量的地质灾害空间预测系统，其特征在于，所述基于相似性度量的地质灾害空间预测系统包括：

因子权重计算模块，用于将获得的样本点提取因子数据制成样本数据集，采用随机森林RF方法和Pearson相关系数PCC对滑坡的影响因素进行筛选，最终得到地质灾害影响因子；将滑坡与非滑坡数据均采用主成分分析方法，将有多个因子的样本进行降维；

使用研究区滑坡样本与非滑坡样本数据分别使用K-means聚类算法，对地质灾害点与非灾害点进行相似性聚类，得到典型地质灾害与非地灾类型；

地灾或非地灾划分模块，用于获取研究区域环境样本，分成发生地质灾害的单元与未发生地质灾害的单元，根据相似度计算方法与聚类结果中的几个聚类中心分别计算相似度，根据相似度结果中最高的结果大小，划分为地灾或非地灾；

地质灾害危险性预测模块，用于根据结果计算混淆矩阵、召回率和准确率的关键信息进行精度评价，并根据计算指标验证预测精度；还用于根据获取的相似度结果进行地质灾害预测和易发性等级划分，制作地质灾害敏感性制图，并根据所述地质灾害敏感性制图进行地质灾害危险性预测。

9.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1～7任意一项所述的基于相似性度量的地质灾害空间预测方法。