CN115630336A

CN115630336A - 基于域自适应迁移学习的无样本库区滑坡易发性预测方法

Info

Publication number: CN115630336A
Application number: CN202211343626.3A
Authority: CN
Inventors: 苏燕; 黄绍翔; 陈耀鑫; 杨凌鋆; 黄斌; 林川; 赖晓鹤
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-10-30
Filing date: 2022-10-30
Publication date: 2023-01-20

Abstract

本发明涉及一种基于域自适应迁移学习的无样本库区滑坡易发性预测方法。包括如下步骤：S1、收集多源数据，确定足量样本的源区域，选择适用于专题易发性分析的普适性评价指标，进行指标分析；S2、确定目标域的非标记样本，保证所选样本具有一定代表性，采用聚类方法分类，并在不同类中提取相同数量样本；S3、采用基于特征的域自适应方法，调节自适应因子，将源域数据与目标域无标记数据进行特征对齐；S4、选择合适的机器学习模型，将源域标记样本作为训练集，对目标域的易发性结果进行预测，以自然间断点法对易发性指数进行分区；本发明解决了传统方法在无样本的偏远库区中无法实现滑坡易发性评价的困难，为滑坡易发性预测提供一种新的思路。

Description

基于域自适应迁移学习的无样本库区滑坡易发性预测方法

技术领域

本发明涉及地质灾害预测技术领域，具体涉及一种基于域自适应迁移学习的无样本库区滑坡易发性预测方法。

背景技术

滑坡易发性评价自20世纪80年代起已成为推动国内外滑坡防治减灾事业发展的重要手段。但当滑坡灾害发生在新建库区以及无滑坡记录的偏远中小型库区时，环境变化以及数据缺失使得易发性评价难以发挥其应有的优势。库岸区域附近一旦发生滑坡，灾害造成的二次破坏将产生难以挽回的损失。如何为无滑坡样本的偏远库区提供滑坡易发性预测，实现无样本库岸区域的滑坡易发性评价具有重要的研究意义。

少有易发性模型能够在无样本区域表现出令人满意的预测结果。此问题的根本原因在于基于机器学习的易发性模型基于数据独立同分布的假设忽略了不同区域数据集之间的差异性。归属于不同研究区的致灾特点一般存在较大差异。找到不同区域间致灾特点的内在联系，克服不同区域间因子集数据分差异问题，是解决易发性模型在无样本区域预测能力不显著的根本途径。本发明结合现阶段人工智能发展热点，创新地引入“迁移学习”概念，拟解决该问题。

领域自适应(domain adaptation，DA)为迁移学习的一个分支，它研究两个领域之间任务标签不变时，采用与目标域特征相同、数据分布不同的源域数据集对目标域的标签进行预测的问题。在此基础上，寻找源域和目标域之间的数据特征联系，利用特征交集来进行跨领域学习又称为基于特征的领域自适应迁移学习。通过基于特征的领域自适应迁移学习，在只采用源域研究区历史滑坡信息的基础上，对目标域研究区进行跨区域易发性评价，为实现无样本区域的无监督易发性预测提供解决方案。

发明内容

本发明的目的在于提供一种基于域自适应迁移学习的无样本库区滑坡易发性预测方法，能为无滑坡样本的偏远库区提供滑坡易发性预测。

为实现上述目的，本发明的技术方案是：一种基于域自适应迁移学习的无样本库区滑坡易发性预测方法，包括如下步骤：

S1、确定研究区域范围，运用GIS平台对水库上游进行淹没区、集水区分析，以分析范围内有预定量历史滑坡资料的库区作为源域，少于预定量或无历史滑坡资料的库区作为目标域；

S2、运用包括遥感识别、实地调查与空间分析的手段获取多源数据，识别归属于不同研究区域的普适化致灾指标因子；对所选指标进行因子分析，剔除冗余与低重要度因子，建立滑坡专题预测指标体系；

S3、建立具有代表性的研究区域样本集，以无监督聚类的方式对研究区域进行初步易发性分区，源域在低、极低易发性分区中随机提取与历史滑坡资料等量的非滑坡样本，目标域在各易发性分区中分别随机提取等量样本点；

S4、分析不同区域滑坡的诱发侧重因素，以基于特征的域自适应迁移学习方法进行分布自适应调节，将源域数据与目标域无标记数据进行特征对齐，建立特征变换子空间，生成新的源域与目标域数据集；

S5、选择机器学习模型，以源域样本作为训练集，对目标域的滑坡易发性进行预测与区间划分。

在本发明一实施例中，所述步骤S1以拦河坝上游正常蓄水位淹没范围内的集水区作为研究范围，重采样研究区域栅格保证分辨率一致，并以栅格单元作为易发性评价的基本单元。

在本发明一实施例中，所述步骤S2的普适化致灾指标因子包括：库区地形湿度指数、归一化植被覆盖指数、距库区水域距离、距库区公路距离、距地质界线距离、库岸地层岩性、土地利用类型与库水淹没滑坡高程比例；其余指标根据专题滑坡类型确定，所选指标为非数值变量时需以预定规则转换为虚拟变量；所述因子分析采用皮尔逊相关系数法结合方差膨胀因子与容忍度进行分析。

在本发明一实施例中，所述步骤S3的聚类方法为K-PSO聚类，首先利用改进的PSO算法寻找最优的5个初始聚类中心点，再利用K-means算法找到聚类结果，初步生成易发性区划图。

在本发明一实施例中，所述步骤S4基于特征的域自适应迁移学习方法为平衡自适应分布算法，其生成新的源域与目标域数据集具体步骤为：

S41、自所述步骤S2得到的源域与目标域预测指标体系导入所述步骤S3建立的源域与目标域样本集中，代入所述基于特征的域自适应迁移学习方法；

S42、计算不同数据集的初始最大均值差异MMD，调节数据维度，找到能够将两域数据对齐的最佳子空间，源域与目标域样本的MMD距离表示为：

S43、调节分布自适应因子，在数据的边缘分布与联合分布之间找到最佳适配比例，输出分布对齐后新的源域与目标域数据集，检验新数据集的MMD达到最小值；通过核方法化简得到的最终优化函数为：

s.t.A^TXHX^TA＝I,0≤u≤1 (3)

联合上述公式求出变换矩阵A，最终求得映射后新的源域和目标域样本。

在本发明一实施例中，所述步骤S5易发性区间结合自然间断点法与步骤S3的易发性指数分布规律，采用固定阈值法进行区间划分；所述机器学习模型对目标域地区进行易发性评价的具体步骤为：

S51、以所述映射后新的源域样本数据中降维后的主成分致灾因子作为模型输入特征，已知滑坡、非滑坡分类结果作为输出，基于所述映射后新的源域样本数据训练得到机器学习模型分类器；

S52、将所述目标域全域栅格单元数据映射至对齐的最佳子空间，生成映射后新的目标域全域栅格数据集；以降维后的主成分致灾因子作为模型输入特征、输出基于栅格单元的目标域滑坡易发性指数；

S53、将目标域全域滑坡易发性指数以自然间断点法划分为极高、高、中、低、极低五个易发性区间，生成易发性区划图，并以步骤S3得出的易发性分区图进行校核，采用固定阈值法划定最终易发性区间。

相较于现有技术，本发明具有以下有益效果：

1、结合水文分析法确定库岸滑坡影响范围，避免非库岸滑坡样本的产生，降低易发性建模误差，提高样本准确性。

2、使用无监督聚类进行滑坡样本提取，能够更全面、精确的以样本代替总体反映区域坡体本质特征，减少易发性预测的样本不确定性。

3、以域自适应迁移学习方法进行样本特征对齐，使用大量带标签数据的源域样本建模实现对无样本库区的易发性预测，克服滑坡数据标定与重复建模等难点问题，是一种全新的滑坡易发性评价技术构想。

附图说明

图1为本发明实施例的技术路线图。

图2为本发明实施例采用域自适应迁移学习方法前后样本特征子集分布可视化结果。

图3为本发明实施例目标域滑坡易发性预测图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请的一部分，并与本发明的实施例一起用于阐述本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于域自适应迁移学习的无样本库区滑坡易发性预测方法，技术路线图如图1所示，该方法包括以下步骤：

S1、以福建省池潭水库及棉花滩水库为研究对象，运用GIS平台对水库上游进行淹没区、集水区分析，以分析范围内有足量历史滑坡资料的池潭水库库区作为源域，仅有少量或无历史滑坡资料的棉花滩水库库区作为目标域；

具体地，以水库拦河坝上游正常蓄水位淹没范围内的集水区作为研究范围，将不同分辨率的研究区进行栅格重采样，保证栅格分辨率相同，选择栅格单元作为易发性评价的基本单元。

S2、运用遥感识别、实地调查与空间分析等手段获取多源数据，识别归属于不同研究区域的普适化致灾指标因子；对所选指标进行因子分析，剔除冗余与低重要度因子，建立滑坡专题预测指标体系。

具体地，根据因子调研成果，本实例所采用的普适化致灾指标因子如下：库区边坡坡度、库区边坡坡向、地形曲率、库区地形湿度指数、归一化植被覆盖指数、距库区公路距离、距库区水域距离、距地质界线距离、库岸地层岩性、土地利用类型与库水淹没滑坡高程比例十一个因子。其中库岸地层岩性、土地利用类型指标为非数值变量，统计其相应类别对滑坡发育的贡献度后以0-1区间的指数形式转换为虚拟变量；以皮尔逊相关系数法结合方差膨胀因子与容忍度进行因子共线性分析，剔除地形曲率与归一化植被覆盖指数因子两个高共线性因子。表1为采用频率比分析确定的各区间滑坡易发性贡献度。

表1源域致灾指标因子频率比贡献度分析

S3、建立具有代表性的研究区域样本集，以无监督聚类的方式对研究区域进行初步易发性分区，源域在低、极低易发性分区中随机提取与滑坡资料等量的非滑坡样本，目标域在各易发性分区中分别随机提取等量样本点。

具体地，本实例将易发性分为极高、高、中、低与极低五个区间，分别对源域与目标域运用所述无监督K-PSO聚类算法，先以改进的PSO算法寻找最优的5个初始聚类中心点，再利用K-means算法找到聚类结果，分别生成源域、目标域易发性区划图，在此基础上提取样本点建立滑坡数据集。

S4、分析不同区域滑坡的诱发侧重因素，以基于特征的域自适应迁移学习方法进行分布自适应调节，将源域数据与目标域无标记数据进行特征对齐，建立特征变换子空间，生成新的源域与目标域数据集。

具体地，基于特征的域自适应迁移学习方法为平衡自适应分布算法，其生成新的源域与目标域数据集具体步骤为：

S41、自步骤S2得到的源域与目标域预测指标体系导入所述步骤S3建立的源域与目标域样本集中，代入基于特征的域自适应迁移学习方法；

S42、计算不同数据集的初始最大均值差异(maximize mean discrepancy,MMD)，调节数据维度，找到能够将两域数据对齐的最佳子空间，源域与目标域样本的MMD距离可以表示为

s.t.A^TXHX^TA＝I,0≤u≤1 (3)

联合上述公式求出变换矩阵A，最终求得映射后新的源域和目标域样本。样本映射前后可视化结果对比如图2所示。

S5：选择合适的机器学习模型，以源域样本作为训练集，对目标域的滑坡易发性进行预测与区间划分。

具体地，易发性区间结合自然间断点法与步骤3的易发性指数分布规律，采用固定阈值法进行区间划分。选择的机器学习模型对目标域地区进行易发性评价的具体步骤为：

S51、以映射后新的源域样本数据中降维后的主成分致灾因子作为模型输入特征，已知滑坡、非滑坡分类结果作为输出，基于映射后新的源域样本数据训练得到机器学习模型分类器；

S52、将目标域全域栅格单元数据映射至对齐的最佳子空间，生成映射后新的目标域全域栅格数据集。以降维后的主成分致灾因子作为模型输入特征、输出基于栅格单元的目标域滑坡易发性指数。

S53、将目标域全域滑坡易发性指数以自然间断点法划分为极高、高、中、低、极低五个易发性区间，生成易发性区划图，并以步骤3得出的易发性分区图进行校核，采用固定阈值法划定最终易发性区间，结果如图3所示。

以上所述仅是本发明的优选实施方式，仅用于帮助理解本发明的方法及其核心思想，本发明的保护范围并不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于域自适应迁移学习的无样本库区滑坡易发性预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于域自适应迁移学习的无样本库区滑坡易发性预测方法，其特征在于，所述步骤S1以拦河坝上游正常蓄水位淹没范围内的集水区作为研究范围，重采样研究区域栅格保证分辨率一致，并以栅格单元作为易发性评价的基本单元。

3.根据权利要求1所述的基于域自适应迁移学习的无样本库区滑坡易发性预测方法，其特征在于，所述步骤S2的普适化致灾指标因子包括：库区地形湿度指数、归一化植被覆盖指数、距库区水域距离、距库区公路距离、距地质界线距离、库岸地层岩性、土地利用类型与库水淹没滑坡高程比例；其余指标根据专题滑坡类型确定，所选指标为非数值变量时需以预定规则转换为虚拟变量；所述因子分析采用皮尔逊相关系数法结合方差膨胀因子与容忍度进行分析。

4.根据权利要求1所述的基于域自适应迁移学习的无样本库区滑坡易发性预测方法，其特征在于，所述步骤S3的聚类方法为K-PSO聚类，首先利用改进的PSO算法寻找最优的5个初始聚类中心点，再利用K-means算法找到聚类结果，初步生成易发性区划图。

5.根据权利要求1所述的基于域自适应迁移学习的无样本库区滑坡易发性预测方法，其特征在于，所述步骤S4基于特征的域自适应迁移学习方法为平衡自适应分布算法，其生成新的源域与目标域数据集具体步骤为：

s.t.A^TXHX^TA＝I,0≤u≤1(3)

6.根据权利要求1所述的基于域自适应迁移学习的无样本库区滑坡易发性预测方法，其特征在于，所述步骤S5易发性区间结合自然间断点法与步骤S3的易发性指数分布规律，采用固定阈值法进行区间划分；所述机器学习模型对目标域地区进行易发性评价的具体步骤为：