CN116611546B

CN116611546B - 基于知识图谱的目标研究区域滑坡预测方法及系统

Info

Publication number: CN116611546B
Application number: CN202310400995.XA
Authority: CN
Inventors: 陈栾杰; 杨丽娜; 李玮超; 彭玲
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-11-10
Anticipated expiration: 2043-04-14
Also published as: CN116611546A

Abstract

本发明提供一种基于知识图谱的目标研究区域滑坡预测方法及系统，涉及滑坡风险预测技术领域，方法包括：将目标数据导入到知识图谱，目标数据包括目标研究区域的历史滑坡数据和目标研究区域用于滑坡预测的环境时空数据，环境时空数据为带有时空信息的环境数据；在目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对目标研究区域进行滑坡预测，候选区域为知识图谱中与目标研究区域的环境特征相似度最高的研究区域。本发明能够提升滑坡预测过程中多源异构时空数据的组织能力，避免了数据管理的混乱，并通过根据统一的预测流程快速对各类目标研究区域进行滑坡预测，提高基于知识图谱的目标研究区域滑坡预测精度和速度。

Description

基于知识图谱的目标研究区域滑坡预测方法及系统

技术领域

本发明涉及滑坡风险预测技术领域，尤其涉及一种基于知识图谱的目标研究区域滑坡预测方法及系统。

背景技术

近年山体滑坡灾害频发，损失严重，有必要进行高效的滑坡预测。山体滑坡是在各种滑坡致灾因子的影响下，斜坡上的土壤或岩石倾倒、滑动或扩散的过程。通常，预测山体滑坡的技术可分为知识驱动的技术和数据驱动的技术。

知识驱动的技术通过给每个滑坡致灾因子分配权重来预测山体滑坡。根据致灾机理，或者根据层次分析法、似然频率比等统计方法对当前环境下的致灾因子进行分析，确定每个因子的重要性并预测滑坡。然而，知识驱动的方法在很大程度上依赖于专业知识或经验，其结果受人为的影响很大。

为了克服这一缺陷，人们提出了数据驱动的方法来预测山体滑坡。数据驱动的方法利用广泛的与滑坡相关的数据来进行滑坡预测，相比知识驱动的方法减少了人为因素的干扰。然而，数据驱动方法的模型的预测效果与研究区域可获得的数据质量密切相关。如果研究区域数据稀缺，例如，一些区域可能存在遥感数据空间分辨率低、历史滑坡数据有噪声等问题，这些问题会造成数据不可用，导致数据驱动的模型拟合困难，使得滑坡预测效果不佳。

目前的滑坡预测研究中通常会假设研究区域的数据完备且可得，较少研究中考虑预测滑坡过程中的样本稀缺问题。现有技术中一般通过融合多个地区的环境信息来解决数据驱动中样本稀缺的问题。例如先在数据完备的若干区域对滑坡预测模型进行预训练，让模型学习若干个区域中滑坡发生时的环境特征，然后在样本稀缺的研究区域进行模型的微调，最后利于生成的模型进行滑坡的预测，从而达到提高样本稀缺区域滑坡预测能力的目的。

目前的滑坡预测存在如下缺点：

1)主流技术基于研究数据的完备假设进行滑坡预测，较少考虑数据的稀缺性，对于样本稀缺区域的滑坡预测效果欠佳。

2)数据组织存在困难。滑坡预测涉及的数据来源广泛、数据结构多样，现有技术难以快速组织必要的多源异构数据。同时，随着研究区域数量的增加，会导致数据规模急剧增加，进一步加大数据组织的难度。

3)滑坡预测过程效率低下。不同的预测模型之间存在差别，不同地区之间的特征也存在差别，现有技术缺少统一的预测流程框架，导致在实际的滑坡预测应用中难以快速、准确的针对滑坡发生区域选择合适的预测方法，进而难以进行准确、快速的滑坡预测分析。

发明内容

本发明提供的基于知识图谱的目标研究区域滑坡预测方法及系统，用于解决现有技术中存在的样本稀缺区域的滑坡预测的精度和效率较低的问题。

本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，包括：

将目标数据导入到知识图谱，所述目标数据包括目标研究区域的历史滑坡数据和所述目标研究区域用于滑坡预测的环境时空数据，所述环境时空数据为带有时空信息的环境数据；

在所述目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对所述目标研究区域进行滑坡预测，所述候选区域为所述知识图谱中与所述目标研究区域的环境特征相似度最高的研究区域。

根据本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，所述知识图谱，包括：

模式层和数据层；

其中，所述模式层包括空间本体、时间本体、滑坡预测本体以及语义推理模块，所述空间本体用于描述地理对象的空间信息，所述时间本体用于描述所述地理对象的时间信息，所述滑坡预测本体用于描述滑坡预测所需的概念、所述概念之间的关系以及滑坡预测的推理过程，所述地理对象包括所述历史滑坡数据中的滑坡点和所述环境时空数据，所述语义推理模块用于为所述目标研究区域推荐所述候选预测模型；

所述数据层存储的数据类型包括目标环境数据、区域数据集和研究区域的候选预测模型，所述目标环境数据包括所述环境时空数据和研究区域的环境特征，所述区域数据集包括输入研究区域的第一预测模型所需的环境时空数据和所述研究区域的第一预测模型输出的滑坡预测结果，所述研究区域的候选预测模型是通过将所述区域数据集输入到所述研究区域的第一预测模型进行训练后得到的。

根据本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，在所述目标研究区域为样本稀缺区域的情况下，所述候选区域的获取方式，包括：

从所述知识图谱的研究区域中，确定与所述目标研究区域的环境特征相似度最高的所述候选区域，所述候选区域为所述研究区域中与所述目标研究区域的环境特征之间的杰卡德系数最大的第一研究区域，或者，所述候选区域为所述研究区域中与所述目标研究区域的环境特征对应的特征值相等的第二研究区域，在所述目标研究区域的环境特征为离散值的情况下，所述特征值为所述环境特征对应的环境特征值的众数，在所述目标研究区域的环境特征为连续值的情况下，所述特征值为所述环境特征值的平均数。

根据本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，所述研究区域中与所述目标研究区域的环境特征对应的特征值相等的第二研究区域的确定方式，包括：

根据所述目标研究区域的环境特征的环境特征值、所述研究区域的环境特征的环境特征值、所述目标研究区域的环境特征值的个数、所述研究区域的环境特征值的个数以及最值，确定所述第二研究区域，所述最值包括所有环境特征值中的最大值和最小值，所述所有环境特征值包括所述目标研究区域的环境特征值和所述研究区域的环境特征值。

根据本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，所述将目标数据导入到知识图谱之前，所述方法，还包括：

根据进行滑坡预测的区域边界，确定所述目标研究区域；

根据采集到的所述目标研究区域的所述历史滑坡数据和所述用于滑坡预测的环境时空数据，确定所述目标数据。

根据本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，在所述目标研究区域为非样本稀缺区域的情况下，所述方法，还包括：

基于所述目标数据训练得到的预测模型，对所述目标研究区域进行滑坡预测。

根据本发明提供的一种基于知识图谱的目标研究区域滑坡预测方法，所述预测模型的获取方式，包括：

基于所述目标数据，确定数据集，所述数据集中包括输入第二预测模型所需的所述环境时空数据和所述第二预测模型输出的滑坡预测结果，所述环境时空数据包括滑坡致灾因子；

基于所述数据集，训练所述第二预测模型，得到所述预测模型。

本发明还提供一种基于知识图谱的目标研究区域滑坡预测系统，包括：数据处理模块以及预测模块；

所述数据处理模块，用于将目标数据导入到知识图谱，所述目标数据包括目标研究区域的历史滑坡数据和所述目标研究区域用于滑坡预测的环境时空数据，所述环境时空数据为带有时空信息的环境数据；

所述预测模块，用于在所述目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对所述目标研究区域进行滑坡预测，所述候选区域为所述知识图谱中与所述目标研究区域的环境特征相似度最高的研究区域。

本发明还提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现如上述任一种所述基于知识图谱的目标研究区域滑坡预测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于知识图谱的目标研究区域滑坡预测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于知识图谱的目标研究区域滑坡预测方法。

本发明提供的基于知识图谱的目标研究区域滑坡预测方法及系统，首先通过设计统一的预测流程，以确保能够按照标准化的流程对用户关注的目标研究区域选择有效的预测模型进行准确、快速的滑坡预测分析，然后，并将目标研究区域的历史滑坡数据和环境时空数据导入到知识图谱来组织多源异构的时空数据，降低数据组织的难度以提高数据的利用效率，最后在针对目标研究区域为样本稀缺区域的滑坡预测的过程中，结合预测流程和知识图谱，将预测模型、时空数据及样本研究区域进行整合，提升样本稀缺区域的滑坡预测精度和效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于知识图谱的目标研究区域滑坡预测方法的流程示意图之一；

图2是本发明提供的知识图谱的结构示意图；

图3是本发明提供的知识图谱的模式层的结构示意图；

图4是本发明提供的用geocode表达滑坡点的示例图；

图5是本发明提供的通用推理程序的流程示意图；

图6是本发明提供的知识抽取的流程示意图；

图7是本发明提供的基于知识图谱的目标研究区域滑坡预测方法的流程示意图之二；

图8是本发明提供的基于知识图谱的目标研究区域滑坡预测系统的结构示意图；

图9是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的基于知识图谱的目标研究区域滑坡预测方法的流程示意图，如图1所示，方法包括：

步骤110，将目标数据导入到知识图谱，所述目标数据包括目标研究区域的历史滑坡数据和所述目标研究区域用于滑坡预测的环境时空数据，所述环境时空数据为带有时空信息的环境数据；

步骤120，在所述目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对所述目标研究区域进行滑坡预测，所述候选区域为所述知识图谱中与所述目标研究区域的环境特征相似度最高的研究区域。

需要说明的是，上述方法的执行主体可以是计算机设备。

可选地，该目标数据可以具体为多源异构的时空数据，其可以具体通过实体考察或者遥感技术收集到与目标研究区域范围内滑坡相关的数据，可以具体包括该目标研究区域的历史滑坡数据和该目标研究区域用于滑坡预测的环境时空数据，该环境时空数据可以具体为携带有时空信息(包括时间信息和空间信息)的环境数据，该环境数据可以具体为滑坡致灾因子。

将该目标数据结构化为知识，并将其导入到知识图谱，即从该目标数据中提取知识。

判断该目标研究区域的目标数据的质量是否能够支持模型训练，具体地，当该目标研究区域为样本稀缺区域时，判断该目标数据不足以支持模型训练，该样本稀缺区域可以具体为具有稀疏样本的研究区域，该稀疏样本可以具体是由于基于遥感技术或实体考察收集到的遥感数据空间分辨率低、历史滑坡数据有噪声等导致的。

在目标数据的质量不能支持模型的训练时，基于知识图谱分析该样本稀缺区域的环境特征相似性，找到与该样本稀缺区域的环境特征的相似度最高的研究区域，并将其作为候选区域，并将候选区域对应的预测模型(即候选预测模型)作为该样本稀缺区域的滑坡预测模型，基于该候选预测模型，对该样本稀缺区域进行滑坡预测。可选地，该候选预测模型输出的滑坡预测结果可以具体为滑坡易发性图，该滑坡易发性图用于表征滑坡发生的概率。

本发明提供的基于知识图谱的目标研究区域滑坡预测方法，首先通过设计统一的预测流程，以确保能够按照标准化的流程对用户关注的目标研究区域选择有效的预测模型进行准确、快速的滑坡预测分析，然后，并将目标研究区域的历史滑坡数据和环境时空数据导入到知识图谱来组织多源异构的时空数据，降低数据组织的难度以提高数据的利用效率，最后在针对目标研究区域为样本稀缺区域的滑坡预测的过程中，结合预测流程和知识图谱，将预测模型、时空数据及样本研究区域进行整合，提升样本稀缺区域的滑坡预测精度和效率。

进一步地，在一个实施例中，所述知识图谱，可以具体包括：

模式层和数据层；

可选地，构建知识图谱是本发明进行滑坡预测的核心，本发明针对样本稀缺区域的滑坡预测都是在该知识图谱的基础上进行的，图2是本发明提供的知识图谱的结构示意图，如图2所示，该知识图谱可以具体包括数据层和模式层。

知识图谱的模式层用于描述和组织滑坡的时空数据，同时滑坡预测的语义推理模块也在模式层中进行定义。模式层用本体进行实现，包括空间本体、时间本体和滑坡预测本体。每个本体都定义了类、属性和规则。类和属性描述了滑坡预测中涉及的概念及其关系，而规则使用类和属性作为符号来描述时空分析和滑坡预测的过程。模式层的结构以及使用的本体、概念和属性如图3所示：

其中，空间本体用于描述地理对象(包括历史滑坡数据中的滑坡点和环境时空数据)的空间信息，是基于GeoSPARQL本体构建的。空间本体的核心类包括了GeoSPQRQL本体中地理对象的两个子类，分别是：特征类(Feature)和几何形状类(Geometry)。基于特征类和几何形状类定义的空间术语有助于地理空间数据的建模。空间本体的核心属性定义了地理对象之间的拓扑空间关系、对地理对象的坐标描述(坐标描述指的是地理对象生成几何体描述时的序列化标准和支持的几何体类型)以及“度量”属性。“度量”描述的是地理对象的标量空间属性(比如面积)。空间本体的核心规则包括对类和属性的基本本体约束、GeoSPARQL本体中定义的规则，核心规则可以支持地理实体之间的空间计算。此外，遥感数据以经纬度坐标来描述空间信息，而经纬度坐标无法被对象化也无法被索引，但可索引的位置信息可以提高空间分析的效率。为了让遥感数据可以被对象化和索引，本技术设计了一个基于地理瓦片的空间索引规则，即地理编码。

图4是本发明提供的用geocode表达滑坡点的示例图，如图4所示，一般的滑坡点只有空间点坐标的空间描述，而本发明基于模式层的规则(例如墨卡托转换规则)将地理对象的坐标属性转换为地理瓦片编码的实体，达到用瓦片编号代替经纬度坐标来描述地理实体位置的目的。每个瓦片编号由瓦片的水平坐标、垂直坐标和缩放级别组成。地理编码中的每一个瓦片代表一组经纬度坐标，不同缩放级别的瓦片包含不同数量的经纬度坐标。缩放级别越高，瓦片中的经纬度坐标数量越少，地理对象的空间描述就越精确。

需要说明的是，语义推理规则基于产生式表示，并在模式层中的核心规则的约束下，为具有稀疏样本的研究区域推荐模型，具体包含两个阶段：环境特征相似性分析和候选预测模型选择。每个阶段由若干个产生式规则组成，并通过通用推理程序自动完成语义推理，通用推理程序如图5所示：

一条规则由事件对象触发，然后根据规则定义的动作对象执行相应的动作函数并生成结果。这个结果作为事件对象，触发规则集合中的其他规则的执行，直到阶段完成。

时间本体用于描述地理对象的时间信息，本发明基于OWL-Time本体构建时间本体。时间本体的核心类定义了时刻和时段来描述地理对象的时间信息。时间本体的核心属性定义了地理对象之间的拓扑时间关系(例如两个地理对象发生的时间先后关系)和OWL-Time本体的描述标准。时间本体的核心规则包括类和属性的基本本体约束和OWL-Time本体中定义的规则，核心规则可以支持地理实体之间的时间计算。

滑坡预测本体用于描述滑坡预测所需的概念、概念之间的关系以及滑坡预测的推理过程。滑坡预测本体的核心类定义了描述山体滑坡情况的概念，例如山体滑坡的严重程度、山体滑坡所处的发生阶段等。由于环境是导致山体滑坡的根本原因，核心类也定义了描述环境的概念，包括自然环境和社会环境。同时，与机器学习相关的概念也被定义在核心类中，包括描述预测模型和数据集特征的词汇。此外，滑坡预测的过程分为若干个事件和动作，因此核心类在滑坡预测本体中还会定义滑坡预测中涉及的事件和动作。滑坡预测本体的核心属性主要定义了山体滑坡、环境和机器学习方法之间的关系。滑坡预测本体还定义了山体滑坡预测过程中事件和动作之间的关系，例如，当计算区域之间的环境特征的相似性时，其结果作为一个“事件”将触发预测模型选择的“动作”，这种“触发”的关系被描述为一个属性。空间本体的核心规则包括对类和属性的基本本体约束以及基于产生式表示法定义的一系列的规则来描述滑坡预测的过程，包括环境特征相似度的计算方法、预测模型选择的过程和滑坡预测的过程。

数据层是主谓宾三元组的集合，其中主语和宾语是知识图谱中的实体，谓语是连接实体的边。数据层中存储的数据类型包括目标环境数据、区域数据集和研究区域的候选预测模型，三者独立存在。

目标环境数据：目标环境数据包括记录目标研究区域的环境时空数据如滑坡致灾因子和目标研究区域的环境特征(例如自然环境和社会环境)，一种环境时空数据对应一种致灾因子。除了将环境时空数据直接生成为三元组外，还会对目标研究区域的环境特征进行分析，并生成环境特征的三元组，作为分析地区间环境特征相似性的依据。

区域数据集：区域数据集是用于研究区域内第一预测模型训练的数据集。在知识抽取过程中，数据集特征被抽取出来生成三元组。数据集的特征包括样本的数量、样本的面积以及样本中包含的滑坡致灾因子的统计参数。该第一预测模型可以具体包括机器学习模型(如支持向量机、随机森林模型等)或深度学习模型(如卷积神经网络、循环神经网络等)。

研究区域的候选预测模型：候选预测模型是通过将区域数据集输入到第一预测模型进行训练后得到的模型。在知识抽取过程中，候选预测模型特征的实例被抽取出来生成三元组，其中包括候选预测模型的名称、存储候选预测模型参数的地址和区域数据集的名称。

在数据层中生成三元组后，模式层将这些三元组联系并组织起来，形成有助于进行滑坡预测的知识。

图6是本发明提供的知识抽取的流程示意图，如图6所示，将数据层的数据通过知识抽取转换为三元组存储起来，并和模式层进行映射，具体如下：

在数据预处理过程中，首先裁剪原始的遥感数据，得到研究区域大小的空间尺度的遥感数据。然后，由于不同来源的遥感数据使用的投影坐标系可能不同，因此要将多源的遥感数据转换到同一投影坐标系下。接着进行栅格值的缩放：遥感数据的栅格值可能是小数，但在将栅格数据转换为矢量数据时，栅格值只能是整数，因此要把栅格值扩大指定倍数并取整。最后，生成GeoJSON文件。具体做法是先把栅格数据转换成矢量数据，再把矢量数据转化成GeoJSON文件，同时在转换成GeoJSON文件的过程中要还原栅格值为原始值。整个过程可基于栅格空间数据转换库GDAL库自动化实现。

在数据预处理生成GeoJSON文件后，进行知识生成的过程具体如下：首先，根据GeoJSON文件中每个地理对象的空间信息计算得到地理编码。然后，根据GeoJSON文件生成描述地理实体属性的三元组。GeoJSON文件中的地理对象对应三元组中的主语，地理对象属性的键对应三元组中的谓语，地理对象属性的值对应三元组中的宾语。在这个过程中，地理编码作为地理实体的属性，同样以三元组的形式生成。然后，将生成的三元组导入知识图谱。如果是初次导入，需要先根据设计的模式层中的本体结构创建本体。其中，空间本体和时间本体作为基础本体可直接使用。对于滑坡预测本体，使用Protege对本体中的类、属性和规则进行定义。Protege是一个帮助用户快速创建和编辑本体的工具。用Protege编辑的滑坡预测本体可以直接导入知识图谱中。另外本发明使用Virtuoso或GraphDB或Neo4j存储本体和三元组。在导入本体和三元组后，将数据层的三元组和模式层的本体进行映射，以此生成数据特征间的语义关联，从而产生知识。

在知识应用过程中会产生额外的数据(包括区域数据集和研究区域的候选预测模型)，这些结构化数据也需要抽取为知识并存储在知识图谱中。首先，分别提取区域数据集和研究区域的候选预测模型的特征的实例写入GeoJSON文件中。区域数据集和候选预测模型描述对象是研究区域，不同研究区域的数据集和候选预测模型的特征不同。在GeoJSON文件中，一个研究区域被定义为一个特征对象。特征的几何形状描述了这个区域的空间信息，特征的属性表示了时间信息和其他必要的属性信息。在生成GeoJSON文件后，按照知识生成的步骤产生和导入三元组，并将三元组与模式层的本体进行映射来产生与研究区域的候选预测模型和区域数据集有关的知识。

本发明在知识图谱构建过程中，定义了知识抽取的标准流程，包括数据预处理、知识生成以及知识应用三个阶段，有助于快速将时空数据转换为辅助滑坡预测的知识

本发明提供的基于知识图谱的目标研究区域滑坡预测方法，设计了用于滑坡预测的知识图谱的模式层，将模式层分为时间本体、空间本体和滑坡预测本体三部分，使得多源异构的时空数据可以被组织和高效利用，基于知识图谱的模式层设计了地理编码的表达方案，使知识图谱在计算过程中可以基于地理对象对时空数据进行索引和计算，从而提高滑坡相关时空数据的计算效率。

进一步地，在一个实施例中，在所述目标研究区域为样本稀缺区域的情况下，所述候选区域的获取方式，可以具体包括：

进一步地，在一个实施例中，所述研究区域中与所述目标研究区域的环境特征对应的特征值相等的第二研究区域的确定方式，可以具体包括：

可选地，对于目标研究区域的环境特征的相似度分析阶段，基于杰卡德系数来计算区域间环境特征的相似度，公式如下：

其中，A和B分别代表研究区域A和研究区域B的环境特征对应的环境特征值集合，J(A,B)代表研究区域A和研究区域B之间的杰卡德系数，杰卡德系数越大，两个区域的环境特征越相似，即两个区域的环境特征的相似度越高。

基于公式(1)，从知识图谱中的研究区域中，计算与目标研究区域的环境特征的杰卡德系数最大的第一研究区域，并将其作为与目标研究区域的环境特征的相似度最高的候选区域。

由于杰卡德系数本质是比较区域间相似的环境特征个数。对于一个离散的环境特征(即目标研究区域的环境特征为离散值)，取区域内环境特征值的众数作为代表这个区域的特征值。如果代表两个研究区域的特征值相等，则这两个区域内的这一环境特征相似。对于一个连续的环境特征(即目标研究区域的环境特征为连续值)，取区域内环境特征值的平均数作为代表这个区域的特征值。对于研究区域A和研究区域B，根据如下公式判定这两个研究区域的这一环境特征是否相似：

其中，F_A和F_B表示代表研究区域A和研究区域B的环境特征值，F_max和F_min表示所有环境特征可取得的最大值和最小值，所有环境特征值包括研究区域A和研究区域B的环境特征值，N_A表示研究区域A中该环境特征值的个数，N_B表示研究区域B中该环境特征值的个数。

基于公式(2)从知识图谱中的研究区域中，计算与目标研究区域的环境特征对应的特征值相等的第二研究区域，并将其作为与目标研究区域的环境特征的相似度最高的候选区域。

对于候选预测模型选择的阶段，相似性分析阶段得到的相似的环境特征个数作为属性存储在基于区域数据集生成的三元组中。在对样本稀缺的研究区域进行滑坡预测时，首先计算研究区域的相似的环境特征个数，然后根据相似的环境特征个数进行相似性分析，在知识图谱中选择与研究区域环境特征的相似度最高的候选区域，通过语义推理模块查询得到由该候选区域的数据集训练出的模型，将其作为样本稀缺区域的滑坡预测模型。

本发明提供的基于知识图谱的目标研究区域滑坡预测方法，基于构建的知识图谱的模式层中的语义推理模块，从知识图谱的研究区域中确定与样本稀缺区域的环境特征的相似度最高的候选区域，提升了对样本稀缺区域的滑坡预测效果。

进一步地，在一个实施例中，所述将目标数据导入到知识图谱之前，所述方法，还可以具体包括：

根据进行滑坡预测的区域边界，确定所述目标研究区域；

可选地，进行目标研究区域的滑坡预测时，需要确定进行滑坡预测的区域边界，即需要进行滑坡预测的目标研究区域的范围。通过遥感技术或实地考察，收集该目标研究区域范围内与滑坡有关的数据，包括历史滑坡数据和该目标研究区域用于滑坡预测的环境时空数据，如带有时空信息的滑坡致灾因子，将收集到的历史滑坡数据和用于滑坡预测的环境时空数据作为目标数据。

进一步地，在一个实施例中，在所述目标研究区域为非样本稀缺区域的情况下，所述方法，还可以具体包括：

可选地，判断收集到的该目标研究区域的目标数据的质量是否能够支持模型训练，具体地，当该目标研究区域为非样本稀缺区域时，判断该目标数据足以支持模型训练，并基于该目标数据训练得到的预测模型，对目标研究区域进行滑坡预测，生成目标研究区域的滑坡易发性图。

进一步地，在一个实施例中，所述预测模型的获取方式，可以具体包括：

可选地，在确定获取的目标研究区域的目标数据足以支持模型训练的情况下，在目标数据的基础上，创建用于模型训练的数据集，即样本。

数据集包含需要输入第二预测模型的环境时空数据，即滑坡致灾因子，以及第二预测模型输出的滑坡预测结果，即标签。根据数据集来训练第二预测模型的参数并测试得到最佳模型，最后，根据该最佳模型对该目标研究区域进行滑坡预测并生成该目标研究区域的滑坡易发性图。该第二预测模型可以具体为机器学习模型(如支持向量机、随机森林模型等)或深度学习模型(如卷积神经网络、循环神经网络等)。

图7是本发明提供的基于知识图谱的目标研究区域滑坡预测方法的流程示意图之二，如图7所示，在进行滑坡预测时，首先需要确定滑坡预测的区域边界，即需要进行滑坡预测的目标研究区域的范围。然后，通过遥感技术或实地考察，收集该目标研究区域范围内与滑坡有关的数据，包括历史滑坡数据和该目标研究区域范围内用于滑坡预测的环境时空数据。接着，将多源异构的时空数据(即该目标研究区域范围内与滑坡有关的数据)结构化为知识，并将其导入知识图谱，即从多源异构的时空数据中提取知识。然后判断目标研究区域的数据质量能否支持模型训练。如果能，则说明目标研究区域可制作充足的样本进行模型训练，因此在这些数据的基础上，创建用于训练的数据集，即样本。数据集包含需要输入模型的环境时空数据，即滑坡致灾因子，以及模型输出的滑坡预测结果，即标签。然后，根据数据集来训练模型的参数并测试得到最佳模型，最后，根据该最佳模型对目标研究区域进行滑坡预测并生成该目标研究区域的滑坡易发性图。如果数据质量不能支持模型的训练，则基于知识图谱分析该目标研究区域的环境特征相似性，然后在研究区域对应的候选预测模型中选择与目标研究区域的环境特征的相似度最高的候选预测模型进行滑坡预测并生成该目标研究区域的滑坡易发性图。

本发明提供的基于知识图谱的目标研究区域滑坡预测方法，通过设计一个统一的预测流程，以确保能够按照标准化的流程对用户关注的目标研究区域选择有效的模型进行准确、快速的滑坡预测分析，并通过构建的知识图谱来组织多源异构的时空数据，降低数据组织的难度以提高数据的利用效率，使得在滑坡预测的过程中，结合预测流程和已构建的知识图谱，通过知识图谱中的环境特征相似性分析和模型选择，将预测模型、时空数据和研究区域进行整合，提升目标研究区域的滑坡预测效率的同时，又能提高使用机器学习方法对样本稀缺区域的滑坡预测效果。

下面对本发明提供的基于知识图谱的目标研究区域滑坡预测系统进行描述，下文描述的基于知识图谱的目标研究区域滑坡预测系统与上文描述的基于知识图谱的目标研究区域滑坡预测方法可相互对应参照。

图8是本发明提供的基于知识图谱的目标研究区域滑坡预测系统的结构示意图，如图8所示，包括：

数据处理模块810以及预测模块811；

所述数据处理模块810，用于将目标数据导入到知识图谱，所述目标数据包括目标研究区域的历史滑坡数据和所述目标研究区域用于滑坡预测的环境时空数据，所述环境时空数据为带有时空信息的环境数据；

所述预测模块811，用于在所述目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对所述目标研究区域进行滑坡预测，所述候选区域为所述知识图谱中与所述目标研究区域的环境特征相似度最高的研究区域。

本发明提供的基于知识图谱的目标研究区域滑坡预测系统，首先通过设计统一的预测流程，以确保能够按照标准化的流程对用户关注的目标研究区域选择有效的预测模型进行准确、快速的滑坡预测分析，然后，并将目标研究区域的历史滑坡数据和环境时空数据导入到知识图谱来组织多源异构的时空数据，降低数据组织的难度以提高数据的利用效率，最后在针对目标研究区域为样本稀缺区域的滑坡预测的过程中，结合预测流程和知识图谱，将预测模型、时空数据及样本研究区域进行整合，提升样本稀缺区域的滑坡预测精度和效率。

图9是本发明提供的一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(communication interface)911、存储器(memory)912和总线(bus)913，其中，处理器910，通信接口911，存储器912通过总线913完成相互间的通信。处理器910可以调用存储器912中的逻辑指令，以执行如下方法：

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机电源屏(可以是个人计算机，服务器，或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的基于知识图谱的目标研究区域滑坡预测方法，例如包括：

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于知识图谱的目标研究区域滑坡预测方法，例如包括：

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电源屏(可以是个人计算机，服务器，或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识图谱的目标研究区域滑坡预测方法，其特征在于，包括：

在所述目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对所述目标研究区域进行滑坡预测，所述候选区域为所述知识图谱中与所述目标研究区域的环境特征相似度最高的研究区域；

所述知识图谱，包括：

模式层和数据层；

2.根据权利要求1所述的基于知识图谱的目标研究区域滑坡预测方法，其特征在于，在所述目标研究区域为样本稀缺区域的情况下，所述候选区域的获取方式，包括：

3.根据权利要求2所述的基于知识图谱的目标研究区域滑坡预测方法，其特征在于，所述研究区域中与所述目标研究区域的环境特征对应的特征值相等的第二研究区域的确定方式，包括：

4.根据权利要求1所述的基于知识图谱的目标研究区域滑坡预测方法，其特征在于，所述将目标数据导入到知识图谱之前，所述方法，还包括：

根据进行滑坡预测的区域边界，确定所述目标研究区域；

5.根据权利要求1-4任一项所述的基于知识图谱的目标研究区域滑坡预测方法，其特征在于，在所述目标研究区域为非样本稀缺区域的情况下，所述方法，还包括：

6.根据权利要求5所述的基于知识图谱的目标研究区域滑坡预测方法，其特征在于，所述预测模型的获取方式，包括：

7.一种基于知识图谱的目标研究区域滑坡预测系统，其特征在于，包括：数据处理模块以及预测模块；

所述预测模块，用于在所述目标研究区域为样本稀缺区域的情况下，基于候选区域的候选预测模型，对所述目标研究区域进行滑坡预测，所述候选区域为所述知识图谱中与所述目标研究区域的环境特征相似度最高的研究区域；

所述知识图谱，包括：

模式层和数据层；

8.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述基于知识图谱的目标研究区域滑坡预测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于知识图谱的目标研究区域滑坡预测方法。