CN115952339B

CN115952339B - 基于NGBoost的地理时空知识抽取和图谱表示方法

Info

Publication number: CN115952339B
Application number: CN202310239760.7A
Authority: CN
Inventors: 曹敏; 羊勇全; 孔德辉; 胡雪
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-27
Anticipated expiration: 2043-03-14
Also published as: CN115952339A

Abstract

本申请公开了一种基于NGBoost的地理时空知识抽取和图谱表示方法，包括抽取历史序列地图中地理实体及其空间关系；计算地理实体演变的几何、属性和空间关系相似度特征，提出一种基于自然梯度提升的地理演变过程中实体对齐的判断方法，使用统一性的解释框架，分析地理实体对齐中各相似度的贡献度；根据点、线和面实体的对齐类型，设计地理实体时空演变的自然语言关联规则，形成地理实体时空演变的知识四元组；使用Neo4j图数据库工具，构建地理时空演化知识图谱。本申请对历史地图中地理实体进行自动对齐，实现序列地图中地理实体时空演变知识抽取和图谱表示，为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。

Description

基于NGBoost的地理时空知识抽取和图谱表示方法

技术领域

本申请涉及历史地图知识图谱领域，具体涉及一种基于自然梯度提升（NaturalGradient Boosting, NGBoost）和统一性的解释框架（Shapley Additive exPlanations,SHAP）的地理时空演化知识抽取与知识图谱表示方法。

背景技术

地理知识图谱是一种对地理概念、实体及其相互关系进行形式化描述的知识系统,能够提供系统的、深层次的结构化地理知识，地理知识图谱能在智能语义搜索、地理知识智能问答、知识挖掘与决策分析等更好地为人认知地理世界服务。

以往的知识来源多基于文本信息，由此获取的知识主要以属性信息和语义关系为主，缺少实体和概念的空间关系，因此能够精确表达空间关系且提供空间相关的知识服务较少。历史地图承载着重要的地理信息，如自然和人工地物的名称和位置，对于研究一个地理区域的过去和回答各种与位置有关的问题至关重要。

目前，抽取地理实体时空演化关系是一项具有挑战的任务，本申请将地理实体时空演变关系抽取问题转化为地理实体对齐判断，再对对齐的实体进行语义关联，达到时空演化关系抽取的目的。相似性度量法是地理实体对齐的关键，但现有的对齐方法存在多指标几何对齐方法在计算综合相似度和确定最终对齐实体时面临着指标权重和阈值难以科学量化的难题。

是一种通过梯度提升算法进行概率性预测的有监督学习模型。此前的集成学习都不强调学习得到条件分布，而是直接让数据去拟合假设，然后学习得到模型；而NGBoost能输出每个预测的概率分布。NGBoost的组成模块有基学习器、参数概率分布和评分函数，这些模块均可以灵活地选取，NGBoost模型被广泛应用于不确定事件的概率预测学习任务中。

本申请将立足于历史地图，充分发挥大数据在地球科学相关的研究中的潜在优势，开展基于历史地图的地理演化知识的抽取方法和表示方法，为详细的研究历史时期地理环境及其演变规律提供技术支持。

发明内容

发明目的：为了解决现有知识图谱缺乏时间关系的问题，提出一种基于NGBoost的地理演变过程中实体对齐方法，抽取地理时空演化知识，挖掘地理现象与事物的演化过程。该方案包括如下步骤：抽取历史序列地图中地理实体及其空间关系；计算地理实体演变的几何、属性和空间关系相似度特征，提出一种基于自然梯度提升（Natural GradientBoosting, NGBoost）的地理演变过程中实体对齐的判断方法，使用统一性的解释框架（SHapleyAdditive exPlanations，SHAP）分析地理实体对齐中各相似度的贡献度等，本申请对历史地图中地理实体进行自动对齐，实现序列地图中地理实体时空演变知识抽取和图谱表示，为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。

技术方案：为实现上述目的，本申请提供一种基于NGBoost的地理时空知识抽取和图谱表示方法，包括如下步骤：

S1：抽取历史地图集中地理实体与实体的属性，计算地理实体间空间关系；

S2：按照点、线和面实体分类，分别计算地理实体演变的几何、属性和空间关系相似度特征；

S3：提出基于NGBoost的地理演变过程中实体对齐的判断方法，结合地理实体演变的各相似度特征，进行历史序列地图的地理实体对齐；

S4：使用SHAP解释框架可视化特征关系，分析相似度特征重要性，增加模型透明度；

S5：对比本申请所提出的NGBoost方法与已有经典方法，结果表明本申请所提出的NGBoost方法的实体对齐精度更高；

S6：根据点、线和面实体类型的1-1、1-N和N-1等对齐类型，设计地理实体时空演变的自然语言规则，定义地理时空演变的知识四元组，抽取地理实体时空演化关系知识四元组

S7：使用Neo4j图数据库工具，构建关于地理时空演化知识图谱。

进一步的，所述步骤S1中，抽取历史地图集中的地理实体与实体属性，计算地理实体间空间关系，其中抽取的实体包括行政区、城市和河流，抽取的实体的属性包含基本信息、位置、大小和地理类型；计算的空间关系包括方位、距离、拓扑关系。

进一步的，所述步骤S2中，对点、线和面三种不同类型实体，分别计算地理实体演变的几何、属性和空间关系相似度特征，其中几何相似度特征包括大小相似度和形状相似度；属性相似度特征包括语义相似度；空间相似度特征包括距离相似度和拓扑相似度，将地理实体时空演变关系抽取问题转化为地理实体对齐判断。

进一步的，所述步骤S3中，结合地理实体演变的各相似度特征，采用NGBoost集成学习方法，进行不同时期地理实体对齐判断，使用概率来预测地理实体对齐的不确定性。

进一步的，所述步骤S4中，使用SHAP模型，辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献，SHAP的特征重要性依靠Shapley值来衡量，其值的绝对值越大，表示该特征对模型预测值的影响越大，其正负则代表影响的方向，Shapley值的计算方法如下：

，

式中，

为特征向量/>

中特征的数量，/>

指特征/>

的Shapley值，用于表示该特征的贡献；/>

表示为平均贡献值；/>

表示该特征是否存在，取值为0或1；/>

代表预测模型；

代表解释模型。

进一步的，所述步骤S5中，同时使用本申请所提出的NGBoost方法和已有常见方法进行不同时期地理实体对齐判断，比较不同方法的对齐结果精度，其中，对比的其他常用方法包括：前馈神经网络（BackPropagationNeural Networks,BP神经网络）、分类和回归决策树(Classification And Regression Tree，CART决策树)、随机森林、极度梯度提升算法(eXtremeGradient Boosting，XGBoost)和类别提升算法(Categorical Boosting，CatBoost)。

进一步的，所述步骤S6中，结合地理实体时空演变特征，设计演化关系谓词用于连接对齐的不同时期实体对，定义点、线和面不同类型地理实体时空演化的自然语言规则，建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典，构建地理实体演变的知识四元组，将地理实体演化知识表达为四元组形式，地理知识四元组具体形式如下：

，

式中，

为对齐的/>

时期实体，/>

对齐的/>

时期实体；/>

为两对齐实体的演化关系。

进一步的，所述步骤S7中，使用Neo4j图数据库工具，利用所抽取的地理知识四元组，构建地理实体时空演变知识图谱，直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。

有益效果：

（1）本申请提出一种基于NGBoost的地理演变过程中实体对齐的判断方法，使用SHAP框架分析地理实体间各相似度的重要性，能够优化地理实体相似度特征权重及其阈值选择，提升对齐精度且便于解释。

(2)本申请使用知识四元组对地理时空演化知识进行表示，能解决三元组表达知识造成信息缺失、表达混乱和知识错误的问题，且能动态并正确地表达地理实体演化关系，展示事件的发展变化。

（3）本申请利用抽取的地理知识四元组，构建关于地理时空演化知识图谱，构建的知识图谱侧重于表达地理时空演变关系，在表示地理实体的演变过程方面具有优势。

附图说明

图1为本申请方法的基本框架结构示意图；

图2为点实体的SHAP摘要图；

图3为线实体的SHAP摘要图；

图4为地理空间部分知识图谱；

图5为地理实体演变关系示例图；

图6为“汉阳郡”演化过程查询结果示意图；

图7为三国时期地理实体查询结果示意图。

具体实施方式

下面结合附图和具体实施案例，进一步阐明本发明。

实施例1：参见图1，本申请提供一种基于NGBoost的地理时空知识抽取和图谱表示方法，包括如下步骤：

所述步骤S1中，抽取历史地图集中的地理实体与实体属性，计算地理实体间空间关系，其中抽取的实体包括行政区、城市和河流，抽取的实体的属性包含基本信息、位置、大小和地理类型；计算的空间关系包括方位、距离、拓扑关系。

所述步骤S2中，对点、线和面三种不同类型实体，分别计算地理实体演变的几何、属性和空间关系相似度特征，其中几何相似度特征包括大小相似度和形状相似度；属性相似度特征包括语义相似度；空间相似度特征包括距离相似度和拓扑相似度，将地理实体时空演变关系抽取问题转化为地理实体对齐判断。

所述步骤S3中，结合地理实体演变的各相似度特征，采用NGBoost集成学习方法，进行不同时期地理实体对齐判断，使用概率来预测地理实体对齐的不确定性。

所述步骤S4中，使用SHAP模型，辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献，SHAP的特征重要性依靠Shapley值来衡量，其值的绝对值越大，表示该特征对模型预测值的影响越大，其正负则代表影响的方向，Shapley值的计算方法如下：

,

式中，

为特征向量/>

中特征的数量，/>

指特征/>

的Shapley值，用于表示该特征的贡献；/>

表示为平均贡献值；/>

表示该特征是否存在，取值为0或1；/>

代表预测模型；

代表解释模型。

所述步骤S5中，同时使用本申请所提出的NGBoost方法和已有常见方法进行不同时期地理实体对齐判断，比较不同方法的对齐结果精度，其中，对比的其他常用方法包括：前馈神经网络（Back PropagationNeural Networks,BP神经网络）、分类和回归决策树(ClassificationAnd Regression Tree，CART决策树)、随机森林、极度梯度提升算法(eXtreme Gradient Boosting，XGBoost)和类别提升算法(Categorical Boosting，CatBoost)。

所述步骤S6中，结合地理实体时空演变特征，设计演化关系谓词用于连接对齐的不同时期实体对，定义点、线和面不同类型地理实体时空演化的自然语言规则，建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典，构建地理实体演变的知识四元组，将地理实体演化知识表达为四元组形式，地理知识四元组具体形式如下：

，

式中，

为对齐的/>

时期实体，/>

对齐的/>

时期实体；/>

为两对齐实体的演化关系。

所述步骤S7中，使用Neo4j图数据库工具，利用所抽取的地理知识四元组，构建地理实体时空演变知识图谱，直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。

实施例2：本发明提供一种基于NGBoost的地理时空知识抽取和图谱表示方法，本方法包含五个部分：第一部分为抽取历史地图中的地理实体及实体属性与关系；第二部分为相似度评价特征指标构建；第三部分为使用NGBoost与SHAP解释框架进行对齐与分析；第四部分是设计地理实体时空演变的自然语言关联规则，形成地理实体时空演变的知识四元组；第五部分是构建关于地理实体时空演化关系的知识图谱。

结合五部分内容，本实施案例中一种基于NGBoost的地理时空知识抽取和图谱表示方法的步骤如下：

（1）抽取历史地图中的地理实体及实体属性与关系；

（11）抽取历史地图中的点线面实体及其之间的属性；

（12）抽取历史地图中点线面实体间空间关系；

（2）构建相似度评价特征指标；

（21）按照点线面实体分类，计算不同时期地图内实体间各项相似度；

（22）人工判别部分实体是否对齐；

（3）使用NGBoost与SHAP解释框架进行对齐与分析；

（31）使用NGBoost模型训练数据集，对待对齐实体进行预测；

（32）使用SHAP解释框架对模型进行分析，判别各相似度指标对预测的重要程度；

（33）对比NGBoost方法与其他经典方法的性能差异；

（4）设计地理实体时空演变的自然语言关联规则及知识四元组表示；

（41）构建语义关系规则，链接对齐的实体对，生成时空演化关系；

（42）对时空演化知识进行四元组表示；

（5）构建关于地理实体时空演化关系的知识图谱

（51）将所抽取的地理知识四元组存储到Neo4j图数据库；

（52）构建地理时空演化知识图谱，可视化地理时空演化过程；

其中第一部分是抽取历史地图中的地理实体及实体属性与关系具体实施步骤包含以下内容：

采用谭其骧先生主编的《中国历史地图集》为主要数据来源，该地图集收录了上至先秦下到清朝中期全部可考的郡县级以上的政区的丰富地理信息。本申请选择其中东汉、三国、西晋和东晋时期的共四幅地图作为研究案例。

从四副历史地图中提取地理实体，其中点类型实体包含古代城市、风景名胜和其他要素等，线实体类型包含河流要素，面实体包含朝代政区边界要素。表1总结了历史地图中不同类型实体的数量。

表1：各时期不同类型实体数量

，

其中第二部分是构建相似度评价特征指标，具体实施步骤包含以下内容：

相似性度量法是地理实体对齐的关键，根据实体的属性特征和实体间的关系特征，本申请从语义相似度、距离相似度、大小相似度、形状相似度和拓扑相似度几个方面构建相似度指标。

（1）语义相似度公式如下：

（1），

式中

表示实体A和实体B间的语义相似度，/>

和

表示实体A和实体B的字符集合，/>

是已经对齐的实体的数量，

是这两个集合中实体的总数。

（2）距离相似度公式如下：

（2），

式中

是实体A和实体B间的距离相似度，/>

是实体A和实体B之前的距离，/>

是实体集中最大的距离。

（3）大小相似度公式如下：

（3），

式中

是实体A和实体B间的距离相似度，/>

和/>

分别是实体A与实体B的大小，/>

表示实体A与实体B的大小最大值。

（4）形状相似度公式如下：

（4），

式中

是实体A与实体B间的形状相似度，/>

和/>

分别为实体A与实体B的转角折线函数表达式，/>

表示实体A与实体B转角折线与x轴形成面积的差值，/>

表示实体A与实体B转角折线与x轴形成面积的最大值。

（5）拓扑相似度公式如下：

（5），

式中

表示实体A与实体B间的拓扑相似度，

为这两个集合中实体的总数；/>

是两个集合/>

和/>

中已经对齐的实体的数量。

计算实体间相似度后，生成数据集如表2所示，其中的标签值列为对齐结果，对齐为1，不对齐为0。

表2：实体相似度计算结果及标签值示例

，

其中第三部分是使用NGBoost与SHAP解释框架进行对齐与分析。具体实施步骤包含以下内容：

现有的基于相似度特征方法在计算综合相似度和确定最终对齐实体时面临着指标权重和阈值难以科学量化的难题，本申请提出基于NGBoost的方法进行实体对齐判断，再使用SHAP解释框架来研究各个相似度特征的重要性和如何影响预测结果，进行机器学习模型解释。

NGBoost（Natural GradientBoosting）模型是一种新型的有监督机器学习算法，它通过在传统的梯度提升算法中引入了自然梯度，在保留梯度提升算法在小规模数据集上拥有很高精度的优点的同时，拥有了概率预测的能力。使用自然梯度能够使训练过程更加趋向于收敛，并且能更好地拟合。

NGBoost模型主要由基学习器、参数的概率分布函数,和评分规则三个部分组成。

对于数据集

，NGBoost模型计算的基本流程为：

（1）对分布参数进行初始化：

（6），

式中

为样本的数量，/>

是分布参数，/>

为评分规则，/>

为第/>

个样本的标签值。

（2）对每一个训练样本计算自然梯度计算：

(7)，

式中

为迭代轮次，/>

代表第/>

次迭代的自然梯度，/>

为费尔希信息量，

代表前一次迭代的分布参数，/>

为/>

关于/>

的梯度。

（3）通过计算的自然梯度拟合基学习器，拟合的方向为前一次迭代的评分规则的自然梯度下降方向，即公式（3）所示:

（8），

式中

代表第/>

个基学习器，/>

为第/>

个样本特征。

（4）计算缩放因子，缩放因子的选取需要以线搜索的形式最小化沿投射梯度方向的整体真实评分规则损失作为标准，即公式（9）所示。

（9），

式中

表示第/>

次迭代的缩放因子。

（5）更新分布参数

：

（10），

式中

为学习率，其取值范围为0~1，作用是避免过拟合。通过缩放因子/>

对梯度进行比例放缩，这样做的目的是为了解决局部的近似可能导致离开当前参数位置后失效的问题。

（6）重复步骤（2）至（5）直到迭代完成。

通过上述训练，若给定测试集的预测参数，则可得到条件概率密度的概率预测，如公式（11）所示。

（11），

式中

表示条件分布函数，/>

表示对输入/>

的条件概率预测，/>

表示初始分布的参数，/>

表示基础学习器，/>

表示放缩系数，/>

表示学习率，/>

表示基础学习器数量。

模型在训练时有众多超参数，本申请使用K折交叉验证和贝叶斯优化算法寻找参数的最优选项使得模型性能最优，优化的参数包括：基础学习器最大深度、学习率和基础学习器个数，在本申请案例中，这些参数分别取值4,0.01和30时模型性能达到最优。

本申请根据不同类型实体的特征选择不同的相似度组合进行计算，点实体选择语义、距离、拓扑相似度，线实体选择距离、长度、形状、拓扑相似度，面实体选择距离、形状、面积相似度。

本申请使用统一的解释模型：SHAP帮助理解用于重构的机器学习模型。SHAP 是一种可加性特征归因机器学习解释方法，用以表示每次预测中，输入特征值对于预测结果的贡献。对于以决策树作为基学习器的集成学习模型，SHAP 模型给出了一种结合了局部解释方法和经典Shapley 值估计方法的解释方法。

(12)，

式中，

为特征向量/>

中特征的数量，/>

指特征/>

的Shapley值，用于表示该特征的贡献；/>

表示为平均贡献值；/>

表示该特征是否存在，取值为0或1；代/>

表预测模型；

代表解释模型。

SHAP值的绝对值越大表示该特征对模型预测值的影响越大，其正负则代表影响的方向。图2表明点实体对齐贡献度最大的是距离相似度，然后依次是语义相似度和拓扑相似度，图3表明线状实体对齐贡献度影响最大是距离相似度，然后依次是大小相似度和拓扑相似度。

为了评价本申请方法的对齐判断结果，现将本专利所构建方法与BP神经网络、CART决策树、随机森林、

、/>

分析方法进行对比，并在同一数据集进行实验对比。

本申请使用二分类常用评价指标：精确度、召回度及F1分数作为方法的对比衡量测度，其计算公式分别如下：

(13)，

(14)，

(15)，

式中：

表示精确度；/>

表示召回度；/>

表示F1分数；/>

表示正确分类的对齐样本数量；/>

表示错误分类的对齐样本数量；/>

表示错误分类的不对齐样本数量。

表 3展示了不同对齐方法的评价指标情况，其中的评价指标为点实体、线实体和面实体的对齐情况的平均，通过对比其他模型可以看出，集成学习算法的表现优于常规分类算法，在3种集成学习算法中，

算法的平均精确度、平均召回率和平均F1分数为0.9245、0.9608和0.9423，比其他模型呈现出更好的表现。从结果可以看出，使用集成学习的方法要优于常规分类方法，而本专利所提方法在实体对齐过程中表现出了优异的性能，使用了自然梯度提升的集成算法能预测结果中的不确定性，提高了分类性能。

表3：不同对齐方法的评价指标对比

，

表4：自然语言关联规则表

，

其中第四部分是设计地理实体时空演化的自然语言规则抽取时空演化关系及知识四元组表示，链接对齐的实体对，生成时空演化关系，设计演化关系谓词用于连接对齐的实体对，具体为：建立演化关系和自然语言描述对照关联词典，将演化知识表达的四元组形式，具体形式见公式（16）。

(16)，

式中，

为对齐的/>

时期实体，/>

对齐的/>

时期实体；/>

为两对齐实体的演化关系。

本申请结合实体对齐的结果和实际的可能演化情况，人工设计了地理实体时空演化的自然语言规则，见表 4，将不同时期的实体演化的所有关系涵盖。

具体的实施方式例如:东汉时期中的“东汉”实体与三国时期中的“魏”、“蜀”、“吴”实体相对齐，其演化关系类型为1对多，则关系谓词可用“分裂”连接，自然语言描述为：“东汉分裂为魏、蜀、吴”。

更具体的，针对不同类型的实体设计了不同的转换规则。

对于点实体类型，主要分为三种实体对齐关系：

（1）1-1关系，依据点实体的位置和名称差异，细分为位置变化名称无变化、名称变化位置改变、名称改变位置变化以及无变化这四类，例如从东汉到三国的朝代更迭中，合肥更名为合肥旧城，其四元组表示为：<合肥，位置不变名称改变，合肥旧城，（东汉，三国）>；

（2）0-1关系，即点实体在该朝代首次出现，例如从东汉到三国，巴西郡首次出现，其四元组表示为：<巴西郡，新建于，蜀汉，（东汉，三国）>；

（3）1-0关系，说明该点实体在政权变动中消逝了，例如从东汉到三国，小宛无对齐的实体，则其四元组表示为<小宛，消亡于，东汉，（东汉，三国）>。

对于线实体，河流作为线实体的主要构成之一，存在三种实体对齐关系：

（1）1-1关系，部分河流走向以及名称并无变化，例如从三国到西晋沅水未发生变化，四元组表示为<沅水，未变化，沅水，（三国，西晋）>；

（2）1-0关系，出现河床干涸、河流改道等种种情况，例如从西晋到东晋，乌侯秦水无对齐实体，四元组表示为<乌侯秦水，消逝，西晋，（西晋，东晋）>；

（3）1-N关系，出现河流分支的情况，例如从西晋到东晋，弱水发生分流，<弱水，分裂为，难水，（西晋，东晋）>。

对于面实体，主要象征着政权的变化，也分为三类实体对齐关系：

（1）1-1关系，即只存在名称的改变，而面的形状位置无变化，例如三国到西晋时期，<鲜卑，更名为，鲜卑、匈奴，（三国，西晋）>；

（2）1-N关系，例如从东汉到三国，政权割裂，<东汉，分裂，魏、蜀汉、吴、羌胡，（东汉，三国）>；

（3）N-1关系，例如从三国到西晋，政权集中化，<魏、蜀汉、吴，合并为，西晋，（三国，西晋）>。

其中第五部分是使用Neo4j图数据库工具，利用所抽取的地理知识四元组，构建关于地理时空演化知识图谱，直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系，部分地理空间知识图谱的节点及关系如图4示。

本申请通过生成的四元组构建了地理时空演变知识图谱，存储在Neo4j图形数据库中。传统的知识图谱可以简明地表达静态事实，对于有关变化的问题，往往只得出该类型的多个值，多个值之间缺乏相应的演化关系。与传统的知识图谱相比，本文构建的图谱可以支持查询实体的演化过程，部分地理实体的演化查询如图5所示。本申请构建的图谱可支撑查询实体的演变知识，可以使用SPARQL查询语言来查询地理时空演变知识图谱，如“东汉时期汉阳郡的演变过程”，其查询结果如图6所示；如“三国时期新建了哪些郡县”，其查询结果如图7所示，可清晰的展示相较于东汉时期，三国时期新增加的郡县名称。本申请构建的图谱可以表示时空演变过程，在表示过程方面具有特殊优势。

综上所述：本申请公开了一种基于NGBoost的地理时空知识抽取和图谱表示方法，抽取历史序列地图中地理实体及其空间关系；计算地理实体演变的几何、属性和空间关系相似度特征，提出一种基于NGBoost的地理演变过程中实体对齐的判断方法，使用SHAP分析地理实体对齐中各相似度的贡献度；根据点、线和面实体的对齐类型，设计地理实体时空演变的自然语言关联规则，形成地理实体时空演变的知识四元组；结合地理实体时空演变特征，设计地理时空演变知识的表示框架，构建地理时空演化知识图谱。本申请对历史地图中地理实体进行自动对齐，实现序列地图中地理实体时空演变知识抽取和图谱表示，为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。

上面对本申请实施例结合附图进行了说明，但本申请不限于上述实施例，还可以根据本申请的发明创造的目的做出多种变化，凡依据本申请技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本申请的发明目的，只要不背离本申请的技术原理和发明构思，都属于本申请的保护范围。

Claims

1.一种基于NGBoost的地理时空知识抽取和图谱表示方法，其特征在于，所述方法包括如下步骤：

S3：提出基于自然梯度提升的地理演变过程中实体对齐的判断方法，结合地理实体演变的各相似度特征，进行历史序列地图的地理实体对齐；

S4：使用统一性的解释框架可视化特征关系，分析NGBoost地理实体对齐计算中各相似度特征的贡献度，增加NGBoost模型透明度；

S6：根据点、线和面实体类型的1对1、1对多和多对1对齐类型，设计地理实体时空演变的自然语言规则，定义地理时空演变的知识四元组，抽取地理实体时空演化关系知识四元组；

S7：使用Neo4j图数据库工具，构建地理时空演化知识图谱；

其中，所述步骤S4中，使用SHAP模型，辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献，SHAP的特征重要性依靠Shapley值来衡量，其值的绝对值越大，表示该特征对模型预测值的影响越大，其正负则代表影响的方向，Shapley值的特征如下：

,

式中，

为特征向量/>

中特征的数量，/>

指特征/>

的Shapley值，用于表示该特征的贡献；/>

表示为平均贡献值；/>

表示该特征是否存在，取值为0或1；/>

代表预测模型；/>

代表解释模型。

2.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法，其特征在于：所述步骤S1中，抽取历史地图集中的地理实体与实体属性，计算地理实体间空间关系，其中抽取的实体包括行政区、城市和河流，抽取的实体的属性包含基本信息、位置、大小和地理类型；计算的空间关系包括方位、距离和拓扑关系。

3.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法，其特征在于：所述步骤S2中，对点、线和面三种不同类型实体，分别计算地理实体演变的几何、属性和空间关系相似度特征，其中几何相似度特征包括大小相似度和形状相似度；属性相似度特征包括语义相似度；空间相似度特征包括距离相似度和拓扑相似度，将地理实体时空演变关系抽取问题转化为地理实体对齐判断。

4.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法，其特征在于：所述步骤S3中，结合地理实体演变的各相似度特征，采用NGBoost集成学习方法，进行不同时期地理实体对齐判断，使用概率来预测地理实体对齐的不确定性。

5.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法，其特征在于：所述步骤S6中，结合地理实体时空演变特征，设计演化关系谓词用于连接对齐的不同时期实体对，定义点、线和面不同类型地理实体时空演化的自然语言规则，建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典，构建地理实体演变的知识四元组，将地理实体演化知识表达为四元组形式，地理知识四元组具体形式如下：

,

式中，Entity1为对齐的T1时期实体，Entity2对齐的T2时期实体；R为两对齐实体的演化关系。

6.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法，其特征在于：所述步骤S7中，使用Neo4j图数据库工具，利用所抽取的地理知识四元组，构建地理实体时空演变知识图谱，直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。