CN115952339B - 基于NGBoost的地理时空知识抽取和图谱表示方法 - Google Patents
基于NGBoost的地理时空知识抽取和图谱表示方法 Download PDFInfo
- Publication number
- CN115952339B CN115952339B CN202310239760.7A CN202310239760A CN115952339B CN 115952339 B CN115952339 B CN 115952339B CN 202310239760 A CN202310239760 A CN 202310239760A CN 115952339 B CN115952339 B CN 115952339B
- Authority
- CN
- China
- Prior art keywords
- geographic
- entity
- evolution
- entities
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于NGBoost的地理时空知识抽取和图谱表示方法,包括抽取历史序列地图中地理实体及其空间关系;计算地理实体演变的几何、属性和空间关系相似度特征,提出一种基于自然梯度提升的地理演变过程中实体对齐的判断方法,使用统一性的解释框架,分析地理实体对齐中各相似度的贡献度;根据点、线和面实体的对齐类型,设计地理实体时空演变的自然语言关联规则,形成地理实体时空演变的知识四元组;使用Neo4j图数据库工具,构建地理时空演化知识图谱。本申请对历史地图中地理实体进行自动对齐,实现序列地图中地理实体时空演变知识抽取和图谱表示,为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。
Description
技术领域
本申请涉及历史地图知识图谱领域,具体涉及一种基于自然梯度提升(NaturalGradient Boosting, NGBoost)和统一性的解释框架(Shapley Additive exPlanations,SHAP)的地理时空演化知识抽取与知识图谱表示方法。
背景技术
地理知识图谱是一种对地理概念、实体及其相互关系进行形式化描述的知识系统,能够提供系统的、深层次的结构化地理知识,地理知识图谱能在智能语义搜索、地理知识智能问答、知识挖掘与决策分析等更好地为人认知地理世界服务。
以往的知识来源多基于文本信息,由此获取的知识主要以属性信息和语义关系为主,缺少实体和概念的空间关系,因此能够精确表达空间关系且提供空间相关的知识服务较少。历史地图承载着重要的地理信息,如自然和人工地物的名称和位置,对于研究一个地理区域的过去和回答各种与位置有关的问题至关重要。
目前,抽取地理实体时空演化关系是一项具有挑战的任务,本申请将地理实体时空演变关系抽取问题转化为地理实体对齐判断,再对对齐的实体进行语义关联,达到时空演化关系抽取的目的。相似性度量法是地理实体对齐的关键,但现有的对齐方法存在多指标几何对齐方法在计算综合相似度和确定最终对齐实体时面临着指标权重和阈值难以科学量化的难题。
是一种通过梯度提升算法进行概率性预测的有监督学习模型。此前的集成学习都不强调学习得到条件分布,而是直接让数据去拟合假设,然后学习得到模型;而NGBoost能输出每个预测的概率分布。NGBoost的组成模块有基学习器、参数概率分布和评分函数,这些模块均可以灵活地选取,NGBoost模型被广泛应用于不确定事件的概率预测学习任务中。
本申请将立足于历史地图,充分发挥大数据在地球科学相关的研究中的潜在优势,开展基于历史地图的地理演化知识的抽取方法和表示方法,为详细的研究历史时期地理环境及其演变规律提供技术支持。
发明内容
发明目的:为了解决现有知识图谱缺乏时间关系的问题,提出一种基于NGBoost的地理演变过程中实体对齐方法,抽取地理时空演化知识,挖掘地理现象与事物的演化过程。该方案包括如下步骤:抽取历史序列地图中地理实体及其空间关系;计算地理实体演变的几何、属性和空间关系相似度特征,提出一种基于自然梯度提升(Natural GradientBoosting, NGBoost)的地理演变过程中实体对齐的判断方法,使用统一性的解释框架(SHapleyAdditive exPlanations,SHAP)分析地理实体对齐中各相似度的贡献度等,本申请对历史地图中地理实体进行自动对齐,实现序列地图中地理实体时空演变知识抽取和图谱表示,为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。
技术方案:为实现上述目的,本申请提供一种基于NGBoost的地理时空知识抽取和图谱表示方法,包括如下步骤:
S1:抽取历史地图集中地理实体与实体的属性,计算地理实体间空间关系;
S2:按照点、线和面实体分类,分别计算地理实体演变的几何、属性和空间关系相似度特征;
S3:提出基于NGBoost的地理演变过程中实体对齐的判断方法,结合地理实体演变的各相似度特征,进行历史序列地图的地理实体对齐;
S4:使用SHAP解释框架可视化特征关系,分析相似度特征重要性,增加模型透明度;
S5:对比本申请所提出的NGBoost方法与已有经典方法,结果表明本申请所提出的NGBoost方法的实体对齐精度更高;
S6:根据点、线和面实体类型的1-1、1-N和N-1等对齐类型,设计地理实体时空演变的自然语言规则,定义地理时空演变的知识四元组,抽取地理实体时空演化关系知识四元组
S7:使用Neo4j图数据库工具,构建关于地理时空演化知识图谱。
进一步的,所述步骤S1中,抽取历史地图集中的地理实体与实体属性,计算地理实体间空间关系,其中抽取的实体包括行政区、城市和河流,抽取的实体的属性包含基本信息、位置、大小和地理类型;计算的空间关系包括方位、距离、拓扑关系。
进一步的,所述步骤S2中,对点、线和面三种不同类型实体,分别计算地理实体演变的几何、属性和空间关系相似度特征,其中几何相似度特征包括大小相似度和形状相似度;属性相似度特征包括语义相似度;空间相似度特征包括距离相似度和拓扑相似度,将地理实体时空演变关系抽取问题转化为地理实体对齐判断。
进一步的,所述步骤S3中,结合地理实体演变的各相似度特征,采用NGBoost集成学习方法,进行不同时期地理实体对齐判断,使用概率来预测地理实体对齐的不确定性。
进一步的,所述步骤S4中,使用SHAP模型,辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献,SHAP的特征重要性依靠Shapley值来衡量,其值的绝对值越大,表示该特征对模型预测值的影响越大,其正负则代表影响的方向,Shapley值的计算方法如下:
进一步的,所述步骤S5中,同时使用本申请所提出的NGBoost方法和已有常见方法进行不同时期地理实体对齐判断,比较不同方法的对齐结果精度,其中,对比的其他常用方法包括:前馈神经网络(BackPropagationNeural Networks,BP神经网络)、分类和回归决策树(Classification And Regression Tree,CART决策树)、随机森林、极度梯度提升算法(eXtremeGradient Boosting,XGBoost)和类别提升算法(Categorical Boosting,CatBoost)。
进一步的,所述步骤S6中,结合地理实体时空演变特征,设计演化关系谓词用于连接对齐的不同时期实体对,定义点、线和面不同类型地理实体时空演化的自然语言规则,建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典,构建地理实体演变的知识四元组,将地理实体演化知识表达为四元组形式,地理知识四元组具体形式如下:
进一步的,所述步骤S7中,使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建地理实体时空演变知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。
有益效果:
(1)本申请提出一种基于NGBoost的地理演变过程中实体对齐的判断方法,使用SHAP框架分析地理实体间各相似度的重要性,能够优化地理实体相似度特征权重及其阈值选择,提升对齐精度且便于解释。
(2)本申请使用知识四元组对地理时空演化知识进行表示,能解决三元组表达知识造成信息缺失、表达混乱和知识错误的问题,且能动态并正确地表达地理实体演化关系,展示事件的发展变化。
(3)本申请利用抽取的地理知识四元组,构建关于地理时空演化知识图谱,构建的知识图谱侧重于表达地理时空演变关系,在表示地理实体的演变过程方面具有优势。
附图说明
图1为本申请方法的基本框架结构示意图;
图2为点实体的SHAP摘要图;
图3为线实体的SHAP摘要图;
图4为地理空间部分知识图谱;
图5为地理实体演变关系示例图;
图6为“汉阳郡”演化过程查询结果示意图;
图7为三国时期地理实体查询结果示意图。
具体实施方式
下面结合附图和具体实施案例,进一步阐明本发明。
实施例1:参见图1,本申请提供一种基于NGBoost的地理时空知识抽取和图谱表示方法,包括如下步骤:
S1:抽取历史地图集中地理实体与实体的属性,计算地理实体间空间关系;
S2:按照点、线和面实体分类,分别计算地理实体演变的几何、属性和空间关系相似度特征;
S3:提出基于NGBoost的地理演变过程中实体对齐的判断方法,结合地理实体演变的各相似度特征,进行历史序列地图的地理实体对齐;
S4:使用SHAP解释框架可视化特征关系,分析相似度特征重要性,增加模型透明度;
S5:对比本申请所提出的NGBoost方法与已有经典方法,结果表明本申请所提出的NGBoost方法的实体对齐精度更高;
S6:根据点、线和面实体类型的1-1、1-N和N-1等对齐类型,设计地理实体时空演变的自然语言规则,定义地理时空演变的知识四元组,抽取地理实体时空演化关系知识四元组
S7:使用Neo4j图数据库工具,构建关于地理时空演化知识图谱。
所述步骤S1中,抽取历史地图集中的地理实体与实体属性,计算地理实体间空间关系,其中抽取的实体包括行政区、城市和河流,抽取的实体的属性包含基本信息、位置、大小和地理类型;计算的空间关系包括方位、距离、拓扑关系。
所述步骤S2中,对点、线和面三种不同类型实体,分别计算地理实体演变的几何、属性和空间关系相似度特征,其中几何相似度特征包括大小相似度和形状相似度;属性相似度特征包括语义相似度;空间相似度特征包括距离相似度和拓扑相似度,将地理实体时空演变关系抽取问题转化为地理实体对齐判断。
所述步骤S3中,结合地理实体演变的各相似度特征,采用NGBoost集成学习方法,进行不同时期地理实体对齐判断,使用概率来预测地理实体对齐的不确定性。
所述步骤S4中,使用SHAP模型,辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献,SHAP的特征重要性依靠Shapley值来衡量,其值的绝对值越大,表示该特征对模型预测值的影响越大,其正负则代表影响的方向,Shapley值的计算方法如下:
所述步骤S5中,同时使用本申请所提出的NGBoost方法和已有常见方法进行不同时期地理实体对齐判断,比较不同方法的对齐结果精度,其中,对比的其他常用方法包括:前馈神经网络(Back PropagationNeural Networks,BP神经网络)、分类和回归决策树(ClassificationAnd Regression Tree,CART决策树)、随机森林、极度梯度提升算法(eXtreme Gradient Boosting,XGBoost)和类别提升算法(Categorical Boosting,CatBoost)。
所述步骤S6中,结合地理实体时空演变特征,设计演化关系谓词用于连接对齐的不同时期实体对,定义点、线和面不同类型地理实体时空演化的自然语言规则,建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典,构建地理实体演变的知识四元组,将地理实体演化知识表达为四元组形式,地理知识四元组具体形式如下:
所述步骤S7中,使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建地理实体时空演变知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。
实施例2:本发明提供一种基于NGBoost的地理时空知识抽取和图谱表示方法,本方法包含五个部分:第一部分为抽取历史地图中的地理实体及实体属性与关系;第二部分为相似度评价特征指标构建;第三部分为使用NGBoost与SHAP解释框架进行对齐与分析;第四部分是设计地理实体时空演变的自然语言关联规则,形成地理实体时空演变的知识四元组;第五部分是构建关于地理实体时空演化关系的知识图谱。
结合五部分内容,本实施案例中一种基于NGBoost的地理时空知识抽取和图谱表示方法的步骤如下:
(1)抽取历史地图中的地理实体及实体属性与关系;
(11)抽取历史地图中的点线面实体及其之间的属性;
(12)抽取历史地图中点线面实体间空间关系;
(2)构建相似度评价特征指标;
(21)按照点线面实体分类,计算不同时期地图内实体间各项相似度;
(22)人工判别部分实体是否对齐;
(3)使用NGBoost与SHAP解释框架进行对齐与分析;
(31)使用NGBoost模型训练数据集,对待对齐实体进行预测;
(32)使用SHAP解释框架对模型进行分析,判别各相似度指标对预测的重要程度;
(33)对比NGBoost方法与其他经典方法的性能差异;
(4)设计地理实体时空演变的自然语言关联规则及知识四元组表示;
(41)构建语义关系规则,链接对齐的实体对,生成时空演化关系;
(42)对时空演化知识进行四元组表示;
(5)构建关于地理实体时空演化关系的知识图谱
(51)将所抽取的地理知识四元组存储到Neo4j图数据库;
(52)构建地理时空演化知识图谱,可视化地理时空演化过程;
其中第一部分是抽取历史地图中的地理实体及实体属性与关系具体实施步骤包含以下内容:
采用谭其骧先生主编的《中国历史地图集》为主要数据来源,该地图集收录了上至先秦下到清朝中期全部可考的郡县级以上的政区的丰富地理信息。本申请选择其中东汉、三国、西晋和东晋时期的共四幅地图作为研究案例。
从四副历史地图中提取地理实体,其中点类型实体包含古代城市、风景名胜和其他要素等,线实体类型包含河流要素,面实体包含朝代政区边界要素。表1总结了历史地图中不同类型实体的数量。
表1:各时期不同类型实体数量
其中第二部分是构建相似度评价特征指标,具体实施步骤包含以下内容:
相似性度量法是地理实体对齐的关键,根据实体的属性特征和实体间的关系特征,本申请从语义相似度、距离相似度、大小相似度、形状相似度和拓扑相似度几个方面构建相似度指标。
(1)语义相似度公式如下:
(2)距离相似度公式如下:
(3)大小相似度公式如下:
(4)形状相似度公式如下:
(5)拓扑相似度公式如下:
计算实体间相似度后,生成数据集如表2所示,其中的标签值列为对齐结果,对齐为1,不对齐为0。
表2:实体相似度计算结果及标签值示例
其中第三部分是使用NGBoost与SHAP解释框架进行对齐与分析。具体实施步骤包含以下内容:
现有的基于相似度特征方法在计算综合相似度和确定最终对齐实体时面临着指标权重和阈值难以科学量化的难题,本申请提出基于NGBoost的方法进行实体对齐判断,再使用SHAP解释框架来研究各个相似度特征的重要性和如何影响预测结果,进行机器学习模型解释。
NGBoost(Natural GradientBoosting)模型是一种新型的有监督机器学习算法,它通过在传统的梯度提升算法中引入了自然梯度,在保留梯度提升算法在小规模数据集上拥有很高精度的优点的同时,拥有了概率预测的能力。使用自然梯度能够使训练过程更加趋向于收敛,并且能更好地拟合。
NGBoost模型主要由基学习器、参数的概率分布函数,和评分规则三个部分组成。
(1)对分布参数进行初始化:
(2)对每一个训练样本计算自然梯度计算:
(3)通过计算的自然梯度拟合基学习器,拟合的方向为前一次迭代的评分规则的自然梯度下降方向,即公式(3)所示:
(4)计算缩放因子,缩放因子的选取需要以线搜索的形式最小化沿投射梯度方向的整体真实评分规则损失作为标准,即公式(9)所示。
(6)重复步骤(2)至(5)直到迭代完成。
通过上述训练,若给定测试集的预测参数,则可得到条件概率密度的概率预测,如公式(11)所示。
模型在训练时有众多超参数,本申请使用K折交叉验证和贝叶斯优化算法寻找参数的最优选项使得模型性能最优,优化的参数包括:基础学习器最大深度、学习率和基础学习器个数,在本申请案例中,这些参数分别取值4,0.01和30时模型性能达到最优。
本申请根据不同类型实体的特征选择不同的相似度组合进行计算,点实体选择语义、距离、拓扑相似度,线实体选择距离、长度、形状、拓扑相似度,面实体选择距离、形状、面积相似度。
本申请使用统一的解释模型:SHAP帮助理解用于重构的机器学习模型。SHAP 是一种可加性特征归因机器学习解释方法,用以表示每次预测中,输入特征值对于预测结果的贡献。对于以决策树作为基学习器的集成学习模型,SHAP 模型给出了一种结合了局部解释方法和经典Shapley 值估计方法的解释方法。
SHAP值的绝对值越大表示该特征对模型预测值的影响越大,其正负则代表影响的方向。图2表明点实体对齐贡献度最大的是距离相似度,然后依次是语义相似度和拓扑相似度,图3表明线状实体对齐贡献度影响最大是距离相似度,然后依次是大小相似度和拓扑相似度。
本申请使用二分类常用评价指标:精确度、召回度及F1分数作为方法的对比衡量测度,其计算公式分别如下:
表 3展示了不同对齐方法的评价指标情况,其中的评价指标为点实体、线实体和面实体的对齐情况的平均,通过对比其他模型可以看出,集成学习算法的表现优于常规分类算法,在3种集成学习算法中,算法的平均精确度、平均召回率和平均F1分数为0.9245、0.9608和0.9423,比其他模型呈现出更好的表现。从结果可以看出,使用集成学习的方法要优于常规分类方法,而本专利所提方法在实体对齐过程中表现出了优异的性能,使用了自然梯度提升的集成算法能预测结果中的不确定性,提高了分类性能。
表3:不同对齐方法的评价指标对比
表4:自然语言关联规则表
其中第四部分是设计地理实体时空演化的自然语言规则抽取时空演化关系及知识四元组表示,链接对齐的实体对,生成时空演化关系,设计演化关系谓词用于连接对齐的实体对,具体为:建立演化关系和自然语言描述对照关联词典,将演化知识表达的四元组形式,具体形式见公式(16)。
本申请结合实体对齐的结果和实际的可能演化情况,人工设计了地理实体时空演化的自然语言规则,见表 4,将不同时期的实体演化的所有关系涵盖。
具体的实施方式例如:东汉时期中的“东汉”实体与三国时期中的“魏”、“蜀”、“吴”实体相对齐,其演化关系类型为1对多,则关系谓词可用“分裂”连接,自然语言描述为:“东汉分裂为魏、蜀、吴”。
更具体的,针对不同类型的实体设计了不同的转换规则。
对于点实体类型,主要分为三种实体对齐关系:
(1)1-1关系,依据点实体的位置和名称差异,细分为位置变化名称无变化、名称变化位置改变、名称改变位置变化以及无变化这四类,例如从东汉到三国的朝代更迭中,合肥更名为合肥旧城,其四元组表示为:<合肥,位置不变名称改变,合肥旧城,(东汉,三国)>;
(2)0-1关系,即点实体在该朝代首次出现,例如从东汉到三国,巴西郡首次出现,其四元组表示为:<巴西郡,新建于,蜀汉,(东汉,三国)>;
(3)1-0关系,说明该点实体在政权变动中消逝了,例如从东汉到三国,小宛无对齐的实体,则其四元组表示为<小宛,消亡于,东汉,(东汉,三国)>。
对于线实体,河流作为线实体的主要构成之一,存在三种实体对齐关系:
(1)1-1关系,部分河流走向以及名称并无变化,例如从三国到西晋沅水未发生变化,四元组表示为<沅水,未变化,沅水,(三国,西晋)>;
(2)1-0关系,出现河床干涸、河流改道等种种情况,例如从西晋到东晋,乌侯秦水无对齐实体,四元组表示为<乌侯秦水,消逝,西晋,(西晋,东晋)>;
(3)1-N关系,出现河流分支的情况,例如从西晋到东晋,弱水发生分流,<弱水,分裂为,难水,(西晋,东晋)>。
对于面实体,主要象征着政权的变化,也分为三类实体对齐关系:
(1)1-1关系,即只存在名称的改变,而面的形状位置无变化,例如三国到西晋时期,<鲜卑,更名为,鲜卑、匈奴,(三国,西晋)>;
(2)1-N关系,例如从东汉到三国,政权割裂,<东汉,分裂,魏、蜀汉、吴、羌胡,(东汉,三国)>;
(3)N-1关系,例如从三国到西晋,政权集中化,<魏、蜀汉、吴,合并为,西晋,(三国,西晋)>。
其中第五部分是使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建关于地理时空演化知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系,部分地理空间知识图谱的节点及关系如图4示。
本申请通过生成的四元组构建了地理时空演变知识图谱,存储在Neo4j图形数据库中。传统的知识图谱可以简明地表达静态事实,对于有关变化的问题,往往只得出该类型的多个值,多个值之间缺乏相应的演化关系。与传统的知识图谱相比,本文构建的图谱可以支持查询实体的演化过程,部分地理实体的演化查询如图5所示。本申请构建的图谱可支撑查询实体的演变知识,可以使用SPARQL查询语言来查询地理时空演变知识图谱,如“东汉时期汉阳郡的演变过程”,其查询结果如图6所示;如“三国时期新建了哪些郡县”,其查询结果如图7所示,可清晰的展示相较于东汉时期,三国时期新增加的郡县名称。本申请构建的图谱可以表示时空演变过程,在表示过程方面具有特殊优势。
综上所述:本申请公开了一种基于NGBoost的地理时空知识抽取和图谱表示方法,抽取历史序列地图中地理实体及其空间关系;计算地理实体演变的几何、属性和空间关系相似度特征,提出一种基于NGBoost的地理演变过程中实体对齐的判断方法,使用SHAP分析地理实体对齐中各相似度的贡献度;根据点、线和面实体的对齐类型,设计地理实体时空演变的自然语言关联规则,形成地理实体时空演变的知识四元组;结合地理实体时空演变特征,设计地理时空演变知识的表示框架,构建地理时空演化知识图谱。本申请对历史地图中地理实体进行自动对齐,实现序列地图中地理实体时空演变知识抽取和图谱表示,为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。
上面对本申请实施例结合附图进行了说明,但本申请不限于上述实施例,还可以根据本申请的发明创造的目的做出多种变化,凡依据本申请技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本申请的发明目的,只要不背离本申请的技术原理和发明构思,都属于本申请的保护范围。
Claims (6)
1.一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于,所述方法包括如下步骤:
S1:抽取历史地图集中地理实体与实体的属性,计算地理实体间空间关系;
S2:按照点、线和面实体分类,分别计算地理实体演变的几何、属性和空间关系相似度特征;
S3:提出基于自然梯度提升的地理演变过程中实体对齐的判断方法,结合地理实体演变的各相似度特征,进行历史序列地图的地理实体对齐;
S4:使用统一性的解释框架可视化特征关系,分析NGBoost地理实体对齐计算中各相似度特征的贡献度,增加NGBoost模型透明度;
S6:根据点、线和面实体类型的1对1、1对多和多对1对齐类型,设计地理实体时空演变的自然语言规则,定义地理时空演变的知识四元组,抽取地理实体时空演化关系知识四元组;
S7:使用Neo4j图数据库工具,构建地理时空演化知识图谱;
其中,所述步骤S4中,使用SHAP模型,辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献,SHAP的特征重要性依靠Shapley值来衡量,其值的绝对值越大,表示该特征对模型预测值的影响越大,其正负则代表影响的方向,Shapley值的特征如下:
2.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S1中,抽取历史地图集中的地理实体与实体属性,计算地理实体间空间关系,其中抽取的实体包括行政区、城市和河流,抽取的实体的属性包含基本信息、位置、大小和地理类型;计算的空间关系包括方位、距离和拓扑关系。
3.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S2中,对点、线和面三种不同类型实体,分别计算地理实体演变的几何、属性和空间关系相似度特征,其中几何相似度特征包括大小相似度和形状相似度;属性相似度特征包括语义相似度;空间相似度特征包括距离相似度和拓扑相似度,将地理实体时空演变关系抽取问题转化为地理实体对齐判断。
4.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S3中,结合地理实体演变的各相似度特征,采用NGBoost集成学习方法,进行不同时期地理实体对齐判断,使用概率来预测地理实体对齐的不确定性。
6.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S7中,使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建地理实体时空演变知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310239760.7A CN115952339B (zh) | 2023-03-14 | 2023-03-14 | 基于NGBoost的地理时空知识抽取和图谱表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310239760.7A CN115952339B (zh) | 2023-03-14 | 2023-03-14 | 基于NGBoost的地理时空知识抽取和图谱表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115952339A CN115952339A (zh) | 2023-04-11 |
CN115952339B true CN115952339B (zh) | 2023-06-27 |
Family
ID=85903365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310239760.7A Active CN115952339B (zh) | 2023-03-14 | 2023-03-14 | 基于NGBoost的地理时空知识抽取和图谱表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952339B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578676B (zh) * | 2023-07-12 | 2023-10-20 | 中国测绘科学研究院 | 一种地名时空演化查询方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2824148B1 (fr) * | 2001-04-30 | 2003-09-12 | Inst Francais Du Petrole | Methode pour faciliter le suivi au cours du temps de l'evolution d'etats physiques dans une formation souterraine |
CN114723149A (zh) * | 2022-04-14 | 2022-07-08 | 北京市农林科学院信息技术研究中心 | 土壤墒情预测方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-14 CN CN202310239760.7A patent/CN115952339B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115952339A (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Miura et al. | Unifying text, metadata, and user network representations with a neural network for geolocation prediction | |
Zhang et al. | Modeling hierarchical category transition for next POI recommendation with uncertain check-ins | |
CN113065003B (zh) | 一种基于多指标的知识图谱生成方法 | |
CN111160471A (zh) | 一种兴趣点数据处理方法、装置、电子设备和存储介质 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
Buccella et al. | Building a global normalized ontology for integrating geographic data sources | |
CN110457420A (zh) | 兴趣点位置识别方法、装置、设备及存储介质 | |
CN115952339B (zh) | 基于NGBoost的地理时空知识抽取和图谱表示方法 | |
CN112988917A (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN113779264A (zh) | 基于专利供需知识图谱的交易推荐方法 | |
Zhang et al. | An improved probabilistic relaxation method for matching multi-scale road networks | |
CN117151659B (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
Xue et al. | Forecasting hourly attraction tourist volume with search engine and social media data for decision support | |
CN115422441A (zh) | 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法 | |
CN111191084B (zh) | 一种基于图结构的地名地址的解析方法 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
Wu et al. | Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
Bermingham et al. | Mining place-matching patterns from spatio-temporal trajectories using complex real-world places | |
CN115408618A (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 | |
Cheng et al. | Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations | |
Laparra et al. | A dataset and evaluation framework for complex geographical description parsing | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |