CN115952339B - 基于NGBoost的地理时空知识抽取和图谱表示方法 - Google Patents

基于NGBoost的地理时空知识抽取和图谱表示方法 Download PDF

Info

Publication number
CN115952339B
CN115952339B CN202310239760.7A CN202310239760A CN115952339B CN 115952339 B CN115952339 B CN 115952339B CN 202310239760 A CN202310239760 A CN 202310239760A CN 115952339 B CN115952339 B CN 115952339B
Authority
CN
China
Prior art keywords
geographic
entity
evolution
entities
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310239760.7A
Other languages
English (en)
Other versions
CN115952339A (zh
Inventor
曹敏
羊勇全
孔德辉
胡雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202310239760.7A priority Critical patent/CN115952339B/zh
Publication of CN115952339A publication Critical patent/CN115952339A/zh
Application granted granted Critical
Publication of CN115952339B publication Critical patent/CN115952339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于NGBoost的地理时空知识抽取和图谱表示方法,包括抽取历史序列地图中地理实体及其空间关系;计算地理实体演变的几何、属性和空间关系相似度特征,提出一种基于自然梯度提升的地理演变过程中实体对齐的判断方法,使用统一性的解释框架,分析地理实体对齐中各相似度的贡献度;根据点、线和面实体的对齐类型,设计地理实体时空演变的自然语言关联规则,形成地理实体时空演变的知识四元组;使用Neo4j图数据库工具,构建地理时空演化知识图谱。本申请对历史地图中地理实体进行自动对齐,实现序列地图中地理实体时空演变知识抽取和图谱表示,为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。

Description

基于NGBoost的地理时空知识抽取和图谱表示方法
技术领域
本申请涉及历史地图知识图谱领域,具体涉及一种基于自然梯度提升(NaturalGradient Boosting, NGBoost)和统一性的解释框架(Shapley Additive exPlanations,SHAP)的地理时空演化知识抽取与知识图谱表示方法。
背景技术
地理知识图谱是一种对地理概念、实体及其相互关系进行形式化描述的知识系统,能够提供系统的、深层次的结构化地理知识,地理知识图谱能在智能语义搜索、地理知识智能问答、知识挖掘与决策分析等更好地为人认知地理世界服务。
以往的知识来源多基于文本信息,由此获取的知识主要以属性信息和语义关系为主,缺少实体和概念的空间关系,因此能够精确表达空间关系且提供空间相关的知识服务较少。历史地图承载着重要的地理信息,如自然和人工地物的名称和位置,对于研究一个地理区域的过去和回答各种与位置有关的问题至关重要。
目前,抽取地理实体时空演化关系是一项具有挑战的任务,本申请将地理实体时空演变关系抽取问题转化为地理实体对齐判断,再对对齐的实体进行语义关联,达到时空演化关系抽取的目的。相似性度量法是地理实体对齐的关键,但现有的对齐方法存在多指标几何对齐方法在计算综合相似度和确定最终对齐实体时面临着指标权重和阈值难以科学量化的难题。
Figure SMS_1
是一种通过梯度提升算法进行概率性预测的有监督学习模型。此前的集成学习都不强调学习得到条件分布,而是直接让数据去拟合假设,然后学习得到模型;而NGBoost能输出每个预测的概率分布。NGBoost的组成模块有基学习器、参数概率分布和评分函数,这些模块均可以灵活地选取,NGBoost模型被广泛应用于不确定事件的概率预测学习任务中。
本申请将立足于历史地图,充分发挥大数据在地球科学相关的研究中的潜在优势,开展基于历史地图的地理演化知识的抽取方法和表示方法,为详细的研究历史时期地理环境及其演变规律提供技术支持。
发明内容
发明目的:为了解决现有知识图谱缺乏时间关系的问题,提出一种基于NGBoost的地理演变过程中实体对齐方法,抽取地理时空演化知识,挖掘地理现象与事物的演化过程。该方案包括如下步骤:抽取历史序列地图中地理实体及其空间关系;计算地理实体演变的几何、属性和空间关系相似度特征,提出一种基于自然梯度提升(Natural GradientBoosting, NGBoost)的地理演变过程中实体对齐的判断方法,使用统一性的解释框架(SHapleyAdditive exPlanations,SHAP)分析地理实体对齐中各相似度的贡献度等,本申请对历史地图中地理实体进行自动对齐,实现序列地图中地理实体时空演变知识抽取和图谱表示,为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。
技术方案:为实现上述目的,本申请提供一种基于NGBoost的地理时空知识抽取和图谱表示方法,包括如下步骤:
S1:抽取历史地图集中地理实体与实体的属性,计算地理实体间空间关系;
S2:按照点、线和面实体分类,分别计算地理实体演变的几何、属性和空间关系相似度特征;
S3:提出基于NGBoost的地理演变过程中实体对齐的判断方法,结合地理实体演变的各相似度特征,进行历史序列地图的地理实体对齐;
S4:使用SHAP解释框架可视化特征关系,分析相似度特征重要性,增加模型透明度;
S5:对比本申请所提出的NGBoost方法与已有经典方法,结果表明本申请所提出的NGBoost方法的实体对齐精度更高;
S6:根据点、线和面实体类型的1-1、1-N和N-1等对齐类型,设计地理实体时空演变的自然语言规则,定义地理时空演变的知识四元组,抽取地理实体时空演化关系知识四元组
S7:使用Neo4j图数据库工具,构建关于地理时空演化知识图谱。
进一步的,所述步骤S1中,抽取历史地图集中的地理实体与实体属性,计算地理实体间空间关系,其中抽取的实体包括行政区、城市和河流,抽取的实体的属性包含基本信息、位置、大小和地理类型;计算的空间关系包括方位、距离、拓扑关系。
进一步的,所述步骤S2中,对点、线和面三种不同类型实体,分别计算地理实体演变的几何、属性和空间关系相似度特征,其中几何相似度特征包括大小相似度和形状相似度;属性相似度特征包括语义相似度;空间相似度特征包括距离相似度和拓扑相似度,将地理实体时空演变关系抽取问题转化为地理实体对齐判断。
进一步的,所述步骤S3中,结合地理实体演变的各相似度特征,采用NGBoost集成学习方法,进行不同时期地理实体对齐判断,使用概率来预测地理实体对齐的不确定性。
进一步的,所述步骤S4中,使用SHAP模型,辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献,SHAP的特征重要性依靠Shapley值来衡量,其值的绝对值越大,表示该特征对模型预测值的影响越大,其正负则代表影响的方向,Shapley值的计算方法如下:
Figure SMS_2
式中,
Figure SMS_5
为特征向量/>
Figure SMS_7
中特征的数量,/>
Figure SMS_9
指特征/>
Figure SMS_4
的Shapley值,用于表示该特征的贡献;/>
Figure SMS_6
表示为平均贡献值;/>
Figure SMS_8
表示该特征是否存在,取值为0或1;/>
Figure SMS_10
代表预测模型;
Figure SMS_3
代表解释模型。
进一步的,所述步骤S5中,同时使用本申请所提出的NGBoost方法和已有常见方法进行不同时期地理实体对齐判断,比较不同方法的对齐结果精度,其中,对比的其他常用方法包括:前馈神经网络(BackPropagationNeural Networks,BP神经网络)、分类和回归决策树(Classification And Regression Tree,CART决策树)、随机森林、极度梯度提升算法(eXtremeGradient Boosting,XGBoost)和类别提升算法(Categorical Boosting,CatBoost)。
进一步的,所述步骤S6中,结合地理实体时空演变特征,设计演化关系谓词用于连接对齐的不同时期实体对,定义点、线和面不同类型地理实体时空演化的自然语言规则,建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典,构建地理实体演变的知识四元组,将地理实体演化知识表达为四元组形式,地理知识四元组具体形式如下:
Figure SMS_11
式中,
Figure SMS_12
为对齐的/>
Figure SMS_13
时期实体,/>
Figure SMS_14
对齐的/>
Figure SMS_15
时期实体;/>
Figure SMS_16
为两对齐实体的演化关系。
进一步的,所述步骤S7中,使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建地理实体时空演变知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。
有益效果:
(1)本申请提出一种基于NGBoost的地理演变过程中实体对齐的判断方法,使用SHAP框架分析地理实体间各相似度的重要性,能够优化地理实体相似度特征权重及其阈值选择,提升对齐精度且便于解释。
(2)本申请使用知识四元组对地理时空演化知识进行表示,能解决三元组表达知识造成信息缺失、表达混乱和知识错误的问题,且能动态并正确地表达地理实体演化关系,展示事件的发展变化。
(3)本申请利用抽取的地理知识四元组,构建关于地理时空演化知识图谱,构建的知识图谱侧重于表达地理时空演变关系,在表示地理实体的演变过程方面具有优势。
附图说明
图1为本申请方法的基本框架结构示意图;
图2为点实体的SHAP摘要图;
图3为线实体的SHAP摘要图;
图4为地理空间部分知识图谱;
图5为地理实体演变关系示例图;
图6为“汉阳郡”演化过程查询结果示意图;
图7为三国时期地理实体查询结果示意图。
具体实施方式
下面结合附图和具体实施案例,进一步阐明本发明。
实施例1:参见图1,本申请提供一种基于NGBoost的地理时空知识抽取和图谱表示方法,包括如下步骤:
S1:抽取历史地图集中地理实体与实体的属性,计算地理实体间空间关系;
S2:按照点、线和面实体分类,分别计算地理实体演变的几何、属性和空间关系相似度特征;
S3:提出基于NGBoost的地理演变过程中实体对齐的判断方法,结合地理实体演变的各相似度特征,进行历史序列地图的地理实体对齐;
S4:使用SHAP解释框架可视化特征关系,分析相似度特征重要性,增加模型透明度;
S5:对比本申请所提出的NGBoost方法与已有经典方法,结果表明本申请所提出的NGBoost方法的实体对齐精度更高;
S6:根据点、线和面实体类型的1-1、1-N和N-1等对齐类型,设计地理实体时空演变的自然语言规则,定义地理时空演变的知识四元组,抽取地理实体时空演化关系知识四元组
S7:使用Neo4j图数据库工具,构建关于地理时空演化知识图谱。
所述步骤S1中,抽取历史地图集中的地理实体与实体属性,计算地理实体间空间关系,其中抽取的实体包括行政区、城市和河流,抽取的实体的属性包含基本信息、位置、大小和地理类型;计算的空间关系包括方位、距离、拓扑关系。
所述步骤S2中,对点、线和面三种不同类型实体,分别计算地理实体演变的几何、属性和空间关系相似度特征,其中几何相似度特征包括大小相似度和形状相似度;属性相似度特征包括语义相似度;空间相似度特征包括距离相似度和拓扑相似度,将地理实体时空演变关系抽取问题转化为地理实体对齐判断。
所述步骤S3中,结合地理实体演变的各相似度特征,采用NGBoost集成学习方法,进行不同时期地理实体对齐判断,使用概率来预测地理实体对齐的不确定性。
所述步骤S4中,使用SHAP模型,辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献,SHAP的特征重要性依靠Shapley值来衡量,其值的绝对值越大,表示该特征对模型预测值的影响越大,其正负则代表影响的方向,Shapley值的计算方法如下:
Figure SMS_17
,
式中,
Figure SMS_19
为特征向量/>
Figure SMS_22
中特征的数量,/>
Figure SMS_24
指特征/>
Figure SMS_20
的Shapley值,用于表示该特征的贡献;/>
Figure SMS_21
表示为平均贡献值;/>
Figure SMS_23
表示该特征是否存在,取值为0或1;/>
Figure SMS_25
代表预测模型;
Figure SMS_18
代表解释模型。
所述步骤S5中,同时使用本申请所提出的NGBoost方法和已有常见方法进行不同时期地理实体对齐判断,比较不同方法的对齐结果精度,其中,对比的其他常用方法包括:前馈神经网络(Back PropagationNeural Networks,BP神经网络)、分类和回归决策树(ClassificationAnd Regression Tree,CART决策树)、随机森林、极度梯度提升算法(eXtreme Gradient Boosting,XGBoost)和类别提升算法(Categorical Boosting,CatBoost)。
所述步骤S6中,结合地理实体时空演变特征,设计演化关系谓词用于连接对齐的不同时期实体对,定义点、线和面不同类型地理实体时空演化的自然语言规则,建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典,构建地理实体演变的知识四元组,将地理实体演化知识表达为四元组形式,地理知识四元组具体形式如下:
Figure SMS_26
式中,
Figure SMS_27
为对齐的/>
Figure SMS_28
时期实体,/>
Figure SMS_29
对齐的/>
Figure SMS_30
时期实体;/>
Figure SMS_31
为两对齐实体的演化关系。
所述步骤S7中,使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建地理实体时空演变知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。
实施例2:本发明提供一种基于NGBoost的地理时空知识抽取和图谱表示方法,本方法包含五个部分:第一部分为抽取历史地图中的地理实体及实体属性与关系;第二部分为相似度评价特征指标构建;第三部分为使用NGBoost与SHAP解释框架进行对齐与分析;第四部分是设计地理实体时空演变的自然语言关联规则,形成地理实体时空演变的知识四元组;第五部分是构建关于地理实体时空演化关系的知识图谱。
结合五部分内容,本实施案例中一种基于NGBoost的地理时空知识抽取和图谱表示方法的步骤如下:
(1)抽取历史地图中的地理实体及实体属性与关系;
(11)抽取历史地图中的点线面实体及其之间的属性;
(12)抽取历史地图中点线面实体间空间关系;
(2)构建相似度评价特征指标;
(21)按照点线面实体分类,计算不同时期地图内实体间各项相似度;
(22)人工判别部分实体是否对齐;
(3)使用NGBoost与SHAP解释框架进行对齐与分析;
(31)使用NGBoost模型训练数据集,对待对齐实体进行预测;
(32)使用SHAP解释框架对模型进行分析,判别各相似度指标对预测的重要程度;
(33)对比NGBoost方法与其他经典方法的性能差异;
(4)设计地理实体时空演变的自然语言关联规则及知识四元组表示;
(41)构建语义关系规则,链接对齐的实体对,生成时空演化关系;
(42)对时空演化知识进行四元组表示;
(5)构建关于地理实体时空演化关系的知识图谱
(51)将所抽取的地理知识四元组存储到Neo4j图数据库;
(52)构建地理时空演化知识图谱,可视化地理时空演化过程;
其中第一部分是抽取历史地图中的地理实体及实体属性与关系具体实施步骤包含以下内容:
采用谭其骧先生主编的《中国历史地图集》为主要数据来源,该地图集收录了上至先秦下到清朝中期全部可考的郡县级以上的政区的丰富地理信息。本申请选择其中东汉、三国、西晋和东晋时期的共四幅地图作为研究案例。
从四副历史地图中提取地理实体,其中点类型实体包含古代城市、风景名胜和其他要素等,线实体类型包含河流要素,面实体包含朝代政区边界要素。表1总结了历史地图中不同类型实体的数量。
表1:各时期不同类型实体数量
Figure SMS_32
其中第二部分是构建相似度评价特征指标,具体实施步骤包含以下内容:
相似性度量法是地理实体对齐的关键,根据实体的属性特征和实体间的关系特征,本申请从语义相似度、距离相似度、大小相似度、形状相似度和拓扑相似度几个方面构建相似度指标。
(1)语义相似度公式如下:
Figure SMS_33
(1),
式中
Figure SMS_34
表示实体A和实体B间的语义相似度,/>
Figure SMS_35
Figure SMS_36
表示实体A和实体B的字符集合,/>
Figure SMS_37
是已经对齐的实体的数量,
Figure SMS_38
是这两个集合中实体的总数。
(2)距离相似度公式如下:
Figure SMS_39
(2),
式中
Figure SMS_40
是实体A和实体B间的距离相似度,/>
Figure SMS_41
是实体A和实体B之前的距离,/>
Figure SMS_42
是实体集中最大的距离。
(3)大小相似度公式如下:
Figure SMS_43
(3),
式中
Figure SMS_44
是实体A和实体B间的距离相似度,/>
Figure SMS_45
和/>
Figure SMS_46
分别是实体A与实体B的大小,/>
Figure SMS_47
表示实体A与实体B的大小最大值。
(4)形状相似度公式如下:
Figure SMS_48
(4),
式中
Figure SMS_49
是实体A与实体B间的形状相似度,/>
Figure SMS_50
和/>
Figure SMS_51
分别为实体A与实体B的转角折线函数表达式,/>
Figure SMS_52
表示实体A与实体B转角折线与x轴形成面积的差值,/>
Figure SMS_53
表示实体A与实体B转角折线与x轴形成面积的最大值。
(5)拓扑相似度公式如下:
Figure SMS_54
(5),
式中
Figure SMS_55
表示实体A与实体B间的拓扑相似度,
Figure SMS_56
为这两个集合中实体的总数;/>
Figure SMS_57
是两个集合/>
Figure SMS_58
和/>
Figure SMS_59
中已经对齐的实体的数量。
计算实体间相似度后,生成数据集如表2所示,其中的标签值列为对齐结果,对齐为1,不对齐为0。
表2:实体相似度计算结果及标签值示例
Figure SMS_60
其中第三部分是使用NGBoost与SHAP解释框架进行对齐与分析。具体实施步骤包含以下内容:
现有的基于相似度特征方法在计算综合相似度和确定最终对齐实体时面临着指标权重和阈值难以科学量化的难题,本申请提出基于NGBoost的方法进行实体对齐判断,再使用SHAP解释框架来研究各个相似度特征的重要性和如何影响预测结果,进行机器学习模型解释。
NGBoost(Natural GradientBoosting)模型是一种新型的有监督机器学习算法,它通过在传统的梯度提升算法中引入了自然梯度,在保留梯度提升算法在小规模数据集上拥有很高精度的优点的同时,拥有了概率预测的能力。使用自然梯度能够使训练过程更加趋向于收敛,并且能更好地拟合。
NGBoost模型主要由基学习器、参数的概率分布函数,和评分规则三个部分组成。
对于数据集
Figure SMS_61
,NGBoost模型计算的基本流程为:
(1)对分布参数进行初始化:
Figure SMS_62
(6),
式中
Figure SMS_63
为样本的数量,/>
Figure SMS_64
是分布参数,/>
Figure SMS_65
为评分规则,/>
Figure SMS_66
为第/>
Figure SMS_67
个样本的标签值。
(2)对每一个训练样本计算自然梯度计算:
Figure SMS_68
(7),
式中
Figure SMS_69
为迭代轮次,/>
Figure SMS_72
代表第/>
Figure SMS_74
次迭代的自然梯度,/>
Figure SMS_70
为费尔希信息量,
Figure SMS_73
代表前一次迭代的分布参数,/>
Figure SMS_75
为/>
Figure SMS_76
关于/>
Figure SMS_71
的梯度。
(3)通过计算的自然梯度拟合基学习器,拟合的方向为前一次迭代的评分规则的自然梯度下降方向,即公式(3)所示:
Figure SMS_77
(8),
式中
Figure SMS_78
代表第/>
Figure SMS_79
个基学习器,/>
Figure SMS_80
为第/>
Figure SMS_81
个样本特征。
(4)计算缩放因子,缩放因子的选取需要以线搜索的形式最小化沿投射梯度方向的整体真实评分规则损失作为标准,即公式(9)所示。
Figure SMS_82
(9),
式中
Figure SMS_83
表示第/>
Figure SMS_84
次迭代的缩放因子。
(5)更新分布参数
Figure SMS_85
Figure SMS_86
(10),
式中
Figure SMS_87
为学习率,其取值范围为0~1,作用是避免过拟合。通过缩放因子/>
Figure SMS_88
对梯度进行比例放缩,这样做的目的是为了解决局部的近似可能导致离开当前参数位置后失效的问题。
(6)重复步骤(2)至(5)直到迭代完成。
通过上述训练,若给定测试集的预测参数,则可得到条件概率密度的概率预测,如公式(11)所示。
Figure SMS_89
(11),
式中
Figure SMS_91
表示条件分布函数,/>
Figure SMS_94
表示对输入/>
Figure SMS_96
的条件概率预测,/>
Figure SMS_92
表示初始分布的参数,/>
Figure SMS_93
表示基础学习器,/>
Figure SMS_95
表示放缩系数,/>
Figure SMS_97
表示学习率,/>
Figure SMS_90
表示基础学习器数量。
Figure SMS_98
模型在训练时有众多超参数,本申请使用K折交叉验证和贝叶斯优化算法寻找参数的最优选项使得模型性能最优,优化的参数包括:基础学习器最大深度、学习率和基础学习器个数,在本申请案例中,这些参数分别取值4,0.01和30时模型性能达到最优。
本申请根据不同类型实体的特征选择不同的相似度组合进行计算,点实体选择语义、距离、拓扑相似度,线实体选择距离、长度、形状、拓扑相似度,面实体选择距离、形状、面积相似度。
本申请使用统一的解释模型:SHAP帮助理解用于重构的机器学习模型。SHAP 是一种可加性特征归因机器学习解释方法,用以表示每次预测中,输入特征值对于预测结果的贡献。对于以决策树作为基学习器的集成学习模型,SHAP 模型给出了一种结合了局部解释方法和经典Shapley 值估计方法的解释方法。
Figure SMS_99
(12),
式中,
Figure SMS_101
为特征向量/>
Figure SMS_104
中特征的数量,/>
Figure SMS_106
指特征/>
Figure SMS_102
的Shapley值,用于表示该特征的贡献;/>
Figure SMS_103
表示为平均贡献值;/>
Figure SMS_105
表示该特征是否存在,取值为0或1;代/>
Figure SMS_107
表预测模型;
Figure SMS_100
代表解释模型。
SHAP值的绝对值越大表示该特征对模型预测值的影响越大,其正负则代表影响的方向。图2表明点实体对齐贡献度最大的是距离相似度,然后依次是语义相似度和拓扑相似度,图3表明线状实体对齐贡献度影响最大是距离相似度,然后依次是大小相似度和拓扑相似度。
为了评价本申请方法的对齐判断结果,现将本专利所构建方法与BP神经网络、CART决策树、随机森林、
Figure SMS_108
、/>
Figure SMS_109
分析方法进行对比,并在同一数据集进行实验对比。
本申请使用二分类常用评价指标:精确度、召回度及F1分数作为方法的对比衡量测度,其计算公式分别如下:
Figure SMS_110
(13),
Figure SMS_111
(14),
Figure SMS_112
(15),
式中:
Figure SMS_113
表示精确度;/>
Figure SMS_114
表示召回度;/>
Figure SMS_115
表示F1分数;/>
Figure SMS_116
表示正确分类的对齐样本数量;/>
Figure SMS_117
表示错误分类的对齐样本数量;/>
Figure SMS_118
表示错误分类的不对齐样本数量。
表 3展示了不同对齐方法的评价指标情况,其中的评价指标为点实体、线实体和面实体的对齐情况的平均,通过对比其他模型可以看出,集成学习算法的表现优于常规分类算法,在3种集成学习算法中,
Figure SMS_119
算法的平均精确度、平均召回率和平均F1分数为0.9245、0.9608和0.9423,比其他模型呈现出更好的表现。从结果可以看出,使用集成学习的方法要优于常规分类方法,而本专利所提方法在实体对齐过程中表现出了优异的性能,使用了自然梯度提升的集成算法能预测结果中的不确定性,提高了分类性能。
表3:不同对齐方法的评价指标对比
Figure SMS_120
表4:自然语言关联规则表
Figure SMS_121
其中第四部分是设计地理实体时空演化的自然语言规则抽取时空演化关系及知识四元组表示,链接对齐的实体对,生成时空演化关系,设计演化关系谓词用于连接对齐的实体对,具体为:建立演化关系和自然语言描述对照关联词典,将演化知识表达的四元组形式,具体形式见公式(16)。
Figure SMS_122
(16),
式中,
Figure SMS_123
为对齐的/>
Figure SMS_124
时期实体,/>
Figure SMS_125
对齐的/>
Figure SMS_126
时期实体;/>
Figure SMS_127
为两对齐实体的演化关系。
本申请结合实体对齐的结果和实际的可能演化情况,人工设计了地理实体时空演化的自然语言规则,见表 4,将不同时期的实体演化的所有关系涵盖。
具体的实施方式例如:东汉时期中的“东汉”实体与三国时期中的“魏”、“蜀”、“吴”实体相对齐,其演化关系类型为1对多,则关系谓词可用“分裂”连接,自然语言描述为:“东汉分裂为魏、蜀、吴”。
更具体的,针对不同类型的实体设计了不同的转换规则。
对于点实体类型,主要分为三种实体对齐关系:
(1)1-1关系,依据点实体的位置和名称差异,细分为位置变化名称无变化、名称变化位置改变、名称改变位置变化以及无变化这四类,例如从东汉到三国的朝代更迭中,合肥更名为合肥旧城,其四元组表示为:<合肥,位置不变名称改变,合肥旧城,(东汉,三国)>;
(2)0-1关系,即点实体在该朝代首次出现,例如从东汉到三国,巴西郡首次出现,其四元组表示为:<巴西郡,新建于,蜀汉,(东汉,三国)>;
(3)1-0关系,说明该点实体在政权变动中消逝了,例如从东汉到三国,小宛无对齐的实体,则其四元组表示为<小宛,消亡于,东汉,(东汉,三国)>。
对于线实体,河流作为线实体的主要构成之一,存在三种实体对齐关系:
(1)1-1关系,部分河流走向以及名称并无变化,例如从三国到西晋沅水未发生变化,四元组表示为<沅水,未变化,沅水,(三国,西晋)>;
(2)1-0关系,出现河床干涸、河流改道等种种情况,例如从西晋到东晋,乌侯秦水无对齐实体,四元组表示为<乌侯秦水,消逝,西晋,(西晋,东晋)>;
(3)1-N关系,出现河流分支的情况,例如从西晋到东晋,弱水发生分流,<弱水,分裂为,难水,(西晋,东晋)>。
对于面实体,主要象征着政权的变化,也分为三类实体对齐关系:
(1)1-1关系,即只存在名称的改变,而面的形状位置无变化,例如三国到西晋时期,<鲜卑,更名为,鲜卑、匈奴,(三国,西晋)>;
(2)1-N关系,例如从东汉到三国,政权割裂,<东汉,分裂,魏、蜀汉、吴、羌胡,(东汉,三国)>;
(3)N-1关系,例如从三国到西晋,政权集中化,<魏、蜀汉、吴,合并为,西晋,(三国,西晋)>。
其中第五部分是使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建关于地理时空演化知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系,部分地理空间知识图谱的节点及关系如图4示。
本申请通过生成的四元组构建了地理时空演变知识图谱,存储在Neo4j图形数据库中。传统的知识图谱可以简明地表达静态事实,对于有关变化的问题,往往只得出该类型的多个值,多个值之间缺乏相应的演化关系。与传统的知识图谱相比,本文构建的图谱可以支持查询实体的演化过程,部分地理实体的演化查询如图5所示。本申请构建的图谱可支撑查询实体的演变知识,可以使用SPARQL查询语言来查询地理时空演变知识图谱,如“东汉时期汉阳郡的演变过程”,其查询结果如图6所示;如“三国时期新建了哪些郡县”,其查询结果如图7所示,可清晰的展示相较于东汉时期,三国时期新增加的郡县名称。本申请构建的图谱可以表示时空演变过程,在表示过程方面具有特殊优势。
综上所述:本申请公开了一种基于NGBoost的地理时空知识抽取和图谱表示方法,抽取历史序列地图中地理实体及其空间关系;计算地理实体演变的几何、属性和空间关系相似度特征,提出一种基于NGBoost的地理演变过程中实体对齐的判断方法,使用SHAP分析地理实体对齐中各相似度的贡献度;根据点、线和面实体的对齐类型,设计地理实体时空演变的自然语言关联规则,形成地理实体时空演变的知识四元组;结合地理实体时空演变特征,设计地理时空演变知识的表示框架,构建地理时空演化知识图谱。本申请对历史地图中地理实体进行自动对齐,实现序列地图中地理实体时空演变知识抽取和图谱表示,为查询与分析历史地图中地理现象或事物的演化过程提供有效的途径。
上面对本申请实施例结合附图进行了说明,但本申请不限于上述实施例,还可以根据本申请的发明创造的目的做出多种变化,凡依据本申请技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本申请的发明目的,只要不背离本申请的技术原理和发明构思,都属于本申请的保护范围。

Claims (6)

1.一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于,所述方法包括如下步骤:
S1:抽取历史地图集中地理实体与实体的属性,计算地理实体间空间关系;
S2:按照点、线和面实体分类,分别计算地理实体演变的几何、属性和空间关系相似度特征;
S3:提出基于自然梯度提升的地理演变过程中实体对齐的判断方法,结合地理实体演变的各相似度特征,进行历史序列地图的地理实体对齐;
S4:使用统一性的解释框架可视化特征关系,分析NGBoost地理实体对齐计算中各相似度特征的贡献度,增加NGBoost模型透明度;
S6:根据点、线和面实体类型的1对1、1对多和多对1对齐类型,设计地理实体时空演变的自然语言规则,定义地理时空演变的知识四元组,抽取地理实体时空演化关系知识四元组;
S7:使用Neo4j图数据库工具,构建地理时空演化知识图谱;
其中,所述步骤S4中,使用SHAP模型,辅助理解NGBoost集成学习模型输入特征值对于对齐结果的贡献,SHAP的特征重要性依靠Shapley值来衡量,其值的绝对值越大,表示该特征对模型预测值的影响越大,其正负则代表影响的方向,Shapley值的特征如下:
Figure QLYQS_1
,
式中,
Figure QLYQS_3
为特征向量/>
Figure QLYQS_5
中特征的数量,/>
Figure QLYQS_7
指特征/>
Figure QLYQS_4
的Shapley值,用于表示该特征的贡献;/>
Figure QLYQS_6
表示为平均贡献值;/>
Figure QLYQS_8
表示该特征是否存在,取值为0或1;/>
Figure QLYQS_9
代表预测模型;/>
Figure QLYQS_2
代表解释模型。
2.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S1中,抽取历史地图集中的地理实体与实体属性,计算地理实体间空间关系,其中抽取的实体包括行政区、城市和河流,抽取的实体的属性包含基本信息、位置、大小和地理类型;计算的空间关系包括方位、距离和拓扑关系。
3.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S2中,对点、线和面三种不同类型实体,分别计算地理实体演变的几何、属性和空间关系相似度特征,其中几何相似度特征包括大小相似度和形状相似度;属性相似度特征包括语义相似度;空间相似度特征包括距离相似度和拓扑相似度,将地理实体时空演变关系抽取问题转化为地理实体对齐判断。
4.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S3中,结合地理实体演变的各相似度特征,采用NGBoost集成学习方法,进行不同时期地理实体对齐判断,使用概率来预测地理实体对齐的不确定性。
5.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S6中,结合地理实体时空演变特征,设计演化关系谓词用于连接对齐的不同时期实体对,定义点、线和面不同类型地理实体时空演化的自然语言规则,建立对齐的不同时期实体的演化关系和自然语言描述对照关联词典,构建地理实体演变的知识四元组,将地理实体演化知识表达为四元组形式,地理知识四元组具体形式如下:
Figure QLYQS_10
,
式中,Entity1为对齐的T1时期实体,Entity2对齐的T2时期实体;R为两对齐实体的演化关系。
6.根据权利要求1所述的一种基于NGBoost的地理时空知识抽取和图谱表示方法,其特征在于:所述步骤S7中,使用Neo4j图数据库工具,利用所抽取的地理知识四元组,构建地理实体时空演变知识图谱,直观地显示所获得的国家与郡县、河流之间的空间关系及时空演变关系。
CN202310239760.7A 2023-03-14 2023-03-14 基于NGBoost的地理时空知识抽取和图谱表示方法 Active CN115952339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310239760.7A CN115952339B (zh) 2023-03-14 2023-03-14 基于NGBoost的地理时空知识抽取和图谱表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310239760.7A CN115952339B (zh) 2023-03-14 2023-03-14 基于NGBoost的地理时空知识抽取和图谱表示方法

Publications (2)

Publication Number Publication Date
CN115952339A CN115952339A (zh) 2023-04-11
CN115952339B true CN115952339B (zh) 2023-06-27

Family

ID=85903365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310239760.7A Active CN115952339B (zh) 2023-03-14 2023-03-14 基于NGBoost的地理时空知识抽取和图谱表示方法

Country Status (1)

Country Link
CN (1) CN115952339B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578676B (zh) * 2023-07-12 2023-10-20 中国测绘科学研究院 一种地名时空演化查询方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2824148B1 (fr) * 2001-04-30 2003-09-12 Inst Francais Du Petrole Methode pour faciliter le suivi au cours du temps de l'evolution d'etats physiques dans une formation souterraine
CN114723149A (zh) * 2022-04-14 2022-07-08 北京市农林科学院信息技术研究中心 土壤墒情预测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115952339A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
Miura et al. Unifying text, metadata, and user network representations with a neural network for geolocation prediction
Zhang et al. Modeling hierarchical category transition for next POI recommendation with uncertain check-ins
CN113065003B (zh) 一种基于多指标的知识图谱生成方法
CN111160471A (zh) 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
Buccella et al. Building a global normalized ontology for integrating geographic data sources
CN110457420A (zh) 兴趣点位置识别方法、装置、设备及存储介质
CN115952339B (zh) 基于NGBoost的地理时空知识抽取和图谱表示方法
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
Zhang et al. An improved probabilistic relaxation method for matching multi-scale road networks
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
Xue et al. Forecasting hourly attraction tourist volume with search engine and social media data for decision support
CN115422441A (zh) 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法
CN111191084B (zh) 一种基于图结构的地名地址的解析方法
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
Wu et al. Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis
CN113449111A (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
Bermingham et al. Mining place-matching patterns from spatio-temporal trajectories using complex real-world places
CN115408618A (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
Cheng et al. Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations
Laparra et al. A dataset and evaluation framework for complex geographical description parsing
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant