CN113139065B - 一种融合地理知识的混合知识图谱构建方法 - Google Patents

一种融合地理知识的混合知识图谱构建方法 Download PDF

Info

Publication number
CN113139065B
CN113139065B CN202110445559.5A CN202110445559A CN113139065B CN 113139065 B CN113139065 B CN 113139065B CN 202110445559 A CN202110445559 A CN 202110445559A CN 113139065 B CN113139065 B CN 113139065B
Authority
CN
China
Prior art keywords
geographic
entity
entities
knowledge
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110445559.5A
Other languages
English (en)
Other versions
CN113139065A (zh
Inventor
徐小良
李怡霈
王宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110445559.5A priority Critical patent/CN113139065B/zh
Publication of CN113139065A publication Critical patent/CN113139065A/zh
Application granted granted Critical
Publication of CN113139065B publication Critical patent/CN113139065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Abstract

本发明公开了一种融合地理知识的混合知识图谱构建方法,该方法主要包括以下步骤:首先,针对现有知识图谱中部分带有地理知识属性的实体,设计混合知识图谱中的地理知识模型。其次,根据构建好的模型从包含地理实体的公开地理数据集和百科类知识图谱中抽取并清洗地理实体的结构化或半结构化知识。最后,构建一个地理实体的名称字典,并根据名称字典,对处理后两个数据源中的地理实体知识做实体链接工作,完成地理知识和百科知识的融合。本发明可以应用于任何包含大量地理实体的知识图谱中,以融合这些实体间隐含的地理知识,实现对知识图谱下游任务中基于地理位置信息查询的有效支撑。

Description

一种融合地理知识的混合知识图谱构建方法
技术领域
本发明涉及知识图谱领域,具体涉及融合地理知识的混合知识图谱构建方法。
背景技术
2012年,Google提出知识图谱(Knowledge Graph)技术以支撑起下一代智能化搜索引擎业务。知识图谱的本质是从存在的多元异构数据中抽取出实体、属性、实体间的关系,以三元组的形式表述客观存在的事实(即结构化的知识信息)。知识图谱存在的意义就在于将现实中存在的知识,尽可能多的用更直观的方式(图结构)进行表述和存储,以方便用户进行更为高效和精准的知识获取、知识挖掘与知识搜索服务。因此,对于知识图谱的知识补全、知识挖掘是知识图谱领域关键的研究之一。
目前公开的知识图谱中涵盖的事实类知识,忽略了其中一部分实体具有地理位置特性(下文称作地理实体),没有充分挖掘出这些地理实体之间的隐含知识信息。而在众多下游任务中,与地理位置关系相关的工作近年来得到了广泛的关注,例如知识图谱问答中常见的基于地理位置信息的查询,“弗雷德广场附近的那家老婆大人零食量贩店的营业时间”。然而,由于现有知识图谱大多基于百科类知识进行构建,如DBpedia,Freebase等,并不包含实体的地理知识信息,导致现有针对百科类知识图谱的查询无法回答上述面向地理知识信息的查询。如何将地理知识信息融入百科类知识图谱以解决上述问题,成为近年来知识图谱领域的重要问题之一。
综上所述,目前的公开知识图谱还未能有效利用地理实体间的隐含知识信息,而知识图谱的下游任务又亟需融合地理位置知识的百科知识图谱提供支持。因此,提出一种融合地理知识的混合知识图谱的构建方法,以补全现有百科类知识图谱中地理实体间缺失的位置知识,实现对知识图谱下游任务中基于地理位置信息查询的有效支撑。
发明内容
本发明充分利用了地理实体的经纬度信息,设计了一套针对地理实体间位置关系及类型属性的构造规则,可以应用于任何包含大量地理实体的知识图谱中,以融合这些实体间隐含的地理位置信息,便于支持下游任务(如知识图谱问答)开展有关地理位置关系的工作,具体内容如下:
本发明包含如下步骤:
步骤1:混合知识图谱中地理知识模型的设计
本方法针对已有的百科类知识图谱G中部分带有地理知识属性的实体(下文中称为地理实体),及这些实体间隐含的地理知识信息设计地理知识模型,将地理知识融入已有百科类知识模型中,以实现混合知识图谱的知识表示。具体地,设计了如下三类地理实体间关系及属性的定义规则:
步骤1.1:定义地理实体的距离关系
根据地理实体的经纬度信息获得经纬度点(lat,lon),利用Haversine公式(公式1)计算出两两经纬度点间的距离d。其中,R表示地球半径,取平均值6371km。根据不同的距离范围,将距离关系定义为:邻近(nextTo)、附近(nearBy)、不远(notFarFrom)、稍远(notAround)、较远(littleFarFrom)。具体如表1-1所示。
Figure BDA0003036709750000021
表1-1距离关系定义规则
Figure BDA0003036709750000022
注:A、B分别代表两个不同的地理实体
根据地理实体的经纬度信息获得经纬度点(lat,lon),根据(公式2)计算出两两间的方位关系,将方位关系分别定义为:向南(northOf)、向北(southOf)、向西(eastOf)、向东(westOf)。具体如表1-2所示。
Figure BDA0003036709750000031
表1-2方位关系定义规则
Figure BDA0003036709750000032
注:A、B分别代表两个不同的地理实体,(latA,lonA)、(latB,lonB)为相应的经纬度点
步骤1.3:定义地理实体的类型
根据地理实体各自的特点及功能,将其划分为55种不同类型,具体包括:学校、医院、银行、超市、博物馆、派出所、餐馆、公园、汽车站、图书馆、写字楼、住宅区、企业、事业单位、运动场所、休闲场所、景点、便利店、药店、科技园区、电影院、教堂、公园、停车场、公交站、商场、加油站、果蔬店、打印店、地铁站、酒店宾馆、公共厕所等。示例如表1-3所示。
表1-3类型属性定义规则
Figure BDA0003036709750000033
步骤2:知识获取
本方法所需知识分别从地理数据集S和百科类知识图谱G中获取。具体地,从以下两方面展开:
步骤2.1:获取地理实体及地理位置信息
从地理数据集S中获取部分地理实体的经纬度信息及实体类型相关信息,并将经纬度信息存储为地理实体的数据属性(经度、纬度、经纬度点)。根据步骤1.1的定义规则,通过经纬度信息计算出地理实体两两间的距离关系;为每个地理实体e随机选取m个邻居实体em,根据步骤1.2的定义规则,通过经纬度信息计算出两两间的方位关系;根据获取的实体类型相关信息,将地理实体重新划分到步骤1.3中定义的55种类型中,同时添加为地理实体的类型属性。
步骤2.2:抽取包含地理实体的部分子图
从百科类知识图谱G中抽取包含地理实体的部分子图G’,即这些地理实体n跳内的知识信息(与步骤2.1对应地理位置范围)。具体执行逻辑如下:首先,创建两个集合Ce和Cr,分别用来保存n跳子图中的实体和连接两两实体的边。其次,人工选取一个在步骤2.1对应地理位置范围内的地理实体e0作为根结点,通过广度优先搜索(BFS)算法在百科知识图谱G中向外遍历,直到循环遍历完e0所有的邻居实体en,将e0添加到集合Ce中,将e0连接到每个邻居实体en的边都添加到集合Cr中,同时记录下当前广度优先搜索的层数k。接着新建一个候选集合Cs,将所有邻居实体en添加到候选集合Cs中,作为下次迭代的候选结点。不断迭代直到当前遍历层数k大于用户指定跳数n,迭代结束,子图G’完成抽取。
步骤2.3:数据预处理
需要从地理数据集S中获取带有完整经纬度信息的地理实体,以及可以描述这些实体所属类型的相关信息。然而,步骤2.1中获取的数据是存在数据缺失和数据冗余的脏数据,所以需要对这些脏数据进行清洗,得到适合图谱构建的结构化数据。具体执行逻辑如下:首先,构建两个列表list1和list2,分别用于存放按行读入的脏数据和清洗后的数据。其次,按行遍历list1,判断当前数据行中地理实体名字段、经度字段和纬度字段是否含有缺失值,若有,则删除当前数据行;若没有,则将当前数据行中地理实体名字段、经度字段、纬度字段以及与实体类型相关的字段(类型字段和备注字段),按行存入list2。最后,新建一个文本文件T1用于存放清洗整理后的结构化数据文本,将list2中的值按行输出到T1中。
步骤2.4抽取的子图G’中存在一部分数据重复和数据不一致的问题,需要对其进行清洗以得到适合混合知识图谱构建的数据。具体执行逻辑如下:首先,构建一个列表listG’,用于存放抽取的子图G’。其次,按行读入抽取的子图数据并存入构建好的列表listG’中,按行遍历listG’,依次比较当前实体名字段是否与上一行中的实体名字段相同,若不同则继续遍历;若相同,则继续判断其所在行的关系与属性名字段是否与上一行中的相应字段相同或存在包含与被包含关系(如属性名“星级”和“酒店星级”)。若不同则继续遍历;若存在包含与被包含关系,将当前的关系与属性名的值更新为上一行中相应字段的值;若相同,则继续判断其所在行的实体或属性值字段是否与上一行中的相应字段相同或存在包含与被包含关系。若不同则继续遍历;若相同或存在包含与被包含关系,则判断当前数据行是上一行的重复数据,进行删除操作,更新listG’。最后,新建一个文本文件T2用于存放去重后的子图数据,将最终更新的listG’中的值按行输出到T2中。
步骤3:建立地理实体名称字典
为了更好的对步骤2.1中获取的地理实体和步骤2.2中抽取的子图G’进行实体链接,就地理实体名、中文名、英文名和别称建立名称字典D={<地理实体名(S),中文名(S/互联网)>,<地理实体名(S),英文名(S/互联网),<地理实体名(S),别称(互联网)>},描述了地理实体名与中文名、英文名及别称之间的对应关系。其中,地理实体名从地理数据集中获取;中文名和英文名可根据地理实体名(中文或英文)相应获取,部分缺失值可由互联网描述予以补充;别称由互联网定性描述得到。
步骤4:实体链接
根据步骤3构建好的地理实体名称字典D,依次就地理实体名、中文名、英文名和别称字段,分别与抽取的子图G’中获取的中文名字段和英文名字段做同名实体链接工作。具体执行逻辑如下:
首先,创建两个列表listN和列表listD,分别用来保存按行读入的地理实体名称字典中的数据行和子图G’中的数据行。
其次,创建一个新的列表newlistD,若listD中属性“中文名”、“英文名”的属性值包含listN中最先读入的地理实体名字段中的值或与之相同,就将该地理实体在子图G’中对应的数据行存入新创建的列表newlistD。直到首轮遍历结束,重复上述操作循环遍历listN中的剩下的中文名、英文名和别称字段,更新newlistD。接着新建一个文本文件T4,用于存放经过同名实体链接匹配出的地理实体及其在子图G’中对应的数据行,将循环遍历结束后newlistD中的值输出到T4中。
然后处理T4中的同名异地实体,按行读入T4,依次判断是否同名,若同名则将同名实体对应数据行依次添加到新建的listS,通过地理实体与行政区划的经纬度值,分别计算多个同名实体与行政区划之间的经纬度差值,若经度差大于阈值£1或纬度差大于阈值£2时,判断为同名异地实体,并将这些实体及其对应数据行一起保留,更新listS,继续读入T4中的数据,遍历到下一组同名实体后重复上述操作。接着新建一个文本文件T5,用于存放同名异地实体及其对应的数据行,直到遍历结束将最后更新的listS中的值输出到T5
最后,根据T5中地理实体的类型判断是否与地理数据集S中的地理实体为同一实体,将不一致的实体对应的数据行从T4中手动删除,实现地理实体消歧,以获得融合地理知识的混合知识图谱Gf
本发明的有益效果:本发明通过设计地理知识模型,利用地理数据集中地理实体的经纬度信息,有效挖掘了地理实体之间的隐含位置关系,并实现了与现有百科类知识图谱的有效融合,很大程度上丰富了现有百科类知识图谱中的缺失的地理位置知识。此外,构建好的知识图谱也可以为与地理位置相关的下游查询任务的开展提供更好的支撑。
附图说明
图1为本发明的系统流程图。
图2为本发明中设计的混合知识图谱中的地理知识模型。
图3为本发明中构建的知识图谱中的实例。
具体实施方式
为了使本发明的内容、特点阐述的更加清晰明白,下面结合附图做出详细的介绍。
如附图1所示,本发明中融合地理知识的混合知识图谱构建过程具体如下:
步骤1:混合知识图谱中地理知识模型的设计
针对百科知识图谱G中部分带有地理知识属性的实体(下文中称为地理实体),及这些实体间隐含的地理知识信息设计地理知识图谱模型,如附图2所示。具体地,设计了如下三类地理实体间关系及属性的定义规则:
步骤1.1:定义地理实体的距离关系
根据地理实体的经纬度信息获得经纬度点(lat,lon),利用Haversine公式计算出两两经纬度点间的距离d。其中,R表示地球半径,取平均值6371km。将距离关系定义为邻近(nextTo)、附近(nearBy)、不远(notFarFrom)、稍远(notAround)、较远(littleFarFrom)。分别对应的距离范围为:100米以内、100—1000米、1000—2000米、2000—3000米、3000—4000米。如地理数据集DynamicGeo中的实体(唐云艺术馆)经纬度点为(120.150652,30.23573),实体(江城中学)经纬度点为(120.167177,30.229253),代入Haversine公式可以计算出距离d的值落在(1000,2000]区间内,故可在这两个实体间添加notFarFrom关系,表述成三元组形式如下:(唐云博物馆,notFarFrom,江城中学)。
步骤1.2:定义地理实体的方位关系
根据地理实体的经纬度信息获得经纬度点(lat,lon),以此计算出两两间的方位关系,将方位关系分别定义为向南(northOf)、向北(southOf)、向西(eastOf)、向东(westOf)。如地理数据集DynamicGeo中的实体A(唐云艺术馆)经纬度点为(120.150652,30.23573),为其随机选取的200个邻居实体中有实体B(天湖公寓),其经纬度点为(120.101329,30.290402),由定义的规则可得,latA>latB、lonA<lonB,故可在这两个实体间添加eastOf和southOf关系,表述成三元组形式如下:(唐云博物馆,eastOf,天湖公寓)、(唐云博物馆,southOf,天湖公寓)。
步骤1.3:定义地理实体的类型
根据地理实体各自的特点及功能,将其划分为55种不同类型,具体包括:学校、医院、银行、超市、博物馆、派出所、餐馆、公园、汽车站、图书馆、写字楼、住宅区、企业、事业单位、运动场所、休闲场所、景点、便利店、药店、科技园区、电影院、教堂、公园、停车场、公交站、商场、加油站、果蔬店、打印店、地铁站、酒店宾馆、公共厕所等。如地理数据集DynamicGeo中的实体(杭州天清岛度假酒店)在类型属性的定义规则中被划分到“酒店宾馆”这一类型下,故可为该实体添加类型属性type,表述成三元组形式如下:(杭州天清岛度假酒店,type,酒店宾馆);如实体(潮中人)类型属性值为空,根据互联网的定性描述补充为“餐馆”,表述成三元组形式如下:(潮中人,type,餐馆);如一些没有具体名称的篮球场,重新定义类型属性为“运动场所”,表述成三元组形式如下:(篮球场,type,运动场所)。
步骤2:知识获取
本方法所需知识分别从地理数据集S和百科类知识图谱G中获取。具体地,从以下两方面展开:
步骤2.1:获取地理实体及地理位置信息
从地理数据集S中获取部分地理实体的经纬度信息及实体类型,如可从地理数据集DynamicGeo中获取地理实体(唐云艺术馆)、经度(120.150652)、纬度(30.235730),类型(museum)。
步骤2.2:抽取包含地理实体的部分子图
从百科类知识图谱G中抽取包含地理实体的部分子图G’,即这些地理实体2跳内的知识信息(与步骤2.1对应地理位置范围)。如从百科知识图谱CN-DBpedia中抽取的实体(杭州师范大学),获取其2跳内的知识信息中有如下两条知识:(阿里巴巴集团,创始人,马云)、(马云,母校,杭州师范大学)。
步骤2.3:数据预处理
步骤2.1获取的结构化数据中含有部分缺失值与大量冗余信息,对该数据进行清洗,处理缺失值和无效值,保留地理实体的经纬度信息和与实体类型相关的信息。具体地,如地理数据集DynamicGeo中的实体(蒋村自行车租赁点)缺少经纬度属性值需要删除;如一部分实体的地理实体名字段、与实体类型相关的类型字段和备注字段中均为无效值“empty”也需删除所在数据行。
步骤2.2抽取的子图G’中存在数据重复和不一致的问题,需要对该数据进行清洗。如从百科知识图谱CN-DBpedia中抽取出的子图中存在如下知识:(浙江传媒学院,校友,李维嘉)、(浙江传媒学院,知名校友,朱丹),就需将属性名进行统一,比如统一为“知名校友”;如实体(天伦精品酒店)存在如下知识:(天伦精品酒店,酒店星级,五星级)、(天伦精品酒店,星级,五星),需要处理掉重复信息,上述知识保留其一即可。
步骤3:建立地理实体名称字典
为了更好的对步骤2.1中获取的地理实体和步骤2.2中抽取的子图G’进行实体对齐,建立名称字典D={<地理实体名(S),中文名(S/互联网)>,<地理实体名(S),英文名(S/互联网),<地理实体名(S),别称(互联网)>},描述了地理实体对应的中文名、英文名及别称。如实体(杭州市长河高级中学),可知该实体的中文名为“杭州市长河高级中学”,根据互联网的描述可知该实体的英文名为“Hangzhou Changhe High School”,别称为“长河高中”。可以据此建立名称字典中的一组词条:{<杭州市长河高级中学(S),杭州市长河高级中学(S/互联网)>,<杭州市长河高级中学(S),Hangzhou Changhe High School(S/互联网),<杭州市长河高级中学(S),长河中学(互联网)>}。字典D的具体示例如表3所示。
表3地理实体名称字典
Figure BDA0003036709750000101
步骤4:实体链接
首先,根据步骤3构建好的地理实体名称字典D,依次就地理实体名、由地理实体名对应可得的中文名或英文名(部分缺失值可由互联网描述予以补充)以及互联网中获取的别称分别与抽取的子图G’中获取的中文名字段和英文名字段做同名实体链接工作。如地理数据集DynamicGeo中的地理实体(中国伞博物馆),就可以通过与从百科知识图谱CN-DBpedia中抽取的子图G’中的中文名字段做同名匹配实现实体链接。
其次,对于同名异地实体,以获取的地理实体与行政区划之间的位置信息为主要判断条件,实体类型为辅助判断条件,实现地理实体消歧。如地理实体(西湖文化广场)类型属性为“地铁站”,而子图G’中的同名实体(西湖文化广场)可通过其另外的属性值(如建成时间)判断其类型属性为“广场”,因此将这两个同名实体所在的数据行保存到文本文件中,地理数据集DynamicGeo中的地理实体类型信息显示其为“地铁站”,故在文本文件中手动处理保留地理实体(西湖文化广场),类型为“地铁站”的数据行。
经过上述处理后可获得融合地理知识的知识图谱Gf。融合后的具体示例如附图3所示。图中虚线范围内分别为从地理数据集S中获取的经纬度属性、重新定义的属性类型,以及根据经纬度信息按本发明中的位置关系定义规则构建的两类位置关系。其余知识为百科知识图谱子图G’中原有的数据属性。

Claims (1)

1.一种融合地理知识的混合知识图谱构建方法,该方法包含如下步骤:
步骤1:设计混合知识图谱中地理知识模型
针对已有的百科类知识图谱G中部分带有地理知识属性的实体以下称为地理实体,及这些实体间隐含的地理知识信息设计地理知识模型,将地理知识融入已有百科类知识模型中,以实现混合知识图谱的知识表示;具体地,设计了如下三类地理实体间关系及属性的定义规则:
步骤1.1:定义地理实体的距离关系
根据地理实体的经纬度信息获得经纬度点(lat,lon),利用Haversine公式计算出两两经纬度点间的距离d:
Figure FDA0003581759420000011
其中,R表示地球半径,取平均值6371km;根据不同的距离范围,将距离关系定义为:邻近nextTo、附近nearBy、不远notFarFrom、稍远notAround、较远littleFarFrom,邻近nextTo对应的范围为(0m,100m],附近nearBy对应的范围为(100m,1000m],不远notFarFrom对应的范围为(1000m,2000m],稍远notAround对应的范围为(2000m,3000m],较远littleFarFrom对应的范围为(3000m,4000m];
步骤1.2:定义地理实体的方位关系
根据地理实体的经纬度信息获得经纬度点(lat,lon),根据公式2计算出两两间的方位关系,将方位关系分别定义为:向南northOf、向北southOf、向西eastOf、向东westOf;
向南northOf=A northOf B if latA>latB
向北southOf=A southOf B if latA<latB
向西eastOf=A eastOf B if lonA>lonB
向东westOf=A westOf B if lonA<lonB
步骤1.3:定义地理实体的类型
根据地理实体各自的特点及功能,将其划分为31种不同类型,包括:学校、医院、银行、超市、博物馆、派出所、餐馆、汽车站、图书馆、写字楼、住宅区、企业、事业单位、运动场所、休闲场所、景点、便利店、药店、科技园区、电影院、教堂、公园、停车场、公交站、商场、加油站、果蔬店、打印店、地铁站、酒店宾馆、公共厕所;
步骤2:知识获取
分别从地理数据集S和百科类知识图谱G中获取所需知识;具体地,从以下两方面展开:
步骤2.1:获取地理实体及地理位置信息
从地理数据集S中获取部分地理实体的经纬度信息及实体类型相关信息,并将经纬度信息存储为地理实体的数据属性;根据步骤1.1的定义规则,通过经纬度信息计算出地理实体两两间的距离关系;为每个地理实体e随机选取m个邻居实体em,根据步骤1.2的定义规则,通过经纬度信息计算出两两间的方位关系;根据获取的实体类型相关信息,将地理实体重新划分到步骤1.3中定义的31种类型中,同时添加为地理实体的类型属性;
步骤2.2:抽取包含地理实体的部分子图
从百科类知识图谱G中抽取包含地理实体的部分子图G’,即这些地理实体n跳内的知识信息;具体如下:首先,创建两个集合Ce和Cr,分别用来保存n跳子图中的实体和连接两两实体的边;其次,人工选取一个在步骤2.1对应地理位置范围内的地理实体e0作为根结点,通过广度优先搜索算法在百科知识图谱G中向外遍历,直到循环遍历完e0所有的邻居实体en,将e0添加到集合Ce中,将e0连接到每个邻居实体en的边都添加到集合Cr中,同时记录下当前广度优先搜索的层数k;接着新建一个候选集合Cs,将所有邻居实体en添加到候选集合Cs中,作为下次迭代的候选结点;不断迭代直到当前遍历层数k大于用户指定跳数n,迭代结束,子图G’完成抽取;
步骤2.3:针对步骤2.1所获取的数据进行预处理,得到适合图谱构建的结构化数据,具体如下:首先,构建两个列表list1和list2,分别用于存放按行读入的脏数据和清洗后的数据;其次,按行遍历list1,判断当前数据行中地理实体名字段、经度字段和纬度字段是否含有缺失值,若有,则删除当前数据行;若没有,则将当前数据行中地理实体名字段、经度字段、纬度字段以及与实体类型相关的字段,按行存入list2;最后,新建一个文本文件T1用于存放清洗整理后的结构化数据文本,将list2中的值按行输出到T1中;
步骤2.4:针对步骤2.2所获取的数据进行预处理,以得到适合混合知识图谱构建的数据;具体如下:首先,构建一个列表listG’,用于存放抽取的子图G’;其次,按行读入抽取的子图数据并存入构建好的列表listG’中,按行遍历listG’,依次比较当前实体名字段是否与上一行中的实体名字段相同,若不同则继续遍历;若相同,则继续判断其所在行的关系与属性名字段是否与上一行中的相应字段相同或存在包含与被包含关系;若不同则继续遍历;若存在包含与被包含关系,将当前的关系与属性名的值更新为上一行中相应字段的值;若相同,则继续判断其所在行的实体或属性值字段是否与上一行中的相应字段相同或存在包含与被包含关系;若不同则继续遍历;若相同或存在包含与被包含关系,则判断当前数据行是上一行的重复数据,进行删除操作,更新listG’;最后,新建一个文本文件T2用于存放去重后的子图数据,将最终更新的listG’中的值按行输出到T2中;
步骤3:建立地理实体名称字典
为了更好的对步骤2.1中获取的地理实体和步骤2.2中抽取的子图G’进行实体链接,就地理实体名、中文名、英文名和别称建立名称字典D,描述了地理实体名与中文名、英文名及别称之间的对应关系;其中,地理实体名从地理数据集中获取;中文名和英文名可根据地理实体名相应获取,部分缺失值可由互联网描述予以补充;别称由互联网定性描述得到;
步骤4:实体链接
根据步骤3构建好的地理实体名称字典D,依次就地理实体名、中文名、英文名和别称字段,分别与抽取的子图G’中获取的中文名字段和英文名字段做同名实体链接工作;具体如下:
首先,创建两个列表listN和列表listD,分别用来保存按行读入的地理实体名称字典中的数据行和子图G’中的数据行;
其次,创建一个新的列表newlistD,若listD中属性“中文名”、“英文名”的属性值包含listN中最先读入的地理实体名字段中的值或与之相同,就将该地理实体在子图G’中对应的数据行存入新创建的列表newlistD;直到首轮遍历结束,重复上述操作循环遍历listN中的剩下的中文名、英文名和别称字段,更新newlistD;接着新建一个文本文件T4,用于存放经过同名实体链接匹配出的地理实体及其在子图G’中对应的数据行,将循环遍历结束后newlistD中的值输出到T4中;
然后处理T4中的同名异地实体,按行读入T4,依次判断是否同名,若同名则将同名实体对应数据行依次添加到新建的listS,通过地理实体与行政区划的经纬度值,分别计算多个同名实体与行政区划之间的经纬度差值,若经度差大于阈值£1或纬度差大于阈值£2时,判断为同名异地实体,并将这些实体及其对应数据行一起保留,更新listS,继续读入T4中的数据,遍历到下一组同名实体后重复上述操作;接着新建一个文本文件T5,用于存放同名异地实体及其对应的数据行,直到遍历结束将最后更新的listS中的值输出到T5
最后,根据T5中地理实体的类型判断是否与地理数据集S中的地理实体为同一实体,将不一致的实体对应的数据行从T4中手动删除,实现地理实体消歧,以获得融合地理知识的混合知识图谱Gf
CN202110445559.5A 2021-04-25 2021-04-25 一种融合地理知识的混合知识图谱构建方法 Active CN113139065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445559.5A CN113139065B (zh) 2021-04-25 2021-04-25 一种融合地理知识的混合知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445559.5A CN113139065B (zh) 2021-04-25 2021-04-25 一种融合地理知识的混合知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN113139065A CN113139065A (zh) 2021-07-20
CN113139065B true CN113139065B (zh) 2022-07-22

Family

ID=76811825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445559.5A Active CN113139065B (zh) 2021-04-25 2021-04-25 一种融合地理知识的混合知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113139065B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168608B (zh) * 2021-12-16 2022-07-15 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491555A (zh) * 2017-09-01 2017-12-19 北京纽伦智能科技有限公司 知识图谱构建方法和系统
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN112163101A (zh) * 2020-10-30 2021-01-01 武汉大学 一种面向空间知识图谱的地理实体匹配与融合方法
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11025674B2 (en) * 2015-10-28 2021-06-01 Qomplx, Inc. Cybersecurity profiling and rating using active and passive external reconnaissance
US10803135B2 (en) * 2018-09-11 2020-10-13 Apple Inc. Techniques for disambiguating clustered occurrence identifiers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN107491555A (zh) * 2017-09-01 2017-12-19 北京纽伦智能科技有限公司 知识图谱构建方法和系统
CN112163101A (zh) * 2020-10-30 2021-01-01 武汉大学 一种面向空间知识图谱的地理实体匹配与融合方法
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法

Also Published As

Publication number Publication date
CN113139065A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
Gao et al. Extracting urban functional regions from points of interest and human activities on location‐based social networks
US20240077324A1 (en) Identifying, Processing And Displaying Data Point Clusters
US8176034B2 (en) Method for integrating road names and points of interest in source data
CN111597170B (zh) 一种无损地由bim模型构建空间语义数据库的方法
CN106462624A (zh) 基于图块的地理编码器
RU2008149110A (ru) Адаптивный индекс с переменным сжатием
EP2836928B1 (en) Full text search using r-trees
CN107908627A (zh) 一种多语言的地图poi 搜索系统
Ferreira et al. Beyond sights: Large scale study of tourists' behavior using foursquare data
CN113139065B (zh) 一种融合地理知识的混合知识图谱构建方法
Wang et al. Spatial pattern and micro-location rules of tourism businesses in historic towns: A case study of Pingyao, China
Iswandhani et al. K-means cluster analysis of tourist destination in special region of Yogyakarta using spatial approach and social network analysis (a case study: post of@ explorejogja instagram account in 2016)
Liu et al. ELAN: An efficient location-aware analytics system
EP2783308B1 (en) Full text search based on interwoven string tokens
CN112328877B (zh) 时间依赖路网上多用户的skyline查询的方法
Chen et al. Understanding travel patterns of tourists from mobile phone data: A case study in Hainan
Shao et al. Voronoi-based range-kNN search with map grid in a mobile environment
Zhang et al. Enrichment of topographic road database for the purpose of routing and navigation
CN103246650A (zh) 道路逻辑模型及其制作方法
CN112269845B (zh) 面向异源数据的电子道路地图与公交线路的快速匹配方法
Yu et al. Mining coterie patterns from Instagram photo trajectories for recommending popular travel routes
Peixoto et al. Mining trajectory data
Vaziri et al. Discovering tourist attractions of cities using Flickr and OpenStreetMap data
Singh et al. MODELING A GEO-SPATIAL DATABASE FOR MANAGING TRAVELERS'DEMAND

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant