CN115329221B - 一种针对多源地理实体的查询方法及查询系统 - Google Patents

一种针对多源地理实体的查询方法及查询系统 Download PDF

Info

Publication number
CN115329221B
CN115329221B CN202211223877.8A CN202211223877A CN115329221B CN 115329221 B CN115329221 B CN 115329221B CN 202211223877 A CN202211223877 A CN 202211223877A CN 115329221 B CN115329221 B CN 115329221B
Authority
CN
China
Prior art keywords
query
entity
geographic
geographic information
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211223877.8A
Other languages
English (en)
Other versions
CN115329221A (zh
Inventor
赵帅
程渤
秦唯人
陈俊亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211223877.8A priority Critical patent/CN115329221B/zh
Publication of CN115329221A publication Critical patent/CN115329221A/zh
Application granted granted Critical
Publication of CN115329221B publication Critical patent/CN115329221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对多源地理实体的查询方法及系统,包括:获取对齐的实体对;对对齐的实体对进行实体对融合;对已经对齐且融合好的实体数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;基于地理信息图谱、空间数据库实现复合条件查询地理信息。通过上述方案能够提升地理实体对齐的效果,并且能够优化地理信息查询性能。

Description

一种针对多源地理实体的查询方法及查询系统
技术领域
本发明属于数据处理技术领域,特别是涉及一种针对多源地理实体的查询方法及查询系统。
背景技术
伴随着移动互联网的普及,地图应用已经成为人们日常出行必不可少的工具,它在为用户提供地理信息检索服务的同时,也面临着用户对该服务有更加多样化与复杂化需求的挑战。现实中地理实体自身通常拥有丰富的属性,地理实体间拥有复杂的空间关系,因此只使用单一条件对地理信息进行检索已经不能满足用户现阶段的需求,用户需要地理信息系统(Geographic Information System,简称为GIS)具有支持复合条件查询的功能,来满足他们多样化的复杂地理信息检索需求。
目前虽然用户对地理信息系统的检索能力有了更高的期待,但是市面上使用范围最广的地图应用,比如高德地图、百度地图和谷歌地图等,都不能满足用户诸如查询“北京市内所有附近300米有地铁站且至少拥有两个出入口的公园”的请求,都不支持使用复合条件查询地理信息的功能。因此,关于支持复合条件查询的地理信息系统的研究就显得非常重要,然而开发复合条件查询功能需要坚实的地理信息数据基础,数据一方面需要拥有大量属性丰富的地理实体,另一方面还需要包含地理实体间复杂的空间关系,这是目前单一的地图数据厂商所不能提供的。由此,构建一张由地理实体和空间关系组合而成的地理信息图谱就成为了实现地理信息系统复合条件查询功能的关键。
构建地理信息图谱需要大量属性丰富的地理实体和实体间多样的空间关系,其中,属性丰富的地理实体需要将多来源的地理数据进行对齐,目前常用的实体对齐算法均没有利用到地理实体的空间特性,缺少针对地理数据的分区索引机制,导致候选实体对的规模过大,不易于计算,同时没有专门针对地理实体设计相似度衡量方法,所选用的分类器性能不强,最终导致地理实体的对齐效果不好。实体间多样的空间关系需要设计完备的地理信息图谱模型,并使用空间计算的方法确定所有地理实体间的空间关系。
发明内容
本发明的目的是提供一种针对多源地理实体的查询方法及查询系统,以提升地理实体对齐的效果,并优化地理信息查询性能。
为实现上述目的,一方面本发明提供了一种针对多源地理实体的查询方法,包括:
获取对齐的实体对;
对所述对齐的实体对进行实体对融合;
对已经对齐且融合好的实体数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;
基于所述地理信息图谱、空间数据库实现复合条件查询地理信息。
可选地,获取对齐的实体对包括:
采集多源地理实体数据;
通过空间索引的方法对所有地理实体数据进行分区,得到候选实体对;
对候选实体对进行筛选得到对齐的实体对。
可选地,采集多源地理实体数据包括:
对采集的原始地理实体数据进行预处理,所述预处理包括数据清洗、统一坐标格式。
可选地,基于所述地理信息图谱实现复合条件查询地理信息包括:
基于查询规则,使用混合查询的模式进行查询,得到查询结果。
可选地,使用混合查询的模式进行查询包括:
判断当前查询请求是否在历史查询数据库中,若是,则调用历史查询数据库中的结果,否则对该查询请求进行解析,得到查询目标和复合关系;
基于查询目标、复合关系选择在图数据库查询地理信息图谱,得到所有的原子关系集,并通过原子关系集中实体查找到目标实体集;
若地理信息图谱中没有满足查询条件的结果,则判断目标实体集是否为空,如果为空,则需继续在空间数据库查找,否则可以返回结果给用户。
可选地,在所述空间数据库查找包括:
对解析出的查询目标和复合关系均进行查询,得到原子实体集合与原子关系集;
利用空间数据库提供的空间函数,对实体集合关系集进行组合空间计算,从而获得目标实体集。
可选地,得到查询结果后还包括:将当前查询结果更新到历史查询数据库中。
另一方面为了实现上述目的,本发明还公开了一种针对多源地理实体的查询系统,包括:
获取模块,用于获取对齐的实体对;
融合模块,用于对所述对齐的实体对进行实体对融合;
计算模块,用于对已经对齐且融合好的实体数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;
查询模块,基于所述地理信息图谱、空间数据库实现复合条件查询地理信息。
可选地,所述获取模块包括:
采集模块,用于采集多源地理实体数据;
分区模块,用于通过空间索引的方法对所有地理实体数据进行分区,得到候选实体对;
筛选模块,用于对候选实体对进行筛选得到对齐的实体对。
可选地,还本系统包括,数据存储模块,所述数据存储模块包括:图数据库、空间数据库,所述图数据库用于存储地理信息图谱,其中所述地理信息图谱包括地理实体、地理实体间的空间关系;
所述空间数据库存储着所有地理实体数据。
本发明的技术效果为:本发明公开了一种针对多源地理实体的查询方法,包括:获取对齐的实体对;对对齐的实体对进行实体对融合;对已经对齐且融合好的实体数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;基于地理信息图谱、空间数据库实现复合条件查询地理信息。本发明充分利用到地理实体的空间特性,使用空间计算的方法确定所有地理实体间的空间关系,通过实体间多样的空间关系设计出完备的地理信息图谱模型,来提升地理实体对齐的效果,同时利用地理信息图谱、空间数据库进一步优化了地理信息查询性能。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例提供的多源地理实体对齐方法的流程示意图;
图2是本发明实施例提供的递归切割采集数据示意图;
图3是本发明实施例提供的XGBoost分类器工作原理图;
图4是本发明实施例提供的地理信息图谱模型图;
图5是本发明实施例提供的地理信息图谱构建流程图;
图6是本发明实施例提供的地理信息系统整体架构图;
图7是本发明实施例提供的复合条件查询功能流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本实施例中提供一种针对多源地理实体的查询方法,包括:
S100、获取对齐的实体对;
S200、对所述对齐的实体对进行实体对融合;具体包括:
实体对融合是指对已经对齐的一对地理实体的属性进行匹配并合并,从而实现实体对的融合。例如实体对的一类属性s和t,在对它们进行匹配时,如果发现它们互不相同,则只需要将它们进行拼接即可;如果发现它们分别有相同的字符片段和各自独有的字符片段,则需要对它们进行属性合并,合并的原则是要求两属性的匹配时连贯不冲突的,连贯不冲突是指两属性中的相同字符片段的顺序是一一相互对应的,不能颠倒,如此便可将两属性进行顺序合并,否则只能将两属性进行拼接。在将一对已对齐实体的所有属性合并后,便完成了该实体融合的任务;
S300、对已经对齐且融合好的实体数据集,使用空间计算技术计算所有地理实体间的空间关系,通过Neo4j-admin import工具分批导入图数据库Neo4j中,得到地理信息图谱;
具体包括,如图5所示,主要可以分为地理实体对齐和地理实体空间关系的并行化计算两部分。
地理信息图谱如图4所示,一方面需要包含某一地区全量且属性丰富的地理实体,另一方面还需要建立起各实体间的空间关系,从而可以支持地理检索系统使用多项空间关系约束来进行查询的功能。其中,图谱主要由地理实体和实体间的空间关系构成,空间关系能够反映实体间的相互作用,主要可以分为拓扑关系和距离关系两类,其中,拓扑关系主要包括相离、相交、包含等,距离关系是各地理实体在空间上相隔长度的定量表达,一般使用两个实体中心位置间的直线最短距离来进行表示。
其中,地理实体间空间关系的确定包括:
本发明实施例中采用空间计算的方法计算两个地理实体间的距离,从而确定它们彼此间的空间关系,在球面坐标系下,经纬度是数字坐标的形式,假设地球上的两个地理实体A和B,分别用A𝑖和Aj表示实体A的经度和纬度,B𝑖和Bj表示实体B的经度和纬度,计算过程如下:
第一步,分别将实体A和B经纬度的角度转换为弧度,如公式(7)和公式(8)所示,RAi和RAj分别表示实体A经度和纬度的弧度,RBi和RBj分别表示实体B经度和纬度的弧度:
第二步,计算实体A和B经纬度的差值,经度之差用M表示,纬度之差用N表示,如公式(9)和公式(10)所示:
第三步,计算实体A和B之间的米制距离,计算公式如(11)所示,其中,r是地球半径,是赤道到地心的距离,d则是实体A和B之间的米制空间距离:
这样就可以得到了地理实体A和B之间的空间距离,该距离定量表示了两实体间的距离关系,同时将该距离与实体面积的开方进行比较,就可确定两实体间的拓扑关系,至此两个地理实体间的空间关系便建立完成。
S400、基于所述地理信息图谱、空间数据库实现复合条件查询地理信息。
进一步优化方案,S100、获取对齐的实体对包括:
采集多源地理实体数据;具体地:
数据的来源是通过接口访问和文件下载的方式从多家地图厂商获得的,采集时采用递归切割的方法,如图2所示:
在对某区域的地理实体进行请求前,首先探测该区域的实体数量是否超过阙值:如果超过,则需对该区域中的矩形进行九等分切割,并将切割的分区存入栈中,继续递归请求切割好的矩形区域;如果该区域的数据量仍超过阙值,则继续切割,如此不断重复这个过程;如果不超过,则可以直接请求获取该分区的实体数据,当栈中不存在分区后,则该区域数据采集完毕。
通过空间索引的方法对所有地理实体数据进行分区,得到候选实体对;具体地:
使用哈希技术把实体二维的经纬度坐标编码为一维的字符串,编码的长度越长,区域划分地越细,对地理实体经纬度坐标进行6位编码,就可以将数据集划分为空间精度为600米的分区,每个分区中的地理实体不会很多,基于此构建的候选实体对规模将极大降低,从而提高实体对齐过程的效率。
对候选实体对进行筛选得到对齐的实体对,具体包括:
针对地理实体不同属性的特征相应设计相似度计算方法,并依此构建特征向量,通过集成学习筛选出对齐的地理实体。
所述属性包括非空间属性和空间属性。针对非空间属性,采用编辑距离混合的相似度计算方法;针对空间属性,采用几何距离阙值法来计算两个地理实体位置间的相似度。具体地:
针对非空间属性,比如地理实体的名称和地址,它们所包含的数字和字母通常拥有比较重要的编号意义,比如“花园小区20号楼”,同时它们有时还会参考周围的实体进行定位,比如“肯德基西直门店”。可以看出这些非空间属性对于词频和词序都十分敏感,因此本发明使用TF-IDF(Term Frequency-Inverse Document Frequency)词频-逆文档频率与J-W(Jaro–Winkler Distance)编辑距离混合的相似度计算方法,对非空间属性进行衡量。其中,TF-IDF中的词频通常为1,逆文档频率则受全文档的影响而有不同的权重,而J-W编辑距离相似度函数是Jaro编辑距离相似度函数的变种,如此通过将TF-IDF与J-W两种相似度衡量方法相结合,便可计算非空间属性间的加权编辑距离。
对于待匹配的两个属性A和B,如公式(1)所示,m是属性字符串匹配数量的TF-IDF加权值,公式(2)是Jaro编辑距离相似度函数,t是匹配部分发生位置交换的次数,公式(3)是J-W编辑距离相似度函数,l是匹配部分长度,p是范围因子常量,用来调整前缀匹配的权值,通常设为0.1,bt是boost threshold,通常设为0.7,当该值超过Jaro距离时,J-W距离即为Jaro距离。
针对空间属性,也就是地理实体的经纬度坐标,它是在三维空间的球面坐标体系下定义的,能够唯一确定地球的任一位置,两个地理实体间的距离通常可以使用Haversine公式进行计算,但是对于两个实体位置的比较则不需精确计算,因此本发明实施例采用了几何距离阙值法来计算两个地理实体位置间的相似度。对于待匹配的两个实体坐标A(xi,yi)和B(xj,yj),如公式(4),首先计算两坐标间的欧氏距离d(i,j),而后如公式(5)所示,根据数据集的地理实体位置的分布和数据粒度,设置一个合适距离阙值d,并用欧氏距离与其进行对比计算得到两实体空间属性的相似度SimDis
本发明实施例中的特征向量的基本构造如公式(6)所示,对于实体对的某一属性a和b,各维特征分别是各属性值,属性的交集、并集与差集,属性交集占各自的比值,以及J-W距离或Dis几何距离。
采用XGBoost分类器完成候选地理实体对的筛选共工作,它是一种提升树模型,它是将多个弱分类器的决策树模型集成在一起,从而形成一个很强的分类器模型。其整体的工作原理如图3所示,通过不断的进行特征分裂与整合来训练生成一棵决策树,它是一个弱分类器C1,在此基础上,通过再去训练一棵树去拟合上次预测结果的残差,从而获得效果更好一些的弱分类器C2,不断重复上述过程,可以得到n个效果越来越好的弱分类器,将n个弱分类器进行集成可以最终形成一个强分类器C。这样通过使用训练数据X和训练标签Y不断进行学习与训练,最终形成最优的XGBoost集成学习分类模型,从而完成地理实体对齐的预测分类工作。
进一步地,在进行候选实体对对齐前包括:先要判断算法中分类器模型是否存在,如果不存在,则可以使用种子集工具,利用一些合理的地理规则构建正向样本和负向样本,重新对模型进行训练,本发明实施例所采用的是集成学习分类器XGBoost,调用其训练器booster的save_model方法,可以将模型中的特征,比如学习率和树的深度等参数存储下来,以便后续实体对齐过程中持续使用该模型,而后就能够使用该模型对候选实体对进行分类,并得到了成功对齐的实体对数据集。
进一步优化方案,采集多源地理实体数据包括:
对采集的原始地理实体数据进行预处理,所述预处理包括数据清洗、统一坐标格式。
具体地,对数据属性的清洗,针对不同属性采用不同的处理方式,对于名称或坐标属性缺失的实体记录可以进行过滤,不参与后续的实体对齐过程,对于其他属性中的一些无意义的单字或特殊字符,则可以采用模式匹配的方法进行去除,数据的清洗效果将直接影响后续实体对齐的效果;
由于不同地图厂商提供的实体数据分别采用不同的坐标体系,需要使用相应开源的坐标转换代码,将所有实体统一转化到同一坐标系中;
中文的简繁转换,由于采集的一些地图数据语言较为混杂,其中一些实体属性中存在简体中文、繁体中文和英语等混杂的形式,可以使用Python的openccpy工具包将属性中的繁体中文转换为简体中文,英文暂时保留不做任何处理。
进一步优化方案,S400、基于所述地理信息图谱实现复合条件查询地理信息包括:
基于查询规则,使用混合查询的模式进行查询,得到查询结果。具体包括:
查询规则的定义主要由两部分组成:第一部分是查询目标对象,在查询时是必不可少的;第二部分是复合条件的约束,在查询时是可选的。对于一次复合条件查询,需要经过多次条件筛选,才能向用户返回查询结果,第一维度的条件筛选是利用查询目标对象的静态或动态属性进行筛选,比如面积、出入口和人流量等;第二维度的条件筛选是利用其他地理实体集合与查询目标对象的空间关系进行筛选,可以为零条或多条。
进一步优化方案,使用混合查询的模式进行查询包括:
判断当前查询请求是否在历史查询数据库中,若是,则调用历史查询数据库中的结果,否则该查询请求进行解析,得到查询目标和复合关系;
基于查询目标、复合关系选择在图数据库查询地理信息图谱,得到所有的原子关系集,并通过原子关系集中实体查找到目标实体集;
若地理信息图谱中没有满足查询条件的结果,判断目标实体集是否为空,如果为空,则需继续在空间数据库查找,否则可以返回结果给用户。
进一步优化方案,在所述空间数据库查找包括:
对解析出的查询目标和复合关系均进行查询,可以获得原子实体集合与原子关系集;
利用空间数据库提供的空间函数,对实体集合关系集进行组合空间计算,从而获得目标实体集。由于不一定能够得到满足所有条件约束的查询结果,因此本着满足最多条件的查询原则,对查询结果按照所满足条件的数量进行倒叙排列。
进一步优化方案,得到查询结果后还包括:将当前查询结果更新到历史查询数据库中,并返回给用户进行展示。
本发明还公开了一种针对多源地理实体的查询系统,包括:
获取模块,用于获取对齐的实体对;
融合模块,用于对所述对齐的实体对进行实体对融合;
计算模块,用于对已经对齐且融合好的实体数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;
查询模块,基于所述地理信息图谱、空间数据库实现复合条件查询地理信息。
工作过程如图7所示,包括:
(1)用户发起一次复合条件查询后,查询请求会被转发给查询模块进行处理;
(2)查询模块首先查找是否有之前相同的查询结果在历史查询数据库中,如果命中,就直接返回结果给用户,否则继续查询流程;
(3)按照规则对请求进行查询解析,将请求解析为对查询目标对象的约束和相应复合条件的约束,例如查询“找名称中含有美丽的公园,要求它的面积大于500平方米,评分大于4,并且附近500米有至少两个地铁站,附近1000米有人流量小于30的餐厅”,它可以被解析为如下形式:
查询目标:{类型:公园广场,关键词:美丽,[“面积>500” “评分>4}”]}
复合关系1:{关系指向实体:{类型:地铁站,关键词:,[“数量>2”]},关系:”ST_dwithin”,关系值:500}
复合关系2:{关系指向实体:{类型:餐厅,关键词:,[“人流<30”]},关系:”ST_dwithin”,关系值:1000}
根据解析的内容判断查询是否包含500米以上的距离关系,如果包含,则需查找PostGIS并实时进行空间关系的计算,否则只需查找Neo4j中的地理信息图谱。其中,单个查询目标对应原子实体集,单个复合关系对应原子关系集;
(4)关于图数据库Neo4j的查询,首先对所有复合关系进行查询,可以获得所有的原子关系集,并通过原子关系集中实体查找到目标实体集,由于地理信息图谱中不一定有满足查询条件的结果,还需要判断目标实体集是否为空,如果为空,则需继续查找PostGIS,否则可以返回结果给用户。
(5)关于空间数据库PostGIS的查询,首先对解析出的查询目标和复合关系均进行查询,可以获得原子实体集合与原子关系集,而后利用PostGIS提供的空间函数,对实体集合关系集进行组合空间计算,从而获得目标实体集,由于不一定能够得到满足所有条件约束的查询结果,因此本着满足最多条件的查询原则,对查询结果按照所满足条件的数量进行倒叙排列;
(6)将本次查询结果更新到历史查询数据库中,并返回给用户进行展示。
进一步优化方案,所述获取模块包括:
采集模块,用于采集多源地理实体数据;
分区模块,用于通过空间索引的方法对所有地理实体数据进行分区,得到候选实体对;
筛选模块,用于对候选实体对进行筛选得到对齐的实体对。
进一步优化方案,本系统还包括,数据存储模块,所述数据存储模块包括:图数据库、空间数据库,其中,所述图数据库用于存储地理信息图谱,其中所述地理信息图谱包括地理实体、地理实体间的空间关系;图数据库中存储了完整的地理信息图谱,不过由于图谱并没有完全包含了所有的空间关系,为了满足用户对更多空间关系查询的需求,还需要空间数据库作为数据补充,它同样存储了全量的地理实体数据,这样当用户发起的查询请求在图谱无法命中时,便可通过空间数据库来实时计算用户所查询的空间关系。
如图6所示,本系统采用了浏览器端与服务器端(B/S)分离的结构设计,并将对服务器请求设置为无状态的模式,从而使系统未来可以灵活的扩展为C/S(客户端/服务器端)的模式。其中,浏览器端提供可视化的页面,让用户可以与地理信息系统进行交互操作,而服务器端则会处理来自浏览器端的各类请求,进行业务逻辑和数据信息的处理,并将响应结果返回给浏览器进行显示。
其中,数据存储层采用图数据库Neo4j和空间数据库PostGIS混合存储的模式,来对本系统所有的数据进行储存和管理;数据访问层主要实现了系统中的各实体对象与数据库中各表的ORM映射,它承接来自业务层中各种复杂查询;业务逻辑层主要负责处理来自控制层所有的请求,它实现了本地理信息系统中全部功能的业务逻辑;控制层主要负责通过管理各类接口,来对Web前端与后端所有的交互进行控制;可视化层主要负责实现了系统直接与用户进行交互的图像界面。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种针对多源地理实体的查询方法,其特征在于,包括:
获取对齐的实体对;
对所述对齐的实体对进行实体对融合;
对所有已经对齐且融合好的实体对形成的实体对数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;
基于所述地理信息图谱、空间数据库实现复合条件查询地理信息;
基于所述地理信息图谱实现复合条件查询地理信息包括:
基于查询规则,使用混合查询的模式进行查询,得到查询结果;
使用混合查询的模式进行查询包括:
判断当前查询请求是否在历史查询数据库中,若是,则调用历史查询数据库中的结果,否则对该查询请求进行解析,得到查询目标和复合关系;
基于查询目标、复合关系选择在图数据库查询地理信息图谱,得到所有的原子关系集,并通过原子关系集中实体查找到目标实体集;
若地理信息图谱中没有满足查询条件的结果,则判断目标实体集是否为空,如果为空,则需继续在空间数据库查找,否则返回结果给用户。
2.根据权利要求1所述的方法,其特征在于,获取对齐的实体对包括:
采集多源地理实体数据;
通过空间索引的方法对所有地理实体数据进行分区,得到候选实体对;
对候选实体对进行筛选得到对齐的实体对。
3.根据权利要求2所述的方法,其特征在于,采集多源地理实体数据包括:
对采集的原始地理实体数据进行预处理,所述预处理包括数据清洗、统一坐标格式。
4.根据权利要求1所述的方法,其特征在于,在所述空间数据库查找包括:
对解析出的查询目标和复合关系均进行查询,得到原子实体集合与原子关系集;
利用空间数据库提供的空间函数,对实体集合关系集进行组合空间计算,从而获得目标实体集。
5.根据权利要求1所述的方法,其特征在于,得到查询结果后还包括:将当前查询结果更新到历史查询数据库中。
6.一种针对多源地理实体的查询系统,其特征在于,包括:
获取模块,用于获取对齐的实体对;
融合模块,用于对所述对齐的实体对进行实体对融合;
计算模块,用于对所有已经对齐且融合好的实体对形成的实体对数据集,使用空间计算技术计算所有地理实体间的空间关系,得到地理信息图谱;
查询模块,基于所述地理信息图谱、空间数据库实现复合条件查询地理信息;基于所述地理信息图谱实现复合条件查询地理信息包括:
基于查询规则,使用混合查询的模式进行查询,得到查询结果;
使用混合查询的模式进行查询包括:
判断当前查询请求是否在历史查询数据库中,若是,则调用历史查询数据库中的结果,否则对该查询请求进行解析,得到查询目标和复合关系;
基于查询目标、复合关系选择在图数据库查询地理信息图谱,得到所有的原子关系集,并通过原子关系集中实体查找到目标实体集;
若地理信息图谱中没有满足查询条件的结果,则判断目标实体集是否为空,如果为空,则需继续在空间数据库查找,否则返回结果给用户。
7.根据权利要求6所述的系统,其特征在于,所述获取模块包括:
采集模块,用于采集多源地理实体数据;
分区模块,用于通过空间索引的方法对所有地理实体数据进行分区,得到候选实体对;
筛选模块,用于对候选实体对进行筛选得到对齐的实体对。
8.根据权利要求7所述的系统,其特征在于,还包括,数据存储模块,所述数据存储模块包括:图数据库、空间数据库,所述图数据库用于存储地理信息图谱,其中所述地理信息图谱包括地理实体、地理实体间的空间关系;
所述空间数据库存储着所有地理实体数据。
CN202211223877.8A 2022-10-09 2022-10-09 一种针对多源地理实体的查询方法及查询系统 Active CN115329221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211223877.8A CN115329221B (zh) 2022-10-09 2022-10-09 一种针对多源地理实体的查询方法及查询系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211223877.8A CN115329221B (zh) 2022-10-09 2022-10-09 一种针对多源地理实体的查询方法及查询系统

Publications (2)

Publication Number Publication Date
CN115329221A CN115329221A (zh) 2022-11-11
CN115329221B true CN115329221B (zh) 2023-08-01

Family

ID=83914003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211223877.8A Active CN115329221B (zh) 2022-10-09 2022-10-09 一种针对多源地理实体的查询方法及查询系统

Country Status (1)

Country Link
CN (1) CN115329221B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356088A1 (en) * 2014-06-06 2015-12-10 Microsoft Corporation Tile-based geocoder
CN112699195B (zh) * 2020-12-29 2023-12-19 广州城市信息研究所有限公司 地理空间数据处理方法、装置、计算机设备及存储介质
CN113065000B (zh) * 2021-03-29 2021-10-22 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN113177058B (zh) * 2021-05-11 2023-10-13 北京邮电大学 基于复合条件的地理位置信息检索方法及系统
CN114297336A (zh) * 2021-09-24 2022-04-08 北京大学 图表联动的知识图谱查询系统和方法
CN114218400A (zh) * 2021-12-13 2022-03-22 上海交通大学 基于语义的数据湖查询系统及方法

Also Published As

Publication number Publication date
CN115329221A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN102395965B (zh) 用于在数据库中搜索对象的方法
USRE44876E1 (en) Proximity search methods using tiles to represent geographical zones
US7046827B2 (en) Adapting point geometry for storing address density
US6816779B2 (en) Programmatically computing street intersections using street geometry
CN113434623B (zh) 一种基于多源异构空间规划数据的融合方法
CN111353106B (zh) 推荐方法和装置、电子设备和存储介质
US20150356088A1 (en) Tile-based geocoder
US10176244B2 (en) Text characterization of trajectories
CN101350013A (zh) 一种地理信息的搜索方法和系统
CN108932347A (zh) 一种分布式环境下基于社会感知的空间关键字查询方法
CN108717407A (zh) 实体向量确定方法及装置,信息检索方法及装置
US6658356B2 (en) Programmatically deriving street geometry from address data
CN103279560A (zh) 基于安全区域的关键字连续查询方法
Zhang et al. An improved probabilistic relaxation method for matching multi-scale road networks
Cheng et al. Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations
Cai et al. Research on multi-source POI data fusion based on ontology and clustering algorithms
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
Chatterjee et al. SAGEL: smart address geocoding engine for supply-chain logistics
CN115329221B (zh) 一种针对多源地理实体的查询方法及查询系统
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用
Yang et al. Point‐of‐interest detection from Weibo data for map updating
Hall et al. Exploring the Relationship Between" Informal Standards" and Contributor Practice in OpenStreetMap
Choi et al. Developing an alias management method based on word similarity measurement for POI application
CN115329029B (zh) 面向移动端的复杂条件地理信息查询方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant