CN116578676B - 一种地名时空演化查询方法及系统 - Google Patents

一种地名时空演化查询方法及系统 Download PDF

Info

Publication number
CN116578676B
CN116578676B CN202310847447.1A CN202310847447A CN116578676B CN 116578676 B CN116578676 B CN 116578676B CN 202310847447 A CN202310847447 A CN 202310847447A CN 116578676 B CN116578676 B CN 116578676B
Authority
CN
China
Prior art keywords
feature
original
layer
land
derivative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310847447.1A
Other languages
English (en)
Other versions
CN116578676A (zh
Inventor
路文娟
毛曦
程瑶
王继周
杜川
李�诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202310847447.1A priority Critical patent/CN116578676B/zh
Publication of CN116578676A publication Critical patent/CN116578676A/zh
Application granted granted Critical
Publication of CN116578676B publication Critical patent/CN116578676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种地名时空演化查询方法及系统,涉及地名自主查询技术领域,该方法包括:获取目标区域的地理实体矢量数据;对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层;基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果;基于模糊集推理和Dempster‑Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果;所述地名时空演化结果用于显示地名随时间变化的过程。本发明能够高精度地对地名所蕴含的时空特征进行分析挖掘。

Description

一种地名时空演化查询方法及系统
技术领域
本发明涉及地名自主查询技术领域,特别是涉及一种地名时空演化查询方法及系统。
背景技术
地名作为重要的基础地理信息,是新型基础测绘、实景三维、全球地理信息建设等重大测绘工程的重要内容,技术手段正从信息化测绘逐渐向智能测绘过度。随着人们对地名需求的增长,展现的场景也越来越多样化。人们不仅仅要求地名自主查询服务能够确定所查询地名的范围,还要求更加智能、精确的、具有空间认知的地名查询结果,当前的研究成果仍然存在一些亟待解决的问题,这些问题主要包括以下二个方面:
(1)目前虽然掌握了大量地名数据,但只是作为地图注记表示,没有对地名所蕴含的时空特征进行分析挖掘,特别是其背后所代表的历史文化积淀以及现实经济外交的符号象征。
(2)在地名服务方面,传统自然语言理解技术只关心主题信息,没有顾及地名空间信息,导致地名查询中主题信息和地理空间信息的相互割裂。而且目前大部分采用关键词进行查询,遗漏了大量的语义信息,使查询结果具有一定的不确定性和误差,降低了查询的精度。
发明内容
本发明的目的是提供一种地名时空演化查询方法及系统,能够高精度地对地名所蕴含的时空特征进行分析挖掘。
为实现上述目的,本发明提供了如下方案:
一种地名时空演化查询方法,包括:
获取目标区域的地理实体矢量数据;所述目标区域为待识别区域;
对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层;
基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果;
基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果;所述地名时空演化结果用于显示地名随时间变化的过程。
可选地,所述地名时空知识库是从地理和历史两个角度,对大量原始地名数据的时空结构特征进行数据处理后得到的知识库。
可选地,所述地名时空知识库包括实体、关系、实体构成的三元组以及实体、属性、属性值构成的三元组,且利用图数据库存储查询三元组,达到地名时空知识库可视化的目的。
可选地,派生地物与原生地物的空间约束关系,具体包括:
派生地物与原生地物具有空间拓扑关系;
派生地物与原生地物在空间分布上的地理关联度;
派生地物与原生地物的邻近距离。
可选地,基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果,具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系;
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,以派生地物与原生地物的邻近距离为搜索半径,将原生地物图层作为待搜索图层,通过位置选择筛选出邻近的原生地物的地名属性信息,并通过近邻分析获取最近的原生地物的地名属性信息;
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,将原生地物图层作为标识图层,对多通名地物图层进行标识,获取原生地物的地名属性信息;
根据派生地物与原生地物在空间分布上的地理关联度,对多通名地物图层和原生地物图层进行挖掘,确定每类派生模式下的地理关联度;
基于原生地物的地名属性信息、以及每类派生模式下的空间拓扑特征关系和地理关联度,结合地名时空知识库,确定多个目标区域的地名时空演化结果。
可选地,采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系,具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,并记录每类派生模式下多通名地物与原生地物的空间拓扑关系;
按照多通名地物与原生地物的空间拓扑关系对多通名地物数据进行划分,统计每类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数;
基于各类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数,按照将大于设定阈值的频数对应的空间拓扑关系确定为空间拓扑特征关系的原则,确定每类派生模式下的空间拓扑特征关系。
可选地,还包括:采用点估计的方法对各派生模式下派生地物与原生地物的邻近距离进行估计。
可选地,还包括:利用Fp-Growth算法进行频繁派生模式的挖掘,并利用置信度和改进后的正点互信息对派生地物与原生地物的地理关联性进行定量和定性的衡量。
本发明还提供了一种地名时空演化查询系统,包括:
数据获取模块,用于获取目标区域的地理实体矢量数据;所述目标区域为待识别区域;
多通名地物图层和原生地物图层确定模块,用于对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层;
地名时空演化结果确定模块,用于基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果;
地名时空演化结果筛选模块,用于基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果;所述地名时空演化结果用于显示地名随时间变化的过程。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明能够将研究对象的空间结构变异延伸至时间轴,从而精准高效的显示地名随时间变化的过程,满足人们对地名查询服务的要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种地名时空演化查询方法的流程示意图;
图2为本发明实施例提供的地名时空知识库的构建过程示意图;
图3为本发明实施例提供的地名自主服务的技术路线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的研究内容主要包括以下三个方面:
1)研究地名时空派生关系分析:首先介绍派生地名的相关概念,并对派生地名的基本特征进行分析;然后介绍派生地名与原生地名的空间约束条件,最后基于地名时空知识库的时空派生关系进行量化计算,实现对于地名时空演化的检索。
2)研究地名自主服务:收集地名相关信息,并从地理和历史两个角度,分析古今地名的时空变化特征,根据地名信息的组织形式,采用BERT-BiLSTM技术进行关键词、实体、关系等知识的抽取,完成对地名信息进行实体、关系及属性的定义。编写脚本定义信息中的实体、关系和属性,实体—关系—实体的三元组集合,将数据进行保存。本发明选取Neo4j图数据库作为存储工具进行地名查询知识库构建,并建立定义好的实体与实体之间关系和实体内部属性的关联,便于系统对地名数据的查询、处理和分析。
3)开发地名服务系统:基于地名自主服务及时空派生关系研究,开发地名服务系统,并以具体的地名为研究对象,将该对象的空间结构变异延伸至时间轴,显示地名随时间变化的过程。
实施例一
如图1所示,本实施例提供了一种地名时空演化查询方法,包括:
步骤100:获取目标区域的地理实体矢量数据;所述目标区域为待识别区域。
步骤200:对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层。
步骤300:基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果。其中,所述地名时空知识库是从地理和历史两个角度,对大量原始地名数据的时空结构特征进行数据处理后得到的知识库。
步骤400:基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果。所述地名时空演化结果用于显示地名随时间变化的过程。
派生地名源自于两相邻地物地名属性相互关联的地理现象,主要是对地名的语法结构特征、派生地名的界定、派生地名的相关概念进行了介绍,并对派生地名的分类和派生过程进行相关分析,从而为地名派生的界定提供约束条件。
地名的语法结构特征:从词性上的角度上看,地名由名词、形容词、介词、限定词、连词、数词等构成,从构词成分的角度上看,地名由专名、形容词、方位词、数量词、介词、连词、通名等构成,其中,专名是区分共性地理实体的专有名称,如布朗克斯、北京等,通名是地理实体的类别名称,如道路、公园、河流等。地名的构成形式有“专名+通名”的形式,如北京雕塑公园,“方位词+专名+通名”如江海大道南部等,“专名+数量词+通名”如芳村花园5号。
派生地名的界定:派生地名是通过派生的方式命名的地名,是“以移借它名而命名的地名”,其中“它名”又称为原生地名。人们在给新发现地物命名时,往往会结合周围自然地物或人工地物的原有地名,将这些原有地名通过派生的方式生成新地名。这些新地名即保留了反映周围环境的地理信息,又蕴含了该地物与邻近地物的相对位置关系,体现了地名的定位功能。
派生地名的相关概念:根据这类地名的派生形式及起相关情况,本实施例将派生地名的相关概念作为了进一步的细化,具体为:
定义1:将包含整个原生地名的派生地名称为完全派生地名。
定义2:将仅包含派生通名的派生地名称为通名派生地名。
定义3:将派生地名中原生地名的地名通名及其上义词、形容词、方位词、合成词统称为派生通名。
定义4:将原生地名指代的地物称为原生地物。
定义5:将派生地名指代的地物称为派生地物。
定义6:将派生地物与原生地物之间的距离称为邻近距离。
定义7:将一类原生地物与另一类派生地物之间的一一对应关系称为派生模式。
定义8:将通名指代的地物称为通名地物。
本实施例构建的地名时空知识库是一种语义网络,以图的形式描述客观数据,节点用来表示概念和实体,边则表示事物的属性以及关系。其中,概念是抽象出来的事物,实体是具体的事物,事物的内部特征用属性来表示,外部联系用关系表示。
原始地名数据获取后,从地理和历史两个角度,根据原始地名数据的时空结构特征进行数据处理,采用BERT-BiLSTM-CRF技术进行关键词、实体、关系等知识的抽取;通过实体链接技术进行本体融合和实体对齐,进而达到与业务知识库进行融合,最终形成融合的地名时空知识库,进而存储,具体流程如图2所示。经过以上两个步骤,后将得到实体与实体关系构成的三元组以及实体与属性、属性值构成的三元组。下一步,利用图数据库存储查询三元组,达到地名时空知识库可视化的目的。本实施例采用Neo4j数据库进行存储,Neo4j数据库提供了便捷的信息访问应用程序接口(Application programming interface,API),通过导入Python语言中的Py2neo包,Neo4j数据库可以实现CSV格式文件批量写入图形数据库,并建立定义好的实体与实体之间关系和实体内部属性的关联。
在本实施例中,步骤200具体包括:
首先需要对地理实体矢量数据中的不必要的特殊字符进行删除处理,然后对于缺失地物类别信息的地理实体矢量数据进行删除处理,最后根据地名中的属于其他地物类别的通名信息,结合在地名关系方面的派生地名约束条件(即上述限定的派生地名的界定和派生地名的相关概念),从处理后的地理实体矢量数据中提取出多通名地物图层和原生地物图层。
在本实施例中,派生地物与原生地物的空间约束关系,包括:(1)派生地物与原生地物在空间分布上的地理关联度;(2)派生地物与原生地物具有空间拓扑关系;(3)派生地物与原生地物的邻近距离。
本实施例从空间分布特征、空间拓扑特征、地名属性的空间度量关系等方面对派生地物与原生地物间的空间关系特征进行研究分析,从而为下一步界定其空间约束关系提供依据。
空间分布特征:人们在给新生地物命名时,为了表达该地物周围的地理环境以及与邻近原有地物的邻近位置关系,往往会采用派生地名的命名方式对新生地物进行命名。因此,在空间分布上,派生地物通常分布在原生地物的周围;通过对各派生地名点进行平均最近邻分析可得派生地名在空间分布上具有聚集性,因此可知,在空间分布模式上,派生地物聚集在原生地物的周围。根据地理第三定律可知,相似的人文环境和自然地理环境,其地名命名方式具有一定的相似性,使得派生地物频繁分布在原生地物的一定范围内,因此,派生地物与原生地物在空间分布上具有较强的地理关联度。
空间拓扑关系特征:从地理实体的表现形式来看,原生地物和派生地物可分为点要素、线要素以及面要素。点要素如地铁站、加油站、超市等,线要素如地铁、公路、河流等,面要素如湖泊、公园、水库等。从原生地物与派生地物的空间拓扑关系上来看,原生地物与派生地物之间存在相交、触碰、相离、包含、被包含、相等、交叠以及穿越等空间拓扑关系特征。因此,在某些派生模式下,派生地物与原生地物之间存在特定拓扑约束关系,例如对于水坝类的派生地物与湖泊类的原生地物只存在触碰关系,对于公园类的原生地物与自行车车道类的派生地物之间存在穿越和触碰关系。
空间度量关系:任何事物都是与其他事物相关的,只不过相近的事物关联更紧密。该定律同样适用于地名现象,即距离相近的地物,地名属性的相关性越强。在给新地物命名时为了体现该地物与周围地物的邻近关系,人们往往会将周围原有的地名信息蕴含在新地名中。人们从地名就能大概了解该地物所处的环境,以便于人们对其进行定位。因此,派生地物与原生地物存在一定的邻近关系,从定量上看,派生地物与原生地物的距离在一定的范围即邻近距离,在这个范围内,派生地物离原生地物越近,派生地名的指位性就越强,相反,派生地物离原生地物越远,派生地名的指位性就越弱,超过了这个范围,则无法发挥派生地名的指位功能。于是,派生地物的指位性可由以下公式度量。
(1)。
式中,Positioning为派生地物的指位性,x为派生地物与原生地物的实际距离,l为派生模式下派生地物与原生地物的邻近距离,k为系数。
由于地物类别不同的地理实体,其空间分布范围也不同。空间分布范围越大的地物,其周围派生地物的分布范围越大。此外,空间跨度越大的地物,名气也越大,其对周围地物地名属性的影响范围就越大。因此,地物类别不同的原生地物,其与派生地物间的派生距离也不同。从定量上看,派生地物与原生地物的邻近距离与原生地物的面积成正相关,因此,派生地物与原生地物的邻近距离可由以下公式计算。
(2)。
式中,Dist为派生地物与原生地物的邻近距离,s为原生地物的实际面积,k为系数。
在本实施例中,步骤300具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系。
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,以派生地物与原生地物的邻近距离为搜索半径,将原生地物图层作为待搜索图层,通过“位置选择”筛选出邻近的原生地物的地名属性信息,并通过“近邻分析”获取最近的原生地物的地名属性信息。
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,可直接作为派生地物要素的邻近地物,然后将原生地物图层作为标识图层,对多通名地物图层进行“标识”,从而获取原生地物的地名属性信息。
根据派生地物与原生地物在空间分布上的地理关联度,对多通名地物图层和原生地物图层进行挖掘,确定每类派生模式下的地理关联度。
基于原生地物的地名属性信息、以及每类派生模式下的空间拓扑特征关系和地理关联度,结合地名时空知识库,确定多个目标区域的地名时空演化结果。
其中,采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系,具体包括:
由于在各类派生模式下,派生地物与原生地物之间存在着特定的空间拓扑关系,然而事先并不了解各类派生模式中派生地物与原生地物存在哪些空间拓扑关系。因此,本实施例采用启发式策略,以原生地物图层为输入图层,多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,若搜索结果不为空,则记录查询的多通名地物与原生地物的空间拓扑关系,进而按照多通名地物与原生地物的空间拓扑关系对多通名地物数据进行划分,从而统计出该派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数;基于各类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数,按照将大于设定阈值的频数对应的空间拓扑关系确定为空间拓扑特征关系的原则,确定每类派生模式下的空间拓扑特征关系。
派生地物与原生地物的邻近距离的确定过程为:
由派生地名的约束条件可知,派生地物与原生地物之间的距离不能超过该类派生模式下的邻近距离。然而,每个人对邻近距离的理解各有不同,凭借生活经验人为设定各派生模式下的邻近距离,会导致派生地名的识别缺乏科学性。对此,本实施例采用点估计的方法对各派生模式下派生地物与原生地物的邻近距离进行估计。根据地理学第一定律可知,距离越近的地物,地物属性的关联性就越强。因此,两相邻地物越近,其地名属性的关联程度就越强。根据这一特性可知,派生地物的原生地物大概率为其最近邻地物,因此本实施例首先利用近邻分析获取派生地物的最近邻地物,然后根据最近邻距离为样本,利用邻近距离点估计公式估算出该类派生模式下的邻近距离。
(1)邻近距离样本数据的获取:在派生地物数据集中,选取与派生地物存在相离关系的原生地物图层作为输入图层,原生地物为邻近地物搜索图层,从而通过近邻分析获取该类派生模式下派生地物要素与最邻近原生地物要素之间的距离值,进而利用箱型图分析法获得样本距离数据的正常距离值的分布范围,其分布区间的上下限可由公式求得。
(3)。
(4)。
(5)。
式中,Q3为上四分位数,Q1为下四分位数,IQR为四分位距,lower_limit和upper_limit为异常值截断点。
(2)邻近距离估计:根据派生地名的指位性度量公式可知,在某派生模式下,派生地物与原生地物的距离存在一个限度即邻近距离。若将派生地物与原生地物之间的距离X作为随机变量,则X服从均匀分布U(0,S),其概率密度函数如公式(6)所示。对此,本实施例对均匀分布的点估计公式估计各派生模式下的邻近距离值(如公式(7)所示)。
(6)。/>(7)。
式中,x为原生地物与派生地物之间的距离,l为该类派生模式下的邻近距离,X(n)为样本中的最大次序统计量,X(1)为样本中的最小次序统计量,n为样本总数。
在实施例中,地理关联度的计算过程为:
根据派生地名约束条件可知,派生地物与原生地物具有一定的地理关联性,对此,本实施例首先利用Fp-Growth算法进行频繁派生模式的挖掘,然后利用置信度和改进后的正点互信息对派生地物与原生地物的地理关联性进行定量和定性的衡量。
(1)数据集的获取:根据启发式搜索得到的各派生模式的估计的邻近距离,以某类原生地物为中心,选取该派生模式下的邻近距离为搜索半径,搜索位于该类原生地物周围的邻近地物,并获取邻近地物的地物类别属性。最终形成由原生地物类别和派生地物类别组成的地物类别数据集。
(2)频繁地物类别数据集的挖掘:挖掘频繁地物类别数据集首先利用待搜索地物与邻近地物类别属性数据组成的事务集Class{c1,c2,c3,...,cn}构建FP树,然后结合先验知识设置最小支持度min_suport,从而通过FP树能获得地物类别数据集Class中的所有具有强关联规则的频繁数据集。在实际频繁集挖掘过程中,这些频繁项集中往往存在大量冗余的关联规则项集即零事务,然而我们只关心只包含派生地物类别和原生地物之间的关联规则。因此需要从这些频繁数据集中筛选出包含待搜索地物类别的频繁2项集。
(3)计算地理关联度:本实施例借鉴信息论中正点互信息PPMI(PositivePointwise Multual Information,PPMI)衡量两离散变量相关性的方法,将其应用于该派生模式下地理关联程度定性的度量。由于地理关联度的计算涉及海量的地理实体要素,传统正点互信息公式(如公式(8)所示)不利于计算机的计算,对此,本实施例对其进行了改进(如公式(9)所示),最后将改进后的正点互信息作为该派生模式的地理关联度的定性度量(如公式(10)所示)。
(8)。
(9)。
(10)。
式中,X和Y为离散的随机变量,D为派生地物的地物类别,S为原生地名的地物类别。由式可知,当Correlation(X,Y)=1时,表明派生地物与原生地物不具有相关性,当0<Correlation(X,Y)1时,则表明派生地物与原生地物具有较强地理关联性。
在本实施例中,基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型如下所示。
本实施例要从技术框架和模型的角度,探讨如何解决当前地名自主查询服务的方法,力求建立一种通用、开放、可扩展且易于实施推理计算的表达框架。此外,本实施例提出的基于推理理论的自然语言理解查询模型,实际上也是一种通用的模型。它既可以用于完全基于语义的匹配度计算方法,也可以用于完全基于关键字的匹配度计算方法,还可以运用语义和关键字相结合的匹配度计算算法。模型中基于Dempster-Shafer证据理论(简称D-S证据理论)引进了信任函数的概念,对经典概率加以推广,信任函数可以有作概率函数的超集,利用信任函数,人们无需给出具体的概率值,而只需要根据已有的自然语言领域知识就能对事件的概率分布加以约束,D-S证据理论可以将所有证据对结论的支持程度合成。基于D-S理论建立起来的信息查询模型只需要提供单个信息单元与查询间相关度的评估(0-1之间),无须知道这个概率值的确切物理含义及其确定过程。并对其相关性进行合理排序。
D-S证据理论三个重要的函数分别是:基本概率分配函数,信任度函数和似然性函数。
待证明的假设集合记为,又称为识别框。/>的幂集记做/>,它是/>所有子集的集合。D-S证据理论为/>中的每个元素均指派了一个信任函数,记做Bel。基本概率分配函数m是每个新证据对假设支撑程度的函数,m函数满足如下条件:
(11)。
(12)。
(13)。
(14)。
任何有非零m(x)函数值的子集x称为焦点元素。在已知2Θ每个元素x的m函数值前提下,就可以计算每种假设的信任度函数Bel和似然性函数Pl,计算公式如下。
(15)。
(16)。
D-S证据理论为每个可能的命题组合计算的结果是一个区间值[Bel(A),Pl(A)],它的物理意义是:所有提交的证据给出的A为真的概率波动范围,即P(A)是落在这个区间里面的。
在本实施例中,地名自主服务是采用RESTful风格的微服务架构,用户可根据此服务进行二次开发,返回结果为json格式,方便用户的解析。也为用户提高开发效率,节省开发成本,带来巨大的社会效益。具体的技术路线如图3所示。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种地名时空演化查询系统。
本实施例提供了一种地名时空演化查询系统,包括:
数据获取模块,用于获取目标区域的地理实体矢量数据;所述目标区域为待识别区域。
多通名地物图层和原生地物图层确定模块,用于对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层。
地名时空演化结果确定模块,用于基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果。
地名时空演化结果筛选模块,用于基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果;所述地名时空演化结果用于显示地名随时间变化的过程。
本发明在前人研究成果的基础上,开展了一些具有创新意义的工作。其中主要工作和创新点体现在以下三个方面:
(1)提出地名派生关系的界定。地名派生源于两邻近地物地名属性相互关联的一种地理现象。从空间分布特征、空间拓扑特征、地名属性的空间度量关系等方面对派生地物与原生地物间的空间关系特征进行研究分析,从而为下一步量化分析方法提供依据。
(2)提出地名时空派生关系量化分析方法。通过衡量派生地物与原生地物在拓扑关系、邻近关系、地理关联度等约束条件方面的量化方法,从而实现了派生地名知识库中空间关系约束条件的构建。
(3)提出基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型。从语义的角度进行匹配,使用命题之间推理的置信度来评价文档信息内容满足查询需求的程度,即相似度。该模型大量运用了模糊集理论和D-S证据理论等推理方法,通过在查询过程中模拟人的推理和决策过程,使其能够符合人们的查询期望,最后提高查询的精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种地名时空演化查询方法,其特征在于,包括:
获取目标区域的地理实体矢量数据;所述目标区域为待识别区域;
对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层;
基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果;其中,所述地名时空知识库是从地理和历史两个角度,对大量原始地名数据的时空结构特征进行数据处理后得到的知识库;所述地名时空知识库包括实体、关系、实体构成的三元组以及实体、属性、属性值构成的三元组,且利用图数据库存储查询三元组,达到地名时空知识库可视化的目的;派生地物与原生地物的空间约束关系具体包括:派生地物与原生地物具有空间拓扑关系,派生地物与原生地物在空间分布上的地理关联度,派生地物与原生地物的邻近距离;
基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果;所述地名时空演化结果用于显示地名随时间变化的过程;
基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果,具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系;
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,以派生地物与原生地物的邻近距离为搜索半径,将原生地物图层作为待搜索图层,通过位置选择筛选出邻近的原生地物的地名属性信息,并通过近邻分析获取最近的原生地物的地名属性信息;其中,采用点估计的方法对各派生模式下派生地物与原生地物的邻近距离进行估计;
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,将原生地物图层作为标识图层,对多通名地物图层进行标识,获取原生地物的地名属性信息;
根据派生地物与原生地物在空间分布上的地理关联度,对多通名地物图层和原生地物图层进行挖掘,确定每类派生模式下的地理关联度;其中,利用Fp-Growth算法进行频繁派生模式的挖掘,并利用置信度和改进后的正点互信息对派生地物与原生地物的地理关联性进行定量和定性的衡量;
基于原生地物的地名属性信息、以及每类派生模式下的空间拓扑特征关系和地理关联度,结合地名时空知识库,确定多个目标区域的地名时空演化结果;
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系,具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,并记录每类派生模式下多通名地物与原生地物的空间拓扑关系;
按照多通名地物与原生地物的空间拓扑关系对多通名地物数据进行划分,统计每类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数;
基于各类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数,按照将大于设定阈值的频数对应的空间拓扑关系确定为空间拓扑特征关系的原则,确定每类派生模式下的空间拓扑特征关系。
2.一种地名时空演化查询系统,其特征在于,包括:
数据获取模块,用于获取目标区域的地理实体矢量数据;所述目标区域为待识别区域;
多通名地物图层和原生地物图层确定模块,用于对地理实体矢量数据进行预处理,确定多通名地物图层和原生地物图层;
地名时空演化结果确定模块,用于基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果;其中,所述地名时空知识库是从地理和历史两个角度,对大量原始地名数据的时空结构特征进行数据处理后得到的知识库;所述地名时空知识库包括实体、关系、实体构成的三元组以及实体、属性、属性值构成的三元组,且利用图数据库存储查询三元组,达到地名时空知识库可视化的目的;派生地物与原生地物的空间约束关系具体包括:派生地物与原生地物具有空间拓扑关系,派生地物与原生地物在空间分布上的地理关联度,派生地物与原生地物的邻近距离;
地名时空演化结果筛选模块,用于基于模糊集推理和Dempster-Shafer证据理论的地名自然语言理解模型,对确定的多个目标区域的地名时空演化结果进行筛选,得到目标区域最终的地名时空演化结果;所述地名时空演化结果用于显示地名随时间变化的过程;
基于派生地物与原生地物的空间约束关系和地名时空知识库,对多通名地物图层和原生地物图层进行分析挖掘,确定多个目标区域的地名时空演化结果,具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系;
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,以派生地物与原生地物的邻近距离为搜索半径,将原生地物图层作为待搜索图层,通过位置选择筛选出邻近的原生地物的地名属性信息,并通过近邻分析获取最近的原生地物的地名属性信息;其中,采用点估计的方法对各派生模式下派生地物与原生地物的邻近距离进行估计;
当原生地物图层中有与多通名地物图层存在非相离关系的原生地物要素时,将原生地物图层作为标识图层,对多通名地物图层进行标识,获取原生地物的地名属性信息;
根据派生地物与原生地物在空间分布上的地理关联度,对多通名地物图层和原生地物图层进行挖掘,确定每类派生模式下的地理关联度;其中,利用Fp-Growth算法进行频繁派生模式的挖掘,并利用置信度和改进后的正点互信息对派生地物与原生地物的地理关联性进行定量和定性的衡量;
基于原生地物的地名属性信息、以及每类派生模式下的空间拓扑特征关系和地理关联度,结合地名时空知识库,确定多个目标区域的地名时空演化结果;
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,进而确定每类派生模式下的空间拓扑特征关系,具体包括:
采用启发式策略,以原生地物图层为输入图层,以多通名地物图层为搜索图层,按照派生地物与原生地物具有空间拓扑关系的约束条件,从搜索图层中搜索多通名地物数据,并记录每类派生模式下多通名地物与原生地物的空间拓扑关系;
按照多通名地物与原生地物的空间拓扑关系对多通名地物数据进行划分,统计每类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数;
基于各类派生模式下多通名地物与原生地物存在的所有空间拓扑关系的频数,按照将大于设定阈值的频数对应的空间拓扑关系确定为空间拓扑特征关系的原则,确定每类派生模式下的空间拓扑特征关系。
CN202310847447.1A 2023-07-12 2023-07-12 一种地名时空演化查询方法及系统 Active CN116578676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310847447.1A CN116578676B (zh) 2023-07-12 2023-07-12 一种地名时空演化查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310847447.1A CN116578676B (zh) 2023-07-12 2023-07-12 一种地名时空演化查询方法及系统

Publications (2)

Publication Number Publication Date
CN116578676A CN116578676A (zh) 2023-08-11
CN116578676B true CN116578676B (zh) 2023-10-20

Family

ID=87544009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310847447.1A Active CN116578676B (zh) 2023-07-12 2023-07-12 一种地名时空演化查询方法及系统

Country Status (1)

Country Link
CN (1) CN116578676B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法
CN115129719A (zh) * 2022-06-28 2022-09-30 深圳市规划和自然资源数据管理中心 一种基于知识图谱的定性位置空间范围构建方法
CN115952339A (zh) * 2023-03-14 2023-04-11 南京师范大学 基于NGBoost的地理时空知识抽取和图谱表示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564966A (zh) * 2022-03-04 2022-05-31 中国科学院地理科学与资源研究所 一种基于知识图谱的空间关系语义分析的方法
CN115129719A (zh) * 2022-06-28 2022-09-30 深圳市规划和自然资源数据管理中心 一种基于知识图谱的定性位置空间范围构建方法
CN115952339A (zh) * 2023-03-14 2023-04-11 南京师范大学 基于NGBoost的地理时空知识抽取和图谱表示方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
京津冀传统村落地名文化景观时空演化特征及成因分析;张达 等;《西北师范大学学报(自然科学版)》;全文 *
基于TGIS与大数据技术的历史地名综合信息系统构建研究;白江涛 等;《全球变化数据学报(中英文)》;全文 *
基于中文文本的地名要素关联方法;廖建平;《中国硕士论文数据辑》;全文 *
张雪英 ; 闾国年 ; 杜咪 ; 叶鹏 ; .大数据驱动的地名信息获取与应用.现代测绘.2017,(第02期),全文. *

Also Published As

Publication number Publication date
CN116578676A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
Xavier et al. A survey of measures and methods for matching geospatial vector datasets
Yang et al. Generating hierarchical strokes from urban street networks based on spatial pattern recognition
CN112347222B (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
Yu et al. Road network generalization considering traffic flow patterns
US11720606B1 (en) Automated geospatial data analysis
Wang et al. Anomalous trajectory detection and classification based on difference and intersection set distance
Wei et al. On the spatial distribution of buildings for map generalization
CN113434623A (zh) 一种基于多源异构空间规划数据的融合方法
Ying et al. Semantic trajectory-based high utility item recommendation system
Jitkajornwanich et al. A survey on spatial, temporal, and spatio-temporal database research and an original example of relevant applications using SQL ecosystem and deep learning
Zhang et al. An improved probabilistic relaxation method for matching multi-scale road networks
Bermingham et al. Mining place-matching patterns from spatio-temporal trajectories using complex real-world places
Wei et al. Linear building pattern recognition in topographical maps combining convex polygon decomposition
Oshan et al. A scoping review on the multiplicity of scale in spatial analysis
KR20210064862A (ko) 지식 그래프 생성 방법 및 이를 이용한 신재생발전 항목 추천 시스템 및 방법
Sharif et al. CaFIRST: A context-aware hybrid fuzzy inference system for the similarity measure of multivariate trajectories
Nguyen et al. A method for efficient clustering of spatial data in network space
CN116578676B (zh) 一种地名时空演化查询方法及系统
Zhang et al. A graph-based approach for representing addresses in geocoding
Idrees et al. Spatial data mining, spatial data warehousing, and spatial olap
CN111339446B (zh) 一种兴趣点挖掘方法、装置、电子设备和存储介质
CN113343565B (zh) 顾及空间异质性的邻域效应模式构建与ca模拟方法及系统
CN115408618A (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
Santos et al. Geo-spatial data mining in the analysis of a demographic database
Li et al. Spatial Data Science

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant