CN114201480A - 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 - Google Patents
一种基于nlp技术的多源poi融合方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN114201480A CN114201480A CN202111310271.3A CN202111310271A CN114201480A CN 114201480 A CN114201480 A CN 114201480A CN 202111310271 A CN202111310271 A CN 202111310271A CN 114201480 A CN114201480 A CN 114201480A
- Authority
- CN
- China
- Prior art keywords
- poi data
- similarity
- poi
- fusion
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NLP技术的多源POI融合方法、装置及可读存储介质,所述方法包括预处理步骤、融合组确定步骤、数据融合步骤,本发明结合地物分类特点和格网计算法,优化后的范围计算提升了算法的性能、效率和准确率;对于非空间属性相似度的计算对分类相似度进行了优化,而且还考虑了同名不同类别的情况,基于NLP算法进行等级切分、地址规范化,基于地址各级别相似度获取POI之间的地址相似度,基于位置提高融合结果精确率;距离相似度分地物类别计算相似度;进一步地,分类采用NLP技术,优化了算法对于POI数据类别缺失或不明确的清洗,对分类进行预测来填充或修正,并将分类引入到范围搜索计算和相似度计算中。
Description
技术领域
本发明涉及POI数据处理领域,尤其涉及一种基于NLP技术的多源POI融合方法、装置及可读存储介质。
背景技术
随着互联网技术及其应用的发展,现实世界中地理位置服务(Location BasedService,LBS)在人们的生活中重要性急速上升。兴趣点(Point of Interest,POI)作为电子地图中一种重要的地理位置点状表达要素,是LBS行业应用的重要数据来源,POI数据代表了生活中真实地理实体,可为人类生活和决策提供重要依据。POI中含有与该实体相互关联的空间和非空间类型信息,其中空间信息表征了地理实体的位置信息;非空间属性包含对名称、类别体系、文本地址、联系电话和评论信息等的描述。由于地理信息系统(Geographic Information System,GIS)技术的快速发展和电子地图在各行各业中越来越广泛地应用,人们对获取高质量、信息丰富、内容完整的POI数据需求也在提高。
单源POI数据很难全面描述地理真实实体的完整特征,然而,即使存在海量POI资源,多源数据在坐标和分类体系这些空间位置、属性信息等内容结构上,存在一定差异和质量问题,在多源异构数据存在对同一实体有不同表达方式的基础上,目前的在对多源数据进行融合时,不同来源的POI数据在数据格式、坐标参考、属性结构等方面存在差异,会产生不一致性、数据缺失、数据重复、数据质量不高等问题。因此,为了针对POI这种点状地理实体,得到信息量更为丰富、完整的数据,需要研究如何利用技术手段,更高效地对多源异构POI数据实现清理和融合,提高数据的完整性和准确性。
现有技术中(吴张峰,夏兰芳.多源异构POI融合方法及应用[J].测绘通报.2018(3):143-146),提出一种基于加权的多属性相似度的POI融合方法,对于多源POI融合采用空间位置与非空间属性相结合的融合方法,在融合结果的精确率和召回率上优于单独使用空间位置和非空间属性的融合方法。该方法为识别同名POI,将文本名称相似度、空间距离相似度、地址相似度计算判别指标,通过赋予不同的权重来计算。通过设定相似度的阈值,对总体相似度进行划分为已有POI和需要增量融合的新POI数据。该方法首先将经过实测并质检的公开版地图数据做成一个母库;然后将POI数据经过地理编码、坐标统一、名称、地址、分类等属性规范化后与母库进行多因子相似度加权计算,将母库中没有的POI数据融合进去,最终形成内容规整、信息量丰富的POI融合库,该方法的流程如图1所示。针对POI数据融合,基于加权的多属性相似度主要面临的难题是如何确定不同属性的权重和准确衡量相似度因子。由于空间位置相似度与非空间属性相似度的计算方法不同,得到的融合结果也不一样。该现有技术只是简单对各属性计算出相似度因子,比如:1、只考虑名称但没有考虑同名但不同类型POI之间的误判情况;2、地址没有进行切分细化计算相似度;3、没有考虑不同类别地物之间距离的权重影响,不能准确确定距离的权重因子。这些原因均会导致阈值难以判别POI融合相似度,出现不准确的融合结果。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于NLP技术的多源POI融合方法、装置及可读存储介质。
本发明解决其技术问题所采用的技术方案是:
一方面,构造一种基于NLP技术的多源POI融合方法,所述方法包括:
预处理步骤:对不同来源的候选数据库的POI数据的地址、名称、分类进行规范化处理,其中每个地址基于NLP技术被规范为多个等级;
融合组确定步骤:给定一行政区并划分格网,给每条POI数据定义格网位置,依次遍历每一个格网的POI数据,得到融合组的集合;
数据融合步骤:对每一个融合组的所有POI数据进行融合,将融合后得到的POI数据更新到母库中;
其中,融合组确定步骤中,每遍历到一个POI数据时,执行如下操作:将当前遍历到的POI数据作为中心点,查找POI地物的分类-搜索距离关系表,找到该中心点的分类对应的搜索距离,根据找到的搜索距离在其他未被遍历到的数据库中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合,计算集合内的POI数据与该中心点之间在地址、名称、分类、距离四个维度的相似度,根据四个维度的相似度和预先为该四个维度配置的权重,计算集合内的POI数据与该中心点的相似度总评分,将所有相似度总评分超过融合阈值的POI数据编为一个融合组,并将融合组的所有POI数据从其所在的数据库中删除;
其中,融合组确定步骤中,四个维度的相似度的计算具体包括:
名称相似度的计算:对POI数据的名称进行分词,对分词进行向量化,对两个POI数据的分词向量进行余弦相似度计算,得到名称相似度评分;
距离相似度的计算:根据POI数据的类型从所述分类-搜索距离关系表中找到对应的搜索距离,计算两个POI数据的经纬度坐标之间的欧氏距离,基于找到的搜索距离和计算得到的欧式距离进行给分,相同欧式距离下搜索距离越大则分值越大;
地址相似度的计算:采用NLP技术的语义识别和文本相似度计算算法,计算两个POI数据的地址中的各个等级的相似度,根据各个等级的相似度计算整个地址的相似度评分;
分类相似度的计算:比对两个POI数据的分类,如果两个分类所属的最高分类等级的类别不同,则该两个POI数据不允许融合,否则,找到两个分类的共同的最低分类等级,根据找到的最低分类等级进行打分。
优选地,所述融合组确定步骤在依次遍历每一个格网的POI数据时,是先选择母库的POI数据进行遍历,母库的POI数据遍历完毕后,再依次选择候选数据库的POI数据进行遍历。
优选地,所述预处理步骤中的地址的规范化处理是:基于NLP技术的分词技术和特征字典对POI数据进行地址的结构化等级切分,切分为省市县/区、主体门牌、兴趣点信息、其他这4个等级,其中,主体门牌主要由路名、门牌号组成。
优选地,所述预处理步骤中分类的规范化处理是:对于已经有分类的POI数据,将其类型映射到母库中POI数据的分类格式中;对于没有分类的POI数据,基于预设规则对其进行分类映射;对于经过前面处理后还是分类缺失或不明确的POI数据,通过分类模型映射为母库中POI数据的分类格式,所述分类模型是基于母库中预先标注分类的POI数据用作训练样本训练得到。
优选地,所述分类模型具体是:对输入的文本进行分词,使用TF-IDF算法计算各分词的TF-IDF值,选取TF-IDF值大于阈值的分词输入TextCNN模型进行特征提取,将提取后的特征输入softmax函数从而输出分类。
优选地,所述预处理步骤中名称的规范化处理是:对数据库统一进行无效的POI数据的滤除,以及进行名称变体计算。
优选地,所述数据融合步骤包括:对于不含母库的POI数据的融合组,综合融合组内的所有POI数据计算进行属性融合;对于含有母库的POI数据的融合组,以母库的POI数据记载的属性优先,母库的POI数据缺失的属性则由其他候选数据库的POI数据综合计算得到。
二方面,一种基于NLP技术的多源POI融合装置,其特征在于,包括:
预处理模块,用于对不同来源的候选数据库的POI数据的地址、名称、分类进行规范化处理,其中每个地址基于NLP技术被规范为多个等级;
融合组确定模块,用于给定一行政区并划分格网,给每条POI数据定义格网位置,依次遍历每一个格网的POI数据,得到融合组的集合;
数据融合步骤模块,用于对每一个融合组的所有POI数据进行融合,将融合后得到的POI数据更新到母库中;
其中,所述融合组确定模块在每遍历到一个POI数据时,执行如下操作:将当前遍历到的POI数据作为中心点,查找POI地物的分类-搜索距离关系表,找到该中心点的分类对应的搜索距离,根据找到的搜索距离在其他数据库中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合,计算集合内的POI数据与该中心点之间在地址、名称、分类、距离四个维度的相似度,根据四个维度的相似度和预先为该四个维度配置的权重,计算集合内的POI数据与该中心点的相似度总评分,将所有相似度总评分超过融合阈值的POI数据编为一个融合组,并将融合组的所有POI数据从其所在的数据库中删除;
其中,所述融合组确定模块对四个维度的相似度的计算具体包括:
名称相似度的计算:对POI数据的名称进行分词,对分词进行向量化,对两个POI数据的分词向量进行余弦相似度计算,得到名称相似度评分;
距离相似度的计算:根据POI数据的类型从所述分类-搜索距离关系表中找到对应的搜索距离,计算两个POI数据的经纬度坐标之间的欧氏距离,基于找到的搜索距离和计算得到的欧式距离进行给分,相同欧式距离下搜索距离越大则分值越大;
地址相似度的计算:采用NLP技术的语义识别和文本相似度计算算法,计算两个POI数据的地址中的各个等级的相似度,根据各个等级的相似度计算整个地址的相似度评分;
分类相似度的计算:比对两个POI数据的分类,如果两个分类所属的最高分类等级的类别不同,则该两个POI数据不允许融合,否则,找到两个分类的共同的最低分类等级,根据找到的最低分类等级进行打分。
三方面,构造一种基于NLP技术的多源POI融合装置,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法的步骤。
四方面,构造一种可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法的步骤。
本发明的基于NLP技术的多源POI融合方法、装置及可读存储介质,具有以下有益效果:本发明结合地物分类特点和格网计算法,优化后的范围计算提升了算法的性能、效率和准确率;对于非空间属性相似度的计算对分类相似度进行了优化,而且还考虑了同名不同类别的情况,基于NLP算法进行等级切分、地址规范化,基于地址各级别相似度获取POI之间的地址相似度,基于位置提高融合结果精确率;距离相似度分地物类别计算相似度;进一步地,分类采用NLP技术,优化了算法对于POI数据类别缺失或不明确的清洗,对分类进行预测来填充或修正,并将分类引入到范围搜索计算和相似度计算中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1是现有技术的POI融合过程示意图;
图2是本发明基于NLP技术的多源POI融合方法流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
参考图2,本发明实施例的基于NLP技术的多源POI融合方法,包括:
S101、预处理步骤:对不同来源的候选数据库的POI数据的地址、名称、分类进行规范化处理;
a1)名称的规范化:
名称是识别一个POI实体的关键,规范化的名称要保证名称有效,名称无多余字符,名称能反映POI特征。具体的,名称的规范化处理是:对数据库统一进行无效的POI数据的滤除,以及进行名称变体计算。比如说,不包含地址和经纬度坐标的数据可以通过一些预先设定的规则过滤掉。名称变体计算包括但不限于英文大小写转换、括号的转换、字符的转换处理、繁体简体的转换等。
a2)地址的规范化:
本实施例中,是基于NLP技术的分词技术和特征字典对POI数据进行地址的结构化等级切分,切分为省市县/区、主体门牌、兴趣点信息、其他这4个等级,其中,主体门牌主要由路名、门牌号组成。
a3)分类的规范化:
本实施例中,类型的规范化有三种:
首先,对于已经有分类的POI数据,将其类型映射到母库中POI数据的分类格式中。比如说,虽然候选数据库中的POI数据有分类,但是其分类格式或许与母库不一致,因此需要统一转换到母库的分类格式。
其次,对于没有分类的POI数据,基于预设规则对其进行分类映射。比如说,如根据POI数据的名称的一些显著特征,直接映射到指定的分类,例如名称是湘菜馆,可以直接映射到湘菜的分类中。
最后,对于经过前面两种处理后还是分类缺失或不明确的POI数据,通过分类模型映射为母库中POI数据的分类格式,所述分类模型是基于母库中预先标注分类的POI数据用作训练样本训练得到。
其中,所述分类模型具体是:对输入的文本进行分词,使用TF-IDF算法计算各分词的TF-IDF值,选取TF-IDF值大于阈值的分词输入TextCNN模型进行特征提取,将提取后的特征输入softmax函数从而输出分类。
具体的,TF-IDF算法的主要公式是:
计算词频-逆文档频率TF-IDF:TF-IDF=TF*IDF;
本实施例中,选取TF-IDF值大于阈值的词条来构建文本特征。本发明通过统计POI数据集中词条的TF-IDF分布情况,来选取合适的TF-IDF阈值为0.6。
比如,对全国各个来源的候选数据库,按照上面的四个维度的规范化处理,如某客户POI,名称为博兴大厦,地址是“深圳市罗湖区清水河街道清水河社区清水河一路52号”,按照NLP技术支持下的地址分词方案切分后为“深圳市罗湖区清水河街道清水河社区/清水河一路/52号”。类型统一映射到商用大厦。
S102、融合组确定步骤:
本实施例中,本步骤具体是:给定一行政区并划分格网,比如以0.05°左右划分格网,给每条POI数据定义格网位置,依次遍历每一个格网的POI数据,得到融合组的集合。本实施例中,是先选择母库的POI数据进行遍历,母库的POI数据全部遍历完毕后,再依次选择候选数据库的POI数据进行遍历。
具体的,在每遍历到一个POI数据时,主要是执行如下操作b1)至b5):
b1)将当前遍历到的POI数据作为中心点,查找POI地物的分类-搜索距离关系表,找到该中心点的分类对应的搜索距离。
其中,分类-搜索距离关系表记载了不同分类对应的搜索距离,即本发明中搜索距离是随着中心点的分类调整的,不是固定的,搜索距离一般是50-300m内调整,特别大型POI地物可以是调整到1000m。
b2)根据找到的搜索距离在其他未被遍历到的数据库中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合。
这里,在其他未被遍历到的数据库中进行搜索是指的与中心点所在的数据库不同且没有被遍历的数据库。比如假设有母库M0,候选数据库M1、M2,现在是遍历的母库的点,即中心点是母库的数据,则搜索其他数据库就是搜索M1、M2。假设M0遍历完毕了,再遍历M1,则当选择M1中点作为中心点时,搜索其他数据库就是搜索M2,M0已经被遍历过了不用在搜索了。同理,假设有母库M0,候选数据库M1、M2、M3,则先遍历M0,遍历M0时是搜索M1、M2、M3;M0遍历完了,再遍历M1,遍历M1时是搜索M2、M3;M1遍历完了,再遍历M2,遍历M2时是搜索M3。更多个候选数据库时,依次类推。
b3)计算集合内的POI数据与该中心点之间在地址、名称、分类、距离四个维度的相似度。
该四个维度的相似度的计算具体如下:
b3-1)名称相似度的计算:
通过ICTCLAS系统或者结巴分词对POI数据的名称进行分词,例如原始文本“深圳凯立德科技有限公司”,分词后文本“深圳\凯\立德\科技\有限\公司”。然后构建词袋模型对分词进行向量化,结合余弦相似度算法对两个POI数据的分词向量进行余弦相似度计算,计算得到名称相似度评分,余弦相似度算法的计算公式是这里,Pm0和Pm1代表当前在进行相似度计算的两个POI数据的分词向量,nameSim代表计算得到的名称相似度评分。
b3-2)距离相似度的计算:
距离相似度的计算:根据POI数据的类型从所述分类-搜索距离关系表中找到对应的搜索距离,计算两个POI数据的经纬度坐标之间的欧氏距离,基于找到的搜索距离和计算得到的欧式距离进行给分,相同欧式距离下搜索距离越大则分值越大;
比如两点Pm0和Pm1的欧氏距离是:Pm0和Pm1的类型是医院,则可以从分类-搜索距离关系表中找到医院的搜索距离是SD,distPm0Pm1比上SD进行归一化,Pm0和Pm1的距离相似度distSim则可以是用距离相似度的满分减去满分与归一化值的乘积,比如得分是:距离相似度的满分*(1-distPm0Pm1/SD)。
b3-3)地址相似度的计算:
采用NLP技术的语义识别和文本相似度计算算法,计算两个POI数据的地址中的各个等级的相似度,根据各个等级的相似度计算整个地址的相似度评分,比如可以将各个等级的相似度进行加权平均,每个等级的权重可以根据专家打分取得。
b3-4)分类相似度的计算:
比对两个POI数据的分类,如果两个分类所属的最高分类等级的类别不同,则该两个POI数据不允许融合,否则,找到两个分类的共同的最低分类等级,根据找到的最低分类等级进行打分,一般找到的最低分类等级越高分数越低,也可以分区段,比如某几个分类等级是一样的分数。比如说,假设划分了四个分类等级1-4,如果找到两个分类的共同的最低分类等级是4级,则打1分;找到的最低分类等级是3级,则打1分;找到的最低分类等级是2级,则打0.8分;找到的最低分类等级1级,则打0.6分;如果没有分类,则打0分。
比如,我们预先建立了一个三等级分类体系表,假设如下表1:
表1
假设目前有两个POI数据的分类结果分别是川菜、粤菜,则找到共同的最低分类等级是二级的中餐,因此可以打0.8分。假设目前有两个POI数据的分类结果分别是川菜、如家酒店,则他们所属的最高分类等级的类别分别是餐饮、住宿,是不同的,所以这两个POI数据不允许融合。
b4)根据四个维度的相似度和预先为该四个维度配置的权重,计算集合内的POI数据与该中心点的相似度总评分。
比如,按以下计算式(1)进行加权平均分计算:
G=nameSim*nameW+addrSim*addrW+distSim*distW+sortSim*sortW (1);
上式中,相似度总评分为G,nameW、distW、sddrW、sortW分别表示名称、距离、地址、分类的权重,权重是通过专家打分法取得。nameSim、distSim、sddrSim、sortSim分别表示在经过上面的步骤b3-1至步骤b3-4后得到的名称、距离、地址、分类的相似度评分。
可以理解的是,如果在上面步骤b3-4进行分类打分时,发现两个POI数据不允许融合,则可以不用在执行本步骤b3-5给他们打分了,即不用计算G了,或者也可以是在步骤b3-4时直接给分类相似度打一个非常大的负分,对此并不限制。
b5)将所有相似度总评分超过融合阈值的POI数据编为一个融合组,并将融合组的所有POI数据从其所在的数据库中删除。
下面一个母库M0,两个候选数据库M1和M2为例说明。我们以一个格网为例,单个格网的遍历是:
1)先遍历到属于该格网的来自目标母库M0的一个POI点,暂且记为pm0;
2)根据点pm0的分类,查找POI地物的分类-搜索距离关系表,找到点pm0对应的搜索距离;
3)根据找到的搜索距离在其他数据库M1、M2中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合,记为集合A;
比如,某POI,名称:深圳博兴大厦。母库POI,名称:博兴大厦。类型统一映射到商用大厦。按照分类距离搜索,例如:大厦按照200m在母库POI周围进行搜索。
4)找到集合A后,假设集合A是pm1、pm2,再根据四个维度的相似度计算,计算得到pm0和pm1的相似度总评分Gm01,计算得到pm0和pm2的相似度总评分Gm02;
如果Gm01超过融合阈值、Gm02没有超过融合阈值,则pm0、pm1组成一个融合组,将pm0、pm1从数据库M0、M1中删除。同理,如果Gm02超过融合阈值、Gm01没有超过融合阈值,则pm0、pm2组成一个融合组,将pm0、pm2从数据库M0、M2中删除。同理,如果Gm01、Gm02都超过融合阈值,则pm0、pm1、pm2组成一个融合组,将pm0、pm1、pm2从数据库M0、M1、M2中删除。
5)再遍历属于该格网的来自目标母库M0的下一个POI点,暂且记为pm0,同样执行上面的步骤2)-4),以此类推,直至M0中的点全部遍历完毕;
6)M0的遍历完毕之后,假设M1、M2剩下的数据是集合M1_last、M2_last,则继续遍历集合M1_last,以M1_last数据开始,确定一POI点pm1,按范围搜索M2_last数据,得到集合A,再计算评分G,参考上面的步骤。最终也会找到大量的融合组,只不过此时找到的融合组不包括M0的数据,只有M1、M2的数据。
S103、数据融合步骤:对每一个融合组的所有POI数据进行融合,将融合后得到的POI数据更新到母库中;
具体的,对于不含母库的POI数据的融合组,综合融合组内的所有POI数据计算进行属性融合;对于含有母库的POI数据的融合组,以母库的POI数据记载的属性优先,母库的POI数据缺失的属性则由其他候选数据库的POI数据综合计算得到。
本实施例的有益效果是:结合地物分类特点和格网计算法,优化后的范围计算提升了算法的性能、效率和准确率;对于非空间属性相似度的计算对分类相似度进行了优化,而且还考虑了同名不同类别的情况,基于NLP算法进行等级切分、地址规范化,基于地址各级别相似度获取POI之间的地址相似度,基于位置提高融合结果精确率;距离相似度分地物类别计算相似度;进一步地,分类采用NLP技术,优化了算法对于POI数据类别缺失或不明确的清洗,对分类进行预测来填充或修正,并将分类引入到范围搜索计算和相似度计算中。
实施例二
本实施例公开了一种基于NLP技术的多源POI融合装置,包括:
预处理模块,用于对不同来源的候选数据库的POI数据的地址、名称、分类进行规范化处理,其中每个地址基于NLP技术被规范为多个等级;
融合组确定模块,用于给定一行政区并划分格网,给每条POI数据定义格网位置,依次遍历每一个格网的POI数据,得到融合组的集合;其中,每遍历到一个POI数据时,将当前遍历到的POI数据作为中心点,查找POI地物的分类-搜索距离关系表,找到该中心点的分类对应的搜索距离,根据找到的搜索距离在其他未被遍历到的数据库中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合,计算集合内的POI数据与该中心点之间在地址、名称、分类、距离四个维度的相似度,根据四个维度的相似度和预先为该四个维度配置的权重,计算集合内的POI数据与该中心点的相似度总评分,将所有相似度总评分超过融合阈值的POI数据编为一个融合组,并将融合组的所有POI数据从其所在的数据库中删除;
数据融合步骤模块,用于对每一个融合组的所有POI数据进行融合,将融合后得到的POI数据更新到母库中;
其中,所述融合组确定模块中的四个维度的相似度的计算具体包括:
名称相似度的计算:对POI数据的名称进行分词,对分词进行向量化,对两个POI数据的分词向量进行余弦相似度计算,得到名称相似度评分;
距离相似度的计算:根据POI数据的类型从所述分类-搜索距离关系表中找到对应的搜索距离,计算两个POI数据的经纬度坐标之间的欧氏距离,基于找到的搜索距离和计算得到的欧式距离进行给分,相同欧式距离下搜索距离越大则分值越大;
地址相似度的计算:采用NLP技术的语义识别和文本相似度计算算法,计算两个POI数据的地址中的各个等级的相似度,根据各个等级的相似度计算整个地址的相似度评分;
分类相似度的计算:比对两个POI数据的分类,如果两个分类所属的最高分类等级的类别不同,则该两个POI数据不允许融合,否则,找到两个分类的共同的最低分类等级,根据找到的最低分类等级进行打分。
本实施例是与方法实施例一对应的装置实施例,各个模块的具体实现过程可参阅上述方法实施例的描述,此处不再赘述。
实施例三
本实施例公开了一种基于NLP技术的多源POI融合装置,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤,具体实现过程可参阅上述方法实施例的描述,此处不再赘述。
实施例四
本实施例公开了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述的方法的步骤,具体实现过程可参阅上述方法实施例的描述,此处不再赘述。
上述描述涉及各种模块。这些模块通常包括硬件和/或硬件与软件的组合(例如固化软件)。这些模块还可以包括包含指令(例如,软件指令)的计算机可读介质(例如,永久性介质),当处理器执行这些指令时,就可以执行本发明的各种功能性特点。相应地,除非明确要求,本发明的范围不受实施例中明确提到的模块中的特定硬件和/或软件特性的限制。作为非限制性例子,本发明在实施例中可以由一种或多种处理器(例如微处理器、数字信号处理器、基带处理器、微控制器)执行软件指令(例如存储在非永久性存储器和/或永久性存储器)。需要指出的是,上文对各种模块的描述中,分割成这些模块,是为了说明清楚。然而,在实际实施中,各种模块的界限可以是模糊的。例如,本文中的任意或所有功能性模块可以共享各种硬件和/或软件元件。又例如,本文中的任何和/或所有功能模块可以由共有的处理器执行软件指令来全部或部分实施。另外,由一个或多个处理器执行的各种软件子模块可以在各种软件模块间共享。相应地,除非明确要求,本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于NLP技术的多源POI融合方法,其特征在于,所述方法包括:
预处理步骤:对不同来源的候选数据库的POI数据的地址、名称、分类进行规范化处理,其中每个地址基于NLP技术被规范为多个等级;
融合组确定步骤:给定一行政区并划分格网,给每条POI数据定义格网位置,依次遍历每一个格网的POI数据,得到融合组的集合;
数据融合步骤:对每一个融合组的所有POI数据进行融合,将融合后得到的POI数据更新到母库中;
其中,融合组确定步骤中,每遍历到一个POI数据时,执行如下操作:将当前遍历到的POI数据作为中心点,查找POI地物的分类-搜索距离关系表,找到该中心点的分类对应的搜索距离,根据找到的搜索距离在其他数据库中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合,计算集合内的POI数据与该中心点之间在地址、名称、分类、距离四个维度的相似度,根据四个维度的相似度和预先为该四个维度配置的权重,计算集合内的POI数据与该中心点的相似度总评分,将所有相似度总评分超过融合阈值的POI数据编为一个融合组,并将融合组的所有POI数据从其所在的数据库中删除;
其中,融合组确定步骤中,四个维度的相似度的计算具体包括:
名称相似度的计算:对POI数据的名称进行分词,对分词进行向量化,对两个POI数据的分词向量进行余弦相似度计算,得到名称相似度评分;
距离相似度的计算:根据POI数据的类型从所述分类-搜索距离关系表中找到对应的搜索距离,计算两个POI数据的经纬度坐标之间的欧氏距离,基于找到的搜索距离和计算得到的欧式距离进行给分,相同欧式距离下搜索距离越大则分值越大;
地址相似度的计算:采用NLP技术的语义识别和文本相似度计算算法,计算两个POI数据的地址中的各个等级的相似度,根据各个等级的相似度计算整个地址的相似度评分;
分类相似度的计算:比对两个POI数据的分类,如果两个分类所属的最高分类等级的类别不同,则该两个POI数据不允许融合,否则,找到两个分类的共同的最低分类等级,根据找到的最低分类等级进行打分。
2.根据权利要求1所述的基于NLP技术的多源POI融合方法,其特征在于,所述融合组确定步骤在依次遍历每一个格网的POI数据时,是先选择母库的POI数据进行遍历,母库的POI数据遍历完毕后,再依次选择候选数据库的POI数据进行遍历。
3.根据权利要求1所述的基于NLP技术的多源POI融合方法,其特征在于,所述预处理步骤中的地址的规范化处理是:基于NLP技术的分词技术和特征字典对POI数据进行地址的结构化等级切分,切分为省市县/区、主体门牌、兴趣点信息、其他这4个等级,其中,主体门牌主要由路名、门牌号组成。
4.根据权利要求1所述的基于NLP技术的多源POI融合方法,其特征在于,所述预处理步骤中分类的规范化处理是:对于已经有分类的POI数据,将其类型映射到母库中POI数据的分类格式中;对于没有分类的POI数据,基于预设规则对其进行分类映射;对于经过前面处理后还是分类缺失或不明确的POI数据,通过分类模型映射为母库中POI数据的分类格式,所述分类模型是基于母库中预先标注分类的POI数据用作训练样本训练得到。
5.根据权利要求4所述的基于NLP技术的多源POI融合方法,其特征在于,所述分类模型具体是:对输入的文本进行分词,使用TF-IDF算法计算各分词的TF-IDF值,选取TF-IDF值大于阈值的分词输入TextCNN模型进行特征提取,将提取后的特征输入softmax函数从而输出分类。
6.根据权利要求1所述的基于NLP技术的多源POI融合方法,其特征在于,所述预处理步骤中名称的规范化处理是:对数据库统一进行无效的POI数据的滤除,以及进行名称变体计算。
7.根据权利要求1所述的基于NLP技术的多源POI融合方法,其特征在于,所述数据融合步骤包括:对于不含母库的POI数据的融合组,综合融合组内的所有POI数据计算进行属性融合;对于含有母库的POI数据的融合组,以母库的POI数据记载的属性优先,母库的POI数据缺失的属性则由其他候选数据库的POI数据综合计算得到。
8.一种基于NLP技术的多源POI融合装置,其特征在于,包括:
预处理模块,用于对不同来源的候选数据库的POI数据的地址、名称、分类进行规范化处理,其中每个地址基于NLP技术被规范为多个等级;
融合组确定模块,用于给定一行政区并划分格网,给每条POI数据定义格网位置,依次遍历每一个格网的POI数据,得到融合组的集合;
数据融合步骤模块,用于对每一个融合组的所有POI数据进行融合,将融合后得到的POI数据更新到母库中;
其中,所述融合组确定模块在每遍历到一个POI数据时,执行如下操作:将当前遍历到的POI数据作为中心点,查找POI地物的分类-搜索距离关系表,找到该中心点的分类对应的搜索距离,根据找到的搜索距离在其他数据库中进行搜索,找到与该中心点的距离小于阈值的POI数据的集合,计算集合内的POI数据与该中心点之间在地址、名称、分类、距离四个维度的相似度,根据四个维度的相似度和预先为该四个维度配置的权重,计算集合内的POI数据与该中心点的相似度总评分,将所有相似度总评分超过融合阈值的POI数据编为一个融合组,并将融合组的所有POI数据从其所在的数据库中删除;
其中,所述融合组确定模块对四个维度的相似度的计算具体包括:
名称相似度的计算:对POI数据的名称进行分词,对分词进行向量化,对两个POI数据的分词向量进行余弦相似度计算,得到名称相似度评分;
距离相似度的计算:根据POI数据的类型从所述分类-搜索距离关系表中找到对应的搜索距离,计算两个POI数据的经纬度坐标之间的欧氏距离,基于找到的搜索距离和计算得到的欧式距离进行给分,相同欧式距离下搜索距离越大则分值越大;
地址相似度的计算:采用NLP技术的语义识别和文本相似度计算算法,计算两个POI数据的地址中的各个等级的相似度,根据各个等级的相似度计算整个地址的相似度评分;
分类相似度的计算:比对两个POI数据的分类,如果两个分类所属的最高分类等级的类别不同,则该两个POI数据不允许融合,否则,找到两个分类的共同的最低分类等级,根据找到的最低分类等级进行打分。
9.一种基于NLP技术的多源POI融合装置,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。
10.一种可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310271.3A CN114201480A (zh) | 2021-11-04 | 2021-11-04 | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310271.3A CN114201480A (zh) | 2021-11-04 | 2021-11-04 | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114201480A true CN114201480A (zh) | 2022-03-18 |
Family
ID=80647014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111310271.3A Pending CN114201480A (zh) | 2021-11-04 | 2021-11-04 | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201480A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911787A (zh) * | 2022-05-31 | 2022-08-16 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
CN115374880A (zh) * | 2022-10-10 | 2022-11-22 | 北京邮电大学 | 一种面向海上目标识别的多级增量数据融合系统 |
-
2021
- 2021-11-04 CN CN202111310271.3A patent/CN114201480A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911787A (zh) * | 2022-05-31 | 2022-08-16 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
CN114911787B (zh) * | 2022-05-31 | 2023-10-27 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
CN115374880A (zh) * | 2022-10-10 | 2022-11-22 | 北京邮电大学 | 一种面向海上目标识别的多级增量数据融合系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363698B (zh) | 兴趣点关系识别方法及装置 | |
CN109145171B (zh) | 一种多尺度地图数据更新方法 | |
CN108388559B (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
CN113434623B (zh) | 一种基于多源异构空间规划数据的融合方法 | |
CN104346438B (zh) | 基于大数据数据管理服务系统 | |
CN109033314B (zh) | 内存受限情况下的大规模知识图谱的实时查询方法和系统 | |
CN109635068A (zh) | 云计算环境下的海量遥感数据高效组织及快速检索方法 | |
US20070226187A1 (en) | Context hierarchies for address searching | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN109582799A (zh) | 知识样本数据集的确定方法、装置及电子设备 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN110263117B (zh) | 一种用于确定兴趣点poi数据的方法与装置 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
Chen et al. | Georeferencing places from collective human descriptions using place graphs | |
CN110059177A (zh) | 一种基于用户画像的活动推荐方法及装置 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN111522892A (zh) | 地理要素的检索方法及装置 | |
CN111291099B (zh) | 一种地址模糊匹配方法、系统及计算机设备 | |
CN114168705B (zh) | 一种基于地址要素索引的中文地址匹配方法 | |
CN115129719A (zh) | 一种基于知识图谱的定性位置空间范围构建方法 | |
Zhang et al. | W-TextCNN: A TextCNN model with weighted word embeddings for Chinese address pattern classification | |
CN111026787A (zh) | 网点检索方法、装置及系统 | |
CN113392147B (zh) | 一种vr场景知识图谱表示及动态更新方法 | |
CN112445976A (zh) | 一种基于拥堵指数图谱的城市地址定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |