CN107368480A - 一种兴趣点数据错误类型定位、重复识别方法及装置 - Google Patents
一种兴趣点数据错误类型定位、重复识别方法及装置 Download PDFInfo
- Publication number
- CN107368480A CN107368480A CN201610309083.1A CN201610309083A CN107368480A CN 107368480 A CN107368480 A CN 107368480A CN 201610309083 A CN201610309083 A CN 201610309083A CN 107368480 A CN107368480 A CN 107368480A
- Authority
- CN
- China
- Prior art keywords
- poi
- data
- field
- address field
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种兴趣点数据错误类型定位方法,根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成基础字段的各分词所在的层数;POI数据对包括用户输入的POI数据和与用户输入的POI数据对应的POI原始数据;基础字段包括至少一个子字段;根据组成所述子字段的各分词所在的层数,计算POI数据对的子字段之间的相似度值;根据设置的子字段不同错误类型所对应的错误阈值,判定POI数据对的子字段之间的相似度值属于所述错误阈值时,定位POI原始数据的子字段的错误类型。同时,本发明还公开了一种兴趣点数据错误类型定位装置以及一种兴趣点数据重复识别方法及装置。
Description
技术领域
本发明涉及数据质量控制领域,尤其涉及一种兴趣点数据错误类型定位、重复识别方法及装置。
背景技术
兴趣点(Point Of Interest,POI)在地理信息系统中泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、加油站等。POI的主要用途是通过对事物或事件的地址进行描述,增强对事物或事件位置的描述能力和查询能力,从而提高地理定位的精度和速度。为了给用户提供满足其个性化服务需求的产品,POI数据供应商如百度地图、大众点评等都会建立自己的POI数据库,POI数据库中存储有海量的POI数据,而每条POI数据包含有POI各方面的信息,例如名称、地址、类型等。其中,POI数据的准确性直接影响着用户的使用体验。然而,随着城市建设的快速扩张以及移动互联网的飞速发展,一些POI数据可能存在错误,比如POI数据中的信息不完整或POI数据中的信息已过时等,导致用户无法正确使用这些POI数据。因此,POI数据供应商需要对POI原始数据的正确性进行判断并实时更新POI原始数据。
现有技术中,POI数据供应商对POI原始数据的正确性进行判断的过程如下:获取用户输入的POI数据,并将其与已有的POI原始数据建立一一对应关系;通过编辑距离算法计算由用户输入的POI数据和POI原始数据组成的POI数据对的字符串之间的相似度,并依据该相似度以及设置的阈值对POI原始数据是否正确进行判定;最后,质检员根据个人经验对判定为错误的POI原始数据进行错误类型分类,从而监控POI数据质量。然而,人工操作不仅复杂度高、效率低,而且分类的精确度易受到个人主观因素影响。可见,现有技术方案无法准确定位POI数据错误类型。
此外,POI数据供应商在处理POI数据重复问题时,通常都是采用现有的相似度计算算法分别计算POI数据对的名称字段之间和地址字段之间的相似度值,并将上述相似度值进行线性组合;然后,通过比对依据人工经验所设置的疑似重复POI数据的判定阈值,筛选出疑似重复POI数据;最后,采用人工方式从所述疑似重复POI数据中抽取样本,确认真正的重复POI数据。然而,采用现有的相似度计算算法进行POI数据重复的判定时对POI各字段信息的完整性要求高,而POI数据重复往往是由于POI各字段信息不完整造成的,所以,采用现有技术方案判定POI数据是否重复的精确度不高。
发明内容
有鉴于此,本发明实施例期望提供一种兴趣点数据错误类型定位、重复识别方法及装置,能够准确定位POI数据错误类型以及对POI数据是否重复进行准确判定。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种兴趣点数据错误类型定位方法,所述方法包括:
根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述基础字段包括至少一个子字段;
根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
上述方案中,所述计算所述POI数据对的子字段之间的相似度值,包括:
其中,A表示所述POI原始数据的子字段,B表示所述POI数据的子字段,Dist(A,B)表示A与B之间的语义距离,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,SWordNet(A,B)表示A与B之间的相似度值。
上述方案中,当所述基础字段包括地址字段时,所述计算所述POI数据对的子字段之间的相似度值,包括:
计算所述POI原始数据与POI数据的地址字段中行政区划信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中街道信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中描述性信息之间的相似度值。
上述方案中,所述定位所述POI原始数据的子字段的错误类型,包括:
当所述POI原始数据与POI数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,判定所述POI原始数据的地址字段中行政区划信息错误;
当所述POI原始数据与POI数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,判定所述POI原始数据的地址字段中描述性信息错误;
当所述POI原始数据与POI数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,判定所述POI原始数据的地址字段中街道信息疑似错误;
当所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误。
上述方案中,当所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息被判定为疑似错误时,所述方法还包括:
获取所述POI原始数据与POI数据的地址字段中街道所在位置的坐标信息;根据所述街道所在位置的坐标信息,计算所述POI原始数据与POI数据的地址字段中街道之间的距离值;当所述POI原始数据与POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中街道信息错误;
和/或,
获取所述POI原始数据与POI数据的地址字段中大厦楼宇所在位置的坐标信息;根据所述大厦楼宇所在位置的坐标信息,计算所述POI原始数据与POI数据的地址字段中大厦楼宇之间的距离值;当所述POI原始数据与POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中大厦楼宇信息错误。
本发明还提供了一种兴趣点数据错误类型定位装置,所述装置包括:第一分词单元、第一计算单元、定位单元;其中,
所述第一分词单元,用于根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述POI基础字段包括至少一个子字段;
所述第一计算单元,用于根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
所述定位单元,用于根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
上述方案中,当所述基础字段包括地址字段时,所述第一计算单元具体用于计算所述POI数据对的子字段之间的相似度值,包括:
计算所述POI原始数据与所述POI数据的地址字段中行政区划信息之间的相似度值;
计算所述POI原始数据与所述POI数据的地址字段中街道信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值;
计算所述POI原始数据与所述POI数据的地址字段中描述性信息之间的相似度值。
上述方案中,所述定位单元具体用于定位所述POI原始数据的子字段的错误类型,包括:
当所述POI原始数据与所述POI数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,判定所述POI原始数据的地址字段中行政区划信息错误;
当所述POI原始数据与所述POI数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,判定所述POI原始数据的地址字段中描述性信息错误;
当所述POI原始数据与所述POI数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,判定所述POI原始数据的地址字段中街道信息疑似错误;
当所述POI原始数据与所述POI数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误。
上述方案中,所述装置还包括:第一获取单元,用于当所述定位单元判定所述POI原始数据的地址字段中街道信息疑似错误时,获取所述POI原始数据与所述POI数据的地址字段中街道所在位置的坐标信息;和/或,当所述定位单元判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误时,获取所述POI原始数据与所述POI数据的地址字段中大厦楼宇所在位置的坐标信息;
所述第一计算单元,还用于根据所述街道所在位置的坐标信息,计算所述POI原始数据与所述POI数据的地址字段中街道之间的距离值;和/或,根据所述大厦楼宇所在位置的坐标信息,计算所述POI原始数据与所述POI数据的地址字段中大厦楼宇之间的距离值;
所述定位单元,还用于当所述POI原始数据与所述POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中街道信息错误;和/或,当所述POI原始数据与所述POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中大厦楼宇信息错误。
本发明提供了一种兴趣点数据重复识别方法,所述方法包括:
根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;
根据组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据。
上述方案中,当所述基础字段包括名称字段和地址字段时,所述根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据,包括:
当所述POI数据对的名称字段之间的相似度值等于所述设定阈值中的第二临界值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值且地址字段之间的相似度值大于等于所述设定阈值中的第二阈值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值、地址字段之间的相似度值大于等于所述设定阈值中的第三阈值且小于所述第二阈值时,判定所述POI数据对为疑似重复数据。
上述方案中,所述判定所述POI数据对为疑似重复数据后,所述方法还包括:
获取所述POI数据对的地址字段中街道所在位置的坐标信息;根据所述POI数据对的地址字段中街道所在位置的坐标信息,计算所述POI数据对的地址字段中街道之间的距离值;当所述POI数据对的地址字段中街道之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据;
和/或,
获取所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息;根据所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息,计算所述POI数据对的地址字段中大厦楼宇之间的距离值;当所述POI数据对的地址字段中大厦楼宇之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据。
上述方案中,所述计算所述POI数据对的子字段之间的相似度值,包括:
其中,A和B分别表示所述POI数据对中两组POI原始数据的子字段,Dist(A,B)表示A与B之间的语义距离,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,SWordNet(A,B)表示A与B之间的相似度值。
本发明还提供了一种兴趣点数据重复识别装置,所述装置包括:第二分词单元、第二计算单元、识别单元;其中,
所述第二分词单元,用于根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;
所述第二计算单元,用于根据组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
所述识别单元,用于根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据。
上述方案中,当所述基础字段包括名称字段和地址字段时,所述识别单元具体用于:
当所述POI数据对的名称字段之间的相似度值等于所述设定阈值中的第二临界值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值且地址字段之间的相似度值大于等于所述设定阈值中的第二阈值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值、地址字段之间的相似度值大于等于所述设定阈值中的第三阈值且小于所述第二阈值时,判定所述POI数据对为疑似重复数据。
上述方案中,所述装置还包括:第二获取单元,用于当所述识别单元判定所述POI数据对为疑似重复数据后,获取所述POI数据对的地址字段中街道所在位置和/或大厦楼宇所在位置的坐标信息;
所述第二计算单元,还用于根据所述POI数据对的地址字段中街道所在位置的坐标信息,计算所述POI数据对的地址字段中街道之间的距离值;和/或,根据所述大厦楼宇所在位置的坐标信息,计算所述POI数据对的地址字段中大厦楼宇之间的距离值;
所述识别单元,还用于当所述POI数据对的地址字段中街道之间和/或大厦楼宇之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据。
本发明实施例提供的兴趣点数据错误类型定位方法及装置,根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述POI基础字段包括至少一个子字段;根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型,如此,既能够展现POI数据的多维空间属性,又能够精确定位POI原始数据的错误类型;此外,操作简便易学,所需的人工操作行为少,运营维护成本低。
本发明实施例提供的兴趣点数据重复识别方法及装置,根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;根据组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据,如此,能够精确识别POI重复数据,并降低人工判定POI数据重复的工作量与复杂度。
附图说明
图1为本发明实施例兴趣点数据错误类型定位方法的实现流程示意图;
图2为本发明实施例一兴趣点数据错误类型定位方法的具体处理流程示意图;
图3为本发明实施例二兴趣点数据错误类型定位方法的具体处理流程示意图;
图4为本发明实施例兴趣点数据错误类型定位装置的组成结构示意图;
图5为本发明实施例兴趣点数据重复识别方法的实现流程示意图;
图6为本发明实施例兴趣点数据重复识别装置的组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明实施例一种兴趣点数据错误类型定位方法的实现流程示意图,如图1所示,包括:
步骤101:根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;
这里,所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述POI基础字段包括至少一个子字段;所述子字段可以是名称字段、地址字段、电话字段中的一个或多个。
这里,所述POI基础字段的分层参数可以是根据电子地图行业分类标准以及实际需求而设置的;当POI基础字段包含有不同子字段时,需要根据子字段的类型设置子字段所对应的分层参数,并依据所述子字段所对应的分层参数对POI数据对的子字段进行分词处理,从而获取组成所述子字段的各分词所在的层数。
当所述POI基础字段包括POI名称字段时,根据POI名称字段的一般组成部分,通常可将POI名称字段的分层参数划分为四层,分别为城市名称、数据所在类型、兴趣点名称、连锁店名称,此四层分层参数可完全反映出POI名称字段的属性特征。其中,所述数据所在类型是指POI名称在国民经济行业分类标准中所属的行业类别。此外,为进一步详细描述POI名称字段,还可对上述POI名称字段的四层分层参数进行拓展。根据设置的所述POI名称字段的分层参数,可对用户输入的POI数据的名称字段和POI原始数据的名称字段分别进行分词处理,从而获取组成所述用户输入的POI数据的名称字段的各分词所在的层数以及组成所述POI原始数据的名称字段的各分词所在的层数。
当所述POI基础字段包括POI地址字段时,根据POI地址字段的一般组成部分,通常可将POI地址字段的分层参数划分为四层,分别为行政区划信息、街道信息、大厦楼宇信息、描述性信息,此四层分层参数可完全反映出地址字段的属性特征。其中,所述描述性信息是指POI地址字段中没有包含在所述行政区划信息、街道信息、大厦楼宇信息中的信息,即无法用所述行政区划信息、街道信息、大厦楼宇信息进行描述的信息。此外,为进一步详细描述POI地址字段,也还可对上述POI地址字段的四层分层参数进行拓展。根据设置的所述POI地址字段的分层参数,可对用户输入的POI数据的地址字段和POI原始数据的地址字段分别进行分词处理,从而获取组成所述用户输入的POI数据的地址字段的各分词所在的层数以及组成所述POI原始数据的地址字段的各分词所在的层数。
步骤102:根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
具体地,利用设置的WordNet算法,根据步骤101中获取的组成用户输入的POI数据的子字段的各分词所在的层数和组成所述POI原始数据的子字段的各分词所在的层数,计算用户输入的POI数据和POI原始数据的子字段之间的相似度值。
这里,所述设置的WordNet算法为:
其中,A表示所述POI原始数据的子字段,B表示所述用户输入的POI数据的子字段,Dist(A,B)表示A与B之间的语义距离,即A与B之间的最短路径权重之和,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,即A与B处于相同父节点的不同的分支,SWordNet(A,B)表示A与B之间的相似度值。
这里,对于POI名称字段,根据步骤101中获取的组成所述用户输入的POI数据的名称字段的各分词所在的层数以及组成所述POI原始数据的名称字段的各分词所在的层数,利用设置的WordNet算法即可计算出用户输入的POI数据和POI原始数据的名称字段之间的相似度值。
这里,对于POI地址字段,根据步骤101中获取的组成所述用户输入的POI数据的地址字段的各分词所在的层数以及组成所述POI原始数据的地址字段的各分词所在的层数,利用设置的WordNet算法即可计算出用户输入的POI数据和POI原始数据的地址字段之间的相似度值。其中,所述计算用户输入的POI数据和POI原始数据的地址字段之间的相似度值,包括:计算所述POI原始数据与用户输入的POI数据的地址字段中行政区划信息之间的相似度值;计算所述POI原始数据与用户输入的POI数据的地址字段中街道信息之间的相似度值;计算所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇信息之间的相似度值;计算所述POI原始数据与用户输入的POI数据的地址字段中描述性信息之间的相似度值。因此,所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值可以通过统计分析上述相似度值而获取。例如,假设POI原始数据与用户输入的POI数据的地址字段中行政区划信息之间、街道信息之间、大厦楼宇信息之间、描述性信息之间的相似度值分别为aa、bb、cc、dd,则所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值为(aa+bb+cc+dd)-3。此外,所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值也可以是通过直接计算组成所述POI数据对的地址字段的各分词所在的层数得出的。
步骤103:根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
这里,对于POI名称字段,所述POI名称字段不同错误类型所对应的错误阈值可以是根据对以前所获取的POI数据对进行分析计算而预先设置的;所述POI名称字段的错误类型包括连锁店分类错误、内容与格式错误、名称信息已过时,对应的,所述POI名称字段不同错误类型所对应的错误阈值包括连锁店分类错误阈值、内容与格式错误阈值、名称信息已过时错误阈值;当步骤102中所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于上述设置的POI名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,即可判定所述POI原始数据的名称字段错误,并可根据所述名称字段之间的相似度值所属的错误阈值,定位所述POI原始数据的名称字段的错误类型;当步骤102中所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值不属于上述设置的POI名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,即可判定所述POI原始数据的名称字段正确。
这里,对于POI地址字段,所述POI地址字段不同错误类型所对应的错误阈值可以是根据对以前所获取的POI数据对进行分析计算而预先设置的;所述POI地址字段的错误类型包括行政区划信息错误、街道信息错误、大厦楼宇信息错误、描述性信息错误,对应的,所述POI地址字段不同错误类型所对应的错误阈值包括行政区划信息错误阈值、街道信息错误阈值、大厦楼宇信息错误阈值、描述性信息错误阈值;当步骤102中所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,可判定所述POI原始数据的地址字段错误,且地址字段的错误类型为行政区划信息错误;当步骤102中所述用户输入的POI数据和POI原始数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,可判定所述POI原始数据的地址字段错误,且地址字段的错误类型为描述性信息错误;当步骤102中所述用户输入的POI数据和POI原始数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,只可判定所述POI原始数据的地址字段中街道信息疑似错误;当步骤102中所述用户输入的POI数据和POI原始数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,只可判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误;当步骤102中所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间的相似度值不属于行政区划信息错误阈值、描述性信息之间的相似度值不属于描述性信息错误阈值、街道信息之间的相似度值不属于街道信息错误阈值、大厦楼宇信息之间的相似度值不属于大厦楼宇信息错误阈值时,即可判定所述POI原始数据的地址字段正确。
进一步的,所述POI原始数据的地址字段中街道信息被判定为疑似错误后,所述方法还包括:计算所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值;根据所述距离值与设置的第一临界值的关系,判定所述POI原始数据与用户输入的POI数据的地址字段中街道信息是否错误。
具体地,获取所述POI原始数据与用户输入的POI数据的地址字段中街道所在位置的坐标信息;根据所述街道所在位置的坐标信息,计算所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值;当所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段错误且错误类型为街道信息错误,否则判定所述POI原始数据的地址字段中街道信息正确。
进一步的,所述POI原始数据的地址字段中大厦楼宇信息被判定为疑似错误后,所述方法还包括:计算所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值;根据所述距离值与设置的第一临界值的关系,判定所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇信息是否错误。
具体地,获取所述POI原始数据的地址字段中大厦楼宇所在位置的坐标信息和用户输入的POI数据的地址字段中大厦楼宇所在位置的坐标信息;根据所述地址字段中大厦楼宇所在位置的坐标信息,计算所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值;当所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段错误且错误类型为大厦楼宇信息错误,否则判定所述POI原始数据的地址字段中大厦楼宇信息正确。
这里,所述街道是指所述街道信息中所包含的街道名称和/或街道号;所述大厦楼宇是指所述大厦楼宇信息中所包含的大厦楼宇名称、和/或大厦楼宇曾用名、和/或大厦楼宇别名、和/或大厦楼宇单元号;所述第一临界值用于判定所述POI数据对的地址字段中街道所在位置是否相同和/或大厦楼宇所在位置是否相同。
进一步的,当所述基础字段包括名称字段时,在步骤101之前,所述方法还包括:检测用户输入的POI数据的名称字段中是否包含有分店名信息,当所述用户输入的POI数据的名称字段中包含有分店名信息时,对POI原始数据的名称字段中分店名是否正确进行判定。
这里,所述检测用户输入的POI数据的名称字段中是否包含有分店名信息,包括:根据预设的名称模板,将用户输入的POI数据的名称字段与所述预设的名称模板进行比对,若在预设的名称模板中存在与所述用户输入的POI数据的名称字段相同的名称字段,则判为所述用户输入的POI数据的名称字段中只包含有主名称信息;若在预设的名称模板中不存在与所述用户输入的POI数据的名称字段相同的名称字段,则判为所述用户输入的POI数据的名称字段中不仅包含有主名称信息,而且还包含有分店名信息。
这里,分店名信息是单独存储在POI名称字段中结尾的括号内,如果任意一条POI数据的名称字段不以括号结尾,则判定此条POI数据为非连锁POI数据,即只存在主名称信息,无分店名信息;如果任意一条POI数据的名称字段以括号结尾,则判定此条POI数据为连锁POI数据,即存在主名称信息和分店名信息,括号前的字符为主名称信息,括号内的字符为分店名信息。
这里,所述当所述用户输入的POI数据的名称字段中包含有分店名信息时,对POI原始数据的名称字段中分店名是否正确进行判定,包括:分别获取所述用户输入的POI数据的名称字段中分店名所在位置的坐标信息以及POI原始数据的名称字段中分店名所在位置的坐标信息;根据所述分店名所在位置的坐标信息,计算所述POI原始数据与用户输入的POI数据的名称字段中分店名之间的距离值;若所述距离值等于设置的标准临界值时,则判定所述POI原始数据的名称字段中分店名正确,否则判定所述POI原始数据的名称字段中分店名错误。
进一步的,当所述基础字段包括电话字段时,所述方法还包括:对POI电话字段是否存在错误进行判定,判定所述POI电话字段存在错误时,定位所述POI原始数据的电话字段的错误类型。
具体地,获取用户输入的POI数据的电话字段以及与所述用户输入的POI数据对应的POI原始数据的电话字段;根据电话字段中包含的分隔符,分别检测所述用户输入的POI数据的电话字段中包含的电话条数和所述POI原始数据的电话字段中包含的电话条数;若所述用户输入的POI数据的电话字段中包含有电话即电话条数大于零,而所述POI原始数据的电话字段中不包含有电话即电话条数为零,则判定所述POI原始数据的电话字段错误且错误类型为电话缺失;若所述用户输入的POI数据的电话字段中不包含有电话即电话条数等于零,而所述POI原始数据的电话字段中包含有电话即电话条数大于零,则判定所述POI原始数据的电话字段错误且错误类型为多电话;若所述POI原始数据的电话字段中包含的电话条数大于零且小于所述用户输入的POI数据的电话字段中包含的电话条数,并且通过字符比对,所述POI原始数据的电话字段中包含的每个电话都包含在所述用户输入的POI数据的电话字段中,则判定所述POI原始数据的电话字段错误且错误类型为电话缺失;若所述用户输入的POI数据的电话字段中包含的电话条数大于零且小于所述POI原始数据的电话字段中包含的电话条数,并且通过字符比对,所述用户输入的POI数据的电话字段中包含的每个电话都包含在所述POI原始数据的电话字段中,则判定所述POI原始数据的电话字段错误且错误类型为多电话;若所述用户输入的POI数据的电话字段中包含的电话条数等于所述POI原始数据的电话字段中包含的电话条数,且每两个电话都是对应相同的,则判定所述POI原始数据中电话字段正确。
这里,所述每两个电话都是对应相同的是指所述用户输入的POI数据的电话字段中每个电话在所述POI原始数据的电话字段中对应有一个相同的电话,且所述POI原始数据的电话字段中每个电话在所述用户输入的POI数据的电话字段中对应有一个相同的电话。
基于上述基础字段包括的不同子字段,下面结合附图和具体实施例详细说明本发明兴趣点数据错误类型定位方法的具体实现流程。
实施例一
本发明实施例一在所述基础字段包括名称字段的场景下,兴趣点数据错误类型定位方法的详细处理流程,如图2所示,包括以下步骤:
步骤201:对POI数据对的名称字段进行分词处理,获取组成所述名称字段的各分词所在的层数;
具体地,根据设置的POI名称字段的分层参数,对POI数据对的名称字段进行分词处理,获取组成所述POI数据对的名称字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据。
这里,所述POI名称字段的分层参数可以是根据电子地图行业分类标准以及实际需求而设置的,描述如下:通常,根据POI名称字段的一般组成部分,可将POI名称字段的分层参数划分为四层,分别为城市名称、数据所在类型、兴趣点名称、连锁店名称,此四层分层参数可完全反映出名称字段的属性特征。其中,所述数据所在类型是指POI名称在国民经济行业分类标准中所属的行业类别。此外,为进一步详细描述POI名称字段,还可对上述四层分层参数进行拓展。本发明实施例中,为实现对POI名称字段错误类型的精确定位,将POI名称字段的上述四层分层参数进行拓展,分别为:“数据所在类型”拓展为“数据所在大类”与“数据在大类中的小类”;“兴趣点名称”拓展为“兴趣点名称”、“曾用名”、“别名”。其中,“别名”为公众对某些POI数据中兴趣点名称的民间称呼,由用户搜索而来。因此,扩展后的POI名称字段的分层参数为七层,详见表1所示。
这里,根据表1所示的POI名称字段的七层分层参数表,即可对用户输入的POI数据的名称字段和POI原始数据的名称字段分别进行分词处理,从而获取组成所述用户输入的POI数据的名称字段的各分词所在的层数以及组成所述POI原始数据的名称字段的各分词所在的层数,上述获取的POI名称字段的各分词所在的层数将用于判断POI名称字段是否正确的后续处理过程中。
第0层 | 城市名称 |
第1层 | 数据所在大类 |
第2层 | 数据在大类中的小类 |
第3层 | 兴趣点名称 |
第4层 | 曾用名 |
第5层 | 别名 |
第6层 | 连锁店名称 |
表1
步骤202:根据所述组成所述POI数据对的名称字段的各分词所在的层数,计算所述POI数据对的名称字段之间的相似度值;
具体地,利用设置的WordNet算法,根据步骤201中获取的组成用户输入的POI数据的名称字段的各分词所在的层数和组成所述POI原始数据的名称字段的各分词所在的层数,计算用户输入的POI数据和POI原始数据的名称字段之间的相似度值。
这里,所述设置的WordNet算法为:
其中,A表示所述POI原始数据的名称字段,B表示所述用户输入的POI数据的名称字段,Dist(A,B)表示A与B之间的语义距离,即A与B之间的最短路径权重之和,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,即A与B处于相同父节点的不同的分支,SWordNet(A,B)表示A与B之间的相似度值。
这里,当A与B之间的不相同分词所处的层数越低,A与B之间的最短路径权重之和就越大,则A与B之间的相似度值就越小;所述A与B之间有共同的父节点是指A与B之间的不相同分词不仅都属于表1所示的POI名称字段的七层分层参数中的同一层,而且具有相同的上层分词;所述A与B属于同一分支是指A与B之间的不相同分词不仅分别属于表1所示的POI名称字段的七层分层参数中的相邻层,而且属于上述步骤201中POI名称字段的四层分层参数中的同一层或相邻层。
这里,所述A与B之间的不相同分词具有相同的上层分词可以理解为:A与B之间的不相同分词都是归属于同一个分词,该分词在POI名称字段的分层参数表中所属的层数比A与B之间的不相同分词所属的层数要低一层。假设,A与B之间的不相同分词分别为三明治和巧克力,都属于表1中的第3层,由于三明治和巧克力都是归属于面包甜点,且面包甜点属于表1中的第2层,因此,A与B之间的不相同分词具有相同的上层分词。
步骤203:判定所述POI数据对的名称字段之间的相似度值是否属于设置的名称字段不同错误类型所对应的错误阈值,若是,执行步骤204,否则执行步骤205;
具体地,根据预先设置的名称字段不同错误类型所对应的错误阈值,当判定步骤202中所计算出的所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于所述预先设置的名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,执行步骤204;当判定步骤202中所计算出的所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值不属于所述预先设置的名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,执行步骤205。
这里,所述预先设置的名称字段不同错误类型所对应的错误阈值可以是根据对以前所获取的POI数据对进行分析计算而得到的;所述名称字段的错误类型包括连锁店分类错误、内容与格式错误、名称信息已过时,对应的,所述名称字段不同错误类型所对应的错误阈值包括连锁店分类错误阈值、内容与格式错误阈值、名称信息已过时错误阈值。
步骤204:判定所述POI原始数据的名称字段错误,并定位所述POI原始数据的名称字段的错误类型;
具体地,当步骤203中判定所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于所述预先设置的名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,判定所述POI原始数据的名称字段错误,并根据所述相似度值所属的错误阈值,确定所述POI原始数据的名称字段的错误类型。
这里,当所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于名称信息已过时错误阈值时,判定所述POI原始数据的名称字段的错误且错误类型为名称信息已过时;当所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于内容与格式错误阈值时,判定所述POI原始数据的名称字段的错误且错误类型为内容与格式错误;当所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于连锁店分类错误阈值时,判定所述POI原始数据的名称字段的错误且错误类型为连锁店分类错误。因此,当所述POI原始数据的名称字段错误时,根据所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值以及设置的名称字段不同错误类型所对应的错误阈值,便可快速判定出所述POI原始数据的名称字段的错误类型,从而实现对POI名称字段错误类型的快速与精确定位。
步骤205:判定所述POI原始数据的名称字段正确。
这里,当步骤203中判定所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值不属于所述预先设置的名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,表明所述POI原始数据的名称字段是正确的。
优选地,在步骤201之前,本发明实施例一中还可包括:判断用户输入的POI数据的名称字段中是否包含有分店名信息,当所述用户输入的POI数据的名称字段中包含有分店名信息时,对POI原始数据的名称字段中分店名是否正确进行判定。
这里,所述判断用户输入的POI数据的名称字段中是否包含有分店名信息,包括:根据预设的名称模板,将用户输入的POI数据的名称字段与所述预设的名称模板进行比对,若在预设的名称模板中存在与所述用户输入的POI数据的名称字段相同的名称字段,则认为所述用户输入的POI数据的名称字段中只包含有主名称信息;若在预设的名称模板中不存在与所述用户输入的POI数据的名称字段相同的名称字段,则认为所述用户输入的POI数据的名称字段中不仅包含有主名称信息,而且还包含有分店名信息。
本实施例中,分店名信息是单独存储在名称字段中结尾的括号内,如果任意一条POI数据的名称字段不以括号结尾,则认定此条POI数据为非连锁POI数据,即只存在主名称信息,无分店名信息;如果任意一条POI数据的名称字段以括号结尾,则认定此条POI数据为连锁POI数据,即存在主名称信息和分店名信息,括号前的字符为主名称信息,括号内的字符为分店名信息。
这里,所述当所述用户输入的POI数据的名称字段中包含有分店名信息时,对POI原始数据的名称字段中分店名是否正确进行判定,包括:分别获取所述用户输入的POI数据的名称字段中分店名所在位置的经纬度坐标以及POI原始数据的名称字段中分店名所在位置的经纬度坐标;将所述POI原始数据和用户输入的POI数据的名称字段中分店名所在位置的经纬度坐标分别转换为平面坐标;计算转换后所述POI原始数据的名称字段中分店名所在位置的平面坐标与用户输入的POI数据的名称字段中分店名所在位置的平面坐标之间的距离值;若所述距离值等于设置的标准临界值时,则判定所述POI原始数据的名称字段中分店名正确,否则判定所述POI原始数据的名称字段中分店名错误。
其中,所述用户输入的POI数据和POI原始数据的名称字段中分店名所在位置的经纬度坐标可以利用谷歌地图geocoding接口生成;所述将POI原始数据和用户输入的POI数据的名称字段中分店名所在位置的经纬度坐标转换为平面坐标可以是通过将POI原始数据和用户输入的POI数据的名称字段中分店名所在位置的经纬度坐标导入设置的PostgreSQL数据库完成转换;所述标准临界值用于评判POI原始数据的名称字段中分店名所在位置与用户输入的POI数据的名称字段中分店名所在位置是否相同,所述标准临界值可以设置为一个非负数,本实施例中设置为0。
举例说明:假设用户输入的POI名称信息为“Café East”,而POI原始名称信息为“日航咖啡室”,也就是说,“日航咖啡室”是POI的曾用名,“Café East”为POI的当前名称;根据表1所示的POI名称字段的分层参数,“Café East”位于第三层,“日航咖啡室”位于第四层,利用WordNet算法计算出它们的相似度值为如果预设的POI名称字段中名称信息已过时的错误阈值为0.92~0.97,那么,所述POI原始名称信息将会被判定为错误且错误类型为名称信息已过时。
实施例二
本发明实施例二在所述基础字段包括地址字段的场景下,兴趣点数据错误类型定位方法的详细处理流程,如图3所示,包括以下步骤:
步骤301:对POI数据对的地址字段进行分词处理,获取组成所述POI数据对的地址字段的各分词所在的层数;
具体地,根据设置的POI地址字段的分层参数,对POI数据对的地址字段进行分词处理,获取组成所述POI数据对的地址字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据。
第0层 | 城市名称 | 第6层 | 大厦楼宇曾用名 |
第1层 | 城市区域 | 第7层 | 大厦楼宇别名 |
第2层 | 行政区划 | 第8层 | 大厦楼宇单元号 |
第3层 | 街道名称 | 第9层 | 铺面号 |
第4层 | 街道号 | 第10层 | 楼层号 |
第5层 | 大厦楼宇名称 | 第11层 | 其他说明信息 |
表2
这里,所述POI地址字段的分层参数可以是根据电子地图行业分类标准以及实际需求而设置的,描述如下:通常,根据POI地址字段的一般组成部分,可将POI地址字段的分层参数划分为四层,分别为行政区划信息、街道信息、大厦楼宇信息、描述性信息,此四层分层参数可完全反映出地址字段的属性特征。此外,为进一步详细描述POI地址字段,还可对上述四层分层参数进行拓展。本发明实施例中,为实现对POI地址字段错误类型的精确定位,将POI地址字段的上述四层分层参数进行拓展,分别为:“行政区划信息”拓展为“城市名称”、“城市区域”、“行政区划”;“街道信息”拓展为“街道名称”、“街道号”;“大厦楼宇信息”拓展为“大厦楼宇名称”、“大厦楼宇曾用名”、“大厦楼宇别名”、“大厦楼宇单元号”;“描述性信息”扩展为“铺面号”、“楼层号”、“其他说明信息”。其中,“大厦楼宇别名”为公众对某些POI数据中楼宇的民间称呼,由用户搜索而来。因此,扩展后的POI地址字段的分层参数为十二层,详见表2所示。
这里,根据表2所示的POI地址字段的十二层分层参数表,即可对用户输入的POI数据的地址字段和POI原始数据的地址字段分别进行分词处理,从而获取组成所述用户输入的POI数据的地址字段的各分词所在的层数以及组成所述POI原始数据的地址字段的各分词所在的层数,上述获取的POI地址字段的各分词所在的层数将用于判断POI地址字段是否正确的后续处理过程中。
步骤302:根据所述组成所述POI数据对的地址字段的各分词所在的层数,计算所述POI数据对的地址字段之间的相似度值;
具体地,利用设置的WordNet算法,根据步骤301中获取的组成所述用户输入的POI数据的地址字段的各分词所在的层数和组成所述POI原始数据的地址字段的各分词所在的层数,计算用户输入的POI数据和POI原始数据的地址字段之间的相似度值。
这里,所述设置的WordNet算法为:
其中,A表示所述POI原始数据的地址字段,B表示所述用户输入的POI数据的地址字段,Dist(A,B)表示A与B之间的语义距离,即A与B之间的最短路径权重之和,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,即A与B处于相同父节点的不同的分支,SWordNet(A,B)表示A与B之间的相似度值。
这里,当A与B之间的不相同分词所处的层数越低,A与B之间的最短路径权重之和就越大,则A与B之间的相似度值就越小;所述A与B之间有共同的父节点是指A与B之间的不相同分词不仅都属于表2所示的POI地址字段的十二层分层参数中的同一层,而且具有相同的上层分词;所述A与B属于同一分支是指A与B之间的不相同分词不仅分别属于表2所示的POI地址字段的十二层分层参数中的相邻层,而且属于上述步骤301中POI地址字段的四层分层参数中的同一层或相邻层。
这里,所述A与B之间的不相同分词具有相同的上层分词可以理解为:A与B之间的不相同分词都是归属于同一个分词,且该分词在POI地址字段的分层参数表所属的层数比A与B之间的不相同分词所属的层数要低一层。假设,A与B之间的不相同分词分别为弥顿道和么地道,都属于表2中的第3层,由于弥顿道和么地道都是归属于行政区划为尖沙咀的街道,且尖沙咀属于表2中的第2层,因此,A与B之间的不相同分词具有相同的上层分词。
这里,所述计算用户输入的POI数据和POI原始数据的地址字段之间的相似度值包括:计算所述POI原始数据与POI数据的地址字段中行政区划信息之间的相似度值,即计算所述POI数据对的地址字段在第0层至第2层之间的相似度值;计算所述POI原始数据与POI数据的地址字段中街道信息之间的相似度值,即计算所述POI数据对的地址字段在第3层至第4层之间的相似度值;计算所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值,即计算所述POI数据对的地址字段在第5层至第8层之间的相似度值;计算所述POI原始数据与POI数据的地址字段中描述性信息之间的相似度值,即计算所述POI数据对的地址字段在第9层至第11层之间的相似度值。因此,所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值可以通过统计分析上述相似度值而获取。例如,假设POI原始数据与用户输入的POI数据的地址字段中行政区划信息之间、街道信息之间、大厦楼宇信息之间、描述性信息之间的相似度值分别1、1、0.95、0.96,则所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值为0.91。此外,所述计算用户输入的POI数据和POI原始数据的地址字段之间的相似度值还可以是直接计算所述POI数据对的地址字段在表2中的第0层至第11层之间的相似度值。
步骤303:判定所述POI数据对的地址字段之间的相似度值是否属于设置的地址字段不同错误类型所对应的错误阈值,若是,执行步骤304,否则执行步骤308;
这里,所述设置的地址字段不同错误类型所对应的错误阈值可以是根据对以前获取的POI数据进行分析计算所得到的;所述地址字段的错误类型包括行政区划信息错误、街道信息错误、大厦楼宇信息错误、描述性信息错误,对应的,所述地址字段不同错误类型所对应的错误阈值包括行政区划信息错误阈值、街道信息错误阈值、大厦楼宇信息错误阈值、描述性信息错误阈值。
具体地,根据设置的地址字段不同错误类型所对应的错误阈值,当判定步骤302中所计算出的所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值、和/或街道信息之间的相似度值属于街道信息错误阈值、和/或大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值、和/或描述性信息之间的相似度值属于描述性信息错误阈值时,执行步骤304;当判定步骤302中所计算出的所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间的相似度值不属于行政区划信息错误阈值、街道信息之间的相似度值不属于街道信息错误阈值、大厦楼宇信息之间的相似度值不属于大厦楼宇信息错误阈值、描述性信息之间的相似度值不属于描述性信息错误阈值时,执行步骤308。
步骤304:定位所述POI原始数据的地址字段的错误类型,当所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息被判定为疑似错误时,执行步骤305;
具体地,当所述POI原始数据与用户输入的POI数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,判定所述POI原始数据的地址字段中行政区划信息错误,否则判定所述POI原始数据的地址字段中行政区划信息正确;当所述POI原始数据与用户输入的POI数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,判定所述POI原始数据的地址字段中描述性信息错误,否则判定所述POI原始数据的地址字段中描述性信息正确;当所述POI原始数据与用户输入的POI数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,判定所述POI原始数据的地址字段中街道信息疑似错误,否则判定所述POI原始数据的地址字段中街道信息正确;当所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误,否则判定所述POI原始数据的地址字段中大厦楼宇信息正确。
这里,当所述POI原始数据的地址字段中行政区划信息和/或描述性信息被判定为错误时,可直接判定所述POI原始数据的地址字段错误;当所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息被判定为疑似错误时,还需要进一步对所述POI原始数据的地址字段的正确性进行判定,即执行步骤305。
步骤305:判定所述POI原始数据与用户输入的POI数据的地址字段中街道之间和/或大厦楼宇之间的距离值是否等于设置的第一临界值,若等于,执行步骤306;否则,执行步骤307;
具体地,当步骤304中所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息被判定为疑似错误时,计算所述POI原始数据与用户输入的POI数据的地址字段中街道之间和/或大厦楼宇之间的距离值;当所述距离值大于设置的第一临界值时,执行步骤307;当所述距离值等于设置的第一临界值时,执行步骤306。
这里,当步骤304中所述POI原始数据的地址字段中街道信息被判定为疑似错误时,所述计算所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值,包括:分别获取POI原始数据的地址字段中街道所在位置的经纬度坐标以及用户输入的POI数据的地址字段中街道所在位置的经纬度坐标;将所述POI原始数据和用户输入的POI数据的地址字段中街道所在位置的经纬度坐标转换为平面坐标;计算转换后所述POI原始数据的地址字段中街道所在位置的平面坐标与用户输入的POI数据的地址字段中街道所在位置的平面坐标之间的距离值。若所述街道所在位置的平面坐标之间距离值大于设置的第一临界值时,则执行步骤307;若所述街道所在位置的平面坐标之间距离值等于设置的第一临界值时,则执行步骤306。
这里,当步骤304中所述POI原始数据的地址字段中大厦楼宇信息被判定为疑似错误时,所述计算所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值,包括:分别获取POI原始数据的地址字段中大厦楼宇所在位置的经纬度坐标以及POI数据的地址字段中大厦楼宇所在位置的经纬度坐标;将所述POI原始数据和POI数据的地址字段中大厦楼宇所在位置的经纬度坐标转换为平面坐标;计算转换后所述POI原始数据的地址字段中大厦楼宇所在位置的平面坐标与POI数据的地址字段中大厦楼宇所在位置的平面坐标之间的距离值;若所述大厦楼宇所在位置的平面坐标之间距离值大于设置的第一临界值时,则执行步骤307;若所述大厦楼宇所在位置的平面坐标之间距离值等于设置的第一临界值时,则执行步骤306。
这里,所述POI原始数据和用户输入的POI数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标可以利用谷歌地图geocoding接口生成;所述将POI原始数据和用户输入的POI数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标转换为平面坐标可以通过将所述POI原始数据和用户输入的POI数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标导入设置的PostgreSQL数据库完成转换;所述街道是指所述街道信息中所包含街道名称和/或街道号;所述大厦楼宇是指所述大厦楼宇信息中所包含的大厦楼宇名称、和/或大厦楼宇曾用名、和/或大厦楼宇别名、和/或大厦楼宇单元号;所述第一临界值用于评判POI原始数据的地址字段中街道所在位置与用户输入的POI数据的地址字段中街道所在位置是否相同、以及POI原始数据的地址字段中大厦楼宇所在位置与用户输入的POI数据的地址字段中大厦楼宇所在位置是否相同,所述第一临界值可以设置为一个非负数,本实施例中设置为0。
步骤306:判定所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息正确;
具体地,当步骤305中判定所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值等于设置的第一临界值时,判定所述POI原始数据的地址字段中街道信息正确;当步骤305中判定所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值等于设置的第一临界值时,判定所述POI原始数据的地址字段中大厦楼宇信息正确。
步骤307:判定所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息错误。
具体地,当步骤305中判定所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中街道信息错误;当步骤305中判定所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中大厦楼宇信息错误。
步骤308:判定所述POI原始数据的地址字段正确;
具体地,当步骤303中判定所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间的相似度值不属于行政区划信息错误阈值、街道信息之间的相似度值不属于街道信息错误阈值、大厦楼宇信息之间的相似度值不属于大厦楼宇信息错误阈值、描述性信息之间的相似度值不属于描述性信息错误阈值时,判定所述POI原始数据的地址字段正确。
本实施例中,所述POI原始数据的地址字段中只要存在行政区划信息错误、大厦楼宇信息错误、街道信息错误、描述性信息错误等不同错误类型中的任意一种,则表明所述POI原始数据的地址字段错误。
为实现上述方法,本发明实施例还提供了一种兴趣点数据错误类型定位装置,如图4所示,所述装置包括:第一分词单元21、第一计算单元22、定位单元23;其中,
所述第一分词单元21,用于根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;
这里,所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述POI基础字段包括至少一个子字段;所述子字段可以是名称字段、地址字段、电话字段中的一个或多个。
所述第一计算单元22,用于根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
所述定位单元23,用于根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
这里,所述POI基础字段的分层参数可以是根据电子地图行业分类标准以及实际需求而设置的;当POI基础字段包含有不同子字段时,需要根据子字段的类型设置子字段所对应的分层参数,并依据所述子字段所对应的分层参数对POI数据对的子字段进行分词处理,从而获取组成所述子字段的各分词所在的层数。
当所述基础字段包括名称字段时,根据POI名称字段的一般组成部分,通常可将POI名称字段的分层参数划分为四层,分别为城市名称、数据所在类型、兴趣点名称、连锁店名称,此四层参数可完全反映出名称字段的属性特征。其中,所述数据所在类型是指POI名称在国民经济行业分类标准中所属的行业类别。此外,为进一步详细描述POI名称字段,还可对上述POI名称字段的四层分层参数进行拓展。根据设置的所述POI名称字段的分层参数,可对用户输入的POI数据的名称字段和POI原始数据的名称字段分别进行分词处理,从而获取组成所述用户输入的POI数据的名称字段的各分词所在的层数以及组成所述POI原始数据的名称字段的各分词所在的层数。
当所述基础字段包括POI地址字段时,根据POI地址字段的一般组成部分,通常可将POI地址字段的分层参数划分为四层,分别为行政区划信息、街道信息、大厦楼宇信息、描述性信息,此四层参数可完全反映出地址字段的属性特征。其中,所述描述性信息是指POI地址字段中没有包含在所述行政区划信息、街道信息、大厦楼宇信息中的信息,即无法用所述行政区划信息、街道信息、大厦楼宇信息进行描述的信息。此外,为进一步详细描述POI地址字段,也还可对上述POI地址字段的四层分层参数进行拓展。根据设置的所述POI地址字段的分层参数,可对用户输入的POI数据的地址字段和POI原始数据的地址字段分别进行分词处理,从而获取组成所述用户输入的POI数据的地址字段的各分词所在的层数以及组成所述POI原始数据的地址字段的各分词所在的层数。
所述第一计算单元22,具体用于利用设置的WordNet算法,根据所述第一分词单元21获取的组成用户输入的POI数据的子字段的各分词所在的层数和组成所述POI原始数据的子字段的各分词所在的层数,计算用户输入的POI数据和POI原始数据的子字段之间的相似度值。
这里,所述设置的WordNet算法为:
其中,A表示所述POI原始数据的子字段,B表示所述用户输入的POI数据的子字段,Dist(A,B)表示A与B之间的语义距离,即A与B之间的最短路径权重之和,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,即A与B处于相同父节点的不同的分支,SWordNet(A,B)表示A与B之间的相似度值。
这里,对于POI名称字段,所述第一计算单元22根据所述第一分词单元21获取的组成所述用户输入的POI数据的名称字段的各分词所在的层数以及组成所述POI原始数据的名称字段的各分词所在的层数,利用设置的WordNet算法即可计算出用户输入的POI数据和POI原始数据的名称字段之间的相似度值。
这里,对于POI地址字段,所述第一计算单元22根据所述第一分词单元21获取的组成所述用户输入的POI数据的地址字段的各分词所在的层数以及组成所述POI原始数据的地址字段的各分词所在的层数,利用设置的WordNet算法即可计算出用户输入的POI数据和POI原始数据的地址字段之间的相似度值。其中,所述第一计算单元22具体用于计算用户输入的POI数据和POI原始数据的地址字段之间的相似度值,包括:计算所述POI原始数据与用户输入的POI数据的地址字段中行政区划信息之间的相似度值;计算所述POI原始数据与用户输入的POI数据的地址字段中街道信息之间的相似度值;计算所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇信息之间的相似度值;计算所述POI原始数据与用户输入的POI数据的地址字段中描述性信息之间的相似度值。因此,所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值可以通过统计分析上述相似度值而获取。此外,所述POI原始数据与用户输入的POI数据的地址字段之间的相似度值也可以是通过直接计算组成所述POI数据对的地址字段的各分词所在的层数而获取。
这里,对于POI名称字段,所述POI名称字段不同错误类型所对应的错误阈值可以是根据对以前所获取的POI数据对进行分析计算而预先设置的;所述POI名称字段的错误类型包括连锁店分类错误、内容与格式错误、名称信息已过时,对应的,所述POI名称字段不同错误类型所对应的错误阈值包括连锁店分类错误阈值、内容与格式错误阈值、名称信息已过时错误阈值;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值属于上述设置的POI名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,所述定位单元23即可判定所述POI原始数据的名称字段错误,并可根据所述名称字段之间的相似度值所属的错误阈值,定位所述POI原始数据的名称字段的错误类型;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的名称字段之间的相似度值不属于上述设置的POI名称字段不同错误类型所对应的错误阈值中的任意一个错误阈值时,所述定位单元23即可判定所述POI原始数据的名称字段正确。
这里,对于POI地址字段,所述POI地址字段不同错误类型所对应的错误阈值可以是根据对以前所获取的POI数据对进行分析计算而预先设置的;所述POI地址字段的错误类型包括行政区划信息错误、街道信息错误、大厦楼宇信息错误、描述性信息错误,对应的,所述POI地址字段不同错误类型所对应的错误阈值包括行政区划信息错误阈值、街道信息错误阈值、大厦楼宇信息错误阈值、描述性信息错误阈值;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,所述定位单元23可判定所述POI原始数据的地址字段错误,且地址字段的错误类型为行政区划信息错误;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,所述定位单元23可判定所述POI原始数据的地址字段错误,且地址字段的错误类型为描述性信息错误;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,所述定位单元23只可判定所述POI原始数据的地址字段中街道信息疑似错误;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,所述定位单元23只可判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误;当所述第一计算单元22计算出所述用户输入的POI数据和POI原始数据的地址字段中行政区划信息之间、描述性信息之间、街道信息之间、大厦楼宇信息之间的相似度值分别不属于各自所对应的错误阈值时,所述定位单元23即可判定所述POI原始数据的地址字段正确。
进一步的,所述装置还包括:第一获取单元24,用于在所述定位单元23判定所述POI原始数据的地址字段中街道信息疑似错误后,获取所述POI原始数据与所述用户输入的POI数据的地址字段中街道所在位置的坐标信息;
所述第一计算单元22,还用于根据所述POI原始数据与所述用户输入的POI数据的地址字段中街道所在位置的坐标信息,计算所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值;
所述定位单元23,还用于根据所述地址字段中街道之间的距离值与设置的第一临界值的关系,判定所述POI原始数据与用户输入的POI数据的地址字段中街道信息是否错误。
其中,所述定位单元23,具体用于当所述POI原始数据与用户输入的POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段错误且错误类型为街道信息错误,否则判定所述POI原始数据的地址字段中街道信息正确。
进一步的,所述获取单元24,还用于在所述定位单元23判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误后,获取所述POI原始数据与所述用户输入的POI数据的地址字段中大厦楼宇所在位置的坐标信息;
所述第一计算单元22,还用于根据所述POI原始数据与所述用户输入的POI数据的地址字段中大厦楼宇所在位置的坐标信息,计算所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值;
所述定位单元23,还用于根据所述地址字段中大厦楼宇之间的距离值与设置的第一临界值的关系,判定所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇信息是否错误。
其中,所述定位单元23,具体用于当所述POI原始数据与用户输入的POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段错误且错误类型为大厦楼宇信息错误,否则判定所述POI原始数据的地址字段中大厦楼宇信息正确。
这里,所述街道是指所述街道信息中所包含的街道名称和/或街道号;所述大厦楼宇是指所述大厦楼宇信息中所包含的大厦楼宇名称、和/或大厦楼宇曾用名、和/或大厦楼宇别名、和/或大厦楼宇单元号;所述第一临界值用于判定所述POI数据对的地址字段中街道所在位置是否相同和/或大厦楼宇所在位置是否相同。
进一步的,所述装置还包括:检测单元25,用于当所述基础字段包括名称字段时,检测用户输入的POI数据的名称字段中是否包含有分店名信息;
所述第一获取单元24,还用于当检测到所述用户输入的POI数据的名称字段中包含有分店名信息时,获取所述用户输入的POI数据的名称字段中分店名所在位置的坐标信息以及POI原始数据的名称字段中分店名所在位置的坐标信息;
所述第一计算单元22,还用于根据所述分店名所在位置的坐标信息,计算所述POI原始数据与用户输入的POI数据的名称字段中分店名之间的距离值;
所述定位单元23,还用于根据所述名称字段中分店名之间的距离值与设置的标准临界值的关系,对POI原始数据的名称字段中分店名是否正确进行判定。
其中,所述检测单元25,具体用于根据预设的名称模板,将用户输入的POI数据的名称字段与所述预设的名称模板进行比对,若在预设的名称模板中存在与所述用户输入的POI数据的名称字段相同的名称字段,则判为所述用户输入的POI数据的名称字段中只包含有主名称信息;若在预设的名称模板中不存在与所述用户输入的POI数据的名称字段相同的名称字段,则判为所述用户输入的POI数据的名称字段中不仅包含有主名称信息,而且还包含有分店名信息。
这里,分店名信息是单独存储在POI名称字段中结尾的括号内,如果任意一条POI数据的名称字段不以括号结尾,则判定此条POI数据为非连锁POI数据,即只存在主名称信息,无分店名信息;如果任意一条POI数据的名称字段以括号结尾,则判定此条POI数据为连锁POI数据,即存在主名称信息和分店名信息,括号前的字符为主名称信息,括号内的字符为分店名信息。
所述定位单元23,具体用于若所述距离值等于设置的标准临界值时,则判定所述POI原始数据的名称字段中分店名正确,否则判定所述POI原始数据的名称字段中分店名错误。
进一步的,所述第一获取单元24,还用于当所述基础字段包括电话字段时,获取用户输入的POI数据的电话字段以及与所述用户输入的POI数据对应的POI原始数据的电话字段;
所述检测单元25,还用于根据电话字段中包含的分隔符,分别检测所述用户输入的POI数据的电话字段中包含的电话条数和所述POI原始数据的电话字段中包含的电话条数;
所述定位单元23,还用于根据检测出的所述电话字段中包含的电话条数,对POI电话字段是否存在错误进行判定,判定所述POI电话字段存在错误时,定位所述POI原始数据的电话字段的错误类型。
其中,所述定位单元23,具体用于若所述用户输入的POI数据的电话字段中包含有电话即电话条数大于零,而所述POI原始数据的电话字段中不包含有电话即电话条数为零,则判定所述POI原始数据的电话字段错误且错误类型为电话缺失;若所述用户输入的POI数据的电话字段中不包含有电话即电话条数等于零,而所述POI原始数据的电话字段中包含有电话即电话条数大于零,则判定所述POI原始数据的电话字段错误且错误类型为多电话;若所述POI原始数据的电话字段中包含的电话条数大于零且小于所述用户输入的POI数据的电话字段中包含的电话条数,并且通过字符比对,所述POI原始数据的电话字段中包含的每个电话都包含在所述用户输入的POI数据的电话字段中,则判定所述POI原始数据的电话字段错误且错误类型为电话缺失;若所述用户输入的POI数据的电话字段中包含的电话条数大于零且小于所述POI原始数据的电话字段中包含的电话条数,并且通过字符比对,所述用户输入的POI数据的电话字段中包含的每个电话都包含在所述POI原始数据的电话字段中,则判定所述POI原始数据的电话字段错误且错误类型为多电话;若所述用户输入的POI数据的电话字段中包含的电话条数等于所述POI原始数据的电话字段中包含的电话条数,且每两个电话都是对应相同的,则判定所述POI原始数据中电话字段正确。
这里,所述每两个电话都是对应相同的是指所述用户输入的POI数据的电话字段中每个电话在所述POI原始数据的电话字段中对应有一个相同的电话,且所述POI原始数据的电话字段中每个电话在所述用户输入的POI数据的电话字段中对应有一个相同的电话。
需要说明的是,在实际应用中,所述第一分词单元21、第一计算单元22、定位单元23、第二获取单元24、检测单元25均可由位于终端的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
本发明实施例一种兴趣点数据重复识别方法的实现流程示意图,如图5所示,包括:
步骤401:根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;
这里,所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;所述子字段可以是名称字段、地址字段、电话字段中的一个或多个。
这里,所述POI基础字段的分层参数可以是根据电子地图行业分类标准以及实际需求而设置的;当POI基础字段包含有不同子字段时,需要根据子字段的类型设置不同子字段所对应的分层参数,并依据所述子字段所对应的分层参数对POI数据对的子字段进行分词处理,从而获取组成所述子字段的各分词所在的层数。
这里,对于POI名称字段,根据POI名称字段的一般组成部分,通常可将POI名称字段的分层参数划分为四层,分别为城市名称、数据所在类型、兴趣点名称、连锁店名称,此四层分层参数可完全反映出名称字段的属性特征。其中,所述数据所在类型是指POI名称在国民经济行业分类标准中所属的行业类别。此外,为进一步详细描述POI名称字段,还可对上述四层分层参数进行拓展。本实施例中,为实现对POI名称字段错误类型的精确定位,将POI名称字段的上述四层分层参数进行拓展,分别为:“数据所在类型”拓展为“数据所在大类”与“数据在大类中的小类”;“兴趣点名称”拓展为“兴趣点名称”、“曾用名”、“别名”。其中,“别名”为公众对某些POI数据中兴趣点名称的民间称呼,由用户搜索而来。因此,扩展后的POI名称字段的分层参数为七层,详见表1所示。根据表1所示的POI名称字段的七层分层参数表,对所述POI数据对中两组POI原始数据的名称字段分别进行分词处理,从而获取组成所述POI数据对的名称字段的各分词所在的层数,所述POI数据对的名称字段的各分词所在的层数将用于判断所述POI数据对是否为重复数据的后续处理过程中。
第0层 | 城市名称 |
第1层 | 数据所在大类 |
第2层 | 数据在大类中的小类 |
第3层 | 兴趣点名称 |
第4层 | 曾用名 |
第5层 | 别名 |
第6层 | 连锁店名称 |
表1
第0层 | 城市名称 | 第6层 | 大厦楼宇曾用名 |
第1层 | 城市区域 | 第7层 | 大厦楼宇别名 |
第2层 | 行政区划 | 第8层 | 大厦楼宇单元号 |
第3层 | 街道名称 | 第9层 | 铺面号 |
第4层 | 街道号 | 第10层 | 楼层号 |
第5层 | 大厦楼宇名称 | 第11层 | 其他说明信息 |
表2
这里,对于POI地址字段,根据POI地址字段的一般组成部分,通常可将POI地址字段的分层参数划分为四层,分别为行政区划信息、街道信息、大厦楼宇信息、描述性信息,此四层分层参数可完全反映出地址字段的属性特征。其中,所述描述性信息是指POI地址字段中没有包含在所述行政区划信息、街道信息、大厦楼宇信息中的信息,即无法用所述行政区划信息、街道信息、大厦楼宇信息进行描述的信息。此外,为进一步详细描述POI地址字段,还可对上述四层分层参数分别进行拓展。本实施例中,为实现对POI地址字段错误类型的精确定位,将POI地址字段的上述四层分层参数进行拓展,分别为:“行政区划信息”拓展为“城市名称”、“城市区域”、“行政区划”;“街道信息”拓展为“街道名称”、“街道号”;“大厦楼宇信息”拓展为“大厦楼宇”、“大厦楼宇曾用名”、“大厦楼宇别名”、“大厦楼宇单元号”;“描述性信息”扩展为“铺面号”、“楼层号”、“其他说明信息”。其中,“大厦楼宇别名”为公众对某些POI数据中大厦楼宇的民间称呼,由用户搜索而来。因此,扩展后的POI地址字段的分层参数为十二层,详见表2所示。根据表2所示的POI地址字段的十二层分层参数表,即可对所述POI数据对中两组POI原始数据的地址字段分别进行分词处理,从而获取组成所述POI数据对的地址字段的各分词所在的层数,上述组成所述POI数据对的地址字段的各分词所在的层数将用于判断所述POI数据对是否为重复数据的后续处理过程中。
步骤402:根据组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
具体地,利用设置的WordNet算法,根据步骤401中获取的组成所述POI数据对的名称字段的各分词所在的层数,计算所述POI数据对中两组POI原始数据的名称字段之间的相似度值;利用设置的WordNet算法,根据步骤401中获取的组成所述POI数据对的地址字段的各分词所在的层数,计算所述POI数据对中两组POI原始数据的地址字段之间的相似度值。
这里,所述设置的WordNet算法为:
其中,A和B分别表示所述POI数据对中两组POI原始数据的子字段,Dist(A,B)表示A与B之间的语义距离,即A与B之间的最短路径权重之和,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,即A与B处于相同父节点的不同的分支,SWordNet(A,B)表示A与B之间的相似度值。
这里,当A与B为名称字段时,A与B之间的不相同分词所处的层数越低,A与B之间的最短路径权重之和就越大,则A与B之间的相似度值就越小;所述A与B之间有共同的父节点是指A与B之间的不相同分词不仅都属于表1所示的POI名称字段的七层分层参数中的同一层,而且具有相同的上层分词;所述A与B属于同一分支是指A与B之间的不相同分词不仅分别属于表1所示的POI名称字段的七层分层参数中的相邻层,而且属于上述步骤401中POI名称字段的四层分层参数中的同一层或相邻层;所述A与B之间的不相同分词具有相同的上层分词可以理解为:A与B之间的不相同分词都是归属于同一个分词,该分词在POI名称字段的分层参数表中所属的层数比A与B之间的不相同分词所属的层数要低一层。假设,A与B之间的不相同分词分别为三明治和巧克力,都属于表1中的第3层,由于三明治和巧克力都是归属于面包甜点,且面包甜点属于表1中的第2层,因此,A与B之间的不相同分词具有相同的上层分词。
这里,当A与B为地址字段时,A与B之间的不相同分词所处的层数越低,A与B之间的最短路径权重之和就越大,则A与B之间的相似度值就越小;所述A与B之间有共同的父节点是指A与B之间的不相同分词不仅都属于表2所示的POI地址字段的十二层分层参数中的同一层,而且具有相同的上层分词;所述A与B属于同一分支是指A与B之间的不相同分词不仅分别属于表2所示的POI地址字段的十二层分层参数中的相邻层,而且属于上述步骤401中POI地址字段的四层分层参数中的同一层或相邻层;所述A与B之间的不相同分词具有相同的上层分词可以理解为:A与B之间的不相同分词都是归属于同一个分词,该分词在POI地址字段的分层参数表所属的层数比A与B之间的不相同分词所属的层数要低一层。假设,A与B之间的不相同分词分别为弥顿道和么地道,都属于表2中的第3层,由于弥顿道和么地道都是归属于行政区划为尖沙咀的街道,且尖沙咀属于表2中的第2层,因此,A与B之间的不相同分词具有相同的上层分词。
这里,所述计算所述POI数据对中两组POI原始数据的地址字段之间的相似度值,包括:计算所述POI数据对中两组POI原始数据的地址字段中行政区划信息之间的相似度值;计算所述POI数据对中两组POI原始数据的地址字段中街道信息之间的相似度值;计算所述POI数据对中两组POI原始数据的地址字段中大厦楼宇信息之间的相似度值;计算所述POI数据对中两组POI原始数据的地址字段中描述性信息之间的相似度值。因此,所述POI数据对中两组POI原始数据的地址字段之间的相似度值可以是通过统计分析上述相似度值而获取。假设POI数据对中两组POI原始数据的地址字段中行政区划信息之间、街道信息之间、大厦楼宇信息之间、描述性信息之间的相似度值分别为ee、ff、gg、hh,则所述POI数据对中两组POI原始数据的地址字段之间的相似度值为(ee+ff+gg+hh)-3。此外,所述POI数据对中两组POI原始数据的地址字段之间的相似度值也可以是通过直接计算组成所述POI数据对的地址字段的各分词所在的层数得出的。
步骤403:根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据。
这里,所述阈值包括第二临界值、第一阈值、第二阈值、第三阈值、第三临界值;其中,所述第二临界值和第一阈值用于评判所述POI数据对的名称字段之间的相似度值;所述第二阈值和第三阈值用于评判所述POI数据对的地址字段之间的相似度值;所述第三临界值用于评判所述POI数据对的地址字段中街道所在位置是否相同以及大厦楼宇所在位置是否相同。
具体地,当所述POI数据对的名称字段之间的相似度值等于所述设置的第二临界值时,判定所述POI数据对为重复数据;当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值且地址字段之间的相似度值大于等于所述设定阈值中的第二阈值时,判定所述POI数据对为重复数据;当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值、地址字段之间的相似度值大于等于所述设定阈值中的第三阈值且小于所述第二阈值时,判定所述POI数据对为疑似重复数据。
进一步的,当所述POI数据对被判定为疑似重复数据后,所述方法还包括:
获取所述POI数据对的地址字段中街道所在位置的坐标信息;根据所述POI数据对的地址字段中街道所在位置的坐标信息,计算所述POI数据对的地址字段中街道之间的距离值;当所述POI数据对的地址字段中街道之间的距离值等于设置的第三临界值时,判定所述POI数据对为重复数据。
具体地,分别获取所述POI数据对中两组POI原始数据的地址字段中街道所在位置的经纬度坐标;将所述POI数据对中两组POI原始数据的地址字段中街道所在位置的经纬度坐标转换为平面坐标;计算转换后所述POI数据对中两组POI原始数据的地址字段中街道所在位置的平面坐标之间的距离值;若所述街道所在位置的平面坐标之间的距离值等于所述第三临界值,则判定所述POI数据对为重复数据;若所述街道所在位置的平面坐标之间的距离值大于所述第三临界值,则判定所述POI数据对不是重复数据。
进一步的,当所述POI数据对被判定为疑似重复数据后,所述方法还包括:
获取所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息;根据所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息,计算所述POI数据对的地址字段中大厦楼宇之间的距离值;当所述POI数据对的地址字段中大厦楼宇之间的距离值等于设置的第三临界值时,判定所述POI数据对为重复数据。
具体地,分别获取所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的经纬度坐标;将所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的经纬度坐标转换为平面坐标;计算转换后所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的平面坐标之间的距离值;若所述大厦楼宇所在位置的平面坐标之间的距离值等于所述第三临界值,则判定所述POI数据对为重复数据;若所述大厦楼宇所在位置的平面坐标之间的距离值大于所述第三临界值时,则判定所述POI数据对不是重复数据。
这里,所述街道是指所述街道信息中所包含街道名称和/或街道号;所述大厦楼宇是指所述大厦楼宇信息中所包含的大厦楼宇名称、和/或大厦楼宇曾用名、和/或大厦楼宇别名、和/或大厦楼宇单元号。
这里,所述POI数据对中两组POI原始数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标可以利用谷歌地图geocoding接口生成;所述POI数据对中两组POI原始数据的地址字段中街道和/或大厦楼宇所在位置的平面坐标可以是通过将所述POI数据对中两组POI原始数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标导入设置的PostgreSQL数据库完成转换;所述第三临界值可以设置为一个非负数,本实施例中设置为0。
进一步的,当所述基础字段包括电话字段时,所述方法还包括:
获取所述POI数据对中两组POI原始数据的电话字段;根据电话字段中包含的分隔符,检测所述POI数据对中两组POI原始数据的电话字段中包含的电话条数;若所述POI数据对中两组POI原始数据的电话字段中包含的电话条数相同,且每两个电话都是对应相同的,则判定所述POI数据对为重复数据。
这里,所述每两个电话都是对应相同的是指所述POI数据对中的任意一组POI原始数据的电话字段中每个电话在另一组POI原始数据的电话字段中对应有一个相同的电话。
为实现上述方法,本发明实施例还提供了一种兴趣点数据重复识别装置,如图6所示,包括:第二分词单元31、第二计算单元32、识别单元33;其中,
所述第二分词单元31,用于根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;
这里,所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;所述子字段可以是名称字段、地址字段、电话字段中的一种或多种。
所述第二计算单元32,用于根据所述第二分词单元31获取的组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
所述识别单元33,用于根据所述第二计算单元32计算出的所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据。
这里,所述POI基础字段的分层参数可以是根据电子地图行业分类标准以及实际需求而设置的;当POI基础字段包含有不同子字段时,需要根据子字段的类型设置不同子字段所对应的分层参数,并依据所述设置的子字段所对应的分层参数对POI数据对的子字段进行分词处理,从而获取组成所述子字段的各分词所在的层数。
第0层 | 城市名称 |
第1层 | 数据所在大类 |
第2层 | 数据在大类中的小类 |
第3层 | 兴趣点名称 |
第4层 | 曾用名 |
第5层 | 别名 |
第6层 | 连锁店名称 |
表1
这里,对于POI名称字段,根据POI名称字段的一般组成部分,通常可将POI名称字段的分层参数划分为四层,分别为城市名称、数据所在类型、兴趣点名称、连锁店名称,此四层分层参数可完全反映出名称字段的属性特征。其中,所述数据所在类型是指POI名称在国民经济行业分类标准中所属的行业类别。此外,为进一步详细描述POI名称字段,还可对上述四层分层参数分别进行拓展。本实施例中,为实现对POI名称字段错误类型的精确定位,将POI名称字段的上述四层分层参数进行拓展,分别为:“数据所在类型”拓展为“数据所在大类”与“数据在大类中的小类”;“兴趣点名称”拓展为“兴趣点名称”、“曾用名”、“别名”。其中,“别名”为公众对某些POI数据中兴趣点名称的民间称呼,由用户搜索而来。因此,扩展后的POI名称字段的分层参数为七层,详见表1所示。根据表1所示的POI名称字段的分层参数表,即可对所述POI数据对中两组POI原始数据的名称字段分别进行分词处理,从而获取组成所述POI数据对的名称字段的各分词所在的层数。
第0层 | 城市名称 | 第6层 | 大厦楼宇曾用名 |
第1层 | 城市区域 | 第7层 | 大厦楼宇别名 |
第2层 | 行政区划 | 第8层 | 大厦楼宇单元号 |
第3层 | 街道名称 | 第9层 | 铺面号 |
第4层 | 街道号 | 第10层 | 楼层号 |
第5层 | 大厦楼宇名称 | 第11层 | 其他说明信息 |
表2
这里,对于POI地址字段,根据POI地址字段的一般组成部分,通常可将POI地址字段的分层参数划分为四层,分别为行政区划信息、街道信息、大厦楼宇信息、描述性信息,此四层分层参数可完全反映出地址字段的属性特征。其中,所述描述性信息是指POI地址字段中没有包含在所述行政区划信息、街道信息、大厦楼宇信息中的信息,即无法用所述行政区划信息、街道信息、大厦楼宇信息进行描述的信息。此外,为进一步详细描述POI地址字段,还可对上述四层分层参数分别进行拓展。本实施例中,为实现对POI地址字段错误类型的精确定位,将POI地址字段的上述四层分层参数进行拓展,分别为:“行政区划信息”拓展为“城市名称”、“城市区域”、“行政区划”;“街道信息”拓展为“街道名称”、“街道号”;“大厦楼宇信息”拓展为“大厦楼宇名称”、“大厦楼宇曾用名”、“大厦楼宇别名”、“大厦楼宇单元号”;“描述性信息”扩展为“铺面号”、“楼层号”、“其他说明信息”。其中,“大厦楼宇别名”为公众对某些POI数据中大厦楼宇的民间称呼,由用户搜索而来。因此,扩展后的POI地址字段的分层参数为十二层,详见表2所示。根据表2所示的POI地址字段的分层参数表,即可对所述POI数据对中两组POI原始数据的地址字段分别进行分词处理,从而获取组成所述POI数据对的地址字段的各分词所在的层数。
所述第二计算单元32,具体用于利用设置的WordNet算法,根据所述第二分词单元31中获取的组成所述POI数据对的名称字段的各分词所在的层数,计算所述POI数据对中两组POI原始数据的名称字段之间的相似度值;利用设置的WordNet算法,根据所述第二分词单元31中获取的组成所述POI数据对的地址字段的各分词所在的层数,计算所述POI数据对中两组POI原始数据的地址字段之间的相似度值。
这里,所述设置的WordNet算法为:
其中,A和B分别表示所述POI数据对中两组POI原始数据的子字段,Dist(A,B)表示A与B之间的语义距离,即A与B之间的最短路径权重之和,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,即A与B处于相同父节点的不同的分支,SWordNet(A,B)表示A与B之间的相似度值。
这里,当A与B为名称字段时,A与B之间的不相同分词所处的层数越低,A与B之间的最短路径权重之和就越大,则A与B之间的相似度值就越小;所述A与B之间有共同的父节点是指A与B之间的不相同分词不仅都属于表1所示的POI名称字段的七层分层参数中的同一层,而且具有相同的上层分词;所述A与B属于同一分支是指A与B之间的不相同分词不仅分别属于表1所示的POI名称字段的七层分层参数中的相邻层,而且属于POI名称字段的四层分层参数中的同一层或相邻层;所述A与B之间的不相同分词具有相同的上层分词是指A与B之间的不相同分词所属的类别都是同一个上层分词,且该上层分词在POI名称字段的七层分层参数表中所属的层数比所述A与B之间的不相同分词所属的层数要低一层。例如,A与B之间的不相同分词分别为三明治和巧克力,都属于表1中的第3层,由于三明治和巧克力所属的类别都是面包甜点,且面包甜点属于表1中的第2层,因此,A与B之间的不相同分词具有相同的上层分词。
这里,当A与B为地址字段时,A与B之间的不相同分词所处的层数越低,A与B之间的最短路径权重之和就越大,则A与B之间的相似度值就越小;所述A与B之间有共同的父节点是指A与B之间的不相同分词不仅都属于表2所示的POI地址字段的十二层分层参数中的同一层,而且具有相同的上层分词;所述A与B属于同一分支是指A与B之间的不相同分词不仅分别属于表2所示的POI地址字段的十二层分层参数中的相邻层,而且属于POI地址字段的四层分层参数中的同一层或相邻层;所述A与B之间的不相同分词具有相同的上层分词是指:A与B之间的不相同分词所属的类别都是同一个上层分词,该上层分词在POI地址字段的十二层分层参数表所属的层数比所述A与B之间的不相同分词所属的层数要低一层。例如,A与B之间的不相同分词分别为弥顿道和么地道,都属于表2中的第3层,由于弥顿道和么地道所属的类别都是尖沙咀,且尖沙咀属于表2中的第2层,因此,A与B之间的不相同分词具有相同的上层分词。
所述第二计算单元32,具体用于计算所述POI数据对中两组POI原始数据的地址字段之间的相似度值,包括:计算所述POI数据对中两组POI原始数据的地址字段中行政区划信息之间的相似度值;计算所述POI数据对中两组POI原始数据的地址字段中街道信息之间的相似度值;计算所述POI数据对中两组POI原始数据的地址字段中大厦楼宇信息之间的相似度值;计算所述POI数据对中两组POI原始数据的地址字段中描述性信息之间的相似度值。
这里,所述POI数据对中两组POI原始数据的地址字段之间的相似度值可以是通过统计分析上述相似度值而获取。例如,若POI数据对中两组POI原始数据的地址字段中行政区划信息之间、街道信息之间、大厦楼宇信息之间、描述性信息之间的相似度值分别为eee、fff、ggg、hhh,则所述POI数据对中两组POI原始数据的地址字段之间的相似度值为(eee+fff+ggg+hhh)-3。此外,所述POI数据对中两组POI原始数据的地址字段之间的相似度值也可以是根据组成所述POI数据对的地址字段的各分词所在的层数直接计算得出的。
这里,所述阈值包括第二临界值、第一阈值、第二阈值、第三阈值、第三临界值,可以是通过对以前获取的POI数据对进行统计分析后而设置的;其中,所述第二临界值和第一阈值用于评判所述POI数据对的名称字段之间的相似度值;所述第二阈值和第三阈值用于评判所述POI数据对的地址字段之间的相似度值;所述第三临界值用于评判所述POI数据对的地址字段中街道所在位置是否相同以及大厦楼宇所在位置是否相同。
所述识别单元33,具体用于当所述POI数据对的名称字段之间的相似度值等于所述设定阈值中的第二临界值时,判定所述POI数据对为重复数据;当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值且地址字段之间的相似度值大于等于所述设定阈值中的第二阈值时,判定所述POI数据对为重复数据;当所述POI数据对的名称字段之间的相似度值大于等于所述第一阈值、地址字段之间的相似度值大于等于所述设定阈值中的第三阈值且小于所述第二阈值时,判定所述POI数据对为疑似重复数据。
进一步的,所述装置还包括:第二获取单元34,用于当所述POI数据对被判定为疑似重复数据后,获取所述POI数据对的地址字段中街道所在位置的坐标信息;
所述第二计算单元32,还用于根据第二获取单元34获取的所述POI数据对的地址字段中街道所在位置的坐标信息,计算所述POI数据对的地址字段中街道之间的距离值;
所述识别单元33,还用于当第二计算单元32计算出所述POI数据对的地址字段中街道之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据。
其中,所述第二获取单元34,具体用于:获取所述POI数据对中两组POI原始数据的地址字段中街道所在位置的经纬度坐标;将所述POI数据对中两组POI原始数据的地址字段中街道所在位置的经纬度坐标转换为平面坐标;
所述第二计算单元32,具体用于:计算所述POI数据对中两组POI原始数据的地址字段中街道所在位置的平面坐标之间的距离值;
所述识别单元33,具体用于:当所述POI数据对中两组POI原始数据的地址字段中街道所在位置的平面坐标之间的距离值等于所述第三临界值时,判定所述POI数据对是重复数据;当所述POI数据对中两组POI原始数据的地址字段中街道所在位置的平面坐标之间的距离值大于所述第三临界值时,判定所述POI数据对不是重复数据。
进一步的,所述第二获取单元34,还用于当所述POI数据对被判定为疑似重复数据后,获取所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息;
所述第二计算单元32,还用于根据第二获取单元34获取的所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息,计算所述POI数据对的地址字段中大厦楼宇之间的距离值;
所述识别单元33,还用于当第二计算单元32计算出所述POI数据对的地址字段中大厦楼宇之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据。
其中,所述第二获取单元34,具体用于:获取所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的经纬度坐标;将所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的经纬度坐标转换为平面坐标;
所述第二计算单元32,具体用于:计算所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的平面坐标之间的距离值;
所述识别单元33,具体用于:当所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的平面坐标之间的距离值等于所述第三临界值时,判定所述POI数据对是重复数据;当所述POI数据对中两组POI原始数据的地址字段中大厦楼宇所在位置的平面坐标之间的距离值大于所述第三临界值时,判定所述POI数据对不是重复数据。
这里,所述街道是指所述街道信息中所包含的街道名称和/或街道号;所述大厦楼宇是指所述大厦楼宇信息中所包含的大厦楼宇名称、和/或大厦楼宇曾用名、和/或大厦楼宇别名、和/或大厦楼宇单元号。
这里,所述POI数据对中两组POI原始数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标可以利用谷歌地图geocoding接口生成;所述POI数据对中两组POI原始数据的地址字段中街道和/或大厦楼宇所在位置的平面坐标可以是通过将所述POI数据对中两组POI原始数据的地址字段中街道和/或大厦楼宇所在位置的经纬度坐标导入设置的PostgreSQL数据库完成转换;所述第三临界值可以设置为一个非负数,本实施例中设置为0。
进一步的,所述第二获取单元34,还用于获取所述POI数据对中两组POI原始数据的电话字段;
所述第二计算单元32,还用于根据电话字段中包含的分隔符,计算所述POI数据对中两组POI原始数据的电话字段中包含的电话条数;
所述识别单元33,还用于当所述POI数据对中两组POI原始数据的电话字段中包含的电话条数相同,且每两个电话都是对应相同时,判定所述POI数据对为重复数据。
这里,所述每两个电话都是对应相同是指所述POI数据对中的任意一组POI原始数据的电话字段中每个电话在另一组POI原始数据的电话字段中对应有一个相同的电话。
需要说明的是,在实际应用中,所述第二分词单元31、第二计算单元32、识别单元33、第二获取单元34均可由位于终端的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (16)
1.一种兴趣点数据错误类型定位方法,其特征在于,所述方法包括:
根据设置的兴趣点POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述基础字段包括至少一个子字段;
根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
2.根据权利要求1所述的方法,其特征在于,所述计算所述POI数据对的子字段之间的相似度值,包括:
其中,A表示所述POI原始数据的子字段,B表示所述POI数据的子字段,Dist(A,B)表示A与B之间的语义距离,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,SWordNet(A,B)表示A与B之间的相似度值。
3.根据权利要求1或2所述的方法,其特征在于,当所述基础字段包括地址字段时,所述计算所述POI数据对的子字段之间的相似度值,包括:
计算所述POI原始数据与POI数据的地址字段中行政区划信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中街道信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中描述性信息之间的相似度值。
4.根据权利要求3所述的方法,其特征在于,所述定位所述POI原始数据的子字段的错误类型,包括:
当所述POI原始数据与POI数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,判定所述POI原始数据的地址字段中行政区划信息错误;
当所述POI原始数据与POI数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,判定所述POI原始数据的地址字段中描述性信息错误;
当所述POI原始数据与POI数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,判定所述POI原始数据的地址字段中街道信息疑似错误;
当所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误。
5.根据权利要求4所述的方法,其特征在于,当所述POI原始数据的地址字段中街道信息和/或大厦楼宇信息被判定为疑似错误时,所述方法还包括:
获取所述POI原始数据与POI数据的地址字段中街道所在位置的坐标信息;根据所述街道所在位置的坐标信息,计算所述POI原始数据与POI数据的地址字段中街道之间的距离值;当所述POI原始数据与POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中街道信息错误;
和/或,
获取所述POI原始数据与POI数据的地址字段中大厦楼宇所在位置的坐标信息;根据所述大厦楼宇所在位置的坐标信息,计算所述POI原始数据与POI数据的地址字段中大厦楼宇之间的距离值;当所述POI原始数据与POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中大厦楼宇信息错误。
6.一种兴趣点数据错误类型定位装置,其特征在于,所述装置包括:第一分词单元、第一计算单元、定位单元;其中,
所述第一分词单元,用于根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对包括用户输入的POI数据和与所述用户输入的POI数据对应的POI原始数据;所述POI基础字段包括至少一个子字段;
所述第一计算单元,用于根据所述组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
所述定位单元,用于根据设置的子字段不同错误类型所对应的错误阈值,判定所述POI数据对的子字段之间的相似度值属于所述错误阈值时,定位所述POI原始数据的子字段的错误类型。
7.根据权利要求6所述的装置,其特征在于,当所述基础字段包括地址字段时,所述第一计算单元具体用于计算所述POI数据对的子字段之间的相似度值,包括:
计算所述POI原始数据与所述POI数据的地址字段中行政区划信息之间的相似度值;
计算所述POI原始数据与所述POI数据的地址字段中街道信息之间的相似度值;
计算所述POI原始数据与POI数据的地址字段中大厦楼宇信息之间的相似度值;
计算所述POI原始数据与所述POI数据的地址字段中描述性信息之间的相似度值。
8.根据权利要求7所述的装置,其特征在于,所述定位单元具体用于定位所述POI原始数据的子字段的错误类型,包括:
当所述POI原始数据与所述POI数据的地址字段中行政区划信息之间的相似度值属于行政区划信息错误阈值时,判定所述POI原始数据的地址字段中行政区划信息错误;
当所述POI原始数据与所述POI数据的地址字段中描述性信息之间的相似度值属于描述性信息错误阈值时,判定所述POI原始数据的地址字段中描述性信息错误;
当所述POI原始数据与所述POI数据的地址字段中街道信息之间的相似度值属于街道信息错误阈值时,判定所述POI原始数据的地址字段中街道信息疑似错误;
当所述POI原始数据与所述POI数据的地址字段中大厦楼宇信息之间的相似度值属于大厦楼宇信息错误阈值时,判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:第一获取单元,用于当所述定位单元判定所述POI原始数据的地址字段中街道信息疑似错误时,获取所述POI原始数据与所述POI数据的地址字段中街道所在位置的坐标信息;和/或,当所述定位单元判定所述POI原始数据的地址字段中大厦楼宇信息疑似错误时,获取所述POI原始数据与所述POI数据的地址字段中大厦楼宇所在位置的坐标信息;
所述第一计算单元,还用于根据所述街道所在位置的坐标信息,计算所述POI原始数据与所述POI数据的地址字段中街道之间的距离值;和/或,根据所述大厦楼宇所在位置的坐标信息,计算所述POI原始数据与所述POI数据的地址字段中大厦楼宇之间的距离值;
所述定位单元,还用于当所述POI原始数据与所述POI数据的地址字段中街道之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中街道信息错误;和/或,当所述POI原始数据与所述POI数据的地址字段中大厦楼宇之间的距离值大于设置的第一临界值时,判定所述POI原始数据的地址字段中大厦楼宇信息错误。
10.一种兴趣点数据重复识别方法,其特征在于,所述方法包括:
根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;
根据组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据。
11.根据权利要求10所述的方法,其特征在于,当所述基础字段包括名称字段和地址字段时,所述根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据,包括:
当所述POI数据对的名称字段之间的相似度值等于所述设定阈值中的第二临界值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值且地址字段之间的相似度值大于等于所述设定阈值中的第二阈值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值、地址字段之间的相似度值大于等于所述设定阈值中的第三阈值且小于所述第二阈值时,判定所述POI数据对为疑似重复数据。
12.权利要求11所述的方法,其特征在于,所述判定所述POI数据对为疑似重复数据后,所述方法还包括:
获取所述POI数据对的地址字段中街道所在位置的坐标信息;根据所述POI数据对的地址字段中街道所在位置的坐标信息,计算所述POI数据对的地址字段中街道之间的距离值;当所述POI数据对的地址字段中街道之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据;
和/或,
获取所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息;根据所述POI数据对的地址字段中大厦楼宇所在位置的坐标信息,计算所述POI数据对的地址字段中大厦楼宇之间的距离值;当所述POI数据对的地址字段中大厦楼宇之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据。
13.根据权利要求10至12任一项所述的方法,其特征在于,所述计算所述POI数据对的子字段之间的相似度值,包括:
其中,A和B分别表示所述POI数据对中两组POI原始数据的子字段,Dist(A,B)表示A与B之间的语义距离,I表示A与B之间的不相同分词所处的层数,Cist(A,B)表示A与B之间路径的计算方法,rcw(A,B)表示A与B的父节点,SWordNet(A,B)表示A与B之间的相似度值。
14.一种兴趣点数据重复识别装置,其特征在于,所述装置包括:第二分词单元、第二计算单元、识别单元;其中,
所述第二分词单元,用于根据设置的POI基础字段的分层参数,对POI数据对的基础字段进行分词处理,并获取组成所述基础字段的各分词所在的层数;所述POI数据对为POI原始数据集中的任意两组POI原始数据;所述基础字段包括至少一个子字段;
所述第二计算单元,用于根据组成所述子字段的各分词所在的层数,计算所述POI数据对的子字段之间的相似度值;
所述识别单元,用于根据所述POI数据对的子字段之间的相似度值与设定阈值之间的关系,判定所述POI数据对是否为重复数据。
15.根据权利要求14所述的装置,其特征在于,当所述基础字段包括名称字段和地址字段时,所述识别单元具体用于:
当所述POI数据对的名称字段之间的相似度值等于所述设定阈值中的第二临界值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值且地址字段之间的相似度值大于等于所述设定阈值中的第二阈值时,判定所述POI数据对为重复数据;
当所述POI数据对的名称字段之间的相似度值大于等于所述设定阈值中的第一阈值、地址字段之间的相似度值大于等于所述设定阈值中的第三阈值且小于所述第二阈值时,判定所述POI数据对为疑似重复数据。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:第二获取单元,用于当所述识别单元判定所述POI数据对为疑似重复数据后,获取所述POI数据对的地址字段中街道所在位置和/或大厦楼宇所在位置的坐标信息;
所述第二计算单元,还用于根据所述POI数据对的地址字段中街道所在位置的坐标信息,计算所述POI数据对的地址字段中街道之间的距离值;和/或,根据所述大厦楼宇所在位置的坐标信息,计算所述POI数据对的地址字段中大厦楼宇之间的距离值;
所述识别单元,还用于当所述POI数据对的地址字段中街道之间和/或大厦楼宇之间的距离值等于所述设定阈值中的第三临界值时,判定所述POI数据对为重复数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610309083.1A CN107368480B (zh) | 2016-05-11 | 2016-05-11 | 一种兴趣点数据错误类型定位、重复识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610309083.1A CN107368480B (zh) | 2016-05-11 | 2016-05-11 | 一种兴趣点数据错误类型定位、重复识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107368480A true CN107368480A (zh) | 2017-11-21 |
CN107368480B CN107368480B (zh) | 2021-05-04 |
Family
ID=60303941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610309083.1A Active CN107368480B (zh) | 2016-05-11 | 2016-05-11 | 一种兴趣点数据错误类型定位、重复识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368480B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763363A (zh) * | 2018-05-17 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种检验待写入记录的方法及装置 |
CN110309433A (zh) * | 2018-06-14 | 2019-10-08 | 腾讯大地通途(北京)科技有限公司 | 一种数据处理方法、装置及服务器 |
CN110414508A (zh) * | 2019-07-24 | 2019-11-05 | 北京百度网讯科技有限公司 | 一种兴趣点数据处理方法、装置、服务器和介质 |
CN110457705A (zh) * | 2019-08-14 | 2019-11-15 | 百度在线网络技术(北京)有限公司 | 一种兴趣点数据处理方法、装置、设备和存储介质 |
CN110543593A (zh) * | 2019-08-01 | 2019-12-06 | 北京三快在线科技有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
WO2020228706A1 (zh) * | 2019-05-15 | 2020-11-19 | 腾讯科技(深圳)有限公司 | 基于围栏地址的坐标数据处理方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103457975A (zh) * | 2012-06-01 | 2013-12-18 | 腾讯科技(深圳)有限公司 | 获取地图兴趣点评价数据的方法和装置 |
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
US20140301645A1 (en) * | 2013-04-03 | 2014-10-09 | Nokia Corporation | Method and apparatus for mapping a point of interest based on user-captured images |
CN104866542A (zh) * | 2015-05-05 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 一种poi数据验证方法和装置 |
CN105160031A (zh) * | 2015-09-30 | 2015-12-16 | 北京奇虎科技有限公司 | 一种地图兴趣点poi数据的挖掘方法和装置 |
-
2016
- 2016-05-11 CN CN201610309083.1A patent/CN107368480B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103457975A (zh) * | 2012-06-01 | 2013-12-18 | 腾讯科技(深圳)有限公司 | 获取地图兴趣点评价数据的方法和装置 |
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
US20140301645A1 (en) * | 2013-04-03 | 2014-10-09 | Nokia Corporation | Method and apparatus for mapping a point of interest based on user-captured images |
CN104866542A (zh) * | 2015-05-05 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 一种poi数据验证方法和装置 |
CN105160031A (zh) * | 2015-09-30 | 2015-12-16 | 北京奇虎科技有限公司 | 一种地图兴趣点poi数据的挖掘方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763363A (zh) * | 2018-05-17 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种检验待写入记录的方法及装置 |
CN108763363B (zh) * | 2018-05-17 | 2022-02-18 | 创新先进技术有限公司 | 一种检验待写入记录的方法及装置 |
CN110309433A (zh) * | 2018-06-14 | 2019-10-08 | 腾讯大地通途(北京)科技有限公司 | 一种数据处理方法、装置及服务器 |
WO2020228706A1 (zh) * | 2019-05-15 | 2020-11-19 | 腾讯科技(深圳)有限公司 | 基于围栏地址的坐标数据处理方法、装置和计算机设备 |
CN110414508A (zh) * | 2019-07-24 | 2019-11-05 | 北京百度网讯科技有限公司 | 一种兴趣点数据处理方法、装置、服务器和介质 |
CN110543593A (zh) * | 2019-08-01 | 2019-12-06 | 北京三快在线科技有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN110543593B (zh) * | 2019-08-01 | 2021-04-09 | 北京三快在线科技有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN110457705A (zh) * | 2019-08-14 | 2019-11-15 | 百度在线网络技术(北京)有限公司 | 一种兴趣点数据处理方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107368480B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368480A (zh) | 一种兴趣点数据错误类型定位、重复识别方法及装置 | |
CN104050196B (zh) | 一种兴趣点数据冗余检测方法及装置 | |
WO2020228706A1 (zh) | 基于围栏地址的坐标数据处理方法、装置和计算机设备 | |
CN109327841B (zh) | 基于覆盖、价值关联的多维评定及精准建设评估方法 | |
CN104182517B (zh) | 数据处理的方法及装置 | |
TWI623842B (zh) | Image search and method and device for acquiring image text information | |
US20190333177A1 (en) | Method for defining metropolitan area based on regional inter-city flow intensity measurement model | |
CN105069047B (zh) | 一种地理信息的检索方法及装置 | |
CN110020433B (zh) | 一种基于企业关联关系的工商高管人名消歧方法 | |
CN109947881B (zh) | 一种poi判重方法、装置、移动终端及计算机可读存储介质 | |
CN105606110B (zh) | 基于深度优先遍历的可达路径的查找方法与装置 | |
CN109284446A (zh) | 一种poi信息融合方法 | |
CN109992638A (zh) | 地理位置poi的生成方法、装置、电子设备和存储介质 | |
CN105608113B (zh) | 判断文本中poi数据的方法及装置 | |
CN110413855B (zh) | 一种基于出租车下客点的区域出入口动态提取方法 | |
CN110347777A (zh) | 一种兴趣点poi的分类方法、装置、服务器及存储介质 | |
CN104881472A (zh) | 一种基于网络数据收集的旅游线路景点组合推荐方法 | |
CN111782741A (zh) | 兴趣点挖掘方法、装置、电子设备及存储介质 | |
CN106503108A (zh) | 地理位置检索方法和装置 | |
CN114708521A (zh) | 基于街景图像目标关系感知网络的城市功能区识别方法及系统 | |
CN114881814A (zh) | 一种自然资源综合调查技术方法 | |
CN105740901B (zh) | 基于地理本体的变尺度面向对象遥感分类矫正方法 | |
Yan et al. | Identification of secondary functional areas and functional structure analysis based on multisource geographic data | |
CN107341558A (zh) | 共乘路径的计算方法及使用此方法的计算装置与记录媒体 | |
CN105426387A (zh) | 一种基于K-means算法的地图聚合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |