CN104572645B - 兴趣点数据关联方法及装置 - Google Patents
兴趣点数据关联方法及装置 Download PDFInfo
- Publication number
- CN104572645B CN104572645B CN201310472877.6A CN201310472877A CN104572645B CN 104572645 B CN104572645 B CN 104572645B CN 201310472877 A CN201310472877 A CN 201310472877A CN 104572645 B CN104572645 B CN 104572645B
- Authority
- CN
- China
- Prior art keywords
- poi data
- similarity
- target
- data
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Abstract
本发明公开了一种兴趣点数据关联方法及装置,该方法包括:将待关联兴趣点POI数据的名称进行分词处理,得到组成所述名称的分词;对各分词进行角色标注,得到各分词的角色类型;按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词;从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据;从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。采用本发明技术方案,解决了现有技术中POI数据关联的处理效率非常低的问题。
Description
技术领域
本发明涉及地理信息技术领域,尤其涉及一种兴趣点数据关联方法及装置。
背景技术
在地理信息系统(Geographic Information System,GIS)中,兴趣点(Point OfInterest,POI)通常指可以被人所关注的地点,每个生产POI数据的厂商都会建立自己的POI数据库,POI数据库中存储有海量的POI数据,每条POI数据包含POI各方面的信息,例如名称、类型、地址、地理坐标、行政区划码等。
随着POI数据业务的发展,各生产POI数据的厂商之间可能相互合作,合作方式包括:将多个不同厂商的POI数据库中的POI数据进行融合,以为用户提供更好的POI数据。由于多个厂商的POI数据库中存在关联的POI数据,也就是描述同一POI的POI数据,因此,POI数据关联是POI数据融合流程中的一个重要的环节,其直接影响向用户提供的POI数据的质量。POI数据关联通常指在需要进行数据融合的POI数据库中,查找相关联的POI数据,例如,若需要将POI数据库1中的数据与POI数据库2中的数据进行融合,则在进行POI数据关联时,针对POI数据库1中的各POI数据,分别在POI数据库2中查找相关联的POI数据,其中,POI数据库1称为待关联POI数据库,POI数据库1中的各POI数据称为待关联POI数据,POI数据库2称为目标POI数据库,POI数据库2中的各POI数据称为目标POI数据。
如图1所示,为现有技术中的POI数据关联方法流程图,其具体处理过程如下:
步骤11,使用通用词库,对待关联POI数据的名称进行分词处理,得到组成名称的各分词。
步骤12,获得各分词的权重值;在实际应用,权重值的一种计算方式是,在通用词库中获取该分词在语料中出现的次数,然后计算次数与通用词库中分词总量的比值,得到该分词的权重值。
步骤13,将各分词中权重值最大的分词作为搜索关键词,在目标POI数据库中进行初步筛选,查询出名称包含该搜索关键词的目标POI数据。
步骤14,计算待关联POI数据和各目标POI数据之间的地理距离。
步骤15,将待关联POI数据的类型和各目标POI数据的类型进行匹配,以及将待关联POI数据的地址和各目标POI数据的地址进行匹配。
步骤16,在类型匹配成功且地址匹配成功的各目标POI数据中,将和待关联POI数据之间的地理距离最小的目标POI数据,确认为与待关联POI数据关联的POI数据。
由上可见,在上述POI数据关联过程中,首先根据搜索关键词进行目标POI数据的初步筛选,然后在筛选出的目标POI数据中进一步查找关联的POI数据,因此搜索关键词的选取非常重要,其直接影响初步筛选的结果,如果搜索关键词选取合理,则根据搜索关键词就会筛选出与待关联POI数据非常相关的少量的目标POI数据,那么就会大大节省后续查找关联的POI数据的工作量,相反,如果搜索关键词选取不合理,则根据搜索关键词就会筛选出海量的目标POI数据,那么就会使得后续查找关联的POI数据的工作量非常大,影响了POI数据关联的处理效率。现有技术进行POI数据关联时,根据各分词的权重值来选取搜索关键词,由于分词的权重值是由通用词库的规模以及构造方式决定,因此极易出现搜索关键词选取不合理的情况,例如,待关联POI数据的名称为“北京方恒假日酒店”,对“北京方恒假日酒店”进行分词得到的各分词中,“酒店”这一分词的权重值最大,而将“酒店”作为搜索关键词进行目标POI数据的初步筛选,搜索出的目标POI数据的数量非常多,后续就需要从海量的目标POI数据中进一步查找关联的POI数据,从而造成POI数据关联的处理效率非常低。
发明内容
本发明实施例提供一种兴趣点信息关联方法及装置,用以解决现有技术中POI数据关联的处理效率非常低的问题。
本发明实施例提供如下技术方案:
本发明实施例提供一种兴趣点信息关联方法,包括:将待关联兴趣点POI数据的名称进行分词处理,得到组成所述名称的分词;对各分词进行角色标注,得到各分词的角色类型;按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词;从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据;从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
由上述技术方案可知,本发明实施例提出的POI数据关联方法中,不再根据各分词的权重值选取搜索关键词,而是预先设置能够反映待关联POI数据的名称的个性化特点的角色类型,在将待关联POI数据的名称划分为各分词后,按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词,再根据选取的搜索关键词进行目标POI数据的初步筛选,由于选取为搜索关键词的分词最能够反映待关联POI数据的名称的个性化特点,因此通过搜索关键词初步筛选出的目标POI数据与待关联POI数据非常相关,因此数量较少,从而大大节省了在初步筛选出的目标POI数据中进一步查找关联的POI数据的工作量,有效地提高了POI数据关联的处理效率。
优选的,从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,所述方法进一步包括:从获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联POI数据的行政区划码相同的目标POI数据;所述从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据具体为:从获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。由上可见,根据行政区划码,对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,能够进一步节省查找关联的POI数据的工作量,提高POI数据关联的处理效率。
优选的,从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,所述方法进一步包括:基于向量空间模型,确定所述搜索关键词与获取到的各目标POI数据之间的文本匹配度;按照文本匹配度由大到小的顺序,对获取到的各目标POI数据进行排序;在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数目个目标POI数据;所述从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据具体为:从获取到的预置数目个目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。由上可见,根据文本匹配度,对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,能够进一步节省查找关联的POI数据的工作量,提高POI数据关联的处理效率。
优选的,所述预设的角色类型包含:行政区划、主名称、特定品牌名称、修饰词、行业词、后缀词;所述按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词具体包括:当存在角色类型为主名称的分词时,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束流程;否则,当不存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词作为搜索关键词;当存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词。在POI数据的名称对应的各分词中,角色类型为主名称的分词往往最能反映POI数据的名称的个性化特点,因此,当存在角色类型为主名称的分词时,将角色类型为主名称的分词作为搜索关键词能够使得通过搜索关键词初步筛选出的目标POI数据与待关联POI数据非常相关,从而大大节省了进一步查找关联的POI数据的工作量,有效地提高了POI数据关联的处理效率。
优选的,所述确定与所述待关联POI数据关联的目标POI数据具体包括:根据待关联POI数据与各获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度;根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据。由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据待关联POI数据与目标POI数据的各属性信息确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
优选的,若POI数据的属性包含名称、类型、地址、地理坐标,则所述根据待关联POI数据与获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度,具体包括:根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度;根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度;根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度;根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离;根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度。由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据类型相似度、地址相似度、名称相似度以及地理距离确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
优选的,若所述类型包括大类、中类及小类三个字段,则所述根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度具体包括:判断待关联POI数据中是否存在类型这一属性信息,如果不存在,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类相似度,如果存在,则判断待关联POI数据与目标POI数据的类型中的大类是否相同,如果大类不相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的联合相似度,如果大类相同,则判断二者类型中的中类是否相同,如果中类不同或者中类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的大类权值,如果中类相同,则判断二者类型中的小类是否相同,如果小类不同或者小类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类权值,如果小类相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值,其中,所述预置的大类权值<中类权值<小类权值,所述中类相似度的绝对值与所述中类权值的绝对值相等。
优选的,所述根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度,具体包括:若所述待关联POI数据的地址及地理坐标均为已知,则根据待关联POI数据的地址与该目标POI数据的地址,确定第一地址相似度;对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,确定第二地址相似度;从所述第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度;若所述待关联POI数据中地址为未知,地理坐标为已知,则对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度;若所述待关联POI数据中地址为已知,地理坐标为未知,则根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度。由上可见,将上述第一地址相似度和第二地址相似度中较大的相似度作为最终的地址相似度,可以避免待关联信息的地址存在误差,导致根据地址确定出的地址相似度存在较大误差的情况,从而进一步提高了POI数据关联的关联精度。
优选的,所述地址至少包括:道路名称和门牌号两个字段,则所述根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度,具体包括:判断待关联POI数据与目标POI数据的地址中的道路名称是否相同,如果不相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的地址相似度值,如果相同,则判断二者地址中的门牌是否相同,如果不同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的道路名称权值,如果相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的门牌权值,其中,所述道路名称权值<门牌权值。
优选的,根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度,具体包括:从待关联POI数据的名称的分词中,获取与目标POI数据的名称的分词相同的分词;将获取出的分词的角色类型对应的权值累加,得到待关联POI数据与该目标POI数据的名称相似度;若未获取到相同的分词,则待关联POI数据与该目标POI数据的名称相似度等于预置的名称相似度值。由上可见,根据待关联POI数据的名称对应的各分词的角色类型确定待关联POI数据与目标POI数据之间的名称相似度,那么确定出的名称相似度就能够表征待关联POI数据的名称中,各个组成部分对POI相似度的贡献,提高了POI数据关联的关联精度。
优选的,根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离,具体包括:若所述待关联POI数据的地理坐标和地址均为已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到第一地理距离;对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离;从所述第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离;若所述目标POI数据的地址已知,地理坐标未知,则对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离;若所述目标POI数据的地址未知,地理坐标已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离。由上可见,将上述第一地理距离和第二地理距离中较小的地理距离作为最终的地理距离,可以避免待关联POI数据的地理坐标存在误差,导致根据地理坐标确定出的地理距离存在较大误差的情况,从而进一步提高了POI数据关联的关联精度。
优选的,根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度,具体包括:将所述类型相似度、地址相似度、名称相似度累加,得到第一联合相似度;根据预置的地理距离范围与相似度调整值的对应关系,得到所述地理距离所在的地理距离范围对应的相似度调整值;将所述第一联合相似度与所述相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据类型相似度、地址相似度、名称相似度以及地理距离确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
优选的,所述根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据具体包括:将各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序;根据预置的POI相似度范围与关联精度等级的对应关系,得到各目标POI数据的POI相似度所在的POI相似度范围对应的关联精度等级,其中,关联精度等级包含高精度关联、较高精度关联、中等精度关联和不关联;判断是否存在关联精度等级为高精度关联的目标POI数据,如果存在,则将关联精度等级为高精度关联的目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标POI数据,如果存在,则将关联精度等级为较高精度关联的各目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为中等精度关联的目标POI数据,如果存在,则返回关联精度等级为中等精度关联的各目标POI数据,如果不存在,则结束流程。
本发明实施例还提供一种兴趣点信息关联装置,包括:分词处理单元,用于将待关联兴趣点POI数据的名称进行分词处理,得到组成所述名称的分词;角色标注单元,用于对各分词进行角色标注,得到各分词的角色类型;搜索关键词选择单元,用于按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词;第一数据获取单元,用于从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据;数据确定单元,用于从第一数据获取单元获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
由上述技术方案可知,本发明实施例不再根据各分词的权重值选取搜索关键词,而是预先设置能够反映待关联POI数据的名称的个性化特点的角色类型,在将待关联POI数据的名称划分为各分词后,按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词,再根据选取的搜索关键词进行目标POI数据的初步筛选,由于选取为搜索关键词的分词最能够反映待关联POI数据的名称的个性化特点,因此通过搜索关键词初步筛选出的目标POI数据与待关联POI数据非常相关,因此数量较少,从而大大节省了在初步筛选出的目标POI数据中进一步查找关联的POI数据的工作量,有效地提高了POI数据关联的处理效率。
优选的,所述装置还包括:第二数据获取单元,用于在数据确定单元从第一数据获取单元获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,从第一数据获取单元获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联POI数据的行政区划码相同的目标POI数据;所述数据确定单元,具体用于从第二数据获取单元获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。由上可见,根据行政区划码,对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,能够进一步节省查找关联的POI数据的工作量,提高POI数据关联的处理效率。
优选的,所述装置还包括:文本匹配度确定单元,用于在数据确定单元从第一数据获取单元获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,基于向量空间模型,确定所述搜索关键词与第一数据获取单元获取到的各目标POI数据之间的文本匹配度;数据排序单元,用于按照文本匹配度由大到小的顺序,对第一数据获取单元获取到的各目标POI数据进行排序;第三数据获取单元,用于在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数目个目标POI数据;所述数据确定单元,具体用于从第三数据获取单元获取到的预置数目个目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。由上可见,根据文本匹配度,对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,能够进一步节省查找关联的POI数据的工作量,提高POI数据关联的处理效率。
优选的,所述预设的角色类型包含:行政区划、主名称、特定品牌名称、修饰词、行业词、后缀词;所述搜索关键词选择单元,具体用于:当存在角色类型为主名称的分词时,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束流程;否则,当不存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词作为搜索关键词;当存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词。在POI数据的名称对应的各分词中,角色类型为主名称的分词往往最能反映POI数据的名称的个性化特点,因此,当存在角色类型为主名称的分词时,将角色类型为主名称的分词作为搜索关键词能够使得通过搜索关键词初步筛选出的目标POI数据与待关联POI数据非常相关,从而大大节省了进一步查找关联的POI数据的工作量,有效地提高了POI数据关联的处理效率。
优选的,所述数据确定单元具体包括:相似度确定子单元,用于根据待关联POI数据与各获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度;数据确定子单元,用于根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据。由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据待关联POI数据与目标POI数据的各属性信息确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
优选的,若POI数据的属性包含名称、类型、地址、地理坐标,则所述相似度确定子单元具体包括:类型相似度确定模块,用于根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度;地址相似度确定模块,用于根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度;名称相似度确定模块,用于根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度;地理距离确定模块,用于根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离;POI相似度确定模块,用于根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度。由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据类型相似度、地址相似度、名称相似度以及地理距离确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
优选的,若所述类型包括大类、中类及小类三个字段,则所述类型相似度确定模块具体用于:判断待关联POI数据中是否存在类型这一属性信息,如果不存在,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类相似度,如果存在,则判断待关联POI数据与目标POI数据的类型中的大类是否相同,如果大类不相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的联合相似度,如果大类相同,则判断二者类型中的中类是否相同,如果中类不同或者中类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的大类权值,如果中类相同,则判断二者类型中的小类是否相同,如果小类不同或者小类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类权值,如果小类相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值,其中,所述预置的大类权值<中类权值<小类权值,所述中类相似度的绝对值与所述中类权值的绝对值相等。
优选的,所述地址相似度确定模块具体用于:若所述待关联POI数据的地址及地理坐标均为已知,则根据待关联POI数据的地址与该目标POI数据的地址,确定第一地址相似度;对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,确定第二地址相似度;从所述第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度;若所述待关联POI数据中地址为未知,地理坐标为已知,则对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度;若所述待关联POI数据中地址为已知,地理坐标为未知,则根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度。由上可见,将上述第一地址相似度和第二地址相似度中较大的相似度作为最终的地址相似度,可以避免待关联信息的地址存在误差,导致根据地址确定出的地址相似度存在较大误差的情况,从而进一步提高了POI数据关联的关联精度。
优选的,所述地址至少包括:道路名称和门牌号两个字段,则所述地址相似度确定模块具体用于:判断待关联POI数据与目标POI数据的地址中的道路名称是否相同,如果不相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的地址相似度值,如果相同,则判断二者地址中的门牌是否相同,如果不同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的道路名称权值,如果相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的门牌权值,其中,所述道路名称权值<门牌权值。
优选的,所述名称相似度确定模块,具体用于从待关联POI数据的名称的分词中,获取与目标POI数据的名称的分词相同的分词;将获取出的分词的角色类型对应的权值累加,得到待关联POI数据与该目标POI数据的名称相似度;若未获取到相同的分词,则待关联POI数据与该目标POI数据的名称相似度等于预置的名称相似度值。由上可见,根据待关联POI数据的名称对应的各分词的角色类型确定待关联POI数据与目标POI数据之间的名称相似度,那么确定出的名称相似度就能够表征待关联POI数据的名称中,各个组成部分对POI相似度的贡献,提高了POI数据关联的关联精度。
优选的,所述地理距离确定模块具体用于:若所述待关联POI数据的地理坐标和地址均为已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到第一地理距离;对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离;从所述第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离;若所述目标POI数据的地址已知,地理坐标未知,则对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离;若所述目标POI数据的地址未知,地理坐标已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离。由上可见,将上述第一地理距离和第二地理距离中较小的地理距离作为最终的地理距离,可以避免待关联POI数据的地理坐标存在误差,导致根据地理坐标确定出的地理距离存在较大误差的情况,从而进一步提高了POI数据关联的关联精度。
优选的,所述POI相似度确定模块,具体用于将所述类型相似度、地址相似度、名称相似度累加,得到第一联合相似度;根据预置的地理距离范围与相似度调整值的对应关系,得到所述地理距离所在的地理距离范围对应的相似度调整值;将所述第一联合相似度与所述相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据类型相似度、地址相似度、名称相似度以及地理距离确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
优选的,所述数据确定单元具体用于:将各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序;根据预置的POI相似度范围与关联精度等级的对应关系,得到各目标POI数据的POI相似度所在的POI相似度范围对应的关联精度等级,其中,关联精度等级包含高精度关联、较高精度关联、中等精度关联和不关联;判断是否存在关联精度等级为高精度关联的目标POI数据,如果存在,则将关联精度等级为高精度关联的目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标POI数据,如果存在,则将关联精度等级为较高精度关联的各目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为中等精度关联的目标POI数据,如果存在,则返回关联精度等级为中等精度关联的各目标POI数据,如果不存在,则结束流程。
附图说明
图1为现有技术中,POI数据关联方法流程示意图;
图2为本发明实施例一中,POI数据关联方法流程示意图;
图3为本发明实施例二中,从获取到的目标POI数据中,确定与待关联POI数据关联的目标POI数据的流程示意图;
图4为本发明实施例二中,确定待关联POI数据与各获取到的目标POI数据的POI相似度的流程示意图;
图5为本发明实施例四中,POI数据关联装置结构示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
实施例一
如图2所示,为本发明实施例一提出的POI数据关联方法流程图,其具体处理过程如下:
步骤21,将待关联POI数据的名称进行分词处理,得到组成所述名称的分词。
POI数据库中保存的POI数据包含多个属性信息,分别为:名称、类型、地址、地理坐标、行政区划码等,其中,名称和地址为文本信息,地理坐标为经纬度信息,类型和行政区划码为编码信息。
若需要将待关联POI数据库与目标POI数据库进行数据融合,则预先将待关联POI数据库中的各待关联POI数据进行预处理,然后针对各待关联POI数据,分别在目标POI数据库中查找关联的目标POI数据。其中,对待关联POI数据进行预处理的过程具体包括:针对各待关联POI数据的名称和地址进行规范化处理,例如去除括号、去除空格、去除标点符号、大小写字母的转换、全角半角的转换、简体繁体的转换、数字格式的转换等,将各待关联POI数据的地理坐标进行纠偏处理,若待关联POI数据的类型为文本信息,则将该文本信息转换为编码信息。
在目标POI数据库中查找与待关联POI数据关联的目标POI数据时,首先需要将待关联POI数据的名称进行分词处理,本发明实施例一提出,可以使用通用词库,将待关联POI数据的名称进行分词处理,但是这样可能出现分词不合理的情况,例如,待关联POI数据的名称为“青岛福泰汽车销售有限公司”,使用通用词库进行分词处理后得到下述6个分词:“青岛”、“福”、“泰”、“汽车”、“销售”、“有限公司”,而“福泰”为待关联POI数据的名称中的主名称,应划分为一个分词,因此可见,使用通用词库进行分词处理极易导致分词不合理的情况。
对此,本发明实施例一提出,预先根据目标POI数据库中各目标POI数据的名称,建立POI名称核心分词词库,那么后续就可以使用该POI名称核心分词词库,将待关联POI数据的名称进行分词处理。
在建立POI名称核心分词词库时,可以先从目标POI数据库中提取出n条POI数据,由工作人员对提取出的n条目标POI数据的名称进行分词处理,建立分词处理模型,对人工分词处理得到的各分词进行学习,然后通过分词处理模型,将目标POI数据库中的其他目标POI数据的名称进行分词处理,最终得到POI名称核心分词词库。此外,在得到POI名称核心分词词库后,工作人员也可以对照各目标POI数据的名称,对通过分词处理模型进行分词处理得到的各分词进行校正。
由于建立的POI名称核心分词词库中的各分词是从目标POI数据库中各目标POI数据的名称中提取出的,因此使用POI名称核心分词词库将待关联POI数据的名称进行分词处理,就能够避免现有技术中出现的分词不合理的情况。例如,待关联POI数据的名称为“青岛福泰汽车销售有限公司”,在POI名称核心分词词库中,“福泰”为一个分词,因此使用POI名称核心分词词库进行分词处理后得到下述5个分词:“青岛”、“福泰”、“汽车”、“销售”、“有限公司”。
步骤22,对各分词进行角色标注,得到各分词的角色类型。
将POI数据的名称进行分词处理后,可以得到若干个分词,每个分词在POI数据的名称中分别对应一个角色类型,角色类型包含行政区划、主名称、修饰词、行业词、后缀词、特定品牌名称。例如,POI数据的名称为“青岛福泰汽车销售有限公司”,进行分词处理后得到下述5个分词:“青岛”、“福泰”、“汽车”、“销售”、“有限公司”,其中,“青岛”的角色类型为行政区划,“福泰”的角色类型为主名称,“汽车”的角色类型为行业词,“销售”的角色类型为修饰词,“有限公司”的角色类型为后缀词。
本发明实施例一提出,在建立POI名称核心分词词库后,可以确定该词库中各分词的角色类型,然后针对各角色类型,分别建立对应的分词库,也就是说,可以得到6个分词库,分别为:行政区划对应的分词库、主名称对应的分词库、修饰词对应的分词库、行业词对应的分词库、后缀词对应的分词库、特定品牌名称对应的分词库。
预先针对各角色类型对应的分词库,设置分词库查找顺序,在对各分词进行角色标注时,可以针对各分词,分别按照预设的分词库查找顺序,依次在预先建立的各角色类型分别对应的分词库中查找该分词,直到在一个分词库中查找到该分词,则将该分词库对应的角色类型确认为该分词在待关联POI数据的名称中对应的角色类型,流程结束。
步骤23,按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词。
本发明实施例一提出,预先设置角色类型优先级顺序,由于主名称最能反映待关联POI数据的名称的个性化特点,因此主名称的优先级最高,其次是行政区划,在选取搜索关键词时,首先判断是否存在角色类型为主名称的分词,若存在,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束选取搜索关键词的流程。
若不存在角色类型为主名称的分词,则判断是否存在角色类型为行政区划的分词,若不存在,则按照特定品牌名称、修饰词、行业词、后缀词的优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词作为搜索关键词,例如,特定品牌名称、修饰词、行业词、后缀词的优先级由高到低的顺序为特定品牌名称→修饰词→行业词→后缀词,对待关联POI数据的名称进行分词处理后得到的各分词中不存在角色类型为行政区划的分词,则将角色类型为特定品牌名称的分词作为搜索关键词,若不存在角色类型为特定品牌名称的分词,则将角色类型为修饰词的分词作为搜索关键词,依次类推;
若存在角色类型为行政区划的分词,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词,例如,特定品牌名称、修饰词、行业词、后缀词的优先级由高到低的顺序为特定品牌名称→修饰词→行业词→后缀词,对待关联POI数据的名称进行分词处理后得到的各分词中存在角色类型为行政区划的分词,则将角色类型为行政区划的分词和角色类型为特定品牌名称的分词作为搜索关键词,若不存在角色类型为特定品牌名称的分词,则将角色类型为行政区划的分词和角色类型为修饰词的分词作为搜索关键词,依次类推。
此外,本发明实施例一提出,由于可能存在多个分词的角色类型相同的情况,因此选取出作为搜索关键词的分词可能为一个,也可能为多个。
步骤24,从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据。
使用搜索关键词进行初步筛选时,可以通过下述两种方式进行筛选:
第一种筛选方式,目标POI数据库中的目标POI数据的名称是以分词的形式存储的,例如,某目标POI数据的名称是“方恒国际中心”,该名称存储的方式可能是:“国际”、“方恒”、“中心”,各分词的存储顺序与分词在名称中出现的先后顺序无关。在使用搜索关键词进行初步筛选时,是在目标POI数据库中获取出名称的分词中包含搜索关键词的目标POI数据。
第二种筛选方式,可以使用倒排索引技术搜索目标POI数据,从而能够大大提高搜索效率,尤其在大数据环境下优势更为明显。具体的,针对POI名称核心分词词库中的各分词,预先建立各分词与各目标POI数据在目标POI数据库中的存储标识之间的倒排索引表,其具体结构如表1所示:
表1
后续根据搜索关键词进行初步筛选时,可以先根据该搜索关键词,在表1所示的倒排索引表中查找该搜索关键词对应的各目标POI数据的存储标识,然后根据查找到的存储标识,在目标POI数据库中查找对应的目标POI数据。
步骤25,从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
本发明实施例一提出,从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据后,可以直接在获取到的各目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
也可以在确定与所述待关联POI数据关联的目标POI数据之前,从获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联POI数据的行政区划码相同的目标POI数据,然后从获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。由上可见,根据行政区划码,对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,能够进一步节省查找关联的POI数据的工作量,提高POI数据关联的处理效率。
还可以在确定与所述待关联POI数据关联的目标POI数据之前,基于向量空间模型,确定所述搜索关键词与获取到的各目标POI数据之间的文本匹配度,然后按照文本匹配度由大到小的顺序,对获取到的各目标POI数据进行排序,在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数目个目标POI数据,然后从获取到的预置数目个目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。由上可见,根据文本匹配度,对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,能够进一步节省查找关联的POI数据的工作量,提高POI数据关联的处理效率。
此外,也可以根据行政区划码和文本匹配度对使用搜索关键词初步筛选出的目标POI数据进行进一步过滤,其中,使用搜索关键词初步筛选出目标POI数据后,可以先使用文本匹配度进行过滤,再使用行政区划码进行过滤,也可以先使用行政区划码进行过滤,然后再使用文本匹配度进行过滤。
其中,从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据的具体过程将在本发明实施例二中详细介绍。
此外,本发明实施例一还提出,可以使用本地搜索引擎来完成上述POI数据关联流程,从而能够大幅提高关联效率。
实施例二
现有技术中,使用搜索关键词初步筛选出目标POI数据后,计算待关联POI数据和各目标POI数据之间的地理距离,然后将待关联POI数据的类型和各目标POI数据的类型进行匹配,以及将待关联POI数据的地址和各目标POI数据的地址进行匹配,在类型匹配成功且地址匹配成功的各目标POI数据中,将和待关联POI数据之间的地理距离最小的目标POI数据,确认为与待关联POI数据关联的POI数据。但是,若待关联POI数据的类型或地址存在误差,则对POI数据的类型和地址进行匹配时,可能产生匹配结果错误的情况,从而导致最终确认出的目标POI数据与待关联的目标POI数据并不是针对同一POI的描述,因此现有的POI数据关联方法的关联精度不高。
对此,本发明实施例二提出了一种新的从获取到的目标POI数据中,确定与待关联POI数据关联的目标POI数据的方式,如图3所示,主要包括下述步骤:
步骤31,根据待关联POI数据与各获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度。
步骤32,根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据。
由上可见,待关联POI数据与目标POI数据之间的POI相似度是根据待关联POI数据与目标POI数据的各属性信息确定出的,因此POI相似度能够反映待关联POI数据和目标POI数据针对各属性信息的相关性,即使待关联POI数据的某一属性信息存在误差,也能综合考虑其他属性信息,根据POI相似度确定出关联的POI数据,因此提高了POI数据关联的关联精度。
如图4所示,为本发明实施例二提出的确定待关联POI数据与各获取到的目标POI数据的POI相似度的具体过程,主要包括下述步骤:
步骤41,根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度。
POI数据的类型包含大类编码、中类编码和小类编码,其中,POI数据的类型一般由6位数字表示,前两位数字为大类编码,中间两位数字为中类编码,后两位数字为小类编码,例如,某POI数据的类型为“020100”,大类编码为“02”,中类编码为“01”,小类编码为“00”。
根据两个POI数据的类型之间的相似情况,可以预先设置大类权值、中类权值、小类权值、中类相似度、联合相似度,其中,大类权值<中类权值<小类权值,确定待关联POI数据与该目标POI数据的类型相似度的具体过程为:
首先判断待关联POI数据中是否存在类型这一属性信息,如果不存在,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类相似度,其中,所述中类相似度的绝对值与所述中类权值的绝对值相等,例如,中类相似度为中类权值乘以(-1);
如果存在类型这一属性信息,则判断待关联POI数据与目标POI数据的类型中的大类是否相同,如果大类不相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的联合相似度,其中,该联合相似度可以为负数,例如,联合相似度为POI相似度的默认最大值乘以(-1);
如果大类相同,则判断二者类型中的中类是否相同,如果中类不同或者中类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的大类权值;
如果中类相同,则判断二者类型中的小类是否相同,如果小类不同或者小类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类权值;
如果小类相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值。
步骤42,根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度。
若所述待关联POI数据的地址及地理坐标均为已知,则确定待关联POI数据与该目标POI数据的地址相似度时,根据待关联POI数据的地址与该目标POI数据的地址,确定第一地址相似度,对待关联POI数据的地理坐标进行逆地理编码,得到转换地址,并根据待关联POI数据的转换地址与该目标POI数据的地址,确定第二地址相似度,从第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为未知,地理坐标为已知,则确定待关联POI数据与该目标POI数据的地址相似度时,对待关联POI数据的地理坐标进行逆地理编码,得到转换地址,然后根据待关联POI数据的转换地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为已知,地理坐标为未知,则确定待关联POI数据与该目标POI数据的地址相似度时,根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度。
POI数据的地址至少包括道路名称和门牌号两个字段,根据两个POI数据的地址之间的相似情况,可以预先设置地址相似度值、道路名称权值和门牌权值,其中,道路名称权值<门牌权值,根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度的具体过程为:
首先判断待关联POI数据与目标POI数据的地址中的道路名称是否相同,如果不相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的地址相似度值,在实际应用中,上述地址相似度值可以为0;
如果相同,则判断二者地址中的门牌是否相同,如果不同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的道路名称权值;
如果相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的门牌权值。
步骤43,根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度。
预先设置POI数据的名称的各角色类型分别对应的权值,在确定待关联POI数据与该目标POI数据的名称相似度时,可以从待关联POI数据的名称的分词中,获取与目标POI数据的名称的分词相同的分词,然后将获取出的分词的角色类型对应的权值累加,得到待关联POI数据与该目标POI数据的名称相似度。
例如,待关联POI数据的名称的分词为“北京”、“方恒”、“假日”、“酒店”,目标POI数据的名称的分词为“北京”、“方恒”、“酒店”,相同的分词为“北京”、“方恒”和“酒店”,其中,分词“北京”的角色类型为行政区划,分词“方恒”的角色类型为主名称,分词“酒店”的角色类型为行业词,因此,将行政区划对应的权值、主名称对应的权值以及行业词对应的权值累加,累加后得到的相似度即为待关联POI数据与目标POI数据之间的名称相似度。
若待关联POI数据的名称的分词中,不存在与目标POI数据的名称的分词相同的分词,则待关联POI数据与该目标POI数据的名称相似度等于预置的名称相似度值,在实际应用中,名称相似度值可以为0。
其中,各角色类型对应的权值可以相等,也可以不相等,例如,主名称对应的权值最大。
步骤44,根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离。
若所述待关联POI数据的地理坐标和地址均为已知,则确定待关联POI数据与该目标POI数据的地理距离时,根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到第一地理距离;对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离;从所述第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离;
若所述目标POI数据的地址已知,地理坐标未知,则确定待关联POI数据与该目标POI数据的地理距离时,对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离;
若所述目标POI数据的地址未知,地理坐标已知,则确定待关联POI数据与该目标POI数据的地理距离时,根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离。
步骤45,根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度。
本发明实施例二提出,先将类型相似度、地址相似度、名称相似度累加,得到第一联合相似度,然后根据预置的地理距离范围与相似度调整值的对应关系,得到所述地理距离所在的地理距离范围对应的相似度调整值,将所述第一联合相似度与所述相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。
其中,若地理距离范围的最小边界值不小于预置的临界地理距离,则对应的相似度调整值为负数,若地理距离范围的最大边界值小于临界地理距离,则对应的相似度调整值为正数。例如,设置的地理距离范围分别为[0,50米)、[50米,250米)、[250米,500米)、[500米,1000米)、[1000米,1500米)、[1500米,2500米)、[2500米,3000米),临界地理距离为1000米,则前4个地理距离范围对应的相似度调整值为正数,后3个地理距离范围对应的相似度调整值为负数。
其中,上述步骤41~步骤44可以同时执行,也可以依次执行,本发明实施例二对步骤41~步骤44的执行顺序不作具体限定。
此外,本发明实施例二还提出,预先设置各关联精度等级,针对每个关联精度等级分别设置对应的POI相似度范围,例如,设置的关联精度等级分别为高精度关联、较高精度关联、中等精度关联、不关联,其中,高精度关联对应的POI相似度范围为[0.8P,P],较高精度关联对应的POI相似度范围为[0.7P,0.8P),中等精度关联对应的POI相似度范围为[0.55P,0.7P),不关联对应的POI相似度范围为[0,0.55P),其中,P为默认的最大POI相似度。
在确定出待关联POI数据与各获取到的目标POI数据的POI相似度后,可以将各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序,然后根据预置的POI相似度范围与关联精度等级的对应关系,得到各目标POI数据的POI相似度所在的POI相似度范围对应的关联精度等级,判断是否存在关联精度等级为高精度关联的目标POI数据,如果存在,则将关联精度等级为高精度关联的目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标POI数据,如果存在,则将关联精度等级为较高精度关联的各目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为中等精度关联的目标POI数据,如果存在,则返回关联精度等级为中等精度关联的各目标POI数据,由工作人员进行选择。
实施例三
下面举例说明本发明实施例提出的POI数据关联方法。
待关联POI数据的名称为“青岛福泰汽车销售有限公司”,地址为“银川西路25号”,首先使用预先建立的POI名称核心分词词库,将该待关联POI数据的名称进行分词处理,得到下述5个分词:“青岛”、“福泰”、“汽车”、“销售”、“有限公司”,然后通过预先建立的各角色类型分别对应的分词库,对各分词进行角色标注,其中,分词“青岛”的角色类型为行政区划,分词“福泰”的角色类型为主名称,分词“汽车”的角色类型为行业词,分词“销售”的角色类型为修饰词,分词“有限公司”的角色类型为后缀词。
在分词处理得到的各分词中,将角色类型为主名称的分词“福泰”作为搜索关键词。
根据搜索关键词,在预先建立的各分词与各目标POI数据在目标POI数据库中的存储标识之间的倒排索引表中,查找该搜索关键词对应的各目标POI数据的存储标识,然后根据查找到的存储标识,在目标POI数据库中查找对应的目标POI数据,得到初步筛选出的目标POI数据,然后依次根据文本匹配度和行政区划码进行进一步过滤,最终获取到的各目标POI数据的名称如表2所示:
表2
青岛福泰汽车销售有限公司 |
青岛福泰汽车销售有限公司银川西路 |
克莱斯勒青岛福泰银川西路店 |
青岛福泰汽车销售有限公司福州北路 |
青岛福泰福州路展示厅 |
山东福泰汽车销售服务有限公司 |
福泰汽贸公司 |
广汽丰田福泰城阳店 |
福泰汽贸专营店 |
福泰汽贸 |
计算待关联POI数据与表2中的各目标POI数据之间的类型相似度,以表2中的第一条目标POI数据为例,待关联POI数据与该目标POI数据的类型均为“020100”,也就是说,待关联POI数据与该目标POI数据的大类相同、中类相同以及小类相同,则待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值。
计算待关联POI数据与表2中的各目标POI数据之间的地址相似度,待关联POI数据的地址及地理坐标均为已知,以表2中的第一条目标POI数据为例,该目标POI数据的地址为“银川西路25号”,待关联POI数据的地址的道路名与该目标POI数据的地址的道路名相同,且待关联POI数据的地址的门牌号与该目标POI数据的地址的门牌号相同,则待关联POI数据与该目标POI数据的第一地址相似度等于预置的门牌权值,对待关联POI数据的地理坐标进行逆地理编码,得到转换地址,再根据待关联POI数据的转换地址与该目标POI数据的地址,确定出第二地址相似度,从第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度。
计算待关联POI数据与表2中的各目标POI数据之间的名称相似度,以表2中的第一条目标POI数据为例,该目标POI数据的名称中包含“青岛”、“福泰”、“汽车”、“销售”、“有限公司”这5个分词,则将行政区划对应的权值、主名称对应的权值、行业词对应的权值、修饰词对应的权值、后缀词对应的权值累加,累加后得到的相似度即为待关联POI数据与目标POI数据之间的名称相似度。
计算待关联POI数据与表2中的各目标POI数据之间的地理距离,待关联POI数据的地理坐标和地址均为已知,以表2中的第一条目标POI数据为例,根据待关联POI数据与该目标POI数据的地理坐标,确定第一地理距离,对待关联POI数据的地址进行逆地理编码,得到转换地理坐标,根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离,从第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离。
针对表2中的各目标POI数据,分别将上述类型相似度、地址相似度、名称相似度累加,得到第一联合相似度,然后根据预置的地理距离范围与相似度调整值的对应关系,得到上述地理距离所在的地理距离范围对应的相似度调整值,将第一联合相似度与得到的相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。
将表2中的各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序,排序后的各目标POI数据的名称如表3所示:
表3
POI相似度 | 地理距离(米) | POI数据的名称 |
2.2644742 | 13.4146833 | 青岛福泰汽车销售有限公司 |
2.146788 | 41.99475183 | 青岛福泰汽车销售有限公司银川西路 |
2.0689692 | 12.00161901 | 克莱斯勒青岛福泰银川西路店 |
0.67 | 1143.296918 | 青岛福泰汽车销售有限公司福州北路 |
0.57 | 1137.658773 | 青岛福泰福州路展示厅 |
0.09000005 | 417488.4986 | 山东福泰汽车销售服务有限公司 |
0.049999997 | 2220553.866 | 福泰汽贸公司 |
0.030000046 | 8827.303318 | 广汽丰田福泰城阳店 |
0.030000046 | 224318.3305 | 福泰汽贸专营店 |
0.030000046 | 405460.9158 | 福泰汽贸 |
在上述表3中,第一条目标POI数据与待关联POI数据之间的POI相似度为2.2644742,其所属的POI相似度范围为“高精度关联”对应的POI相似度范围,因此该目标POI数据即为与待关联POI数据关联的目标POI数据。
实施例四
与上述POI数据关联方法对应,本发明实施例四提出一种POI数据关联装置,其结构如图5所示,包括:
分词处理单元51,用于将待关联POI数据的名称进行分词处理,得到组成所述名称的分词;
角色标注单元52,用于对各分词进行角色标注,得到各分词的角色类型;
搜索关键词选择单元53,用于按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词;
第一数据获取单元54,用于从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据;
数据确定单元55,用于从第一数据获取单元54获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
优选的,所述装置还包括:
第二数据获取单元,用于在数据确定单元55从第一数据获取单元54获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,从第一数据获取单元54获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联POI数据的行政区划码相同的目标POI数据;
所述数据确定单元55,具体用于从第二数据获取单元获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
优选的,所述装置还包括:
文本匹配度确定单元,用于在数据确定单元55从第一数据获取单元54获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,基于向量空间模型,确定所述搜索关键词与第一数据获取单元54获取到的各目标POI数据之间的文本匹配度;
数据排序单元,用于按照文本匹配度由大到小的顺序,对第一数据获取单元获取到的各目标POI数据进行排序;
第三数据获取单元,用于在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数目个目标POI数据;
所述数据确定单元55,具体用于从第三数据获取单元获取到的预置数目个目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
优选的,所述预设的角色类型包含:行政区划、主名称、特定品牌名称、修饰词、行业词、后缀词;
所述搜索关键词选择单元53具体用于:
当存在角色类型为主名称的分词时,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束流程;否则,
当不存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词作为搜索关键词;
当存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词。
优选的,所述数据确定单元55具体包括:
相似度确定子单元,用于根据待关联POI数据与各获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度;
数据确定子单元,用于根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据。
优选的,若POI数据的属性包含名称、类型、地址、地理坐标,则所述相似度确定子单元具体包括:
类型相似度确定模块,用于根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度;
地址相似度确定模块,用于根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度;
名称相似度确定模块,用于根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度;
地理距离确定模块,用于根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离;
POI相似度确定模块,用于根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度。
优选的,若所述类型包括大类、中类及小类三个字段,则所述类型相似度确定模块具体用于:
判断待关联POI数据中是否存在类型这一属性信息,如果不存在,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类相似度,如果存在,则判断待关联POI数据与目标POI数据的类型中的大类是否相同,如果大类不相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的联合相似度,如果大类相同,则判断二者类型中的中类是否相同,如果中类不同或者中类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的大类权值,如果中类相同,则判断二者类型中的小类是否相同,如果小类不同或者小类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类权值,如果小类相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值,其中,所述预置的大类权值<中类权值<小类权值,所述中类相似度的绝对值与所述中类权值的绝对值相等。
优选的,所述地址相似度确定模块具体用于:
若所述待关联POI数据的地址及地理坐标均为已知,则根据待关联POI数据的地址与该目标POI数据的地址,确定第一地址相似度;对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,确定第二地址相似度;从所述第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为未知,地理坐标为已知,则对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为已知,地理坐标为未知,则根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度。
优选的,所述地址至少包括:道路名称和门牌号两个字段,则所述地址相似度确定模块具体用于:
判断待关联POI数据与目标POI数据的地址中的道路名称是否相同,如果不相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的地址相似度值,如果相同,则判断二者地址中的门牌是否相同,如果不同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的道路名称权值,如果相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的门牌权值,其中,所述道路名称权值<门牌权值。
优选的,所述名称相似度确定模块,具体用于从待关联POI数据的名称的分词中,获取与目标POI数据的名称的分词相同的分词;将获取出的分词的角色类型对应的权值累加,得到待关联POI数据与该目标POI数据的名称相似度;若未获取到相同的分词,则待关联POI数据与该目标POI数据的名称相似度等于预置的名称相似度值。
优选的,所述地理距离确定模块具体用于:
若所述待关联POI数据的地理坐标和地址均为已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到第一地理距离;对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离;从所述第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离;
若所述目标POI数据的地址已知,地理坐标未知,则对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离;
若所述目标POI数据的地址未知,地理坐标已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离。
优选的,所述POI相似度确定模块,具体用于将所述类型相似度、地址相似度、名称相似度累加,得到第一联合相似度;根据预置的地理距离范围与相似度调整值的对应关系,得到所述地理距离所在的地理距离范围对应的相似度调整值;将所述第一联合相似度与所述相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。
优选的,所述数据确定单元55具体用于:
将各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序;
根据预置的POI相似度范围与关联精度等级的对应关系,得到各目标POI数据的POI相似度所在的POI相似度范围对应的关联精度等级,其中,关联精度等级包含高精度关联、较高精度关联、中等精度关联和不关联;
判断是否存在关联精度等级为高精度关联的目标POI数据,如果存在,则将关联精度等级为高精度关联的目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标POI数据,如果存在,则将关联精度等级为较高精度关联的各目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为中等精度关联的目标POI数据,如果存在,则返回关联精度等级为中等精度关联的各目标POI数据,如果不存在,则结束流程。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (22)
1.一种兴趣点数据关联方法,其特征在于,包括:
将待关联兴趣点POI数据的名称进行分词处理,得到组成所述名称的分词;
对各分词进行角色标注,得到各分词的角色类型;
按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词;
从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据;
从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据,
所述确定与所述待关联POI数据关联的目标POI数据具体包括:
根据待关联POI数据与各获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度;
根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据,
若POI数据的属性包含名称、类型、地址、地理坐标,则所述根据待关联POI数据与获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度,具体包括:
根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度;
根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度;
根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度;
根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离;
根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度。
2.如权利要求1所述的方法,其特征在于,从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,所述方法进一步包括:
从获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联POI数据的行政区划码相同的目标POI数据;
所述从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据具体为:
从获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
3.如权利要求1所述的方法,其特征在于,从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,所述方法进一步包括:
基于向量空间模型,确定所述搜索关键词与获取到的各目标POI数据之间的文本匹配度;
按照文本匹配度由大到小的顺序,对获取到的各目标POI数据进行排序;
在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数目个目标POI数据;
所述从获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据具体为:
从获取到的预置数目个目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
4.如权利要求1-3中任一权利要求所述的方法,其特征在于,所述预设的角色类型包含:行政区划、主名称、特定品牌名称、修饰词、行业词、后缀词;
所述按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词具体包括:
当存在角色类型为主名称的分词时,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束流程;否则,
当不存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词作为搜索关键词;
当存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词。
5.如权利要求1所述的方法,其特征在于,若所述类型包括大类、中类及小类三个字段,则所述根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度具体包括:
判断待关联POI数据中是否存在类型这一属性信息,如果不存在,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类相似度,如果存在,则判断待关联POI数据与目标POI数据的类型中的大类是否相同,如果大类不相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的联合相似度,如果大类相同,则判断二者类型中的中类是否相同,如果中类不同或者中类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的大类权值,如果中类相同,则判断二者类型中的小类是否相同,如果小类不同或者小类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类权值,如果小类相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值,其中,所述预置的大类权值<中类权值<小类权值,所述中类相似度的绝对值与所述中类权值的绝对值相等。
6.如权利要求1所述的方法,其特征在于,所述根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度,具体包括:
若所述待关联POI数据的地址及地理坐标均为已知,则根据待关联POI数据的地址与该目标POI数据的地址,确定第一地址相似度;对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,确定第二地址相似度;从所述第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为未知,地理坐标为已知,则对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为已知,地理坐标为未知,则根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度。
7.如权利要求6所述的方法,其特征在于,所述地址至少包括:道路名称和门牌号两个字段,则所述根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度,具体包括:
判断待关联POI数据与目标POI数据的地址中的道路名称是否相同,如果不相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的地址相似度值,如果相同,则判断二者地址中的门牌是否相同,如果不同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的道路名称权值,如果相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的门牌权值,其中,所述道路名称权值<门牌权值。
8.如权利要求1所述的方法,其特征在于,根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度,具体包括:
从待关联POI数据的名称的分词中,获取与目标POI数据的名称的分词相同的分词;
将获取出的分词的角色类型对应的权值累加,得到待关联POI数据与该目标POI数据的名称相似度;
若未获取到相同的分词,则待关联POI数据与该目标POI数据的名称相似度等于预置的名称相似度值。
9.如权利要求1所述的方法,其特征在于,根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离,具体包括:
若所述待关联POI数据的地理坐标和地址均为已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到第一地理距离;对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离;从所述第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离;
若所述目标POI数据的地址已知,地理坐标未知,则对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离;
若所述目标POI数据的地址未知,地理坐标已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离。
10.如权利要求1所述的方法,其特征在于,根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度,具体包括:
将所述类型相似度、地址相似度、名称相似度累加,得到第一联合相似度;
根据预置的地理距离范围与相似度调整值的对应关系,得到所述地理距离所在的地理距离范围对应的相似度调整值;
将所述第一联合相似度与所述相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。
11.如权利要求10所述的方法,其特征在于,所述根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据具体包括:
将各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序;
根据预置的POI相似度范围与关联精度等级的对应关系,得到各目标POI数据的POI相似度所在的POI相似度范围对应的关联精度等级,其中,关联精度等级包含高精度关联、较高精度关联、中等精度关联和不关联;
判断是否存在关联精度等级为高精度关联的目标POI数据,如果存在,则将关联精度等级为高精度关联的目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标POI数据,如果存在,则将关联精度等级为较高精度关联的各目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为中等精度关联的目标POI数据,如果存在,则返回关联精度等级为中等精度关联的各目标POI数据,如果不存在,则结束流程。
12.一种兴趣点数据关联装置,其特征在于,包括:
分词处理单元,用于将待关联兴趣点POI数据的名称进行分词处理,得到组成所述名称的分词;
角色标注单元,用于对各分词进行角色标注,得到各分词的角色类型;
搜索关键词选择单元,用于按照预设的角色类型优先级顺序,从各分词中选择角色类型与预设的角色类型相同且优先级最高的分词作为搜索关键词;
第一数据获取单元,用于从目标POI数据库中,获取名称中包含所述搜索关键词的目标POI数据;
数据确定单元,用于从第一数据获取单元获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据,
所述数据确定单元具体包括:
相似度确定子单元,用于根据待关联POI数据与各获取到的目标POI数据的属性信息,确定待关联POI数据与各获取到的目标POI数据的POI相似度;
数据确定子单元,用于根据各目标POI数据的POI相似度,确定与待关联POI数据关联的目标POI数据,
若POI数据的属性包含名称、类型、地址、地理坐标,则所述相似度确定子单元具体包括:
类型相似度确定模块,用于根据待关联POI数据与目标POI数据的类型,确定待关联POI数据与该目标POI数据的类型相似度;
地址相似度确定模块,用于根据待关联POI数据的地址与该目标POI数据的地址和/或地理坐标,确定待关联POI数据与该目标POI数据的地址相似度;
名称相似度确定模块,用于根据待关联POI数据与该目标POI数据的名称,确定待关联POI数据与该目标POI数据的名称相似度;
地理距离确定模块,用于根据待关联POI数据的地理坐标与该目标POI数据的地理坐标和/或地址,确定待关联POI数据与该目标POI数据的地理距离;
POI相似度确定模块,用于根据所述类型相似度、地址相似度、名称相似度以及地理距离,确定待关联POI数据与该目标POI数据的POI相似度。
13.如权利要求12所述的装置,其特征在于,还包括:
第二数据获取单元,用于在数据确定单元从第一数据获取单元获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,从第一数据获取单元获取到的名称中包含所述搜索关键词的目标POI数据中,获取行政区划码与待关联POI数据的行政区划码相同的目标POI数据;
所述数据确定单元,具体用于从第二数据获取单元获取到的行政区划码与待关联POI数据的行政区划码相同的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
14.如权利要求12所述的装置,其特征在于,还包括:
文本匹配度确定单元,用于在数据确定单元从第一数据获取单元获取到的目标POI数据中,确定与所述待关联POI数据关联的目标POI数据之前,基于向量空间模型,确定所述搜索关键词与第一数据获取单元获取到的各目标POI数据之间的文本匹配度;
数据排序单元,用于按照文本匹配度由大到小的顺序,对第一数据获取单元获取到的各目标POI数据进行排序;
第三数据获取单元,用于在排序后的各目标POI数据中,按照文本匹配度由大到小的顺序获取预置数目个目标POI数据;
所述数据确定单元,具体用于从第三数据获取单元获取到的预置数目个目标POI数据中,确定与所述待关联POI数据关联的目标POI数据。
15.如权利要求12~14中任一权利要求所述的装置,其特征在于,所述预设的角色类型包含:行政区划、主名称、特定品牌名称、修饰词、行业词、后缀词;所述搜索关键词选择单元,具体用于:
当存在角色类型为主名称的分词时,则从各分词中,选择角色类型为主名称的分词作为搜索关键词,结束流程;否则,
当不存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词作为搜索关键词;
当存在角色类型为行政区划的分词时,则按照特定品牌名称、修饰词、行业词、后缀词优先级由高到低的顺序,从各分词中选择角色类型与特定品牌名称、修饰词、行业词或后缀词相同且优先级最高的分词和角色类型为行政区划的分词的组合作为搜索关键词。
16.如权利要求12所述的装置,其特征在于,若所述类型包括大类、中类及小类三个字段,则所述类型相似度确定模块具体用于:
判断待关联POI数据中是否存在类型这一属性信息,如果不存在,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类相似度,如果存在,则判断待关联POI数据与目标POI数据的类型中的大类是否相同,如果大类不相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的联合相似度,如果大类相同,则判断二者类型中的中类是否相同,如果中类不同或者中类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的大类权值,如果中类相同,则判断二者类型中的小类是否相同,如果小类不同或者小类为未知,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的中类权值,如果小类相同,则所述待关联POI数据与该目标POI数据的类型相似度等于预置的小类权值,其中,所述预置的大类权值<中类权值<小类权值,所述中类相似度的绝对值与所述中类权值的绝对值相等。
17.如权利要求12所述的装置,其特征在于,所述地址相似度确定模块具体用于:
若所述待关联POI数据的地址及地理坐标均为已知,则根据待关联POI数据的地址与该目标POI数据的地址,确定第一地址相似度;对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,确定第二地址相似度;从所述第一地址相似度和第二地址相似度中,选择最大的一个相似度作为待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为未知,地理坐标为已知,则对待关联POI数据的地理坐标进行逆地理编码,得到转换地址;根据待关联POI数据的转换地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度;
若所述待关联POI数据中地址为已知,地理坐标为未知,则根据待关联POI数据的地址与该目标POI数据的地址,得到待关联POI数据与该目标POI数据的地址相似度。
18.如权利要求17所述的装置,其特征在于,所述地址至少包括:道路名称和门牌号两个字段,则所述地址相似度确定模块具体用于:
判断待关联POI数据与目标POI数据的地址中的道路名称是否相同,如果不相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的地址相似度值,如果相同,则判断二者地址中的门牌是否相同,如果不同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的道路名称权值,如果相同,则所述待关联POI数据与该目标POI数据的地址相似度等于预置的门牌权值,其中,所述道路名称权值<门牌权值。
19.如权利要求12所述的装置,其特征在于,所述名称相似度确定模块,具体用于从待关联POI数据的名称的分词中,获取与目标POI数据的名称的分词相同的分词;将获取出的分词的角色类型对应的权值累加,得到待关联POI数据与该目标POI数据的名称相似度;若未获取到相同的分词,则待关联POI数据与该目标POI数据的名称相似度等于预置的名称相似度值。
20.如权利要求12所述的装置,其特征在于,所述地理距离确定模块具体用于:
若所述待关联POI数据的地理坐标和地址均为已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到第一地理距离;对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到第二地理距离;从所述第一地理距离和第二地理距离中,选择距离最小的一个地理距离作为待关联POI数据与该目标POI数据之间的地理距离;
若所述目标POI数据的地址已知,地理坐标未知,则对待关联POI数据的地址进行逆地理编码,得到转换地理坐标;根据待关联POI数据的转换地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离;
若所述目标POI数据的地址未知,地理坐标已知,则根据待关联POI数据的地理坐标与该目标POI数据的地理坐标,得到待关联POI数据与该目标POI数据的地理距离。
21.如权利要求12所述的装置,其特征在于,所述POI相似度确定模块,具体用于将所述类型相似度、地址相似度、名称相似度累加,得到第一联合相似度;根据预置的地理距离范围与相似度调整值的对应关系,得到所述地理距离所在的地理距离范围对应的相似度调整值;将所述第一联合相似度与所述相似度调整值累加,得到待关联POI数据与该目标POI数据的POI相似度。
22.如权利要求21所述的装置,其特征在于,所述数据确定单元具体用于:
将各目标POI数据按照相似度由高到低的顺序进行排序,若存在相似度相同的目标POI数据,则将相似度相同的目标POI数据按照地理距离由小到大的顺序进行排序;
根据预置的POI相似度范围与关联精度等级的对应关系,得到各目标POI数据的POI相似度所在的POI相似度范围对应的关联精度等级,其中,关联精度等级包含高精度关联、较高精度关联、中等精度关联和不关联;
判断是否存在关联精度等级为高精度关联的目标POI数据,如果存在,则将关联精度等级为高精度关联的目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为较高精度关联的目标POI数据,如果存在,则将关联精度等级为较高精度关联的各目标POI数据中,排在第一位的目标POI数据确定为所述待关联POI数据关联的目标POI数据,如果不存在,则判断是否存在关联精度等级为中等精度关联的目标POI数据,如果存在,则返回关联精度等级为中等精度关联的各目标POI数据,如果不存在,则结束流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310472877.6A CN104572645B (zh) | 2013-10-11 | 2013-10-11 | 兴趣点数据关联方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310472877.6A CN104572645B (zh) | 2013-10-11 | 2013-10-11 | 兴趣点数据关联方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572645A CN104572645A (zh) | 2015-04-29 |
CN104572645B true CN104572645B (zh) | 2020-07-10 |
Family
ID=53088747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310472877.6A Active CN104572645B (zh) | 2013-10-11 | 2013-10-11 | 兴趣点数据关联方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572645B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933171B (zh) * | 2015-06-30 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 兴趣点数据关联方法和装置 |
CN106919569B (zh) * | 2015-12-24 | 2020-09-29 | 北京四维图新科技股份有限公司 | 一种获取兴趣点poi的行政区划信息的方法及装置 |
CN106919601B (zh) * | 2015-12-25 | 2021-01-12 | 北京奇虎科技有限公司 | 从查询词中提取兴趣点的方法和装置 |
CN105491072B (zh) * | 2016-01-19 | 2018-12-04 | 舟山大舟网络科技股份有限公司 | 一种基于位置的本地论坛网站用户权限管理方法与系统 |
WO2017128438A1 (zh) * | 2016-01-31 | 2017-08-03 | 深圳市博信诺达经贸咨询有限公司 | 大数据的应用方法及系统 |
CN105825510B (zh) * | 2016-03-17 | 2017-05-17 | 中南大学 | 一种兴趣点与道路网的自动配准方法 |
CN106503071B (zh) * | 2016-09-30 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | Poi信息的处理方法及装置 |
CN106960047A (zh) * | 2017-03-30 | 2017-07-18 | 联想(北京)有限公司 | 一种信息处理方法、装置和电子设备 |
CN107436925B (zh) * | 2017-07-07 | 2023-11-17 | 江苏艾德锐电子科技有限公司 | 一种poi数据检索方法及关联方法 |
CN109255565B (zh) * | 2017-07-14 | 2022-12-16 | 菜鸟智能物流控股有限公司 | 地址的归属识别和物流任务的分发方法及其装置 |
CN109426666B (zh) * | 2017-09-05 | 2024-02-09 | 上海博泰悦臻网络技术服务有限公司 | 垃圾短信识别方法、系统、可读存储介质及移动终端 |
CN107861938B (zh) * | 2017-09-21 | 2020-09-25 | 北京三快在线科技有限公司 | 一种poi文案生成方法及装置,电子设备 |
CN107832405A (zh) * | 2017-11-03 | 2018-03-23 | 北京小度互娱科技有限公司 | 计算标题之间的相关性的方法和装置 |
CN110019617B (zh) * | 2017-12-05 | 2022-05-20 | 腾讯科技(深圳)有限公司 | 地址标识的确定方法和装置、存储介质、电子装置 |
CN110020224B (zh) * | 2017-12-28 | 2021-07-23 | 中国移动通信集团辽宁有限公司 | 地图兴趣点数据的关联方法、装置、设备及介质 |
CN108491387B (zh) * | 2018-03-20 | 2022-04-22 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108776667B (zh) * | 2018-05-04 | 2022-10-21 | 昆明理工大学 | 一种基于geohash与B-Tree的空间关键词查询方法及装置 |
CN108776666B (zh) * | 2018-05-04 | 2022-05-20 | 昆明理工大学 | 一种基于关键词倒排与Trie的空间关键词查询方法及装置 |
CN110716992B (zh) * | 2018-06-27 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 兴趣点名称推荐方法和装置 |
CN111382138B (zh) * | 2018-12-27 | 2023-04-07 | 中国移动通信集团辽宁有限公司 | Poi数据处理方法、装置、设备及介质 |
CN110765368B (zh) * | 2018-12-29 | 2020-10-27 | 滴图(北京)科技有限公司 | 用于语义检索的人工智能系统和方法 |
CN110619087B (zh) * | 2019-05-23 | 2022-04-15 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN111444191B (zh) | 2019-06-13 | 2021-10-12 | 黄亚娟 | 一种宇宙空间数据系统、方法、计算机设备和存储介质 |
CN110288023A (zh) * | 2019-06-26 | 2019-09-27 | 广州小鹏汽车科技有限公司 | 融合方法及装置、检测方法、获取方法、服务器和车辆 |
CN111104026A (zh) * | 2019-08-02 | 2020-05-05 | 广州三星通信技术研究有限公司 | 推荐服务的方法和设备 |
CN110795515B (zh) * | 2019-08-26 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 兴趣点poi的处理方法、装置、电子设备及计算机存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101963962B (zh) * | 2009-07-23 | 2014-02-26 | 高德软件有限公司 | 兴趣点数据关联方法及装置 |
CN101963961B (zh) * | 2009-07-23 | 2013-10-30 | 高德软件有限公司 | 兴趣点数据关联方法及装置 |
US8340895B2 (en) * | 2009-11-05 | 2012-12-25 | Mitac International Corp. | Method of performing mixed category and point of interest search and related personal navigation device |
CN103049569A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 基于向量空间模型的文本相似性匹配方法 |
-
2013
- 2013-10-11 CN CN201310472877.6A patent/CN104572645B/zh active Active
Non-Patent Citations (1)
Title |
---|
Privacy-Preserving and Content-Protecting Location Based Queries;Russell Paulet et al.;《2012 IEEE 28th International Conference on Data Engineering》;20120702;第44-53页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572645A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572645B (zh) | 兴趣点数据关联方法及装置 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN109255564B (zh) | 一种取件点地址推荐方法及装置 | |
US20140250141A1 (en) | Location Based Full Text Search | |
CN107256230B (zh) | 一种基于多元化地理信息点的融合方法 | |
CN107688662B (zh) | Ota酒店的推荐方法及系统 | |
CN106874384B (zh) | 一种异构地址标准转换及匹配方法 | |
CN109344387B (zh) | 形近字字典的生成方法、装置和形近字纠错方法、装置 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN110795515B (zh) | 兴趣点poi的处理方法、装置、电子设备及计算机存储介质 | |
CN106021336A (zh) | 一种对批量地址信息进行自动行政区划划分的方法 | |
CN104679801A (zh) | 一种兴趣点搜索方法和装置 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN103577442A (zh) | 一种地图数据重要度计算方法及装置 | |
CN111782741A (zh) | 兴趣点挖掘方法、装置、电子设备及存储介质 | |
CN103514235A (zh) | 一种增量码库的建立方法和装置 | |
CN111666425B (zh) | 基于语义知识的汽配件搜索方法 | |
CN114201480A (zh) | 一种基于nlp技术的多源poi融合方法、装置及可读存储介质 | |
CN105426387A (zh) | 一种基于K-means算法的地图聚合方法 | |
CN116303870A (zh) | 一种用于燃气管网数据治理的气量值映射方法与系统 | |
CN110688439A (zh) | 一种基于区域地理编码自动识别企业信息和分析的方法 | |
JP4510792B2 (ja) | 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体 | |
CN113032514B (zh) | 兴趣点数据处理方法及装置 | |
CN111177585A (zh) | 地图poi反馈方法及装置 | |
CN111737374B (zh) | 位置坐标确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200508 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5 Applicant before: AUTONAVI SOFTWARE Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |