CN105320657A - 兴趣点数据融合方法和系统 - Google Patents
兴趣点数据融合方法和系统 Download PDFInfo
- Publication number
- CN105320657A CN105320657A CN201410238215.7A CN201410238215A CN105320657A CN 105320657 A CN105320657 A CN 105320657A CN 201410238215 A CN201410238215 A CN 201410238215A CN 105320657 A CN105320657 A CN 105320657A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- information
- poi
- poi information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种兴趣点数据融合方法和系统。其中当获得新的目标POI数据时,提取出目标POI数据的经纬度;在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R;将在第n层经纬度网格中被区域R覆盖的网格作为候选网格;在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息;判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息;若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合;若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。从而可有效解决数据处理速度慢、数据处理准确性和容错性不足的问题。
Description
技术领域
本发明涉及地理信息处理领域,特别涉及一种兴趣点数据融合方法和系统。
背景技术
POI(PointofInterest,兴趣点)数据是地理信息系统的数据类型之一,广泛应用于导航和周边生活服务领域。由于POI存在图上采集、不同服务商的用户上传等,导致同一个POI会存在名称、地址、经纬度都不同,POI属性值部分相同或者部分相似的情况普遍存在。
目前的情况是,随着LBS(LocationBasedService,基于位置的服务)生活服务行业迅猛发展,POI数据的数量迅速增长,一家数据提供方的数据就在千万数量级别。为了提高数据质量,往往需要融合多来源多合作方的数据,做成一份数据。传统的方法,数据处理速度和处理准确度亟待提高,由于数据量大,准确度的任何提升都能大幅节约人工干预的成本。
发明内容
本发明实施例提供一种兴趣点数据融合方法和系统。可有效解决数据处理速度慢、数据处理准确性和容错性不足的问题。
根据本发明的一个方面,提供一种兴趣点数据融合方法,包括:
当获得新的目标兴趣点POI数据时,提取出目标POI数据的经纬度;
在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R;
将在第n层经纬度网格中被区域R覆盖的网格作为候选网格;
在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息;
判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息;
若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合;
若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。
在一个实施例中,在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息的步骤包括:
判断候选网格Gi是否为底层网格,其中1≤i≤N,N为候选网格总数;
若网格Gi是底层网格,则将POI集合中与候选网格Gi相关联的POI信息作为候选POI信息;
若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将POI集合中与所述子网格相关联的POI信息作为候选POI信息。
在一个实施例中,判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息的步骤包括:
对于候选POI信息中的每个候选POI信息Cj,判断目标POI数据与候选POI信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1≤j≤M,M为候选POI信息总数,相似度FinalScore同目标POI数据与候选POI信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;
若目标POI数据与候选POI信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标POI数据与候选POI信息Cj重复;
若目标POI数据与候选POI信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标POI数据与候选POI信息Cj不重复。
在一个实施例中,上述方法还包括:利用下列公式
FinalScore=(nameScore+phoneScore)*weight1+(distanceScore+addressScore)*weight2
计算相似度FinalScore,其中weight1和weight2预先设置的权值,名称相似度nameScore同目标POI数据与候选POI信息Cj的名称、类型相关联,电话相似度phoneScore同目标POI数据与候选POI信息Cj的电话信息相关联,距离相似度distanceScore同目标POI数据与候选POI信息Cj的经纬度相关联,地址相似度addressScore同目标POI数据与候选POI信息Cj的地址相关联。
在一个实施例中,将目标POI数据与POI信息M融合的步骤包括:
对于目标POI数据与POI信息M中的名称信息,将长度最长的名称信息作为融合后的名称信息;
对于目标POI数据与POI信息M中的地址信息,将长度最长的地址信息作为融合后的地址信息;
对于目标POI数据与POI信息M中的电话信息,将两个电话信息共同作为融合后的电话信息。
在一个实施例中,将目标POI数据与POI信息M融合的步骤还包括:
记录目标POI数据的来源标识。
在一个实施例中,在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R的步骤包括:
在预定的第n层经纬度网格中,生成以目标POI数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
根据本发明的另一方面,提供一种兴趣点数据融合系统,包括输入单元、提取单元、区域确定单元、候选网格确定单元、候选信息确定单元、识别单元和融合存储单元,其中:
输入单元,用于输入新的目标兴趣点POI数据;
提取单元,用于当输入单元获得目标POI数据时,提取出目标POI数据的经纬度;
区域确定单元,用于在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R;
候选网格确定单元,用于将在第n层经纬度网格中被区域R覆盖的网格作为候选网格;
候选信息确定单元,用于在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息;
识别单元,用于判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息;
融合存储单元,用于根据识别单元的判断结果,若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合;若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。
在一个实施例中,候选信息确定单元包括识别模块、第一信息确定模块和第二信息确定模块,其中:
识别模块,用于判断候选网格Gi是否为底层网格,其中1≤i≤N,N为候选网格总数;
第一信息确定模块,用于根据识别模块的判断结果,若网格Gi是底层网格,则将POI集合中与候选网格Gi相关联的POI信息作为候选POI信息;
第二信息确定模块,用于根据识别模块的判断结果,若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将POI集合中与所述子网格相关联的POI信息作为候选POI信息。
在一个实施例中,识别单元具体对于候选POI信息中的每个候选POI信息Cj,判断目标POI数据与候选POI信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1≤j≤M,M为候选POI信息总数,相似度FinalScore同目标POI数据与候选POI信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;若目标POI数据与候选POI信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标POI数据与候选POI信息Cj重复;若目标POI数据与候选POI信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标POI数据与候选POI信息Cj不重复。
在一个实施例中,识别单元具体利用下列公式
FinalScore=(nameScore+phoneScore)*weight1+(distanceScore+addressScore)*weight2
计算相似度FinalScore,其中weight1和weight2预先设置的权值,名称相似度nameScore同目标POI数据与候选POI信息Cj的名称、类型相关联,电话相似度phoneScore同目标POI数据与候选POI信息Cj的电话信息相关联,距离相似度distanceScore同目标POI数据与候选POI信息Cj的经纬度相关联,地址相似度addressScore同目标POI数据与候选POI信息Cj的地址相关联。
在一个实施例中,融合存储单元具体在将目标POI数据与POI信息M融合时,对于目标POI数据与POI信息M中的名称信息,将长度最长的名称信息作为融合后的名称信息;对于目标POI数据与POI信息M中的地址信息,将长度最长的地址信息作为融合后的地址信息;对于目标POI数据与POI信息M中的电话信息,将两个电话信息共同作为融合后的电话信息。
在一个实施例中,融合存储单元具体在将目标POI数据与POI信息M融合时,记录目标POI数据的来源标识。
在一个实施例中,区域确定单元具体在预定的第n层经纬度网格中,生成以目标POI数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
本发明通过筛选与目标POI数据相近的候选POI信息,在候选POI信息中判断是否存在与目标POI数据相重复的POI信息。若不存在与目标POI数据相重复的POI信息,则直接将目标POI数据存入POI集合,否则将目标POI数据与相重复的POI信息融合。从而可有效解决数据处理速度慢、数据处理准确性和容错性不足的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明兴趣点数据融合方法一个实施例的示意图。
图2为本发明经纬度网格划分一个实施例的示意图。
图3为本发明确定候选POI信息一个实施例的示意图。
图4为本发明二级hash结构一个实施例的示意图。
图5为本发明兴趣点数据融合系统一个实施例的示意图。
图6为本发明候选信息确定单元一个实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明兴趣点数据融合方法一个实施例的方法。如图1所示,本实施例的方法步骤可包括:
步骤101,当获得新的目标兴趣点POI数据时,提取出目标POI数据的经纬度。
步骤102,在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R。
优选的,在预定的第n层经纬度网格中,生成以目标POI数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
例如,预定的长度可以为2公里。
步骤103,将在第n层经纬度网格中被区域R覆盖的网格作为候选网格。
步骤104,在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息。
通过上述处理,可显著减小信息处理量,明显提高数据处理效率。
步骤105,判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息。
优选的,对于候选POI信息中的每个候选POI信息Cj,判断目标POI数据与候选POI信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1≤j≤M,M为候选POI信息总数,相似度FinalScore同目标POI数据与候选POI信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关。
若目标POI数据与候选POI信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标POI数据与候选POI信息Cj重复。
若目标POI数据与候选POI信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标POI数据与候选POI信息Cj不重复。
优选的,可利用下列公式
FinalScore=(nameScore+phoneScore)*weight1+(distanceScore+addressScore)*weight2
计算相似度FinalScore,其中weight1和weight2预先设置的权值,名称相似度nameScore同目标POI数据与候选POI信息Cj的名称、类型相关联,电话相似度phoneScore同目标POI数据与候选POI信息Cj的电话信息相关联,距离相似度distanceScore同目标POI数据与候选POI信息Cj的经纬度相关联,地址相似度addressScore同目标POI数据与候选POI信息Cj的地址相关联。
例如:nameScore、addressScore、distanceScore可以为:
nameScore=scoreName(clean(name1),clean(name2),type1,type2)
addressScore=scoreAddress(clean(address1)+clean(address2),latitude1,longitude1,latitude2,longitude2)
distanceScore=1-distance/threshold
其中,scoreName为确定两个POI数据1和POI数据2的名称和类型的相似度的函数;addressScore为确定POI数据1和POI数据2的地址和经纬度的相似度的函数;clean为去除附加信息的函数,以便于更好地进行相似度计算;distance为两个POI数据的距离,threshold为相应门限。
步骤106,若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合。
步骤107,若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。
基于本发明上述实施例提供的兴趣点数据融合方法,通过筛选与目标POI数据相近的候选POI信息,在候选POI信息中判断是否存在与目标POI数据相重复的POI信息。若不存在与目标POI数据相重复的POI信息,则直接将目标POI数据存入POI集合,否则将目标POI数据与相重复的POI信息融合。从而可有效解决数据处理速度慢、数据处理准确性和容错性不足的问题。
在一个实施例中,可将全球经纬度平面做L层深度的网格划分,例如L为16。如图2所示,在一个网格中,经纬度坐标(-90,-180)至(0,0)的子网格的索引为1,经纬度坐标(90,-180)至(0,0)的子网格的索引为2,经纬度坐标(-90,180)至(0,0)的子网格的索引为3,经纬度坐标(90,180)至(0,0)的子网格的索引为4。在图2中,目标POI数据的网格索引为14。若以目标POI数据的经纬度为圆心、以预定的长度为半径形成的圆形区域,则覆盖的区域为14、13。
优选的,从数据处理效率考虑,上述第14层经纬度网格中进行处理,即上述n=14。
优选的,如图3所示,上述在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息的步骤可包括:
步骤301,判断候选网格Gi是否为底层网格,其中1≤i≤N,N为候选网格总数。若网格Gi是底层网格,则执行步骤302;若网格Gi不是底层网格,则执行步骤303。
步骤302,将POI集合中与候选网格Gi相关联的POI信息作为候选POI信息。之后,不再执行本实施例的其它步骤。
步骤303,确定网格Gi在最底层经纬度网格中对应的子网格。
步骤304,将POI集合中与所述子网格相关联的POI信息作为候选POI信息。
例如,在一个实施例中,可采用二级hash结构,从而可有效解决数据稀疏导致的存储空间浪费问题。例如,一级hash为第14层经纬度网格中的网格编码索引,例如11111111111111。若该网格是最底层网格,则直接获取相关的POI信息。若该网格不是最底层网格,则继续通过二级hash、即最底层(第16层)网格获取对应的POI信息。
在二级hash结构中,将底层的稀疏网格合并,降低数据存储量。若一级hash条目下的POI总数小于预定值N,则将相关的POIid列表关联存储在一级hash结构中,二级hash无需存储空间,总的存储空间大幅度降低。一二级hash中每一条目的定义都是:
<key>,<(是否是底层网格,id列表)>
图4给出了一二级网格hashkey的关联关系。若一级hashkey处于第14层经纬度网格,则通过增加16种不同后缀,可得到二级hash的16个key。
在一个实施例中,上述将目标POI数据与POI信息M融合的步骤包括:对于目标POI数据与POI信息M中的名称信息,将长度最长的名称信息作为融合后的名称信息。对于目标POI数据与POI信息M中的地址信息,将长度最长的地址信息作为融合后的地址信息。即,以长度表征数据精确度。对于目标POI数据与POI信息M中的电话信息,将两个电话信息共同作为融合后的电话信息。优选的,若存在重复,则将两个电话字段中重复的字符串部分作为融合后的电话信息。
在一个实施例中,在将目标POI数据与POI信息M融合时,还可记录目标POI数据的来源标识。从而可用于追溯数据的初始来源。
在出现重复数据时,并不是简单地直接删除,而是将相关属性信息进行融合,从而可确保数据的可信度。
图5本发明兴趣点数据融合系统一个实施例的示意图。如图5示,该系统包括输入单元501、提取单元502、区域确定单元503、候选网格确定单元504、候选信息确定单元505、识别单元506和融合存储单元507。其中:
输入单元501,用于输入新的目标兴趣点POI数据。
提取单元502,用于当输入单元501获得目标POI数据时,提取出目标POI数据的经纬度。
区域确定单元503,用于在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R。
优选的,区域确定单元具体在预定的第n层经纬度网格中,生成以目标POI数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
候选网格确定单元504,用于将在第n层经纬度网格中被区域R覆盖的网格作为候选网格。
候选信息确定单元505,用于在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息。
识别单元506,用于判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息。
融合存储单元507,用于根据识别单元506的判断结果,若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合;若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。
基于本发明上述实施例提供的兴趣点数据融合系统,通过筛选与目标POI数据相近的候选POI信息,在候选POI信息中判断是否存在与目标POI数据相重复的POI信息。若不存在与目标POI数据相重复的POI信息,则直接将目标POI数据存入POI集合,否则将目标POI数据与相重复的POI信息融合。从而可有效解决数据处理速度慢、数据处理准确性和容错性不足的问题。
在一个实施例中,识别单元506具体对于候选POI信息中的每个候选POI信息Cj,判断目标POI数据与候选POI信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1≤j≤M,M为候选POI信息总数,相似度FinalScore同目标POI数据与候选POI信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;若目标POI数据与候选POI信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标POI数据与候选POI信息Cj重复;若目标POI数据与候选POI信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标POI数据与候选POI信息Cj不重复。
优选的,识别单元506具体利用下列公式
FinalScore=(nameScore+phoneScore)*weight1+(distanceScore+addressScore)*weight2
计算相似度FinalScore,其中weight1和weight2预先设置的权值,名称相似度nameScore同目标POI数据与候选POI信息Cj的名称、
类型相关联,电话相似度phoneScore同目标POI数据与候选POI信息Cj的电话信息相关联,距离相似度distanceScore同目标POI数据与候选POI信息Cj的经纬度相关联,地址相似度addressScore同目标POI数据与候选POI信息Cj的地址相关联。
例如:nameScore、addressScore、distanceScore可以为:
nameScore=scoreName(clean(name1),clean(name2),type1,type2)
addressScore=scoreAddress(clean(address1)+clean(address2),latitude1,longitude1,latitude2,longitude2)
distanceScore=1-distance/threshold
其中,scoreName为确定两个POI数据1和POI数据2的名称和类型的相似度的函数;addressScore为确定POI数据1和POI数据2的地址和经纬度的相似度的函数;clean为去除附加信息的函数,以便于更好地进行相似度计算;distance为两个POI数据的距离,threshold为相应门限。
在一个实施例中,融合存储单元507具体在将目标POI数据与POI信息M融合时,对于目标POI数据与POI信息M中的名称信息,将长度最长的名称信息作为融合后的名称信息;对于目标POI数据与POI信息M中的地址信息,将长度最长的地址信息作为融合后的地址信息;对于目标POI数据与POI信息M中的电话信息,将两个电话信息共同作为融合后的电话信息。
优选的,融合存储单元507具体在将目标POI数据与POI信息M融合时,记录目标POI数据的来源标识。
图6为本发明候选信息确定单元一个实施例的示意图。如图6所示,上述候选信息确定单元包括识别模块601、第一信息确定模块602和第二信息确定模块603。其中:
识别模块601,用于判断候选网格Gi是否为底层网格,其中1≤i≤N,N为候选网格总数。
第一信息确定模块602,用于根据识别模块601的判断结果,若网格Gi是底层网格,则将POI集合中与候选网格Gi相关联的POI信息作为候选POI信息。
第二信息确定模块603,用于根据识别模块601的判断结果,若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将POI集合中与所述子网格相关联的POI信息作为候选POI信息。
通过实施本发明,可有效降低信息处理数量,提高数据处理效率,并有效提高数据的可信度。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (14)
1.一种兴趣点数据融合方法,其特征在于,包括:
当获得新的目标兴趣点POI数据时,提取出目标POI数据的经纬度;
在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R;
将在第n层经纬度网格中被区域R覆盖的网格作为候选网格;
在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息;
判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息;
若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合;
若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。
2.根据权利要求1所述的方法,其特征在于,
在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息的步骤包括:
判断候选网格Gi是否为底层网格,其中1≤i≤N,N为候选网格总数;
若网格Gi是底层网格,则将POI集合中与候选网格Gi相关联的POI信息作为候选POI信息;
若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将POI集合中与所述子网格相关联的POI信息作为候选POI信息。
3.根据权利要求1所述的方法,其特征在于,
判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息的步骤包括:
对于候选POI信息中的每个候选POI信息Cj,判断目标POI数据与候选POI信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1≤j≤M,M为候选POI信息总数,相似度FinalScore同目标POI数据与候选POI信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;
若目标POI数据与候选POI信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标POI数据与候选POI信息Cj重复;
若目标POI数据与候选POI信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标POI数据与候选POI信息Cj不重复。
4.根据权利要求3所述的方法,其特征在于,还包括:
利用下列公式
FinalScore=(nameScore+phoneScore)*weight1+(distanceScore+addressScore)*weight2
计算相似度FinalScore,其中weight1和weight2预先设置的权值,名称相似度nameScore同目标POI数据与候选POI信息Cj的名称、类型相关联,电话相似度phoneScore同目标POI数据与候选POI信息Cj的电话信息相关联,距离相似度distanceScore同目标POI数据与候选POI信息Cj的经纬度相关联,地址相似度addressScore同目标POI数据与候选POI信息Cj的地址相关联。
5.根据权利要求1所述的方法,其特征在于,
将目标POI数据与POI信息M融合的步骤包括:
对于目标POI数据与POI信息M中的名称信息,将长度最长的名称信息作为融合后的名称信息;
对于目标POI数据与POI信息M中的地址信息,将长度最长的地址信息作为融合后的地址信息;
对于目标POI数据与POI信息M中的电话信息,将两个电话信息共同作为融合后的电话信息。
6.根据权利要求5所述的方法,其特征在于,
将目标POI数据与POI信息M融合的步骤还包括:
记录目标POI数据的来源标识。
7.根据权利要求1所述的方法,其特征在于,
在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R的步骤包括:
在预定的第n层经纬度网格中,生成以目标POI数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
8.一种兴趣点数据融合系统,其特征在于,包括输入单元、提取单元、区域确定单元、候选网格确定单元、候选信息确定单元、识别单元和融合存储单元,其中:
输入单元,用于输入新的目标兴趣点POI数据;
提取单元,用于当输入单元获得目标POI数据时,提取出目标POI数据的经纬度;
区域确定单元,用于在预定的第n层经纬度网格中,确定以目标POI数据的经纬度为中心的区域R;
候选网格确定单元,用于将在第n层经纬度网格中被区域R覆盖的网格作为候选网格;
候选信息确定单元,用于在POI集合中提取出与候选网格相关联的POI信息,以作为候选POI信息;
识别单元,用于判断在候选POI信息中,是否存在与目标POI数据相重复的POI信息;
融合存储单元,用于根据识别单元的判断结果,若在候选POI信息中不存在与目标POI数据相重复的POI信息,则将目标POI数据存入POI集合;若在候选POI信息中存在与目标POI数据相重复的POI信息M,则将目标POI数据与POI信息M融合,并将融合后的信息存入POI集合,以对POI信息M进行更新。
9.根据权利要求8所述的系统,其特征在于,候选信息确定单元包括识别模块、第一信息确定模块和第二信息确定模块,其中:
识别模块,用于判断候选网格Gi是否为底层网格,其中1≤i≤N,N为候选网格总数;
第一信息确定模块,用于根据识别模块的判断结果,若网格Gi是底层网格,则将POI集合中与候选网格Gi相关联的POI信息作为候选POI信息;
第二信息确定模块,用于根据识别模块的判断结果,若网格Gi不是底层网格,则确定网格Gi在最底层经纬度网格中对应的子网格,将POI集合中与所述子网格相关联的POI信息作为候选POI信息。
10.根据权利要求8所述的系统,其特征在于,
识别单元具体对于候选POI信息中的每个候选POI信息Cj,判断目标POI数据与候选POI信息Cj之间的相似度FinalScore是否大于预定的阈值,其中1≤j≤M,M为候选POI信息总数,相似度FinalScore同目标POI数据与候选POI信息Cj之间的名称相似度、电话相似度、距离相似度和地址相似度相关;若目标POI数据与候选POI信息Cj之间的相似度FinalScore大于预定的阈值,则确定目标POI数据与候选POI信息Cj重复;若目标POI数据与候选POI信息Cj之间的相似度FinalScore不大于预定的阈值,则确定目标POI数据与候选POI信息Cj不重复。
11.根据权利要求10所述的系统,其特征在于,
识别单元具体利用下列公式
FinalScore=(nameScore+phoneScore)*weight1+(distanceScore+addressScore)*weight2
计算相似度FinalScore,其中weight1和weight2预先设置的权值,名称相似度nameScore同目标POI数据与候选POI信息Cj的名称、类型相关联,电话相似度phoneScore同目标POI数据与候选POI信息Cj的电话信息相关联,距离相似度distanceScore同目标POI数据与候选POI信息Cj的经纬度相关联,地址相似度addressScore同目标POI数据与候选POI信息Cj的地址相关联。
12.根据权利要求8所述的系统,其特征在于,
融合存储单元具体在将目标POI数据与POI信息M融合时,对于目标POI数据与POI信息M中的名称信息,将长度最长的名称信息作为融合后的名称信息;对于目标POI数据与POI信息M中的地址信息,将长度最长的地址信息作为融合后的地址信息;对于目标POI数据与POI信息M中的电话信息,将两个电话信息共同作为融合后的电话信息。
13.根据权利要求12所述的系统,其特征在于,
融合存储单元具体在将目标POI数据与POI信息M融合时,记录目标POI数据的来源标识。
14.根据权利要求8所述的系统,其特征在于,
区域确定单元具体在预定的第n层经纬度网格中,生成以目标POI数据的经纬度为圆心、以预定的长度为半径的圆形区域,以作为所述区域R。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410238215.7A CN105320657A (zh) | 2014-05-30 | 2014-05-30 | 兴趣点数据融合方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410238215.7A CN105320657A (zh) | 2014-05-30 | 2014-05-30 | 兴趣点数据融合方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105320657A true CN105320657A (zh) | 2016-02-10 |
Family
ID=55248061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410238215.7A Pending CN105320657A (zh) | 2014-05-30 | 2014-05-30 | 兴趣点数据融合方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320657A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN107543553A (zh) * | 2016-06-27 | 2018-01-05 | 高德软件有限公司 | 一种兴趣点更新方法及装置 |
CN107609186A (zh) * | 2017-09-30 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置、终端设备及计算机可读存储介质 |
CN109033465A (zh) * | 2018-08-31 | 2018-12-18 | 北京诸葛找房信息技术有限公司 | 基于地理位置与名字相似的多平台小区合并方法 |
CN109947881A (zh) * | 2019-02-26 | 2019-06-28 | 广州城市规划技术开发服务部 | 一种poi判重方法、装置、移动终端及计算机可读存储介质 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
CN110263117A (zh) * | 2019-06-25 | 2019-09-20 | 深圳市腾讯计算机系统有限公司 | 一种用于确定兴趣点poi数据的方法与装置 |
CN110309433A (zh) * | 2018-06-14 | 2019-10-08 | 腾讯大地通途(北京)科技有限公司 | 一种数据处理方法、装置及服务器 |
CN110321885A (zh) * | 2018-03-30 | 2019-10-11 | 高德软件有限公司 | 一种兴趣点的获取方法及装置 |
CN110597943A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于人工智能的兴趣点处理方法、装置及电子设备 |
CN110737733A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 去除重复兴趣点的方法和装置 |
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN115186741A (zh) * | 2022-06-29 | 2022-10-14 | 上海钐昆网络科技有限公司 | 一种兴趣点poi融合数据验证的方法、装置及设备 |
WO2024031943A1 (zh) * | 2022-08-10 | 2024-02-15 | 中国银联股份有限公司 | 门店去重处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218375A (zh) * | 2012-01-20 | 2013-07-24 | 北京四维图新科技股份有限公司 | 一种poi信息补充方法及装置 |
CN103377210A (zh) * | 2012-04-19 | 2013-10-30 | 北京四维图新科技股份有限公司 | 建立增量型导航数据库的方法和对数据库进行更新的方法 |
CN101882135B (zh) * | 2009-05-04 | 2013-12-04 | 高德软件有限公司 | 一种兴趣点数据处理方法和装置 |
CN103514199A (zh) * | 2012-06-25 | 2014-01-15 | 高德软件有限公司 | Poi数据处理方法及其装置、poi检索方法及其装置 |
CN103699623A (zh) * | 2013-12-19 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 地理编码实现方法和装置 |
-
2014
- 2014-05-30 CN CN201410238215.7A patent/CN105320657A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882135B (zh) * | 2009-05-04 | 2013-12-04 | 高德软件有限公司 | 一种兴趣点数据处理方法和装置 |
CN103218375A (zh) * | 2012-01-20 | 2013-07-24 | 北京四维图新科技股份有限公司 | 一种poi信息补充方法及装置 |
CN103377210A (zh) * | 2012-04-19 | 2013-10-30 | 北京四维图新科技股份有限公司 | 建立增量型导航数据库的方法和对数据库进行更新的方法 |
CN103514199A (zh) * | 2012-06-25 | 2014-01-15 | 高德软件有限公司 | Poi数据处理方法及其装置、poi检索方法及其装置 |
CN103699623A (zh) * | 2013-12-19 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 地理编码实现方法和装置 |
Non-Patent Citations (2)
Title |
---|
张继贤等: "《西部地形困难区域测图的原理与方法》", 31 January 2013 * |
武舫: "《GIS在政府行业管理中的应用》", 31 December 2011 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988988A (zh) * | 2015-02-13 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 文本地址处理方法及装置 |
CN107543553A (zh) * | 2016-06-27 | 2018-01-05 | 高德软件有限公司 | 一种兴趣点更新方法及装置 |
CN107609186A (zh) * | 2017-09-30 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置、终端设备及计算机可读存储介质 |
CN107609186B (zh) * | 2017-09-30 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 信息处理方法及装置、终端设备及计算机可读存储介质 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
CN110321885A (zh) * | 2018-03-30 | 2019-10-11 | 高德软件有限公司 | 一种兴趣点的获取方法及装置 |
CN110309433A (zh) * | 2018-06-14 | 2019-10-08 | 腾讯大地通途(北京)科技有限公司 | 一种数据处理方法、装置及服务器 |
CN110737733A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 去除重复兴趣点的方法和装置 |
CN109033465A (zh) * | 2018-08-31 | 2018-12-18 | 北京诸葛找房信息技术有限公司 | 基于地理位置与名字相似的多平台小区合并方法 |
CN109947881A (zh) * | 2019-02-26 | 2019-06-28 | 广州城市规划技术开发服务部 | 一种poi判重方法、装置、移动终端及计算机可读存储介质 |
CN109947881B (zh) * | 2019-02-26 | 2023-10-27 | 广州城市规划技术开发服务部有限公司 | 一种poi判重方法、装置、移动终端及计算机可读存储介质 |
CN110263117A (zh) * | 2019-06-25 | 2019-09-20 | 深圳市腾讯计算机系统有限公司 | 一种用于确定兴趣点poi数据的方法与装置 |
CN110263117B (zh) * | 2019-06-25 | 2024-04-26 | 深圳市腾讯计算机系统有限公司 | 一种用于确定兴趣点poi数据的方法与装置 |
CN110597943A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于人工智能的兴趣点处理方法、装置及电子设备 |
CN110597943B (zh) * | 2019-09-16 | 2022-04-01 | 腾讯科技(深圳)有限公司 | 基于人工智能的兴趣点处理方法、装置及电子设备 |
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN115186741A (zh) * | 2022-06-29 | 2022-10-14 | 上海钐昆网络科技有限公司 | 一种兴趣点poi融合数据验证的方法、装置及设备 |
WO2024031943A1 (zh) * | 2022-08-10 | 2024-02-15 | 中国银联股份有限公司 | 门店去重处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105320657A (zh) | 兴趣点数据融合方法和系统 | |
CN106980573B (zh) | 一种构建测试用例请求对象的方法、装置及系统 | |
EP3258397A1 (en) | Text address processing method and apparatus | |
US20170010102A1 (en) | Hybrid road network and grid based spatial-temporal indexing under missing road links | |
AU2016351177A1 (en) | Method and device for use in risk management of application information | |
KR102184048B1 (ko) | Gis 기반 토지 이용 계획 검토 시스템 및 방법 | |
CN105808609A (zh) | 一种信息点数据冗余的判别方法和设备 | |
CN110196834A (zh) | 一种用于数据项、文件、数据库的对标方法和系统 | |
KR101809685B1 (ko) | 위치정제장치 및 그 방법 | |
EP3557514A1 (en) | Entity information verification method and device | |
CN104102637A (zh) | 一种生成热点区域的方法及装置 | |
CN104008169A (zh) | 一种基于语义的地理标注内容安全检查方法及装置 | |
CN116028499B (zh) | 检测信息生成方法、电子设备和计算机可读介质 | |
Zhang et al. | Empirical assessment of geographically based surface interpolation methods for adjusting construction cost estimates by project location | |
CN105183908A (zh) | 一种兴趣点poi数据的分类方法和装置 | |
CN112084448B (zh) | 相似信息处理方法以及装置 | |
CN111177289A (zh) | 众源网络数据空间相关信息提取校验方法与系统 | |
Gargoum et al. | Feasibility of extracting highway vertical profiles from LiDAR data | |
CN115035475A (zh) | 供水管线实时监控方法、装置、电子设备及介质 | |
CN112241549A (zh) | 安全的隐私计算方法、服务器、系统以及存储介质 | |
Moradi et al. | Exploring five indicators for the quality of OpenStreetMap road networks: A case study of Québec, Canada | |
El-Zahab et al. | Development of a clustering-based model for enhancing acoustic leak detection | |
CN117556079B (zh) | 遥感影像内容检索方法、装置、电子设备及介质 | |
CN105159885A (zh) | 一种兴趣点名称的识别方法和装置 | |
CN105138708A (zh) | 一种兴趣点名称的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160210 |