CN105740252A

CN105740252A - 一种兴趣点poi数据的处理方法及装置

Info

Publication number: CN105740252A
Application number: CN201410749154.0A
Authority: CN
Inventors: 史川
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2016-07-06

Abstract

本发明提供一种兴趣点POI数据的处理方法及装置，解决差分基准库中新增的POI数据，可能会与差分基准库中已有的POI数据重复，难以保证新增数据质量的问题。本发明包括：根据新增POI的坐标生成缓冲区，并将缓冲区和差分基准库进行叠加，获取缓冲区内所有的基准库POI；在基准库POI中，获取所有的与新增POI的类别相同的第一POI；若第一POI中存在一个与新增POI的第一联系方式信息相同的第二POI，则确定不将新增POI添加到差分基准库中，否则，根据新增POI的第二联系方式信息，获取每个第一POI与所述新增POI的相似度；若每个第一POI与所述新增POI的相似度均小于一预设阀值，则将新增POI添加到差分基准库中。本发明通过对新增数据进行去重处理，保证了新增数据的质量。

Description

一种兴趣点POI数据的处理方法及装置

技术领域

本发明涉及POI技术领域，特别是指一种兴趣点POI数据的处理方法及装置。

背景技术

现有技术在对比两个兴趣点POI(比如咖啡馆、银行、饭馆等)是否重复时，直接按照纯文字的相似度来判断二者的名称和地址是否重复。上述比较方法存在以下问题：(1)名称比较存在较大误差，尤其是存在歧义、错别字和简称等情形下；(2)在地址不确定的情况下，无法对连锁品牌进行比较。

现有差分基准库中，每年新增的数据成千上万，采集的数据又是多源的，为了保证新增数据质量，有必要对新增的POI数据进行精确地去重处理。

发明内容

本发明的目的在于提供一种兴趣点POI数据的处理方法及装置，用以解决差分基准库中新增的POI数据，可能会与差分基准库中已有的POI数据重复，难以保证新增数据质量的问题。

为了实现上述目的，本发明提供了一种兴趣点POI数据的处理方法，包括：

根据新增POI的坐标生成缓冲区，并将所述缓冲区和差分基准库进行叠加，获取所述缓冲区内所有的基准库POI；

在所述基准库POI中，获取所有的与所述新增POI的类别相同的第一POI；

若所述第一POI中存在一个与所述新增POI的第一联系方式信息相同的第二POI，则确定不将所述新增POI添加到所述差分基准库中，否则，根据所述新增POI的第二联系方式信息，获取每个所述第一POI与所述新增POI的相似度；

若每个所述第一POI与所述新增POI的相似度均小于一预设阀值，则将所述新增POI添加到所述差分基准库中。

其中，所述第二联系方式信息包括：名称和地址，相应地，所述根据所述新增POI的第二联系方式信息，获取每个所述第一POI与所述新增POI的相似度的步骤包括：

为所述新增POI的名称分配第一权重，同时为所述新增POI的地址分配第二权重；

获取所述第一POI的名称与所述新增POI的名称的第一相似度；

获取所述第一POI的地址与所述新增POI的地址的第二相似度；

将所述第一相似度与所述第一权重的乘积以及所述第二相似度与所述第二权重的乘积进行求和运算，得出所述第一POI与所述新增POI的相似度。

其中，所述获取所述第一POI的名称与所述新增POI的名称的第一相似度的步骤包括：

若所述第一POI的名称与所述新增POI的名称的字符个数相等，则根据编辑距离算法，得出所述第一POI的名称与所述新增POI的名称的第一相似度；

若所述第一POI的名称与所述新增POI的名称的字符个数不相等，则选取所述第一POI的名称与所述新增POI的名称中字符个数较多的名称作为第一比较例，选取所述第一POI的名称与所述新增POI的名称中字符个数较少的名称作为第二比较例，其中，所述第一比较例包含M个字符，所述第二比较例包含N个字符，M大于N且M、N为整数；

以所述第一比较例中的第X个字符为起始，在所述第一比较例中选取N个连续排列的字符作为待比较字符，其中，X为大于或者等于1的奇数；

将所述待比较字符与所述第二比较例进行比较，得出所述待比较字符与所述第二比较例的相似值；

选取所述相似值中最大的值作为所述第一相似度。

其中，所述获取所述第一POI的地址与所述新增POI的地址的第二相似度的步骤包括：

若所述第一POI的地址与所述新增POI的地址中存在相同的POI，则根据所述新增POI的地址中的道路名称以及门牌号确定所述第二相似度，否则，确定所述第二相似度为第一预设值。

其中，根据所述新增POI的地址中的道路名称以及门牌号确定所述第二相似度的步骤包括：

若所述第一POI的地址与所述新增POI的地址中存在相同的道路名称，则确定所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度为第二预设值，并获取所述第一POI中的门牌号与所述新增POI的地址中的门牌号的第二子相似度，否则，根据编辑距离算法，获取所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度，并将所述第一子相似度作为所述第二相似度；

将所述第一子相似度与所述第二子相似度进行求和运算，得出所述第二相似度。

本发明的实施例还提供了一种兴趣点POI数据的处理装置，包括：

第一获取模块，用于根据新增POI的坐标生成缓冲区，并将所述缓冲区和差分基准库进行叠加，获取所述缓冲区内所有的基准库POI；

第二获取模块，用于在所述基准库POI中，获取所有的与所述新增POI的类别相同的第一POI；

第三获取模块，用于若所述第一POI中存在一个与所述新增POI的第一联系方式信息相同的第二POI，则确定不将所述新增POI添加到所述差分基准库中，否则，根据所述新增POI的第二联系方式信息，获取每个所述第一POI与所述新增POI的相似度；

处理模块，用于若每个所述第一POI与所述新增POI的相似度均小于一预设阀值，则将所述新增POI添加到所述差分基准库中。

其中，所述第二联系方式信息包括：名称和地址，以及所述处理模块包括：

第一分配模块，用于为所述新增POI的名称分配第一权重，同时为所述新增POI的地址分配第二权重；

第四获取模块，用于获取所述第一POI的名称与所述新增POI的名称的第一相似度；

第五获取模块，用于获取所述第一POI的地址与所述新增POI的地址的第二相似度；

第六获取模块，用于将所述第一相似度与所述第一权重的乘积以及所述第二相似度与所述第二权重的乘积进行求和运算，得出所述第一POI与所述新增POI的相似度。

其中，所述第四获取模块包括：

第一处理单元，用于若所述第一POI的名称与所述新增POI的名称的字符个数相等，则根据编辑距离算法，得出所述第一POI的名称与所述新增POI的名称的第一相似度；

第二处理单元，用于若所述第一POI的名称与所述新增POI的名称的字符个数不相等，则选取所述第一POI的名称与所述新增POI的名称中字符个数较多的名称作为第一比较例，选取所述第一POI的名称与所述新增POI的名称中字符个数较少的名称作为第二比较例，其中，所述第一比较例包含M个字符，所述第二比较例包含N个字符，M大于N且M、N为整数；

第一获取单元，用于以所述第一比较例中的第X个字符为起始，在所述第一比较例中选取N个连续排列的字符作为待比较字符，其中，X为大于或者等于1的奇数；

第二获取单元，用于将所述待比较字符与所述第二比较例进行比较，得出所述待比较字符与所述第二比较例的相似值；

选取单元，用于选取所述相似值中最大的值作为所述第一相似度。

其中，所述第五获取模块包括：

第三处理单元，用于若所述第一POI的地址与所述新增POI的地址中存在相同的POI，则根据所述新增POI的地址中的道路名称以及门牌号确定所述第二相似度，否则，确定所述第二相似度为第一预设值。

其中，所述第三处理单元包括：

处理子单元，用于若所述第一POI的地址与所述新增POI的地址中存在相同的道路名称，则确定所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度为第二预设值并获取所述第一POI中的门牌号与所述新增POI的地址中的门牌号的第二子相似度，否则，根据编辑距离算法，获取所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度，并将所述第一子相似度作为所述第二相似度；

第三获取单元，用于将所述第一子相似度与所述第二子相似度进行求和运算，得出所述第二相似度。

本发明实施例具有以下有益效果：

本发明实施例根据新增POI的坐标建立缓冲区，并获取缓冲区内所有基准库内的POI，然后根据新增POI的分类、名称、地址以及第一联系方式信息如电话，来判别差分基准库中是否存在于所述新增POI相同的POI。本发明实施例通过对新增POI数据进行去重处理，可以有效防止差分基准库中出现数据冗余重复的现象，保证了新增POI数据的质量。

附图说明

图1表示本发明实施例的兴趣点POI数据的处理方法的工作流程图；

图2表示本发明实施例的兴趣点POI数据的处理装置的结构框图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合具体实施例及附图进行详细描述。

本发明实施例提供了一种兴趣点POI数据的处理方法及装置，解决了差分基准库中新增的POI数据，可能会与差分基准库中已有的POI数据重复，难以保证新增数据质量的问题。

本发明实施例的兴趣点POI数据的处理方法，如图1所示，包括：

步骤S11：根据新增POI的坐标生成缓冲区，并将所述缓冲区和差分基准库进行叠加，获取所述缓冲区内所有的基准库POI。

在本发明的具体实施例中，根据新增POI的坐标，生成以新增POI为圆心，以预设长度为半径的圆形缓冲区，所述预设长度根据坐标的误差大小而定，具体可以为2km，将所述圆形缓冲区和差分基准库进行叠加，获取缓冲区内所有的基准库POI。本发明实施例根据新增POI的坐标建立缓冲区，能够更加精确地去除重复POI，保证新增数据质量。

步骤S12：在所述基准库POI中，获取所有的与所述新增POI的类别相同的第一POI。

在本发明的具体实施例中，当所述基准库POI中不存在与所述新增POI的类别相同的第一POI时，将所述第一POI添加到所述差分基准库中。

步骤S13：若所述第一POI中存在一个与所述新增POI的第一联系方式信息相同的第二POI，则确定不将所述新增POI添加到所述差分基准库中，否则，根据所述新增POI的名称和地址，获取每个所述第一POI与所述新增POI的相似度。

在本发明的具体实施例中，所述第一联系方式信息可以具体为电话，且所述第一联系方式信息的校验等级大于所述第二联系方式信息的校验等级。当第一POI中仅存在一个与所述新增POI的电话相同的第二POI时，确定所述新增POI与所述第二POI重复，从而不将所述新增POI添加到差分基准库中；当第一POI中不存在或者存在多个与所述新增POI的电话相同的第二POI时，不能确定所述新增POI与所述第二POI重复，并根据名称和地址继续判别。

步骤S14：若每个所述第一POI与所述新增POI的相似度均小于一预设阀值，则将所述新增POI添加到所述差分基准库中。

本发明实施例的兴趣点POI数据的处理方法，根据新增POI的坐标建立缓冲区，并获取缓冲区内所有基准库内的POI，然后根据分类、电话、名称以及地址判别新增POI与基准库内的POI是否重复，保证了新增数据的质量。

在本发明的具体实施例中，所述第二联系方式信息包括：名称和地址，相应地，所述根据所述新增POI的名称和地址，获取每个所述第一POI与所述新增POI的相似度的步骤包括：

获取所述第一POI的名称与所述新增POI的名称的第一相似度；

获取所述第一POI的地址与所述新增POI的地址的第二相似度；

具体的，获取所述第一POI的名称与所述新增POI的名称的第一相似度的步骤包括：

选取所述相似值中最大的值作为所述第一相似度。

具体举例说明如下。

在本发明的具体实施例中，首先去除名称中的行政区划；再进行近义词或别称的替换，比如，将“中国工商银行”替换为“工行”，将“度假村”替换为“渡假村”等；然后根据本发明实施例的算法计算名称的相似度，比如要计算“北京永吉安全消防设备有限公司”和“永吉安防”的相似度。先将名称字符个数较多的“北京永吉安全消防设备有限公司”作为第一比较例，将名称字符个数较少的“永吉安防”作为第二比较例；在第一比较例中分别以第一比较例的第1、3、5、7、9、11个字符为起始，选择4(N＝4)个连续排列的字符作为待比较字符，如“北京永吉”、“永吉安全”“安全消防”、“消防设备”、“设备有限”以及“有限公司”；将上述待比较字符依次与第二比较例“永吉安防”进行比较，根据编辑距离算法得出每个待比较字符与第二比较例的相似值，并在所述相似值中选取最大的值作为第一相似度，其中，“永吉安全”与“永吉安防”的相似值(0.75)最大，则选取0.75作为第一相似度。

具体的，获取所述第一POI的地址与所述新增POI的地址的第二相似度的步骤包括：

进一步地，根据所述新增POI的地址中的道路名称以及门牌号确定所述第二相似度的步骤包括：

具体举例说明如下。

在本发明的具体实施例中，首先对新增POI的地址进行格式化整理，去除行政区划和特殊字符即非数字、字母和汉字的字符；根据POI关键字配置表，提取出新增POI的地址中的POI，判断新增POI的地址与第一POI的地址中是否存在相同的POI，当二者存在相同的POI时，则判断二者相同并继续根据道路名称和门牌号进行判断；当二者不存在相同的POI时，则确定二者地址的相似度即第二相似度为第一预设值，如0。

当新增POI的地址与所述第一POI的地址中存在相同的POI时，根据道路名配置表，遍历查询地址字符串，判断新增POI的地址与第一POI的地址中是否存在相同的道路名称，如果二者含有相同的道路名称，则确定第一子相似度为第二预设值，假定为百分之五十，然后再判断道路名称后的门牌号是否相同或者相似，相同则确定第二子相似度为百分之五十，不相同则根据两者之间的距离分配不同的权重值，最多不超过百分之五十，并将所述权重值与两者门牌号的相似度的乘积作为第二子相似度；最后将第一子相似度与第二子相似度的和作为第二相似度。如果二者不含有相同的道路名，则根据编辑距离算法确定所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度，并将所述第一子相似度作为所述第二相似度。举例说明如下。

假定要计算“北京市海淀区学院路丁11号”与“学院路12号”两者的相似度。首先去除行政区划北京市海淀区；然后判别出二者都含有学院路，则确定二者的第一子相似度为百分之五十；根据二者之间的距离分配一小于或者等于百分之五十的权重值，假定为百分之五十，再根据距离编辑算法计算“丁11号”与“12号”的相似度为百分之五十，将权重值(百分之五十)与相似值(百分之五十)的乘积(百分之二十五)作为第二子相似值；最后将第一子相似值与第二子相似值的和即百分之七十五作为第二相似度。

本发明实施例的兴趣点POI数据的处理方法，根据坐标、分类、电话、名称以及地址来精确地判别差分基准库中是否存在于所述新增POI相同的POI，从而保证了差分数据库中新增数据的质量。

本发明实施例还提供了一种兴趣点POI数据的处理装置，如图2所示，包括：

第一获取模块21，用于根据新增POI的坐标生成缓冲区，并将所述缓冲区和差分基准库进行叠加，获取所述缓冲区内所有的基准库POI；

第二获取模块22，用于在所述基准库POI中，获取所有的与所述新增POI的类别相同的第一POI；

第三获取模块23，用于若所述第一POI中存在一个与所述新增POI的第一联系方式信息相同的第二POI，则确定不将所述新增POI添加到所述差分基准库中，否则，根据所述新增POI的第二联系方式信息，获取每个所述第一POI与所述新增POI的相似度；

处理模块24，用于若每个所述第一POI与所述新增POI的相似度均小于一预设阀值，则将所述新增POI添加到所述差分基准库中。

本发明实施例的兴趣点POI数据的处理装置，所述第二联系方式信息包括：名称和地址，以及所述处理模块24包括：

本发明实施例的兴趣点POI数据的处理装置，所述第四获取模块包括：

本发明实施例的兴趣点POI数据的处理装置，所述第五获取模块包括：

本发明实施例的兴趣点POI数据的处理装置，所述第三处理单元包括：

处理子单元，用于若所述第一POI的地址与所述新增POI的地址中存在相同的道路名称，则确定所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度为第二预设值，并获取所述第一POI中的门牌号与所述新增POI的地址中的门牌号的第二子相似度，否则，根据编辑距离算法，获取所述第一POI的道路名称与所述新增POI的道路名称的第一子相似度，并将所述第一子相似度作为所述第二相似度；

需要说明的是，该装置是与上述方法实施例对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明实施例的兴趣点POI数据的处理方法及装置，根据新增POI的坐标、分类、电话、名称以及地址来判别新增POI与基准库内的POI是否重复，有效地去除了重复的POI数据，保证了新增数据的质量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种兴趣点POI数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的兴趣点POI数据的处理方法，其特征在于，所述第二联系方式信息包括：名称和地址，相应地，所述根据所述新增POI的第二联系方式信息，获取每个所述第一POI与所述新增POI的相似度的步骤包括：

获取所述第一POI的名称与所述新增POI的名称的第一相似度；

获取所述第一POI的地址与所述新增POI的地址的第二相似度；

3.根据权利要求2所述的兴趣点POI数据的处理方法，其特征在于，所述获取所述第一POI的名称与所述新增POI的名称的第一相似度的步骤包括：

选取所述相似值中最大的值作为所述第一相似度。

4.根据权利要求2所述的兴趣点POI数据的处理方法，其特征在于，所述获取所述第一POI的地址与所述新增POI的地址的第二相似度的步骤包括：

5.根据权利要求4所述的兴趣点POI数据的处理方法，其特征在于，根据所述新增POI的地址中的道路名称以及门牌号确定所述第二相似度的步骤包括：

6.一种兴趣点POI数据的处理装置，其特征在于，包括：

7.根据权利要求6所述的兴趣点POI数据的处理装置，其特征在于，所述第二联系方式信息包括：名称和地址，以及所述处理模块包括：

8.根据权利要求7所述的兴趣点POI数据的处理装置，其特征在于，所述第四获取模块包括：

9.根据权利要求7所述的兴趣点POI数据的处理装置，其特征在于，所述第五获取模块包括：

10.根据权利要求9所述的兴趣点POI数据的处理装置，其特征在于，所述第三处理单元包括：