CN104050196B

CN104050196B - 一种兴趣点数据冗余检测方法及装置

Info

Publication number: CN104050196B
Application number: CN201310084049.5A
Authority: CN
Inventors: 张步峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2017-09-15
Anticipated expiration: 2033-03-15
Also published as: HK1201601A1; CN104050196A

Abstract

本申请公开了一种兴趣点数据冗余检测方法及装置，一种兴趣点数据冗余检测方法包括：根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；兴趣点数据的名称信息中提取名称特征词；将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集；在冗余数据候选集中，计算任意两条兴趣点数据的相似度，如果相似度满足预设的要求，则判定所述两条兴趣点数据互为冗余数据。本申请技术方案并不需要依赖精确的经纬度信息，而是在空间上通过粒度较大的“地理区域”进行粗略划分，然后结合POI数据的其他信息进行冗余检测。整体方案的计算复杂度也能得到较好的控制，可以有效适用于大规模兴趣点数据冗余检测的应用场景。

Description

一种兴趣点数据冗余检测方法及装置

技术领域

本申请涉及地理信息技术领域，特别是涉及一种兴趣点数据冗余检测方法及装置。

背景技术

兴趣点(Point of Interest，POI)指的是人们感兴趣的地理对象数据，一个POI代表一个位置实体，例如餐馆、公园、商场等等。POI数据是地理信息系统中的重要元素，也是人们在使用地理信息服务时最为关注的内容。

在现有基于地理信息的服务中，POI数据冗余是一个比较普遍的现象，所谓POI数据冗余是指在同一系统内，有两条甚至多条POI数据所指代的是同一个位置实体。这种情况一般是由于数据来源不同所导致的，但是对于计算机而言，会将这些冗余的数据看作不同的数据对象来进行各种处理，这样既导致了不必要的处理资源浪费，又不利于提升用户的使用体验。例如，用户在电子地图中搜索某地点名称，搜索引擎可能会匹配到多条冗余的结果、经排序后分别展现给用户，但是多余的结果对用户而言并无实际意义，反而会对阅读效率造成影响。可见，如何对POI数据进行排重处理，避免或减少数据冗余情况，已经成为地理信息技术领域一个重要的研究方向。

现有技术的一种针对POI数据的冗余处理方案是：基于POI数据的经纬度信息对POI数据进行冗余检测。然而在实际应用中发现：很多POI数据中包含的经纬度信息并不精确，甚至不包含经纬度信息，对于这类数据，利用上述方案并不能实现有效的冗余检测。

发明内容

为解决上述技术问题，本申请实施例提供一种兴趣点数据冗余检测方法及装置，以实现在不依赖经纬度信息的情况下进行冗余检测，技术方案如下：

本申请实施例提供一种一种兴趣点数据冗余检测方法，包括：

根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；

从兴趣点数据的名称信息中提取名称特征词；

将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集；

在冗余数据候选集中，计算任意两条兴趣点数据的相似度，如果相似度满足预设的要求，则判定所述两条兴趣点数据互为冗余数据。

本申请实施例还提供一种兴趣点数据冗余检测装置，包括：

区域分类模块，用于根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；

名称特征提取模块，用于从兴趣点数据的名称信息中提取名称特征词；

冗余候选确定模块，用于将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集；

冗余数据确定模块，用于在冗余数据候选集中，计算任意两条兴趣点数据的相似度，如果相似度满足预设的要求，则判定所述两条兴趣点数据互为冗余数据。

本申请实施例所提供的技术方案，首先从两个维度对POI数据进行整体分类：一方面根据POI数据实际包含的位置信息，将POI划分到若干地理区域中；另一方面从POI数据的名称信息中，提取出最能代表该POI名称的特征词。然后根据上面两个维度，选取处于相同地理区域、且具有相同名称特征词的兴趣点数据作为冗余候选，进一步再利用POI数据中其他信息的相似度进行辅助判断，实现冗余检测。

与现有技术相比，本申请技术方案可以不依赖精确的经纬度信息，而是在空间上通过粒度较大的“地理区域”进行粗略划分，然后结合POI数据的其他信息进行冗余检测。

进一步地，由于“地理区域”和“特征词”两方面的条件限定，使得冗余候选集中的数据数量已经很少了，进而使得在冗余候选中执行两两比较运算的复杂度也能够得到控制，因此，本申请实施例技术方案可以有效适用于大规模POI数据冗余检测的应用场景。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例兴趣点数据冗余检测方法的一种流程图；

图2为本申请实施例兴趣点数据冗余检测方法的第二种流程图；

图3为本申请实施例兴趣点名称信息分词示意图；

图4为本申请实施例兴趣点数据冗余检测方法的数据分类示意图；

图5为本申请实施例兴趣点数据冗余检测装置的一种结构示意图；

图6为本申请实施例兴趣点数据冗余检测装置的第二种结构示意图。

具体实施方式

对于一条POI数据，必须至少包含“名称”和“位置”两方面的基本信息，有些POI数据还会进一步包括“类别”、“联系电话”、“数据来源”等附属信息。其中，“位置”信息一般又包括两种描述形式：一种是以经纬度描述POI的位置，另一种则是以地址文本来描述POI的位置。一条POI数据中，可以同时包含经纬度信息和地址描述信息。如果POI数据中的经纬度信息足够精确，则将这种POI数据称为标准POI数据；如果POI数据中不包含经纬度信息，或者经纬度信息不够精确，则将这种POI数据称为非标准POI数据。

传统的POI数据由专业的地图数据提供商采集，其数据格式标准，都包含有经纬度信息，而且经纬度非常精确。这种情况下，只要对经纬度进行网格划分，可以直接解决大规模POI数据的排重问题。随着信息技术的发展，POI数据的来源也不断增加，例如网页内容抓取、运营合作、用户上传等等，这些POI数据的经纬度往往精度不高，甚至不包含经纬度信息，无法直接利用经纬度实现冗余检测。

针对POI数据不包含经纬度信息或经纬度信息不精确的情况，本申请实施例提供一种兴趣点数据冗余检测方法，该方法可以包括以下步骤：

根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；

从兴趣点数据的名称信息中提取名称特征词；

本申请实施例方案，首先从两个维度对POI数据进行整体分类：一方面根据POI数据实际包含的位置信息，将POI划分到若干地理区域中，另一方面从POI数据的名称信息中，提取出最能代表该POI名称的特征词。然后根据上面两个维度，选取处于相同地理区域、且具有相同名称特征词的兴趣点数据作为冗余候选，进一步再利用POI数据中其他信息的相似度进行辅助判断，实现冗余检测。

与现有技术相比，本申请实施例技术方案并不需要依赖精确的经纬度信息，而是在空间上通过粒度较大的“地理区域”进行粗略划分，然后结合POI数据的其他信息进行冗余检测。进一步地，由于“地理区域”和“特征词”两方面的条件限定，使得冗余候选集中的数据数量已经很少了，进而使得在冗余候选中执行两两比较运算的复杂度也能够得到控制，因此本申请实施例技术方案可以有效适用于大规模POI数据冗余检测的应用场景。

可以理解的是，上述方案除了可以应用于系统后台的POI数据预处理之外，在特定应用场景下，也可以应用于POI数据的即时检测，例如，在用户输入地图搜索请求后、系统向用户展示搜索结果之前，利用本申请实施例的方案实现对待展示结果的冗余检测及排重。本申请实施例对方案的具体应用场景并不需要进行限定。

为了使本领域技术人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。

首先获取需要进行冗余检测的POI数据集合，该集合中的数据可以来源于多种渠道，例如专业的地图数据提供商、网页内容抓取、运营合作、用户上传等等。可能需要预先对POI数据进行简单的标准化处理，以便令不同来源的POI数据格式统一。可以理解的是，如何对POI数据进行标准化处理并不属于本申请实施例需要详细描述的内容。

图1所示，其为本申请所提供的兴趣点数据冗余检测方法的一种流程图，该方法可以包括以下步骤：

S101，根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；

在待检测的POI数据集合中，不同来源的的POI数据可能包含了不同的信息字段，但是，任何一条可用的POI数据都包含“名称”和“位置”两方面的基本信息，根据本申请方案的一个方面，利用位置信息对POI数据进行空间上的分类。

其中，“地理区域”是一个粒度较大的空间单位，每个具体的地理区域在地图空间上互不重叠，因此，对于任意一个POI，都可以根据其位置描述，将其划归到一个确定的地理区域中，实现对POI数据在空间上的分类。

地理区域可以按照不同的体系进行划分：例如，按照经纬度进行划分，则一个地理区域就对应一个经纬度网格，网格的精度可以根据需求灵活定义；也可以按照行政区域进行划分，那么一个地理区域就对应一个国家规定的行政区域，例如一个省、一个市等等。

考虑到POI数据最终是要面向普通用户的，因此，利用行政区域作为划分体系更加符合用户的阅读习惯。例如，对于中国大陆，一般可以利用一级行政区域(省、自治区、(直辖)市、特别行政区)或二级行政区域(地区、盟、自治州、(地级)市)的名称进行划分。可以理解的是，本申请方案只是利用行政区域划分地理区域，目的是为了方便用户使用，但是实际的划分方案并不需要严格受到行政区域级别的限制，只需满足“每个具体的地理区域在地图空间上互不重叠”的条件即可。例如：北京市(一级行政区域)和杭州市(二级行政区域)，在本申请方案中可以看作是地位对等的两个地理区域。

如果待检测POI数据的位置是用地址描述信息表示的，那么该地址描述中必然会包含行政区域名称的标识词，通过预设的地名词典，可以直接从地址描述信息中提取出行政区域名称，例如对于以下地址描述：

X：杭州市下城区武林广场1号杭州大厦B座8楼

根据预设的行政区域名称词典，可以从地址描述文本中提取出“杭州市”为区域标识词，假设方案采用“城市”作为地理区域划分的依据，则通过关键词的匹配，可以确定“杭州市”即为所需要的地理区域标识词，进而可以确定X点所处的地理区域为杭州市。

有些经过整理POI数据，可能直接会把“城市”“省”等作为一个单独的信息字段写在POI数据中，这种情况下，通过直接读取该字段，即可确定兴趣点所处的城市。

如果待检测POI数据的位置是用经纬度表示的，那么根据行政区域对应的经纬度范围，查询该POI的经纬度属于哪个行政区域。由于行政区域覆盖了较大的面积，因此，即便POI数据的经纬度信息不够精确，一般也不会影响该POI在行政区域粒度上的划分。

以上分别提供了根据“地址描述信息”和“经纬度”确定POI所处地理区域的方案，根据POI数据所包含的实际信息，可以灵活选用这两种方式的一种，或者同时使用两种方式，这些并不影响本申请方案的实施。

S102，从兴趣点数据的名称信息中提取名称特征词；

在待检测的POI数据集合中，每一条可用的POI数据都包含“名称”信息，根据本申请方案的一个方面，从POI数据的名称信息中提取名称特征词，根据特征词提取结果实现对POI数据在名称上的分类。

名称特征词，是指在一个完整的POI名称描述中，最能体现该POI与其他POI的区别的词，类似“招牌”、“字号”等概念，例如“全聚德烤鸭店和平门店”的特征词为“全聚德”，而“翠宫饭店游泳馆”的特征词为“翠宫”等等。

为了实现名称特征词的提取，首先需要对POI的名称文本进行分词，然后可以利用预设的名称特征词典，从名称文本中提取需要的特征词。这里的名称特征词典可以直接采用现有的各种名称词典，例如，商户名称词典、写字楼名称词典、景点名称词典等等。本申请实施例还提供一种名称特征词典的构建方法，可用于在无法直接获得上述词典的情况下，自行构建名称特征词典：

1)提取采集的POI名称中满足“根-分支”模式的数据，将根部分加入名称特征词典，将分支部分加入热点POI区域地址词典。

例如：北京易初莲花五道口店，其中易初莲花为根部分，五道口为分支部分；

2)删除名称特征词典中频率为1的名称特征词；

3)对名称特征词词典中的名称特征词按照名称相似度进行聚类，将名称相似的信息聚集到一起。

例如：可以将“九头鸟”和“九头鸟酒家”聚到一起，将“易初莲花”和“易初莲花超市”聚到一起；

4)将名称特征词的聚类结果进行人工核查，去除其中的噪音。

其中的噪音可以包括地址、POI分类属性等，名称特征词里最长的噪音为POI分类属性和地名，这两种噪音对名称特征词的解析结果影响很大，如：“苹果园”，如果没有北京的生活经验，无法知道这是一个地名，直接导致“苹果园大鸭梨烤鸭店”的名称特征词解析为“苹果园”；

5)提取去除噪音后的聚类结果中的名称特征词：

提取的原则是在名称特征词不少于3个汉字的情况下尽量短，对大型连锁特性的POI可以不遵循这个原则，此处形成的名称特征词是由多个名称特征词聚合而来的；

6)删除小于三个汉字的歧义名称特征词。

例如：“友谊宾馆”，如果将“友谊”作为名称特征词，由于“友谊”本身是中国一个县级市，同时“友谊”本身作为一个名称特征词区分度太低，将对名称特征词的解析结果造成很大的麻烦。所谓区分度是指是否能直接根据名称特征词联系到POI本身，例如麦当劳，只要一提到麦当劳就知道是家快餐厅。但是如果提到“苹果”，就可能是苹果电脑、苹果牛仔裤、甚至水果供应商户。这就说明麦当劳的区分度很高，而苹果的区分度很低。

另外，为了保证名称特征词带有一定的区分度，很多名称特征词可为“名称特征词+POI属性”。譬如“友谊宾馆”、“宝岛眼镜”等，但如果名称特征词本身就有很好的区分度，我们可直接使用名称特征词，如“全聚德”本身就有很好的区分度，无须再使用“全聚德烤鸭店”。

可以理解的是，上述提供的名称特征词典构建方案，仅用于示意性说明，不应理解为对本申请方案的限制。本领域技术人员可以根据实际需求，选用其他名称特征词典构建方案，或者直接利用已有的名称特征词典实现名称特征词的提取，这些并不影响本申请方案的实施。

S103，将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集；

在步骤S101和S102，分别对待检测的POI数据集从空间和名称两个维度做了分类，其中，空间上分类是基于粒度较大的“地理区域”，而名称上的分类则基于“名称特征词”，同一名称分类下的POI数据仅要求特征词相同，不要求名称完全一致，同样是粒度相对较大的分类。

在本步骤中，对两个维度的分类结果进行汇总：将待检测的POI数据划分为不同的数据子集，其中每个子集中的元素特征是：兴趣点处于相同的地理区域、并且具有相同名称特征词。可以想象的是，尽管在两个维度进行的都是粒度较大的粗略划分，但是由于两个方面的同时限制，因此一个数据子集中的实际元素数量会很小。例如在“北京市”区域内，具有“全聚德”特征词的POI数据实际不会超过10条，极个别情况下，每个子集中的数据数量也不会超过100。

在本申请实施例中，将划分得到的数据子集称为冗余数据候选集。后续将分别在不同的冗余数据候选集进行冗余检测。

S104，在冗余数据候选集中，计算任意两条兴趣点数据的相似度，如果相似度满足预设的要求，则判定所述两条兴趣点数据互为冗余数据。

在每个冗余数据候选集中，选择其中任意两条POI数据进行相似度计算，作为判定是否存在冗余的标准。总的判定原则是：两条数据的相似程度越高，互为冗余的可能性就越大。当然，根据实际的应用需求，可以采用不同的相似度计算策略和判别策略，下面分别举例简单说明：

一种最直接的方式是：先对两条兴趣点数据所包含的一个或多个预设字段的信息分别计算相似度；然后利用每个字段的相似度计算结果，通过加权得到两条兴趣点数据的相似度。

例如，预设字段为“名称”、“地址”、“经纬度”、“电话”，分别定义上述4个字段的相似度为s1、s2、s3、s4，并且依据重要程度，设置4个字段的权值分别为0.4、0.3、0.1、0.2，则两条信息的总相似度S计算公式如下：

S＝0.4*s1+0.3*s2+0.1*s3+0.2*s4

将计算得到的S值，与一个预设的阈值进行比较，如果S大于该阈值，则判定两条数据是冗余数据。

这里s1、s2、s3、s4都是经归一化处理(即取值范围在[0，1])后的值，其中，各种类型字段信息的相似度计算方法，现有技术中分别有多种不同实现方式，在本申请实施例中仅作示意性说明：

1)名称相似度s1：

对于任意的POI名称，可以通过分词将其拆分为若干格式化的子字段，参见图3所示，将POI名称拆分为province(省)、city(市)、county(县)、stem(特证词)、type(属性)、residue(残余字段)六个子字段。对于两个POI名称，分别计算每个子字段的相似性后，通过加权得到总的名称相似度。

2)地址相似度s2：

与名称相似度类似，可以将地址描述文本通过分词拆分为若格式化的子字段，分别计算每个子字段的相似性后，通过加权得到总的地址相似度。

3)经纬度相似度s3：

由于任意一个经纬度都可以表示成平面上的一个坐标点，因此，对于两条POI数据的经纬度信息，通过计算两点间的距离(distance)远近，就可以评价两个POI的经纬度相似度，例如规定：

如果distance≥1000m，则相似度为0；

如果distance＜1000m，则相似度为(1000-distance)/1000

4)电话相似度s4：

两条POI数据的电话信息phone1和phone2中，都可能包括不只一个电话号码，计算相似度时，只要phone1和phone2中任意一个电话号码相同，则相似度为1.0，否则为0。

以上仅对“名称”、“地址”、“经纬度”、“电话”四种字段信息的相似度计算法做了示意性说明，不应理解为对本申请技术方案的限制。此外，根据实际的应用场景，也可以利用其他字段值、或采用其他的加权方式进行相似度S的计算，因此上述相似度S的计算公式也不应理解为对本申请技术方案的限制。

在本申请的一种具体实施方式中，考虑到不同来源的POI数据所包含的具体字段可能并不完全相同，因此在计算相似度时，可以选取那些在两条兴POI数据中均不为空的一个或多个字段参与计算。

例如，数据1包含“名称”、“地址”、“电话”3个字段(这里的“包含”是指字段值不为空)，数据2包含“名称”、“地址”、“经纬度”3个字段，二者的共有字段是“名称”和“地址”，这种情况下，可以仅利用“名称”和“地址”字段进行相似度计算。由于不再考虑其他字段，这里需要对“名称”和“地址”字段的权重值进行修正。例如，根据“名称”和“地址”的预设权重比例(0.4∶0.3)，将权重值归一化后分别修正为0.57和0.43。一种更为简单的修正处理方法是：直接将两个字段的权值都为0.5，也就是说，在所选用字段不确定的情况下，总相似度值可以等于参与计算的各个字段相似度的平均值。

在本申请的另一种具体实施方式中，考虑到“名称”、“地址”、“经纬度”三个字段的全部或部分信息有可能在之前已经作为划分冗余数据候选集的依据，因此，在同一冗余数据候选集中计算相似度时，可以不再考虑这些已经用过的信息，仅利用剩余部分参与相似度计算。

举例说明：“行政区域”是从地址描述信息中提取得到，因此在计算地址相似度时，可以去掉“行政区域”的部分，仅用剩余的部分参与相似度计算，例如，在同一个冗余数据候选集中的“杭州市下城区武林广场1号杭州大厦B座8楼”和“杭州市杭州大厦B座8楼”两条地址描述，由于“杭州市”本身就是该冗余数据候选集的划分依据，因此，在实际计算相似度时可以去除“杭州市”，仅计算“下城区武林广场1号杭州大厦B座8楼”和“杭州大厦B座8楼”的文本相似度。

考虑到有些数据的行政区域确定依据可能是经纬度，对于这种情况，可以在确定POI所处行政区域阶段，对确定时所用的依据进行标识，在计算相似度阶段，检查两条数据所标识的依据是否相同，如果相同，则在计算相似度时可以不考虑这部分内容。

类似的情况也存在于名称相似度的计算中，由于同一个冗余数据候选集中的POI数据的名称特征词本身就是相同的，因此，在计算名称相似度时，可以排除名称特征词部分，仅计算剩余部分的文本相似度。

以上介绍了多种相似度的计算策略和判别策略，可以理解的是：这些策略仅是一些具体实施方式，不应理解为对本申请整体方案的限制，在“同一冗余数据候选集内两条POI数据的相似程度越高，则二者互为冗余的可能性就越大”的总体原则指导下，本领域技术人员可以根据实际应用场景，选用任意的方式来评价两条POI数据的相似程度，并且给出相应的冗余数据判定准则，这些并不影响本申请整体方案的实施。

参见图2所示，在本申请的一种具体实施方式中，确定互为冗余的两条或多条POI数据后，可以进一步对冗余的POI数据进行排重处理，排重处理的一般原则是：保留完整度较高的POI数据，或者保留数据来源比较可靠的数据。两种原则可以分别独立使用，也可以相互结合使用，例如：

1)首先根据数据来源对POI数据进行打分：

考虑到不同来源的POI数据质量参差不齐，可以预先对不同的数据来源可靠性进行评估，然后对不同的来源进行打分。例如：专业地图数据提供商来源的数据打5分、大型网站的来源的数据打4分、小型网站来源的数据打3分、普通用户上传数据打2分，等等。如果在一组冗余数据中，打分最高的只有一条，则直接确定该条数据为需要保留的结果，否则进入步骤2)；

2)根据步骤1)的结果，根据信息完整度对POI数据进行打分：

假设完整的POI数据需要包含4个字段，分别为名称、地址、电话、经纬度，每个字段的打分区间在0～1之间：

名称：名称为空，打分为0；名称不为空时，根据字串长度打分：名称打分＝字串长度*0.1，若字串长度超过10，打分为1.0分；

地址：地址为空，打分为0；只要地址不为空，就至少打0.1分，再次基础上：如果地址中含有街道则加0.3分，如果地址中含有街道号则加0.5分，如果地址中含有大厦或者小区名称则加0.1分。例如：“北京市中关村东路”为0.4分，“北京市中关村东路8号”为0.9分，“北京市中关村东路8号东升大厦”为1.0分；

电话：电话为空，打分为0；包含1个电话0.3分，包含2个电话0.6分，包含3个或者更多电话为1.0分；

经纬度：经纬度为空，打分为0；否则为1.0分；

最后对每条POI数据的4个字段打分求和，信息完整度取值区间为0～4.0，找到信息完整度最高的一条，作为需要保留的结果。

当然，上述打分方式仅用于示意性说明，不应理解为对本申请技术方案的限制。

本申请实施例技术方案分别从空间和名称两个维度对待检测的POI数据集进行分类，通过图1可以看出，两次分类过程并不需要区分先后顺序。在实际应用中，为了满足并行计算的需求，两次分类也可以分步进行，如图4所示：先执行第一次分类，将待检测的POI数据划分为若干一级子类1、2、3......，然后在第一次分类结果的基础上进一步执行第二次分类，最终得到的二级子类1.1、1.2、...2.1、2.2...就分别对应不同的冗余数据候选集。

在本申请的一种具体实施方式中，考虑到“地理区域”是预先划分的，因此可以将基于地理区域的划分作为第一次分类，使得一级子类的数量具有可控性，进一步可以将不同的一级子类分派给多个并行处理单元，由不同的并行处理单元分别完成不同一级子类的二次分类(即基于名称的分类)以及后续的相似度计算。

下面对整个过程的计算复杂度进行量化分析：

假设待检测POI数据量为N，地理区域的数量为C，经过第一次分类后，每个地理区域拥有平均POI数据量为K，则N＝C*K；经过第二次分类后，每个地理区域平均拥有的名称特征词数量为S，每个名称特征词平均对应的POI数据量为G，则K＝S*G，进而有N＝C*S*G。

对于n条数据，两两进行相似度计算的复杂度可以认为是平方复杂度，即o(n*n)，也就是说，一个冗余数据候选集中的平均计算复杂度为O(G*G)，数据总量N＝C*S*G的计算复杂度为C*S*O(G*G)，由于空间和名称两方面条件的限制，G的实际取值一般在1-100之间，因此完全可以根据实际需求，采用多线程/多进程/map-reduce等并行技术实现大批量POI数据的快速冗余检测。

下面结合一个具体的实例，对本申请的POI数据冗余检测方法进行说明：

假设当前有6条数据，标准化后格式为：

[id，城市，名称，地址，电话，经度，纬度，数据来源]

6条数据分别为：

A，北京市，全聚德烤鸭店和平门店，宣武区前门西大街14号楼(近和平门地铁站)，010-63023062，，，taobao.com

B，北京市，全聚德烤鸭店三元桥店，朝阳区东三环北路甲2号京信大厦1楼(近萧云路)，010-84492760，11646117，3995380，taobao.com

C，北京市，全聚德烤鸭店，京信大厦1楼，010-84492760，，，koubei.com

D，杭州市，外婆家(杭州大厦店)，下城区武林广场1号杭州大厦B座8楼(近体育场路)，，，，taobao.com

E，杭州市，外婆家，武林广场1号，0571-85175778，，，koubei.com

F，杭州市，外婆湾酒家，马市街130号1-4，，，，koubei.com

可以看到，除数据B之外，其他5条数据都没有经纬度信息，数据D和数据F没有电话信息，这种情况下，传统的基于经纬度的冗余检测方法已经失效。

应用本申请方案，首先利用“地理区域”进行分类，由于数据中将“城市”作为一个单独的字段存储，因此可以直接利用该字段进行分类，结果包括2个子类：

[A、B、C](对应“北京市”)

[D、E、F](对应“杭州市”)

然后利用“名称特征词”进行分类，通过提取，可以得到“全聚德”、“外婆家”、“外婆湾”均为名称特征词，分类结果包括3个子类：

[A、B、C](对应“全聚德”)

[D、E](对应“外婆家”)

[F](对应“外婆湾”)

综合两次分类的结果，可以得到4个冗余数据候选集：

[A、B、C](对应“北京市”及“全聚德”)

[D、E](对应“杭州市”及“外婆家”)

[F](对应“杭州市”及“外婆湾”)

在每个冗余数据候选集中，分别根据POI数据的名称、电话等信息，两两计算相似度，注意这里并不会选用“数据来源”参与相似度计算。最终得到的结果是：

在[A、B、C]中，B和C互为冗余数据；

在[D、E]中，D和E互为冗余数据；

在[F]中仅有一条数据，无需进行相似度计算；

通过排重处理，每组冗余数据中保留一个最优的结果：

B和C之间，保留B；

D和E之间，保留D；

保留的依据都是“taobao.com”的来源可靠度高于“koubei.com”，当然这里的保留依据仅用于示意性说明。

最后，初始的6条数据，经冗余检测及排重处理后，精简为4条数据：

B，北京市，全聚德烤鸭店三元桥店，朝阳区东三环北路甲2号京信大厦1楼(近萧云路)，010-84492760，11646117，3995380，koubei.com

D.杭州市，外婆家(杭州大厦店)，下城区武林广场1号杭州大厦B座8楼(近体育场路)，，，，taobao.com

F.杭州市，外婆湾酒家，马市街130号1-4，，，，koubei.com

相应于上面的方法实施例，本申请还提供一种兴趣点数据冗余检测装置，参见图5所示，该装置可以包括：区域分类模块、名称特征提取模块、冗余候选确定模块、冗余数据确定模块。下面分别对各个模块的功能及协作关系进行说明：

区域分类模块110，用于根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；

其中“地理区域”是一个粒度较大的空间单位，每个具体的地理区域在地图空间上互不重叠，因此对于任意一个POI，都可以根据其位置描述，将其划归到一个确定的地理区域中，实现对POI数据在空间上的分类。

地理区域可以按照不同的体系进行划分：例如按照经纬度进行划分，则一个地理区域就对应一个经纬度网格，网格的精度可以根据需求灵活定义；也可以按照行政区域进行划分，那么一个地理区域就对应一个国家规定的行政区域，例如一个省、一个市等等。

考虑到POI数据最终是要面向普通用户的，因此利用行政区域作为划分体系更加符合用户的阅读习惯。例如，对于中国大陆，一般可以利用一级行政区域(省、自治区、(直辖)市、特别行政区)或二级行政区域(地区、盟、自治州、(地级)市)的名称进行划分。可以理解的是，本申请方案只是利用行政区域划分地理区域，目的是为了方便用户使用，但是实际的划分方案并不需要严格受到行政区域级别的限制，只需满足“每个具体的地理区域在地图空间上互不重叠”的条件即可。例如：北京市(一级行政区域)和杭州市(二级行政区域)，在本申请方案中可以看作是地位对等的两个地理区域。

如果待检测POI数据的位置是用地址描述信息表示的，那么该地址描述中必然会包含行政区域名称的标识词，通过预设的地名词典，可以直接从地址描述信息中提取出行政区域名称。

如果待检测POI数据的位置是用经纬度表示的，那么根据行政区域对应的经纬度范围，查询该POI的经纬度属于哪个行政区域。由于行政区域覆盖了较大的面积，因此即便POI数据的经纬度信息不够精确，一般也不会影响该POI在行政区域粒度上的划分。

名称特征提取模块120，用于从兴趣点数据的名称信息中提取名称特征词；

名称特征词，是指在一个完整的POI名称描述中，最能体现该POI与其他POI的区别的词，类似“招牌”、“字号”等概念，例如“全聚德烤鸭店和平门店”的特征词为“全聚德”、“翠宫饭店游泳馆”的特征词为“翠宫”等等。

为了实现名称特征词的提取，首先需要对POI的名称文本进行分词，然后可以利用预设的名称特征词典，从名称文本中提取需要的特征词。这里的名称特征词典可以直接采用现有的各种名称词典，例如商户名称词典、写字楼名称词典、景点名称词典等等。

冗余候选确定模块130，用于将处于相同地理区域、且具有相同名称特征词的兴趣点数据划分至同一冗余数据候选集；

在区域分类模块110和名称特征提取模块120，分别对待检测的POI数据集从空间和名称两个维度做了分类，其中空间上分类是基于粒度较大的“地理区域”，而名称上的分类则基于“名称特征词”，同一名称分类下的POI数据仅要求特征词相同，不要求名称完全一致，同样是粒度相对较大的分类。

在冗余候选确定模块130，对两个维度的分类结果进行汇总：将待检测的POI数据划分为不同的数据子集，其中每个子集中的元素特征是：兴趣点处于相同的地理区域、并且具有相同名称特征词。可以想象的是，尽管在两个维度进行的都是粒度较大的粗略划分，但是由于两个方面的同时限制，因此一个数据子集中的实际元素数量会很小。例如在“北京市”区域内，具有“全聚德”特征词的POI数据实际不会超过10条，极个别情况下，每个子集中的数据数量也不会超过100。

在本申请实施例中，将划分得到的数据子集称为冗余数据候选集。后续冗余数据确定模块140将分别在不同的冗余数据候选集进行冗余检测。

冗余数据确定模块140，用于在冗余数据候选集中，计算任意两条兴趣点数据的相似度，如果相似度满足预设的要求，则判定所述两条兴趣点数据互为冗余数据。

在本申请的另一种具体实施方式中，考虑到“名称”、“地址”、“经纬度”三个字段的全部或部分信息有可能在之前已经作为划分冗余数据候选集的依据，因此在同一冗余数据候选集中计算相似度时，可以不再考虑这些已经用过的信息，仅利用剩余部分参与相似度计算。

参见图6所示，在本申请的一种具体实施方式中，所述的兴趣点数据冗余检测装置还可以进一步包括数据排重模块150，用于在冗余数据确定模块140确定互为冗余的两条或多条兴趣点数据后，根据兴趣点数据的完整度和/或兴趣点数据的来源，确定需要保留的兴趣点数据。

确定互为冗余的两条或多条POI数据后，可以进一步对冗余的POI数据进行排重处理，排重处理的一般原则是：保留完整度较高的POI数据，或者保留数据来源比较可靠的数据。两种原则可以分别独立使用，也可以相互结合使用。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种兴趣点数据冗余检测方法，其特征在于，该方法包括：

根据兴趣点数据的位置信息，确定兴趣点所处的地理区域；

根据预设的名称特征词典，从兴趣点数据的名称信息中提取名称特征词；

2.根据权利要求1所述的方法，其特征在于，所述根据兴趣点数据的位置信息，确定兴趣点所处的地理区域，包括：

从兴趣点数据的地址描述信息中，提取地理区域标识词，根据地理区域标识词确定该兴趣点所处的地理区域。

3.根据权利要求1所述的方法，其特征在于，所述根据兴趣点数据的位置信息，确定兴趣点所处的地理区域，包括：

根据兴趣点数据的经纬度信息，确定该兴趣点所处的地理区域。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述地理区域为：行政区域。

5.根据权利要求1所述的方法，其特征在于，所述计算任意两条兴趣点数据的相似度，包括：

对两条兴趣点数据所包含的一个或多个预设字段的信息分别计算相似度；

根据字段的相似度计算结果，通过加权得到两条兴趣点数据的相似度。

6.根据权利要求1所述的方法，其特征在于，所述计算任意两条兴趣点数据的相似度，包括：

对在两条兴趣点数据中均不为空的一个或多个字段的信息分别计算相似度；

7.根据权利要求1所述的方法，其特征在于，该方法还包括：

确定互为冗余的两条或多条兴趣点数据后，根据兴趣点数据的完整度和/或兴趣点数据的来源，确定需要保留的兴趣点数据。

8.一种兴趣点数据冗余检测装置，其特征在于，该装置包括：

名称特征提取模块，用于根据预设的名称特征词典，从兴趣点数据的名称信息中提取名称特征词；

9.根据权利要求8所述的装置，其特征在于，所述区域分类模块，具体用于：

从兴趣点数据的地址描述信息中，提取地理区域标识词，根据地理区域标识词确定该兴趣点所处的地理区域；

或