CN110020224A

CN110020224A - 地图兴趣点数据的关联方法、装置、设备及介质

Info

Publication number: CN110020224A
Application number: CN201711455933.XA
Authority: CN
Inventors: 王世民; 任旭; 李滢
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-16
Anticipated expiration: 2037-12-28
Also published as: CN110020224B

Abstract

本发明实施例提供了一种地图兴趣点数据的关联方法、装置、设备及介质。其中，该方法包括：从待处理数据源中取出第一兴趣点(POI)数据，并根据动态九宫格的方法确定第一POI数据的疑似数据所处的地理范围；划定待处理数据源中落入地理范围内的数据为疑似关联数据集；将第一POI数据与疑似关联数据集中取出的第二POI数据进行相似度计算，以确定第一POI数据与第二POI数据是否为关联数据。通过本发明的技术方案，能够解决POI搜索效率低的问题，提高了POI搜索效率。

Description

地图兴趣点数据的关联方法、装置、设备及介质

技术领域

本发明涉及空间数据搜索技术领域，尤其涉及一种地图兴趣点(POI)数据的关联方法、装置、设备及介质。

背景技术

在移动互联网飞速发展的时代，用户在享受位置服务时，更倾向于使用地图APP(例如，百度地图、高德地图、和地图)去搜索想要前往的兴趣点，即POI。POI的数量越多，数据越具有优势性，就越能满足用户的需求。

目前POI的生产(即，数据的增删改)由位置服务类相关的数据公司通过人工采集、情报获取、第三方合作的方式来获取数据。其中人工采集为主要的数据更新方式，包括，测量车实地采集、人工PDA采集、用户众包采集等。无论通过何种方式，数据格式都是不统一的。因此，在POI的生产过程中，需要不同来源数据的快速融合，融合过程中首先应将不同来源的数据与各公司自身独有的数据库中的数据进行数据关联，再根据关联结果进行数据融合。因此，位置服务类相关的数据公司均面临大数据关联的问题。

然而，就传统的生产线而言，数据融合是靠“程序-人工”的生产模式完成的，即通过具有相似度模块的系统或工具，识别出潜在的疑似重复数据对，再通过作业人员审核的方式，确认待更新的数据对，实现数据关联处理。

现有技术方案中数据关联的精度、准度、效率，受限于相似度模块与作业人员参与度两方面。相似度模块与作业人员参与度两者互为此消彼长的关系。相似度模块判断的越准，人工参与程度将越低。同时，由于作业人员的教育背景、工作态度等方面不同，数据处理的精准度参差不齐，不可控因素太多，无法保证人工处理的数据的质量。因此，较少的人工参与能获得较高的数据精确度，相似度模块的判断技术是实现高精度、高效率的数据关联的关键。当前主流相似度模块的问题：1)计算对象不具备大数据时代的数据特征；2)相似度模型结构单薄，不具备层次化特点；3)字符相似算法主要为传统的编辑距离算法，不具有语义特征。因此，当前位置服务类相关的数据供应商在数据关联方面面临以上问题，导致大数据关联的效率低、精准度差。

现有技术方案存在以下问题，并亟待解决：

1)现有技术方案中，关联数据集的确认是通过以POI坐标为中心点，按固定距离为半径，得出辐射范围。通过此方法只是大概确认了关联数据集所应存在的范围，并未考虑地物所在的真实位置与地理空间的相互联系。在遇到特殊的地理要素时，例如，山川、河流等，此方法无法准确的确认关联数据集所在的范围。按照当前技术方案，会增大搜索的无效面积，降低搜索效率。

2)现有技术方案中，计算对象不具备大数据时代的数据特征。在大数据时代还没到来之前，数据关联所面临的对象均是通过人工采集的方式收集而来，因此此部分数据具有字段完备率低的特点，即数据的地址、电话、简介等基础字段与增值字段均为空，其数据关联准确性较差；

3)现有技术方案中，相似度计算模型是将选取的部分POI基础字段作为参数，并对各参数进行线性组合。此种线性模型的结构单薄，不具备层次化特点。通过此方法得出的相似度计算结果值具有偶然性；现有技术方案中，相似度计算主要为传统的编辑距离算法，不具有语义特征。编辑距离算法是语言学中传统的字符计算方法。但，POI地址字段中具有明确的语义倾向性，需要具有适用于POI地址字段语义特征的相似度计算算法来解决。如，地址字段由道路门牌信息与其他描述性信息组成，核心内容为道路门牌信息，其余信息均为辅助信息。传统的相似度计算算法便无法突出地址中的核心内容(道路门牌信息)。

综上所述，至少针对现有技术中POI搜索效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种地图POI数据的关联方法、装置、设备及介质，以至少解决现有技术中POI搜索效率低的问题。

第一方面，本发明实施例提供了一种地图POI数据的关联方法，方法包括：

从待处理数据源中取出第一POI数据，并根据动态九宫格的方法确定所述第一POI数据的疑似数据所处的地理范围；

划定所述待处理数据源中落入所述地理范围内的数据为疑似关联数据集；

将所述第一POI数据与所述疑似关联数据集中取出的第二POI数据进行相似度计算，以确定所述第一POI数据与所述第二POI数据是否为关联数据。

第二方面，本发明实施例提供了一种地图POI数据的关联装置，装置包括：

确定模块，用于从待处理数据源中取出第一POI数据，并根据动态九宫格的方法确定所述第一POI数据的疑似数据所处的地理范围；

划分模块，用于划定所述待处理数据源中落入所述地理范围内的数据为疑似关联数据集；

计算模块，用于将所述第一POI数据与所述疑似关联数据集中取出的第二POI数据进行相似度计算，以确定所述第一POI数据与所述第二POI数据是否为关联数据。

第三方面，本发明实施例提供了一种地图POI数据的关联设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的地图POI数据的关联方法、装置、设备及介质，采用从待处理数据源中取出第一POI数据，并根据动态九宫格的方法确定第一POI数据的疑似数据所处的地理范围；划定待处理数据源中落入地理范围内的数据为疑似关联数据集；将第一POI数据与疑似关联数据集中取出的第二POI数据进行相似度计算，以确定第一POI数据与第二POI数据是否为关联数据的方式，能够解决现有技术中POI搜索效率低的问题，提高了POI搜索效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例的地图POI数据的关联方法的流程图；

图2示出了本发明一个实施例的动态九宫格的示意图；

图3示出了本发明一个实施例的树状结构模型的示意图；

图4示出了本发明一个实施例的地图POI数据的关联装置的结构框图；

图5示出了本发明一个实施例的地图POI数据的关联设备的示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明一个实施例中，提供了一种地图POI数据的关联方法。图1示出了本发明一个实施例的地图POI数据的关联方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，从待处理数据源中取出第一POI数据，并根据动态九宫格的方法确定第一POI数据的疑似数据所处的地理范围；

步骤S102，划定待处理数据源中落入地理范围内的数据为疑似关联数据集；

步骤S103，将第一POI数据与疑似关联数据集中取出的第二POI数据进行相似度计算，以确定第一POI数据与第二POI数据是否为关联数据。

通过上述步骤，采用动态九宫格的方式缩小了第一POI数据的疑似数据所处的地理范围，从而提高了搜索效率。

可选地，根据动态九宫格的方法确定第一POI数据的疑似数据所处的地理范围包括：将第一POI数据所属的点位置置于九宫格的中心格中；若九宫格中的格子完全或者部分落入地物要素时，将落入地物要素的格子再按比例等均划分为九个小格子；删除地物要素落入的小格子，并删除既不与第一POI数据所属的小格子直接相连，又不与第一POI数据所属的小格子间接相连的小格子，保留的小格子对应的地理范围为第一POI数据的疑似数据所处的地理范围。

可选地，将第一POI数据与疑似关联数据集中取出的第二POI数据进行相似度计算包括：

对第一POI数据和第二POI数据的名称字段按照树状结构模型进行语义分类，并计算第一POI数据和第二POI数据的名称字段的名称相似度值；

在名称相似度值不小于第一阈值的情况下，根据语义相似度算法，计算第一POI数据和第二POI数据的地址字段的地址相似度值；

利用是非判断计算第一POI数据和第二POI数据的电话字段的电话相似度值；

根据第一POI数据和第二POI数据的经纬度坐标，计算二者所属的点位置之间的距离，并得到第一POI数据和第二POI数据的距离相似度值；

对名称相似度值、地址相似度值、电话相似度值和距离相似度值进行加权计算，得到第一POI数据和第二POI数据的相似度值。

可选地，在对名称相似度值、地址相似度值、电话相似度值和距离相似度值进行加权计算，得到第一POI数据和第二POI数据的相似度值之后，方法还可以包括：

判断相似度值是否不小于第二阈值；

在判断到相似度值不小于第二阈值的情况下，确定第一POI数据和第二POI数据为关联数据。

可选地，对第一POI数据和第二POI数据的名称字段按照树状结构模型进行语义分类包括：

利用品牌分类词库，对第一POI数据和第二POI数据的名称字段进行分类词识别，确定数据所属的大分类、中分类，再根据品牌分类词库，分别对第一POI数据和第二POI数据的名称字段进行切词处理，识别名称字段结尾处是否包含分类尾椎词；将识别出来的大分类、中分类与分类尾椎词分别放置在树状结构模型的第0、1、4层；删除第一POI数据的分类尾椎词，并将删除分类尾椎词之后的第一POI数据作为第三POI数据；删除第二POI数据的分类尾椎词，并将删除分类尾椎词之后的第二POI数据作为第四POI数据；

利用地名道路词库，对第三POI数据和第四POI数据的名称字段进行分支机构判定，并将判定出的分支机构放置在树状结构模型的第3层；删除第三POI数据的分支机构，并将删除分支机构之后的第三POI数据作为第五POI数据；删除第四POI数据的分支机构，并将删除分支机构之后的第四POI数据作为第六POI数据；

利用道路词库，对第五POI数据和第六POI数据进行道路名称判定，并将判定出的道路名称放置在树状结构模型的第5层；删除第五POI数据的道路名称，并将删除道路名称之后的第五POI数据作为第七POI数据；删除第六POI数据的道路名称，并将删除道路名称之后的第六POI数据作为第八POI数据；

将第七POI数据和第八POI数据作为纯名，放置在树状结构模型的第2层。

可选地，计算第一POI数据和第二POI数据的名称字段的名称相似度值包括：

采用下列公式1计算第一POI数据和第二POI数据的名称相似度值S_name：

其中，Dist(A,B)用来描述第一POI数据A_n与第二POI数据B_m之间的语义距离，此距离指它们间的最短路径权重之和；weight(C)用来表示两相邻节点之间的权重，Dcp(C)表示该数据所处的层次数；Cost(A,B)指A_n与B_m之间的两种路径计算方法：A_n、B_m处于相同父节点的不同的分支；或A_n、B_m处于同一分支。

可选地，根据语义相似度算法，计算第一POI数据和第二POI数据的地址字段的地址相似度值包括：

采用下列公式2计算第一POI数据和第二POI数据的地址相似度值S_address：

其中，|A|、|B|分别为第一POI数据A_n、第二POI数据B_m的字符长度，k表示第一POI数据A_n和第二POI数据B_m中相同字符的长度。

可选地，根据第一POI数据和第二POI数据的经纬度坐标，计算二者所属的点位置之间的距离包括：

采用下列公式3计算第一POI数据和第二POI数据所属的点位置之间的平面距离：

D_AB＝R＊arccos[sin(w_A)sin(w_B)+cos(w_A)cos(w_B)＊cos(j_A-j_B)]

(公式3)

其中，R为地球半径；w_A、j_A，w_B、j_B分别为第一POI数据A_n、第二POI数据B_m的纬度、经度；

采用下列公式4计算第一POI数据和第二POI数据的距离相似度值S_distance：

可选地，对名称相似度值、地址相似度值、电话相似度值和距离相似度值进行加权计算，得到第一POI数据和第二POI数据的相似度值包括：

采用下列公式5计算第一POI数据和第二POI数据的相似度值S_total：

其中，S_name为名称相似度值、S_address为地址相似度值、S_telephone为电话相似度值、S_distance为距离相似度值。

下面通过示例对上述实施例进一步进行描述和说明。

本示例提出了一种地图POI数据的关联方法。

在本示例中，在进行数据关联前，首先对关联数据集的判定范围进行筛选。即，从地理位置上确认待关联的POI数据集，以减少待关联的POI数据集的大小，提高POI搜索效率。

在现有技术方案中，以POI坐标为中心点，按固定距离为半径，得出辐射范围，在筛选数据时缺少依据具有盲目性。

一、本示例提出通过动态九宫格的方法确定关联数据集所要判定的范围。九宫格为边长相等的九个正方形所组成的一个大正方形。利用九宫格进行关联范围确定的方案为，将POI所属的点位置置于九宫格的中心格中，数据关联时仅从圈定的九个格子中分析是否存在关联。此外，本示例结合各类地物要素，包括，地貌、水系、交通、境界、植被，提出动态九宫格的概念。动态九宫格指，若格子完全或部分落入各类地物要素时，将落入地物要素的格子再按比例等均划分为九个格子。基于此，可判定地物要素将九宫格分为两个或多个部分，仅保留中心POI所在的部分，其余部分删除。剩余的格子为判定范围。因此，本示例提出动态九宫格的方法确认数据判定的范围。在此地理范围中，筛选可靠的POI数据对。本示例提出九宫格中，单个格子的边长应在0.5KM至1KM区间内，最优值应为0.7KM。

动态九宫格案例见图2。其中五角星为POI点，基于该PIO点位置绘制九宫格。根据地物要素，识别出存在一条山脉，图2种用黑色粗线绘制出。将山脉涉及的三个格子分别再细分为九个格子。则，图2中，灰色格子即为通过动态九宫格划定的待筛选的数据范围。

通过动态九宫格对数据进行筛选，筛选出的POI即为需要比对的数据集的范围，即可靠的POI数据对将在筛选范围内产生。

二、筛选POI数据对过程中，首先根据树状结构模型对POI进行语义分类。结合地名道路类词库、品牌分类词库，针对POI的名称字段信息进行切词分析，利用二叉树、切词压盖原则，确认POI名称中包含的元素，如，行政区划、POI纯名、POI分类信息、POI分支机构信息、POI分类词尾椎、POI地理描述信息等，确认后将所包含的元素放置于二叉树各节点中。然后，根据二叉树所形成的树状结构模型，计算POI名称的相似度值。由于模型为树状结构模型，因此POI名称的相似度值为离散分布的状态。可根据树状结构的名称相似度值，从疑似关联数据集中过滤掉非相似的数据，形成新的关联数据集。

三、针对关联数据集中的两两数据对，利用语义相似度算法计算数据对名称、地址字段的相似度值；再利用是非判断计算电话字段的相似度值；最后将数据对的经纬度坐标转换为平面坐标，并计算两点间平面距离，获得坐标的相似度值。在计算完各字段的相似度值后，根据线性模型计算整条POI数据的相似度值。本示例将提供各参数的系数区间，并给出最佳系数值。

四、判断整条数据的相似度值是否超过阈值，若不超过阈值，则确定此数据对非关联数据；若超过阈值，则确定此数据对为关联的数据，并继续判定其他数据对，直至循环结束。

本示例提出的地图POI数据的关联方法具体包括如下步骤：

步骤1：从待处理数据源中取出一条POI数据A_n，根据动态九宫格的方法确认待判定的疑似数据对所处的地理范围。当地理范围确定后，划定范围内的数据为疑似关联数据集，并从数据集中任意取出一条数据B_m与A_n组成数据对进入下一步判定。

步骤2：首先，对A_n、B_m的名称字段按照树状结构模型进行处理，图3中示出了树状结构模型的示意图。

步骤3：利用品牌分类词库，对POI数据对的名称字段进行分类词识别，确认数据所属的大分类、中分类。再根据品牌分类词库，分别对POI数据对进行切词处理，识别POI名称结尾处是否包含尾椎分类词。完成后，将识别出的大分类、中分类与分类尾椎词分别放置于图3树状模型的第0、1、4层。分别对A_n、B_m删除分类尾椎词，并形成新的数据对A_n′、B_m′。

例，A₁为“万达影城沈辽路”,B₁为“万达影城电影院(沈辽路)”。A₁、B₁的大分类、中分类均分别为“娱乐”、“电影院”；A₁、B₁的纯名部分均为“万达”，分店名分别为“沈辽路”、“(沈辽路)”，分类尾椎部分分别为“影城”、“影城电影院”，地理类信息部分为空。通过处理，A₁′、B₁′分别为“万达沈辽路”、“万达(沈辽路)”。

步骤4：利用地名道路词库(道路词库、标志性建筑物词库等)，对POI数据对A_n′、B_m′进行分支机构判定。判定原则为：1)以括号与括号内分支机构描述词结尾；2)以道路名称加分支机构特征词结尾，特征词包括“店”、“分部”、“支行”、“营业厅”等；3)以道路名称结尾；4)以标志性建筑物名称加分支机构特征词结尾；5)以标志性建筑物名称结尾。若存在分支机构，则将其放置于图3树状结构模型中的第3层，并分别对A_n′、B_m′删除分支机构，并形成新的数据对A_n″、B_m″。

例，按步骤4中原则，A₁′、B₁′可分别识别出分店名为“沈辽路”、“(沈辽路)”，形成数据对A₁″、B₁″，分别为“万达”、“万达”。

步骤5：利用道路词库，对POI数据对A_n″、B_m″进行道路名称判定。若存在道路名称，则将其放置于图3树状结构模型中的第5层，并分别对A_n″、B_m″删除道路名称，并形成新的数据对A_n″′、B_m″′。

例，A₁″、B₁″中不存在道路名称，因此第5层为空，A₁″′、B₁″′依然均为“万达”。

步骤6：将A_n″′、B_m″′作为POI纯名，放置于图3树状结构模型中的第2层。

步骤7：将处理完成的POI数据对A_n、B_m按照公式1进行相似度计算，得出名称相似度计算结果，S_name。

其中，Dist(A,B)用来描述A_n与B_m之间的语义距离，此距离指它们间的最短路径权重之和。由于此模型为树状结构模型，越接近于根节点，所占权重越大。weight(C)用来表示两相邻节点之间的权重，Dcp(C)表示该数据所处的层次数。Cost(A,B)指A_n与B_m之间的两种路径计算方法：A_n、B_m处于相同父节点的不同的分支；或A_n、B_m处于同一分支。S(A,B)代表最终的相似度计算结果。

例如，A₁为“万达影城沈辽路”，B₁为“万达影城电影院(沈辽路)”，若使用传统的编辑距离公式从A₁变换至B₁共需11步，即Dist(A,B)为11，根据公式x＝(7+12-11)/(7+12)得出相似度值为，0.42。按照本示例提出的模型，A₁、B₁在图3树状结构模型中，第0、1、2、3层完全相同，分别为“娱乐大分类”、“电影院中分类”、“万达影城”、“沈辽路”，第4层A₁缺失。即，A₁变换至B₁只需变换一步，则相似度值为1-1/2^4＝0.9375。

步骤8：根据阈值，判定数据对是否为可信的关联数据对，若是则记入缓存准备下一步判定；若否，则取A_n、B_m+1，重复步骤1-8，直至数据对中数据判断完成。其中由于本示例中名称相似度模型为树状结构模型，且根据模型可知，若数据对在第0、1、2层，则此数据对必然为非关联数据对。则相似度值必然≤1-1/2^2＝0.75。从模型可知，不同情形下，相似度计算值为可统计的离散数据点值。所以，阈值必然是可分析出的固定值。本示例中将阈值设置为0.75。

步骤9：根据语义相似度算法(公式2)，计算A_n、B_m的地址字段的相似度值，得出地址相似度值S_address。根据公式2可知，此语义相似度算法考虑POI地址信息的特征——核心内容位于字符的靠前位置。

公式2中|A|、|B|分别为第一POI数据A_n、第二POI数据B_m的字符长度，k表示第一POI数据A_n和第二POI数据B_m中相同字符的长度。根据实验所得，本示例提供α、β的最优解，分别为0.4、0.6。

步骤10：对A_n、B_m的电话字段内容进行规范化。电话字段规范化流程如下：1)根据行政区划与电话区号对应关系表，对A_n、B_m的电话字段中包含的座机电话进行去行政区号处理；2)电话区号与电话位数对应关系表、手机号码与免费电话(400/800电话等)位数表，对A_n、B_m电话字段中非正确位数电话做删除处理；3)对电话字段中非数字信息做删除处理；4)删除分机号码。

步骤11：对规范化后的A_n、B_m进行相似度计算。由于电话信息具有唯一性，因此存在一个字符的差异即为不同，同时电话字段的内容是数据关联的重要方面，但不是必要方面。因此判断逻辑为：1)若A_n、B_m电话字段信息均为空时，则相似度S_telephone＝1；2)若A_n、B_m电话字段信息有一个为空时，则相似度S_telephone＝1；3)若A_n、B_m电话字段信息中无任何一条相同，则相似度S_telephone＝0；4)若A_n、B_m电话字段信息中除免费电话外，其余电话有相同有不同，则相似度S_telephone＝0.5。

步骤12：根据公式3，计算A_n、B_m两点间的平面距离。

D_AB＝R*arccos[sin(w_A)sin(w_B)+cos(w_A)cos(w_B)*cos(j_A-j_B)](公式3)

其中，R为地球半径；w_A、j_A，w_B、j_B分别为A_n、B_m的纬度、经度。

步骤13：根据公式4，将A_n、B_m两点间的平面距离，转换为距离相似度值S_distance。根据实验所得，提供S_p的最优值区间为1km-5km。本示例认为S_p的最优解为4km。

步骤14：分别将S_name、S_address、S_telephone、S_distance带入公式5，计算A_n、B_m整条数据的相似度值S_total。

根据实验所得，本示例提供α、β、γ、δ的最优值区间分别为0.25-0.35，0.2-0.3，0.1-0.2，0.3-0.4。本示例中选择α、β、γ、δ的最优解分别为：0.3，0.25，0.1，0.35。基于最优解，可得出整条POI相似度计算的阈值为0.85。

步骤15：判定相似度值是否超过阈值，若超过则认为此POI数据对为关联数据对，若否则判定为非关联数据对。

步骤16：重复执行步骤9至步骤15，完成所有数据对的判定。

本示例通过对大数据的剖析，充分利用了POI的名称、地址、电话、分类、坐标等字段的信息，结合树状模型、线性模型与语义相似度计算算法，对POI数据对的关联的计算进行了大胆的创新，完成了数据关联的精确识别，使数据关联实现真正意义上的自动化处理。

此外，为描述本示例中提出的方法，现通过以下应用实例进行解释说明。

现有一条POI数据，简称为数据A，如表1所示。

表1POI数据A

首先，根据动态九宫格的方法，在公司位置服务基地自有POI数据库中进行数据筛选，共得到57条POI。此58条数据形成关联数据集。

其次，从关联数据集中取出数据A，分别与其余57条数据组成两两的关联对，再根据本示例中步骤2至步骤8中的方法，根据名称树状模型，计算名称相似度值。实验分析，存在两条数据B、C名称相似度值分别为0.875、0.75，大于等于阈值0.75。数据B、C如表2所示。

表2POI数据B和POI数据C

在表2中选取一条POI数据B，数据A与B组合形成的可靠的数据对。

再次，根据步骤9至步骤13，分别计算此可靠数据对中的地址、电话、坐标的相似度值，计算结果如下：

S_Telephone＝1

S_distance＝0.96

然后，根据步骤15，计算A与B数据对的相似度值，如下：

S_total＝0.3×0.875+0.25×0.702+0.1×1+0.35×0.96＝0.874

最后，根据阈值比较，S_total>0.85，大于阈值，所以可判定数据A与数据B为关联数据。

同理，将数据A与C组合形成可靠数据对，进行操作。

S_total＝0.3×0.75+0.25×0.417+0.1×1+0.35×0.85＝0.727

根据阈值比较，S_total<0.85，小于阈值，所以可判定数据A与数据C为非关联数据。

综上，通过本示例，可判断数据A与数据B关联。

本发明的上述示例在大数据环境下，进行基于POI的数据关联方法的探讨。首先通过动态九宫格的方法，合理的确认待判断的关联数据集所处的地理范围。再针对划定的地理范围内的关联数据集，通过POI名称的树状结构模型，进行相似度计算，结合模型自身的特征，从关联数据集中筛选出可靠的关联数据对。然后，通过语义相似度算法计算数据对的POI地址字段的相似度值，通过独有的逻辑与算法计算POI数据对的电话字段、坐标字段的相似度值。基于POI名称、地址、电话、坐标的相似度值，利用线性模型，计算POI数据对的相似度值，如果超过阈值则可准确的判定此对数据为关联，否则不关联。本示例拓展了传统相似度计算模型的广度与深度，提高了模型的复杂度，因此亦缩小了可靠数据对的范围、大幅度提高了相似度计算的精度与准度，同时降低了人工参与率。

本发明上述示例性实施例能够获得如下有益效果中的至少一个：

本发明实施例提出通过动态九宫格的方法，划分地域范围，确认待判定的数据范围。此方法可最大程度的关联数据集的筛选范围，提高算法效率。

本发明实施例提出通过树状结构模型与现有结构模型相组合的方式，处理POI数据关联的问题。

本发明实施例首次针对POI的名称字段进行树状结构建模，利用位置基地独有的地名道路类词库、品牌分类词库、分支机构判断规则，对POI名称字段内容进行处理。依据此模型计算出的相似度值是固定值，可明确数据间的关系。

本发明实施例针对POI地址字段特征，提出了语义相似度计算算法。语义相似度计算算法可提高地址相似度计算结果的可靠性。

本发明实施例提出的电话字段、坐标字段的规范化方法与相似度计算逻辑，在数据关联过程中起到重要作用。本方法合理的将电话与坐标的差异转换为相似度值，其中坐标字段提供了最优区间。

本发明实施例在整条POI相似度计算过程中，提供了各个参数的最优区间：名称字段0.25-0.35；地址字段0.2-0.3；电话字段0.1-0.2；坐标字段0.3-0.4。同时，根据实验，最优值分别为0.3，0.25，0.1，0.35。

在本发明一个实施例中还提供了一种地图POI数据的关联装置。该装置用于实现上述的地图POI数据的关联方法。图4示出了本实施例的地图POI数据的关联装置的结构框图，如图4所示，该地图POI数据的关联装置包括：

确定模块41，用于从待处理数据源中取出第一POI数据，并根据动态九宫格的方法确定第一POI数据的疑似数据所处的地理范围；

划分模块42，用于划定待处理数据源中落入地理范围内的数据为疑似关联数据集；

计算模块43，用于将第一POI数据与疑似关联数据集中取出的第二POI数据进行相似度计算，以确定第一POI数据与第二POI数据是否为关联数据。

通过上述装置，解决了现有技术中POI搜索效率低的问题，提高了POI搜索效率。

可选地，确定模块41，用于将第一POI数据所属的点位置置于九宫格的中心格中；若九宫格中的格子完全或者部分落入地物要素时，将落入地物要素的格子再按比例等均划分为九个小格子；删除地物要素落入的小格子，并删除既不与第一POI数据所属的小格子直接相连，又不与第一POI数据所属的小格子间接相连的小格子，保留的小格子对应的地理范围为第一POI数据的疑似数据所处的地理范围。

可选地，计算模块43，用于：

可选地，该装置还包括判断模块和另一确定模块。

该判断模块，用于在对名称相似度值、地址相似度值、电话相似度值和距离相似度值进行加权计算，得到第一POI数据和第二POI数据的相似度值之后，判断相似度值是否不小于第二阈值；

该另一确定模块，用于在判断到相似度值不小于第二阈值的情况下，确定第一POI数据和第二POI数据为关联数据。

可选地，计算模块43对第一POI数据和第二POI数据的名称字段按照树状结构模型进行语义分类包括：

可选地，计算模块43计算第一POI数据和第二POI数据的名称字段的名称相似度值包括：

可选地，计算模块43根据语义相似度算法，计算第一POI数据和第二POI数据的地址字段的地址相似度值包括：

可选地，计算模块43根据第一POI数据和第二POI数据的经纬度坐标，计算二者所属的点位置之间的距离包括：

D_AB＝R*arccos[sin(w_A)sin(w_B)+cos(w_A)cos(w_B)*cos(j_A-j_B)]

(公式3)

可选地，计算模块43对名称相似度值、地址相似度值、电话相似度值和距离相似度值进行加权计算，得到第一POI数据和第二POI数据的相似度值包括：

另外，结合图1描述的本发明实施例的地图POI数据的关联方法可以由地图POI数据的关联设备来实现。图5示出了本发明另一实施例提供的地图POI数据的关联设备的硬件结构示意图。

地图POI数据的关联设备可以包括处理器51以及存储有计算机程序指令的存储器52。

具体地，上述处理器51可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器52可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器52可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器52可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器52可在数据处理装置的内部或外部。在特定实施例中，存储器52是非易失性固态存储器。在特定实施例中，存储器52包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器51通过读取并执行存储器52中存储的计算机程序指令，以实现上述实施例中的任意一种地图POI数据的关联方法。

在一个示例中，地图POI数据的关联设备还可包括通信接口53和总线50。其中，如图5所示，处理器51、存储器52、通信接口53通过总线50连接并完成相互间的通信。

通信接口53，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线50包括硬件、软件或两者，将地图POI数据的关联设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线50可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该地图POI数据的关联设备可以基于获取到的数据，执行本发明实施例中的地图POI数据的关联方法，从而实现结合图1描述的地图POI数据的关联方法。

另外，结合上述实施例中的地图POI数据的关联方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种地图POI数据的关联方法。

综上所述，上述的本发明实施例、优选实施例或者实施方式，能够获得下列有益效果中的至少一个。

本发明实施例使用动态九宫格的方法，进行数据筛选。此方法优势在于利用真实的地物特征，准确的划分筛选的范围；同时，该方法最大程度的缩小了数据筛选的范围，减少了算法运算量，提高了运算效率。

通过POI名称字段的树状结构模型，可有效的从关联数据集中筛选可靠的POI数据对。虽然处理的字段仅为名称字段，但本发明实施例中的模型，将数据所属的分类、区划等信息均考虑在内，提高了模型复杂度；此外，依靠模型的自身特征，相似度结果值将为可归纳的离散数据点，因此可通过固定数值确认POI间的差异。

本发明实施例利用语义相似度计算方法计算POI数据对的地址相似度值，提高了计算结果的精准度。语义相似度模型充分考虑了地址字段的内容特征，即地址字段内容由核心地址与描述性信息组成。从数据上分析，核心地址一般为道路门牌信息、标志建筑物信息等，简短概要；描述性信息为区位描述信息，具有字符数长、冗余的特点。如果使用传统的相似度计算算法，计算出的地址相似度值大多偏小且无意义，无法分析数据对的差异。但通过语义相似度计算算法提高了核心地址在公式中的权重，使地址相似度值具有参考价值。

由于本发明实施例的模型特征，在线性模型部分，为各参数的系数提供了最优区间。与其他模型的参数区间的片面性不同，本实施例中的最优区间是结合各参数的特征而来，具有普适性。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种地图兴趣点POI数据的关联方法，其特征在于，所述方法包括：

从待处理数据源中取出第一POI数据，并根据动态九宫格方法确定所述第一POI数据的疑似数据所处的地理范围；

2.根据权利要求1所述的方法，其特征在于，根据动态九宫格的方法确定所述第一POI数据的疑似数据所处的地理范围包括：

将所述第一POI数据所属的点位置置于九宫格的中心格中；

若所述九宫格中的格子完全或者部分落入地物要素时，将落入所述地物要素的格子再按比例等均划分为九个小格子；

删除所述地物要素落入的小格子，并删除既不与所述第一POI数据所属的小格子直接相连，又不与所述第一POI数据所属的小格子间接相连的小格子，保留的小格子对应的地理范围为所述第一POI数据的疑似数据所处的地理范围。

3.根据权利要求1所述的方法，其特征在于，将所述第一POI数据与所述疑似关联数据集中取出的第二POI数据进行相似度计算包括：

对所述第一POI数据和所述第二POI数据的名称字段按照树状结构模型进行语义分类；

计算所述第一POI数据和所述第二POI数据的名称字段的名称相似度值；

在所述名称相似度值不小于第一阈值的情况下，根据语义相似度算法，计算所述第一POI数据和所述第二POI数据的地址字段的地址相似度值；

计算所述第一POI数据和所述第二POI数据的电话字段的电话相似度值；

根据所述第一POI数据和所述第二POI数据的经纬度坐标，计算二者所属的点位置之间的距离，并得到所述第一POI数据和所述第二POI数据的距离相似度值；

对所述名称相似度值、地址相似度值、电话相似度值和所述距离相似度值进行加权计算，得到所述第一POI数据和所述第二POI数据的相似度值。

4.根据权利要求3所述的方法，其特征在于，在对所述名称相似度值、地址相似度值、电话相似度值和所述距离相似度值进行加权计算，得到所述第一POI数据和所述第二POI数据的相似度值之后，所述方法还包括：

判断所述相似度值是否不小于第二阈值；

在判断到所述相似度值不小于所述第二阈值的情况下，确定所述第一POI数据和所述第二POI数据为关联数据。

5.根据权利要求3所述的方法，其特征在于，对所述第一POI数据和所述第二POI数据的名称字段按照树状结构模型进行语义分类包括：

利用品牌分类词库，对所述第一POI数据和所述第二POI数据的名称字段进行分类词识别，确定数据所属的大分类、中分类，再根据所述品牌分类词库，分别对所述第一POI数据和所述第二POI数据的名称字段进行切词处理，识别名称字段结尾处是否包含分类尾椎词；将识别出来的大分类、中分类与分类尾椎词分别放置在所述树状结构模型的第0、1、4层；删除所述第一POI数据的分类尾椎词，并将删除分类尾椎词之后的所述第一POI数据作为第三POI数据；删除所述第二POI数据的分类尾椎词，并将删除分类尾椎词之后的所述第二POI数据作为第四POI数据；

利用地名道路词库，对所述第三POI数据和所述第四POI数据的名称字段进行分支机构判定，并将判定出的分支机构放置在所述树状结构模型的第3层；删除所述第三POI数据的分支机构，并将删除分支机构之后的所述第三POI数据作为第五POI数据；删除所述第四POI数据的分支机构，并将删除分支机构之后的所述第四POI数据作为第六POI数据；

利用道路词库，对所述第五POI数据和所述第六POI数据进行道路名称判定，并将判定出的道路名称放置在所述树状结构模型的第5层；删除所述第五POI数据的道路名称，并将删除道路名称之后的所述第五POI数据作为第七POI数据；删除所述第六POI数据的道路名称，并将删除道路名称之后的所述第六POI数据作为第八POI数据；

将所述第七POI数据和所述第八POI数据作为纯名，放置在所述树状结构模型的第2层。

6.根据权利要求5所述的方法，其特征在于，计算所述第一POI数据和所述第二POI数据的名称字段的名称相似度值包括：

采用下列公式1计算所述第一POI数据和所述第二POI数据的名称相似度值S_name：

7.根据权利要求3所述的方法，其特征在于，根据语义相似度算法，计算所述第一POI数据和所述第二POI数据的地址字段的地址相似度值包括：

采用下列公式2计算所述第一POI数据和所述第二POI数据的地址相似度值S_address：

其中，|A|、|B|分别为所述第一POI数据A_n、所述第二POI数据B_m的字符长度，k表示所述第一POI数据A_n和所述第二POI数据B_m中相同字符的长度。

8.根据权利要求3所述的方法，其特征在于，根据所述第一POI数据和所述第二POI数据的经纬度坐标，计算二者所属的点位置之间的距离包括：

采用下列公式3计算所述第一POI数据和所述第二POI数据所属的点位置之间的平面距离：

D_AB＝R*arccos[sin(w_A)sin(w_B)+cos(w_A)cos(w_B)*cos(j_A-j_B)] 公式3

采用下列公式4计算所述第一POI数据和所述第二POI数据的距离相似度值S_distance：

9.根据权利要求3所述的方法，其特征在于，对所述名称相似度值、地址相似度值、电话相似度值和所述距离相似度值进行加权计算，得到所述第一POI数据和所述第二POI数据的相似度值包括：

采用下列公式5计算所述第一POI数据和所述第二POI数据的相似度值S_total：

10.一种地图兴趣点POI数据的关联装置，其特征在于，所述装置包括：

11.一种地图兴趣点POI数据的关联设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-9中任一项所述的方法。