CN116501940A

CN116501940A - 多源兴趣点匹配方法、装置、计算机设备和存储介质

Info

Publication number: CN116501940A
Application number: CN202310466098.9A
Authority: CN
Inventors: 赵斌伟; 武东旭; 强成仓; 石立臣; 李宏宽
Original assignee: Shenzhen Yishi Huolala Technology Co Ltd
Current assignee: Shenzhen Yishi Huolala Technology Co Ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-28

Abstract

本申请涉及一种多源兴趣点匹配方法、装置、计算机设备和存储介质。所述方法包括：获取目标兴趣点的属性信息；属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息；根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各候选兴趣点的属性信息；使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息；计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。本申请能够精细化地对多源兴趣点进行匹配，提升匹配准确性。

Description

多源兴趣点匹配方法、装置、计算机设备和存储介质

技术领域

本申请涉及电子地图领域，特别是涉及一种多源兴趣点匹配方法、装置、计算机设备和存储介质。

背景技术

兴趣点(Point of Interest，简称POI)，一般包含名称、地址、经纬度、类别等信息，其是网络电子地图的最重要内容，也是互联网位置服务的立足之本。由于互联网上的POI数据来源不一，采集与处理过程各不相同，从而导致了这些数据在空间位置，属性信息以及丰富程度上存在着一定的差异，因此如何有效地消除数据间的不一致性，并把它们组织成一套内容准确，可供用户使用的数据成为了当前研究的热点。目前常用的方法是将不同来源的POI数据，通过匹配的方法将各自的信息进行融合，从而丰富POI数据的信息以及消除数据间的不一致性。

目前常用的匹配方案是从两个异源的POI数据中分别抽取POI，然后计算这两个POI的名称文本相似度和地址文本相似度，将计算出来的名称文本相似度和地址文本相似度通过设置一个权值(其中，名称文本和地址文本对应的权值相同)来计算整体的相似度，作为这两个POI之间的相似度得分，当得分高于某个阈值的时候，就认为这两个POI具有匹配关系，从而对多源POI数据进行匹配。

然而，通过计算POI间的名称文本相似度、地址文本相似度来判断是否为同一POI，这种匹配方法较粗糙，准确度不高。

发明内容

本申请针对上述不足或缺点，提供了一种多源兴趣点匹配方法、装置、计算机设备和存储介质，本申请实施例能够精细化地对多源兴趣点进行匹配，提升匹配准确性。

本申请根据第一方面提供了一种多源兴趣点匹配方法，在一个实施例中，该方法包括：

获取目标兴趣点的属性信息；属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息；

根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各候选兴趣点的属性信息；

使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息；

计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。

在一个实施例中，根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，包括：

根据目标兴趣点的经纬度信息确定与目标兴趣点关联的目标H3网格；

根据目标H3网格召回与目标兴趣点相邻且异源的每个兴趣点作为候选兴趣点。

在一个实施例中，该方法还包括：

构建兴趣点库；兴趣点库包括不同来源的多个兴趣点；

构建多个互不重叠的H3网格，每个H3网格对应一个地理区域；

根据兴趣点库中每个兴趣点的经纬度信息确定每个兴趣点相关联的H3网格，并为每个兴趣点及其关联的H3网格建立关联关系。

在一个实施例中，使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息之前，还包括：

对目标兴趣点和各候选兴趣点的名称信息进行预处理操作；预处理操作用于对名称信息执行以下的一项或多项处理：将全角字符转为半角字符；将特殊符号去除；将英文大写字母转为小写字母；将中文繁体字转为简体字的操作；和/或，

将目标兴趣点的名称信息和类别信息与各候选兴趣点的名称信息和类别信息进行对比，针对任一候选兴趣点，若该候选兴趣点的类别信息与目标兴趣点的类别信息不一致，或，该候选兴趣点的类别信息与目标兴趣点的类别信息完全不一致，则将该候选兴趣点剔除。

在一个实施例中，名称成分实体信息包括行政区划成分信息、核心词成分信息、类别词成分信息和分支成分信息；计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，包括：

计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度；

获取预设的核心词与类别词的匹配权重信息；

根据核心词与类别词的匹配权重信息计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度的加权平均值，作为目标兴趣点与各候选兴趣点的相似度值。

在一个实施例中，计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值之前，该方法还包括：

删除目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息中包含的行政区划成分信息；

剔除分支成分信息与目标兴趣点的分支成分信息不同的候选兴趣点。

在一个实施例中，名称成分识别模型的训练过程包括：

构建标注数据集和合成数据集；

为标注数据集和合成数据集中的每条样本数据标注对应的成分实体类别数据；样本数据的成分实体类别数据包括用于表征样本数据中每个分词对应的成分实体类别；成分实体类别包括行政区划、核心词、类别词和分支；

为标注数据集和合成数据集中的每条样本数据构建特征数据，样本数据的特征数据包括分词边界特征信息、行政区划特征信息、类别词特征信息、表征样本数据中的每个字符是否为数字的特征信息以及表征样本数据中的每个字符是否为英文的特征信息；

根据标注数据集和合成数据集中的每条样本数据对应的成分实体类别数据和特征数据训练得到名称成分识别模型。

本申请根据第二方面提供了一种多源兴趣点匹配装置，在一个实施例中，该装置包括：

第一属性信息获取模块，用于获取目标兴趣点的属性信息；属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息；

第二属性信息获取模块，用于根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各候选兴趣点的属性信息；

名称成分识别模块，用于使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息；

兴趣点匹配模块，用于计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。

本申请根据第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的实施例的步骤。

本申请根据第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

本申请实施例能带来以下技术效果：

第一，将兴趣点的名称划分为多种类别的名称成分，并为其中的核心词设置更高的匹配权重，为类别词设置较低的匹配权重，从而经过成分识别后可以做到更精细化地匹配，相较于传统方法提高了匹配效果。

第二，考虑到兴趣点数据都有经纬度信息，因此，通过理空间构建空间索引，使得兴趣点库中的每个兴趣点都会落入相应的空间网格当中。当需要为目标兴趣点和兴趣点库中的候选兴趣点进行匹配时，只需从兴趣点库中召回与目标兴趣点对应的网格相邻的网格中的兴趣点进行匹配即可，不需要跟整个兴趣点库进行匹配，相较于传统方法提高了匹配效率。

第三，在实际情况中存在以下情况，即是两个兴趣点虽然在文本上很接近(比如带有分支成分类数据)，但是实际上并不具有匹配关系，针对这类情况，现有技术不能很好解决，而本申请实施例通过名称成分模型识别出兴趣点名称中的分支成分，利用分支成分来判断两个兴趣点是否一致，从而对这类问题做了较好的解决。

附图说明

图1为一个实施例中一种多源兴趣点匹配方法的流程示意图；

图2为一个实施例中兴趣点的名称成分实体信息的示意图；

图3为一个实施例中一种训练名称成分识别模型的流程示意图；

图4为一个实施例中一种计算兴趣点间相似度的流程示意图；

图5为一个实施例中输入模型的数据格式的示意图；

图6为一个实施例中训练模型的示意图；

图7为一个实施例中模型输出结果的示意图；

图8为一个实施例中一种多源兴趣点匹配装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供了一种多源兴趣点匹配方法。在一个实施例中，该多源兴趣点匹配方法包括如图1所示的步骤，下面以该方法应用于匹配服务器为例进行说明。

S110：获取目标兴趣点的属性信息；属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息。

每个兴趣点的属性信息均包含兴趣点的名称信息、地址信息、行政区信息、经纬度信息和类别信息。

其中，在进行多源兴趣点匹配之前，匹配服务器先构建兴趣点库，兴趣点库包括不同来源的多个兴趣点以及各兴趣点的属性信息。在进行多源兴趣点匹配时，匹配服务器先确定目标兴趣点，并获取目标兴趣点的属性信息。

目标兴趣点是兴趣点库之外的兴趣点。在一些场景中，目标兴趣点可以是采集到的或购买到的需要进行匹配的兴趣点。匹配服务器将目标兴趣点和兴趣点库中的兴趣点进行匹配，如果兴趣点库中存在与目标兴趣点匹配的兴趣点，则可以将该兴趣点和目标兴趣点的数据进行融合，如果兴趣点库中不存在与目标兴趣点匹配的兴趣点，则将目标兴趣点作为新的兴趣点添加到兴趣点库中。

S120：根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各候选兴趣点的属性信息。

其中，根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，包括：根据目标兴趣点的经纬度信息确定与目标兴趣点关联的目标H3网格；根据目标H3网格召回与目标兴趣点相邻且异源的每个兴趣点作为候选兴趣点。

具体地，匹配服务器在构建好兴趣点库之后，进一步构建多个互不重叠的H3网格，每个H3网格对应一个地理区域，然后根据兴趣点库中每个兴趣点的经纬度信息确定每个兴趣点相关联的H3网格，并为每个兴趣点及其关联的H3网格建立关联关系。即是，匹配服务器通过H3网格的方式去构建空间索引，将兴趣点库中的每个兴趣点都划入一个对应的H3网格中，从而当需要确定候选兴趣点时，不需要将兴趣点库中的每个兴趣点都确定为候选兴趣点，而可以先利用目标兴趣点的经纬度信息找到相关联的H3网格(即目标H3网格)，然后再利用目标H3网格召回与目标兴趣点相邻且异源(即不同来源)的每个兴趣点作为候选兴趣点。由于候选兴趣点的数量减少了，因此减少执行用于将目标兴趣点与候选兴趣点进行匹配的操作，既节省了计算资源，又能缩短兴趣点的匹配耗时。

其中，上述的利用目标H3网格召回与目标兴趣点相邻且异源的每个兴趣点作为候选兴趣点的操作，可以是召回目标H3网格的每个周边网格所关联的每个兴趣点作为候选兴趣点。目标H3网格的周边网格是指与目标H3网格存在一条公共边的网格。

S130：使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息。

每个兴趣点的名称成分实体信息均包括行政区划成分信息、核心词成分信息、类别词成分信息和分支成分信息等四类信息。例如，假设目标兴趣点的名称为“广州汉米敦服饰有限公司3号楼”，则目标兴趣点的名称成分实体信息可以参见图2所示，从图2可以确定以下信息，即[(0,1,“行政区划”),(2,4,“核心词”),(5,10,“类别词”),(11,13,“分支”)]。上述的(0,1,“行政区划”)是指目标兴趣点的名称中的第1至第2个字对应的分词(即广州)的成分实体类别是行政区划，同理，(2,4,“核心词”)是指目标兴趣点的名称中的第3至第5个字对应的分词(汉米敦)的成分实体类别是核心词。在本实施例中，该成分实体类别有四类，包括行政区划、核心词、类别词和分支。

在一个实施例中，使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息之前，还包括：(1)对目标兴趣点和各候选兴趣点的名称信息进行预处理操作；预处理操作用于对名称信息执行以下的一项或多项处理：将全角字符转为半角字符；将特殊符号去除；将英文大写字母转为小写字母；将中文繁体字转为简体字的操作；和/或，(2)将目标兴趣点的名称信息和类别信息与各候选兴趣点的名称信息和类别信息进行对比，针对任一候选兴趣点，若该候选兴趣点的类别信息与目标兴趣点的类别信息不一致，或，该候选兴趣点的类别信息与目标兴趣点的类别信息完全不一致，则将该候选兴趣点剔除。

在一个实施例中，如图3所示，名称成分识别模型的训练过程包括：

S210：构建标注数据集和合成数据集；

S220：为标注数据集和合成数据集中的每条样本数据标注对应的成分实体类别数据；样本数据的成分实体类别数据包括用于表征样本数据中每个分词对应的成分实体类别；成分实体类别包括行政区划、核心词、类别词和分支；

S230：为标注数据集和合成数据集中的每条样本数据构建特征数据，样本数据的特征数据包括分词边界特征信息、行政区划特征信息、类别词特征信息、表征样本数据中的每个字符是否为数字的特征信息以及表征样本数据中的每个字符是否为英文的特征信息；

S240：根据标注数据集和合成数据集中的每条样本数据对应的成分实体类别数据和特征数据训练得到名称成分识别模型。

S140：计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。

其中，如图4所示，计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，包括：

S141：计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度；

S142：获取预设的核心词与类别词的匹配权重信息；

S143：根据核心词与类别词的匹配权重信息计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度的加权平均值，作为目标兴趣点与各候选兴趣点的相似度值。

其中，核心词与类别词的匹配权重信息包括核心词的匹配权重和类别词的匹配权重。核心词的匹配权重大于类别词的匹配权重。优选地，核心词的匹配权重为0.7，类别词的匹配权重为0.3。

经过大量实践发现，核心词在匹配过程当中作用最重要，而其他类型的词作用较弱，因此本实施例提高了核心词的匹配权重，同时降低了类别词的匹配权重，从而经过成分识别后可以做到更精细化地匹配，相较于传统方法提高了匹配效果。其中，匹配效果最佳的设置方式是将核心词的匹配权重为0.7，类别词的匹配权重为0.3。

进一步地，在一个实施例中，计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值之前，该方法还包括：删除目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息中包含的行政区划成分信息；剔除分支成分信息与目标兴趣点的分支成分信息不同的候选兴趣点。

由于本实施例是通过空间索引进行周边召回，因此目标兴趣点和召回的候选兴趣点距离很近，于是在计算目标兴趣点和候选兴趣点的相似度时，通过名称成分识别模型识别出的行政区划成分就基本起不到作用，所以可以先将目标兴趣点和召回的候选兴趣点的名称成分为行政区划的过滤掉，然后再进行后续的匹配，可以提高匹配效率。

此外，对于目标兴趣点和候选兴趣点，如果通过名称成分识别模型识别出的分支成分不同，那么这两个兴趣点就不是同一个兴趣点，可以直接进行过滤，以进一步提高匹配效率。

比如，目标兴趣点为“北京洛伊奥科技有限公司3号门”，候选兴趣点为“北京洛伊奥科技有限公司2号门”，其中，目标兴趣点的分支为“3号门”，候选兴趣点的分支为“2号门”，由于目标兴趣点和候选兴趣点的分支不同，因此目标兴趣点和候选兴趣点不是同一个兴趣点，可以将候选兴趣点过滤。

下面通过一个具体的应用例对上述实施例进行说明。

本应用例具体可分为获取目标兴趣点、兴趣点库、周边召回、数据预处理、前置过滤模块、名称成分识别模块、打分模块和排序模块共计八个部分。以下对各部分进行详细说明。

1、获取目标兴趣点

本应用例所涉及的匹配是指将目标兴趣点与兴趣点库中的异源兴趣点进行匹配，来判断目标兴趣点与兴趣点库中的兴趣点是否为同一兴趣点。在本部分中，可以通过采集或者购买的方式获取待匹配的目标兴趣点，其中，获取的目标兴趣点会包含诸如名称、地址、行政区、经纬度、类别等属性信息，后续可以利用这些信息跟兴趣点库当中的异源兴趣点进行匹配。

2、兴趣点库

本部分所涉及的兴趣点库是预先利用H3空间索引构建好的，具体是通过H3网格的方式去构建空间索引，使得每个兴趣点都属于空间上不同的H3网格。

3、周边召回

本部分会使用目标兴趣点的经纬度坐标去请求召回兴趣点库中的位于目标兴趣点周边的每个兴趣点，召回的兴趣点即是候选兴趣点。

具体地，可以通过目标兴趣点的经纬度坐标所在网格来召回周边的网格，后续会将从周边网格取出的所有的兴趣点与目标兴趣点进行一一匹配。

4、数据预处理

兴趣点的名称文本中可能包含特殊符号以及繁体字等，因此需要先做预处理，再构造特征输入训练好的名称成本识别模型。同时，为了实现目标兴趣点和候选兴趣点的数据分布的一致性，需要将目标兴趣点和候选兴趣点做相同的预处理操作。

其中，数据预处理的过程可以包含以下四个步骤：

(1)字符全角转半角

(2)去除特殊符号

(3)英文大写转小写

(4)中文繁体转简体

5、前置过滤模块

为了提高目标兴趣点和候选兴趣点的匹配效率，本部分会对目标兴趣点做一些前置过滤，具体的过滤操作如下所示：

(1)比对目标兴趣点和候选兴趣点的兴趣点类别，如果不一致，则确定两者不是同一个兴趣点，直接过滤掉目标兴趣点；

(2)比对目标兴趣点和候选兴趣点的名称，如果目标兴趣点和候选兴趣点的名称当中没有一个字一样，则确定两者不是同一个兴趣点，直接过滤掉目标兴趣点。

可理解的，如果确定目标兴趣点和候选兴趣点不是同一个兴趣点，那么就不需要对目标兴趣点执行后续处理，例如不需要用名称成分识别模块来识别目标兴趣点的名称成分。

6、名称成分识别模块

本部分中，名称成分识别模块会利用训练好的名称成分识别模型来预测目标兴趣点和候选兴趣点的名称所包含的每个成分实体。成分实体的类别共有4类，分别是行政区划、核心词、类别词、分支。将兴趣点(如目标兴趣点或候选兴趣点)的名称输入训练好的名称成分识别模型，即可获得该兴趣点的名称成分实体信息。

名称成分识别模型可以基于命名实体识别算法来训练，下面对相关训练过程进行说明，其中，训练过程包括训练数据集构建、特征工程、模型训练等环节。

(1)训练数据集构建

在本环节中，先收集用于训练模型的多条文本作为训练数据，每条文本是一条训练数据。收集到的训练数据需要先进行数据预处理。

具体地，训练数据的名称中可能包含空格、标点等特殊符号，因此需要先将训练数据做预处理再进行识别。同时，在构建训练数据集时应保证数据预处理一致性，即训练数据与实际预测时使用的目标兴趣点和候选兴趣点的数据分布相同，需采用相同的数据预处理操作。数据预处理的过程包含以下4个步骤：

1)字符全角转半角

2)去除特殊符号

3)英文大写转小写

4)中文繁体转简体

完成数据预处理后，利用训练数据来构建训练样本集。

具体地，训练数据集的构建包含两个部分，分别是标注数据集和合成数据集。在本应用例中，标注数据集和合成数据集可以按照1：5的比例进行抽取。相关的构造方案如表一所示：

表一：

关于数据标注，如上所述，名称的成分类别共分为四类，分别是行政区划、核心词、类别词、分支。为每条训练数据标注的信息均会包含名称成分的起始位置信息以及类别信息，标注的示例如下所示：

假设某条训练数据的兴趣点名称是：北京洛伊奥科技有限公司(东门)

则其Label(即标注的信息)是：[(0,1,“行政区划”),(2,4,“核心词”),(5,10,“类别词”),(12,13,“分支”)]

示例性地，上述(0,1,“行政区划”)中的“0,1”是起始位置信息，“行政区划”是类别信息。

(2)特征工程

本应用例采用CRF++工具来训练名称成分识别模型。CRF++是基于条件随机场的命名实体识别的开源工具，其采用特征模板的方式来自动生成一系列的特征函数，而不用用户手动生成，用户需要做的是构造各种各样特征，比如分词边界、行政区划词典等。

本应用例经过大量实验和测试，最终构建以下5类特征，即：分词边界、行政区划词典特征、类别关键字词典特征、是否为数字(用于表征字符是否为数字)、是否为英文(用于表征字符是否为英文)。以下对各类特征的构建进行说明。

1)分词边界

首先，对训练数据进行分词处理，可以得到多个分词；然后，通过BIESO标注方法标记每个分词的起始位置，具体是将词转化成边界标签，其中，词的开头标为B，中间位置标为I，结尾标为E，单字成词则标为S。

例如，分词是[“洛”，“伊”,“奥”]，则该分词对应的边界标签是[“B”,“I”,“E”]，又例如分词是[“科”，“技”]，则该分词对应的边界标签是[“B”,“E”]。

2)行政区划词典特征

首先，建立行政区划词典，该词典中包含多个行政区划的名称。

然后，对训练数据进行分词处理，针对每个分词，判断分词是否在行政区划词典中，是则标为1，否则标为0。

例如，[“北”，“京”]对应[“1”,“1”]，[“科”，“技”]对应[“0”,“0”]。

3)类别关键字词典特征

首先，建立关键字词典，该词典中包含多个关键字。

然后，对训练数据进行分词处理，针对每个分词，判断分词是否在类别关键字词典中，是则标为1，否则标为0。

例如，[“公”，“司”]对应[“1”,“1”]。

4)是否为数字

逐一判断训练数据中的每个字符是否为数字，是则标为1，否则标为0。

例如，[“3”，“号”，“口”]对应[“1”，“0”，“0”]

5)是否为英文

逐一判断训练数据中的每个字符是否为英文，是则标为1，否则标为0。

例如，[“A”，“栋”]对应[“1”，“0”]

最终每条训练数据都会处理成如图5所示的格式来供模型训练。

图中从左到右包含7列，第一列是训练数据的每个字符，第二至第6列分别是上述构造的5类特征，即“是否类别词”、“是否行政区划”、“是否字母”、“是否数字”、“分词边界”，第7列为人工标注的类别标签。

(3)模型训练

构建好训练数据集之后，即可进行模型训练，训练好会得到一个模型文件。训练过程可参见图6所示。其中，训练参数为F＝1表示特征频数下限为1，E＝0.0001表示训练误差小于0.0001时终止训练过程，C＝1.0表示CRF的正则化项的系数。

进一步地，名称成分识别模块预测兴趣点的名称成分实体信息时，需要先加载训练得到的模型文件，然后按照上述(1)和(2)的方式对兴趣点的名称进行预处理并提取特征，将提取的特征输入模型，模型预测后会输出如下所示的预测结果，并进一步将格式转化成名称成分实体信息返回。

名称成分实体形式结果如下所示：

[(0,1,“行政区划”),(2,4,“核心词”),(5,10,“类别词”),(11,13,“分支”)]

名称成分实体信息可参见图7所示。

7、打分模块

(1)行政区划过滤

(2)分支不同进行过滤

对于目标兴趣点和候选兴趣点，如果通过名称成分识别模型识别出的分支成分不同，那么这两个兴趣点就不是同一个兴趣点，可以直接进行过滤，以进一步提高匹配效率。

(3)不同名称成分匹配权重设置

通过tf-idf的方法分别计算目标兴趣点和候选兴趣点的核心词相似度以及类别词相似度，其中，核心词相似度表示为sim_core，类别词相似度表示为sim_class，核心词匹配权重表示为weight_core，类别词匹配权重表示为weight_class，由于核心词相较于类别词更加重要，根据大量的经验，将核心词的匹配权重设置为0.7，类别词的匹配权重设置为0.3。

(4)兴趣点相似度计算

最终兴趣点相似度可以根据核心词以及类别词相似度的加权平均来进行计算，计算过程如下：

sim_poi＝weight_core*sim_core+weight_class*sim_class

8、排序模块

遍历每个候选兴趣点，依次计算其与目标兴趣点之间的相似度，之后将相似度按照得分进行倒序排序，取得分最大的值，如果得分大于某个阈值，就认为该目标兴趣点与候选兴趣点能够匹配成功，否则，则认为目标兴趣点与兴趣点库里面的兴趣点都匹配不上。

本应用例至少能带来以下技术效果：

总而言之，本申请实施例能解决多源兴趣点匹配的问题，并且从根本上提升了兴趣点匹配的效果，使其高效、合理、适用面广。

图1、3-4为一个实施例中多源兴趣点匹配方法的流程示意图。应该理解的是，虽然图1、3-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、3-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于相同的发明构思，本申请还提供了一种多源兴趣点匹配装置。在本实施例中，如图8所示，该多源兴趣点匹配装置包括以下模块：

第一属性信息获取模块110，用于获取目标兴趣点的属性信息；属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息；

第二属性信息获取模块120，用于根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各候选兴趣点的属性信息；

名称成分识别模块130，用于使用训练好的名称成分识别模型识别出目标兴趣点的名称成分实体信息，以及各候选兴趣点的名称成分实体信息；

兴趣点匹配模块140，用于计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定目标兴趣点与各候选兴趣点之间的匹配关系。

在一个实施例中，第二属性信息获取模块120根据目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点时，用于根据目标兴趣点的经纬度信息确定与目标兴趣点关联的目标H3网格；根据目标H3网格召回与目标兴趣点相邻且异源的每个兴趣点作为候选兴趣点。

在一个实施例中，该装置还包括以下模块：

库构建模块，用于构建兴趣点库；兴趣点库包括不同来源的多个兴趣点；

网格构建模块，用于构建多个互不重叠的H3网格，每个H3网格对应一个地理区域；

关联模块，用于根据兴趣点库中每个兴趣点的经纬度信息确定每个兴趣点相关联的H3网格，并为每个兴趣点及其关联的H3网格建立关联关系。

在一个实施例中，该装置还包括以下模块：

预处理模块，用于对目标兴趣点和各候选兴趣点的名称信息进行预处理操作；预处理操作用于对名称信息执行以下的一项或多项处理：将全角字符转为半角字符；将特殊符号去除；将英文大写字母转为小写字母；将中文繁体字转为简体字的操作；和/或，

第一剔除模块，用于将目标兴趣点的名称信息和类别信息与各候选兴趣点的名称信息和类别信息进行对比，针对任一候选兴趣点，若该候选兴趣点的类别信息与目标兴趣点的类别信息不一致，或，该候选兴趣点的类别信息与目标兴趣点的类别信息完全不一致，则将该候选兴趣点剔除。

在一个实施例中，名称成分实体信息包括行政区划成分信息、核心词成分信息、类别词成分信息和分支成分信息；相应地，兴趣点匹配模块140计算目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息之间的相似度值时，用于计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度；获取预设的核心词与类别词的匹配权重信息；根据核心词与类别词的匹配权重信息计算目标兴趣点与各候选兴趣点的核心词相似度和类别词相似度的加权平均值，作为目标兴趣点与各候选兴趣点的相似度值。

在一个实施例中，该装置还包括以下模块：

成分信息删除模块，用于删除目标兴趣点的名称成分实体信息与各候选兴趣点的名称成分实体信息中包含的行政区划成分信息；

第二剔除模块，用于剔除分支成分信息与目标兴趣点的分支成分信息不同的候选兴趣点。

在一个实施例中，该装置还包括模型训练模块。

模型训练模块，用于执行以下操作：

构建标注数据集和合成数据集；

关于多源兴趣点匹配装置的具体限定可以参见上文中对于多源兴趣点匹配方法的限定，在此不再赘述。上述多源兴趣点匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储兴趣点库中每个兴趣点的属性信息等数据，具体存储的数据还可以参见上述方法实施例中的限定。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多源兴趣点匹配方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一方法实施例中提供的方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一方法实施例中提供的方法中的步骤。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多源兴趣点匹配方法，其特征在于，所述方法包括：

获取目标兴趣点的属性信息；所述属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息；

根据所述目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各所述候选兴趣点的属性信息；

使用训练好的名称成分识别模型识别出所述目标兴趣点的名称成分实体信息，以及各所述候选兴趣点的名称成分实体信息；

计算所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定所述目标兴趣点与各所述候选兴趣点之间的匹配关系。

2.如权利要求1所述的方法，其特征在于，根据所述目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，包括：

根据所述目标兴趣点的经纬度信息确定与所述目标兴趣点关联的目标H3网格；

根据所述目标H3网格召回与所述目标兴趣点相邻且异源的每个兴趣点作为所述候选兴趣点。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

构建所述兴趣点库；所述兴趣点库包括不同来源的多个兴趣点；

构建多个互不重叠的H3网格，每个所述H3网格对应一个地理区域；

根据所述兴趣点库中每个兴趣点的经纬度信息确定每个兴趣点相关联的H3网格，并为每个兴趣点及其关联的H3网格建立关联关系。

4.如权利要求1所述的方法，其特征在于，使用训练好的名称成分识别模型识别出所述目标兴趣点的名称成分实体信息，以及各所述候选兴趣点的名称成分实体信息之前，还包括：

对所述目标兴趣点和各所述候选兴趣点的名称信息进行预处理操作；所述预处理操作用于对名称信息执行以下的一项或多项处理：将全角字符转为半角字符；将特殊符号去除；将英文大写字母转为小写字母；将中文繁体字转为简体字的操作；和/或，

将所述目标兴趣点的名称信息和类别信息与各所述候选兴趣点的名称信息和类别信息进行对比，针对任一所述候选兴趣点，若该候选兴趣点的类别信息与所述目标兴趣点的类别信息不一致，或，该候选兴趣点的类别信息与所述目标兴趣点的类别信息完全不一致，则将该候选兴趣点剔除。

5.如权利要求1所述的方法，其特征在于，所述名称成分实体信息包括行政区划成分信息、核心词成分信息、类别词成分信息和分支成分信息；

计算所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息之间的相似度值，包括：

计算所述目标兴趣点与各所述候选兴趣点的核心词相似度和类别词相似度；

获取预设的核心词与类别词的匹配权重信息；

根据所述核心词与类别词的匹配权重信息计算所述目标兴趣点与各所述候选兴趣点的核心词相似度和类别词相似度的加权平均值，作为所述目标兴趣点与各所述候选兴趣点的相似度值。

6.如权利要求5所述的方法，其特征在于，计算所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息之间的相似度值之前，所述方法还包括：

删除所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息中包含的行政区划成分信息；

剔除分支成分信息与所述目标兴趣点的分支成分信息不同的候选兴趣点。

7.如权利要求1所述的方法，其特征在于，所述名称成分识别模型的训练过程包括：

构建标注数据集和合成数据集；

为所述标注数据集和所述合成数据集中的每条样本数据标注对应的成分实体类别数据；所述样本数据的成分实体类别数据包括用于表征所述样本数据中每个分词对应的成分实体类别；所述成分实体类别包括行政区划、核心词、类别词和分支；

为所述标注数据集和所述合成数据集中的每条样本数据构建特征数据，所述样本数据的特征数据包括分词边界特征信息、行政区划特征信息、类别词特征信息、表征所述样本数据中的每个字符是否为数字的特征信息以及表征所述样本数据中的每个字符是否为英文的特征信息；

根据所述标注数据集和所述合成数据集中的每条样本数据对应的成分实体类别数据和特征数据训练得到所述名称成分识别模型。

8.一种多源兴趣点匹配装置，其特征在于，所述装置包括：

第一属性信息获取模块，用于获取目标兴趣点的属性信息；所述属性信息包括名称信息、地址信息、行政区信息、经纬度信息和类别信息；

第二属性信息获取模块，用于根据所述目标兴趣点的属性信息从兴趣点库中确定待进行匹配的候选兴趣点，并获取各所述候选兴趣点的属性信息；

名称成分识别模块，用于使用训练好的名称成分识别模型识别出所述目标兴趣点的名称成分实体信息，以及各所述候选兴趣点的名称成分实体信息；

兴趣点匹配模块，用于计算所述目标兴趣点的名称成分实体信息与各所述候选兴趣点的名称成分实体信息之间的相似度值，根据计算得到的相似度值确定所述目标兴趣点与各所述候选兴趣点之间的匹配关系。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。