CN114461943A

CN114461943A - 基于深度学习的多源poi语义匹配方法、装置及其存储介质

Info

Publication number: CN114461943A
Application number: CN202210388468.7A
Authority: CN
Inventors: 罗安; 李朋朋; 王勇; 徐胜华; 车向红
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-05-10
Anticipated expiration: 2042-04-14
Also published as: CN114461943B

Abstract

一种基于深度学习的多源POI语义匹配方法、装置及其存储介质，该方法在于：通过使用不同的中文分词方法对POI的文本属性进行分词，并利用分词结果来训练Word2vec模型生成相应的词向量；然后，使用Text‑CNN和MLP模型分别提取文本属性和空间属性的特征，并生成其相应的特征向量表示；最后，使用ESIM对待匹配POI对进行局部推理和推理组合，以确定它们是否匹配，很大程度上提升了多源POI匹配效率。本发明通过Word2Vec、Text‑CNN和MLP模型很好的提取了POI属性的文本语义特征和地理空间特征；基于Bi‑LSTM和注意力机制解决了POI属性之间相互孤立的问题；将POI语义匹配计算转化为信息二分类问题，解决了由于相似性阈值设置所导致了匹配准确率低等问题。

Description

基于深度学习的多源POI语义匹配方法、装置及其存储介质

技术领域

本发明属于地理信息技术领域，具体属于地理数据处理领域，尤其涉及一种基于深度学习的多源POI语义匹配方法、装置及其存储介质。

背景技术

近十年来，随着人们对基于位置服务数据需求的急剧增加，以POI为代表的空间地理数据也越来越备受关注，特别是在城市方面的应用极为广泛，如城市功能区识别、城市活力评估、城市资源配置分析等。这些POI数据的来源包括于以地图为中心的服务应用平台，例如Google Map、Bing Map、Baidu Map等；以文本为中心的社交媒体网络，例如：Facebook、Twitter、Weibo等；以及Volunteered Geographic Information (VGI) 数据集，例如OpenStreetMap。以上这些数据源所生成的数据具有各自不同的侧重点，其中地图服务应用平台产生的数据更多聚焦于位置信息，具有较为详细的位置描述信息和定准的定位信息，但缺少详细的文本描述信息；社交媒体网络所产生的数据更多聚焦文本描述信息，虽然有时也包含一些位置信息，但大多数都是签到数据，缺少精确的位置信息；VGI数据虽然包含了位置信息和文本描述信息，但由于该数据是公众自发贡献的，所以数据质量相较于其他数据源较差。同时，这些数据的访问也同样会受到各自API的限制，如：每天的访问数量、访问数量、用户权限等。因此，我们需要通过融合不同来源的POI数据来丰富数据完整性、提高数据质量和覆盖范围，实现POI数据的高效利用和快速更新。

目前，常见的匹配方法主要包括以下三类：基于空间属性的匹配方法，基于文本属性的匹配方法和空间属性与文本属性相结合的匹配方法。这些方法通常会使用特定的相似性度量方法对共有的属性进行相似度计算，然后基于相似性阈值做出决定。前两类方法仅使用了单一属性进行相似性度量与比较，第三类方法则是结合多个属性的相似性度量。单一属性的匹配方法一般在数据结构相似、文本相似度较高等情况下会取得不错的效果，但在如今多源、异构、高维的大数据集中就表现出匹配效率低、匹配精度差等问题。因此，基于空间属性与文本属性相结合的匹配方法也就成为了多源数据匹配的常用方法。

尽管多属性相结合的匹配方法在一些数据集上取得了不错了效果，但是，他们还存在着以下问题：（1）文本属性的相似性度量方法一般是基于编辑距离的计算方法。然而，编辑距离更适合计算纯文本的差异，它不考虑文本的顺序和含义，因此不能有效的捕获到属性的语义信息。（2）以往的研究更多关注的是相同属性之间的相似关系，从而忽略了不同属性之间的相互依赖关系。（3）这些匹配方法需要根据预先设定的相似性阈值判断是否匹配。因此，阈值大小将直接影响匹配精度。基于以上这些原因就导致了多源POI匹配效果差，匹配结果不理想的情况。

因此，如何克服现有技术中多源POI匹配存在的匹配效果差，匹配结果不理想成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提供一种基于深度学习的多源POI语义匹配方法，以缓解了现有多源POI匹配方法的准确率和效率较低的技术问题。

为达此目的，本发明采用以下技术方案：

一种基于深度学习的多源POI语义匹配方法，其特征在于，包括如下步骤：

待匹配POI属性选取步骤S110：

针对不同数据源中数据属性之间的类型差异，对待匹配数据集中的POI属性进行筛选，即筛选出不同数据源中地理空间实体的相同属性，所述相同属性包括：名称、地址、类型、经纬度中的一个或多个；

获取文本属性词向量步骤S120：

针对所述相同属性中具体不同的文本属性，采用不同的文本分词方法进行分词，然后利用中文分词结果训练Word2Vec模型生成其对应的词向量表示；

提取属性特征向量步骤S130：

对于文本属性，包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络，对于地理坐标属性，包括纬度属性，采用多层感知器模型进行了语义特征和地理空间特征提取，并生成其相应的特征向量表示；

基于ESIM的多源POI匹配步骤S140：

对于上述步骤所提取的特征向量，使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合，实现POI对的匹配任务；所述增强序列推理模型包括，模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。

可选的，所述步骤S110包括如下子步骤

S111：从待匹配的多种数据源中任意选择一个数据源作为参考数据源，并选取该数据源中的一个属性作为参考属性；

S112：判断该参考属性在其他剩余的所有待匹配数据源中是否都存在；

S113：如果存在，则将该参考属性作为相同属性进行保存；

S114：选取参考数据源中的下一个属性重复进行S111和S112的步骤，直到参考数据源中所有属性遍历完为止。

可选的，所述步骤S120包括如下子步骤：

S121:对于名称属性，采用结巴分词的精确模式进行名称属性的中文分词；

S122：对于地址属性，首先基于中文地址表达模型和地址要素组成特征，构建了地址要素的特征词库和表达规则，然后，基于该特征词库和规则进行了中文的地址要素的切分；

S123：对于类型属性，首先，基于各POI数据源开放发API获取各自POI的分类体系，构建相应的分类体系库，然后，基于该分类体系库利用双向最大匹配方法进行类型属性的分词；

S124：对通过步骤S121-S123的中文分词结果生成文本训练语料库，利用所述文本训练语料库对Word2Vec模型进行训练，获取文本属性中词与词之间的语义关系，及其相应的词向量表示。

可选的，所述步骤S130包括如下子步骤：

S131：对于文本属性，预先通过Word2vec模型生成文本属性中每个词c _l的词向量表示，

，n表示通过步骤S121-S123生成所有词去重后的总数，将这些词向量进行堆叠构建文本属性词向量查找表

，d表示词向量的维度，R表示实数；

S132：对所述文本属性词向量查找表D采用一维卷积，卷积操作中使用区域大小为h的过滤器

与所述文本属性词向量查找表D的子矩阵进行点积操作，生成新的特征图；然后，对卷积结果的特征图采用最大池化方法进行池化操作，使其变成固定长度的向量；最后，将这些特征进行拼接，并通过全连接的tanh层将其扩展为特定维度的向量，从而提取文本属性的语义特征，并得到其特征向量；

S133：将地理坐标属性视为二维向量，输入多层感知器模型，所述多层感知器模型至少包含输入层、隐藏层和输出层三层节点，每一层中的任何节点都会全连接到下一层中的所有节点，其中所述隐藏层有两个，第一个隐藏层将输入的经纬度进行扩维操作，使其输出维度是文本属性特征向量维度的4倍；第二个隐藏层对上一层的输出进行降维操作，使其输出维度等于文本属性特征向量的维度，所述输出层输出的特征向量为地理空间属性的地理空间特征向量。

可选的，所述步骤S140包括：

任取一对待匹配的POI _a和POI _b，通过步骤S110-S130得到POI _a和POI _b相同属性的特征向量表示，分别记为a ₁、a ₂……a _m和b ₁、b ₂……b _m，其中，m表示POI _a和POI _b相同属性的个数，增强序列推理模型每一层详细的匹配过程如下：

S141：对于模型输入编码层，利用双向长短时记忆神经网络（Bi-LSTM）对POI相同属性进行编码，首先，将POI相同属性的特征向量a _i和b _j，其中

，作为网络输入；然后，使用Bi-LSTM对输入的特征向量进行编码，提取每个属性与其相邻属性之间的依赖信息，以获取更高级别的特征表示，最后，将Bi-LSTM的隐藏层状态

和

输出，作为下一层的输入；具体计算公式如下：

(1)

(2)

S142：对于属性特征局部推理层，使用注意力机制模型来获取POI _a和POI _b之间的局部相关性，即相同属性之间的相关性；首先，将两个POI的隐藏层状态

和

进行点积操作，得到注意力权重矩阵e _ij；然后，基于该矩阵求得每个属性对应的新向量

和

，

是由

属性序列通过加权求和得到，

是由

属性序列通过加权求和得到；最后，将

和

，

和

进行差和点积操作，并对它们进行拼接；具体计算公式如下：

(3)

(4)

(5)

S143：对于属性特征推理组合层，使用Bi-LSTM来整合局部推理信息；首先，采用Bi-LSTM提取局部推理信息

和

及其相邻信息；然后，同时使用最大池化方法和平均池化方法进行池化操作，并将两个池化结果进行拼接，生成向量

；具体计算公式如下：

(6)

(7)

(8)

(9)

(10)

(11)

S144：对于匹配结果输出层，使用MLP预测对拼接向量v进行二分类操作，并通过softmax函数进行激活；最终输出的预测结果是维二分类结果1或0，当结果为1时，表示POI _a和POI _b是匹配的，当结果为0时，表示POI _a和POI _b是不匹配的。

本发明进一步公开了一种基于深度学习的多源POI语义匹配装置，其特征在于，包括：

待匹配POI属性选取单元：

获取文本属性词向量单元：

提取属性特征向量单元：

基于ESIM的多源POI匹配单元：

对于上述单元所提取的特征向量，使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合，实现POI对的匹配任务；所述增强序列推理模型包括，模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。

本发明还公开一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于深度学习的多源POI语义匹配方法。

本发明具有如下优点：

1、通过Word2Vec、Text-CNN和MLP模型很好的提取了POI属性的文本语义特征和地理空间特征；

2、基于Bi-LSTM和注意力机制解决了POI属性之间相互孤立的问题；

3、将POI匹配问题转化为二分类问题，解决了由于相似性阈值设置所导致了匹配准确率低等问题。

附图说明

图1是根据本发明的具体实施的基于深度学习的多源POI语义匹配方法的流程图；

图2是根据本发明的具体实施的待匹配POI属性选取步骤的具体流程图；

图3是根据本发明的具体实施的获取文本属性词向量步骤的具体流程图；

图4是根据本发明的具体实施的提取属性特征向量步骤的具体流程图；

图5是根据本发明的具体实施的基于ESIM的多源POI匹配步骤的具体流程图；

图6是根据本发明的具体实施的基于深度学习的多源POI语义匹配装置的模块图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

参见图1，公开了根据本发明的具体实施的基于深度学习的多源POI语义匹配方法的流程图，其包括如下步骤：

待匹配POI属性选取步骤S110：

针对不同数据源中数据属性之间的类型差异，对待匹配数据集中的POI属性进行筛选，即筛选出不同数据源中地理空间实体的相同属性，所述相同属性包括：名称、地址、类型、经纬度中的一个或多个。

具体的，参见图2，所述步骤S110包括如下子步骤

S113：如果存在，则将该参考属性作为相同属性进行保存；

因此，通过该步骤提取出相同属性，以便后续步骤中基于所述相同属性进行特征提取和短文本匹配来实现多源POI的匹配。

获取文本属性词向量步骤S120：

本步骤主要针对所述相同属性中的文本属性，获取属性词向量，以便在将文本形式转化成计算机可以识别的形式，能够进一步提取出属性特征向量，进而能够输入到深度学习模型中用于深度学习。

该步骤首先进行对文本属性进行分词，然后利用分词的结果生成对应的词向量表示，具体的，针对所述相同属性中具体不同的文本属性，例如，名称属性、地址属性和类型属性，采用不同的文本分词方法，如：名称属性采用结巴分词工具、地址属性采用特征词和规则相结合的方法、类型属性采用基于类型词典的双向最大匹配方法。然后，利用中文分词结果训练Word2Vec模型生成其对应的词向量表示。

具体的，参见图3，包括如下子步骤：

S121:名称属性被认为是直观上区分不同POI的一个重要特征，它通常由生活中常用词构成。因此，对于名称的分词只需要满足现代汉语构词法即可。结巴中文分词由于其社区活跃、使用简单以及功能丰富等特点，已成为目前使用最为广泛的一种分词工具。因此，在本子步骤中，对于名称属性，采用结巴分词的精确模式进行名称属性的中文分词。

S122：中文地址可由多个不同的且具有空间拓扑约束的地址要素组成。因此，对于地址属性的分词只需将其切分成多个地址要素即可。因此，在本子步骤中，对于地址属性，首先基于中文地址表达模型和地址要素组成特征，构建了地址要素的特征词库和表达规则，然后，基于该特征词库和规则进行了中文的地址要素的切分。

S123：类型属性可以更好的对POI数据进行归类，不同的数据源有着不同的类别体系，这些不同的分类按照等级由大到小构成了POI类别，因此，对于类别属性的分词将其按照等级类别进行切分即可。在本子步骤中，首先，基于各POI数据源开放发API获取各自POI的分类体系，构建其相应的分类体系库，然后，基于该分类体系库利用双向最大匹配方法进行类型属性的分词。

S124：深度学习模型的输入需要将文本形式转化成计算机可以识别的形式，Word2Vec模型可以将单词转化为高维空间向量表示。因此，在本子步骤中，对通过步骤S121-S123的中文分词结果生成文本训练语料库，利用所述文本训练语料库对Word2Vec模型进行训练，获取文本属性中词与词之间的语义关系，及其相应的词向量表示。

提取属性特征向量步骤S130：

由于各类属性表达方式存在形式不完全相同的情况，其中，名称属性、地址属性、类型属性是以文本形式表达，而经纬度属性是以数字形式表达。因此，本发明在本步骤中对于文本属性和数字属性采用不同的模型进行特征提取并生成相应的特征向量表示。

具体的，对于文本属性，包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络，对于地理坐标属性，包括纬度属性，采用多层感知器模型进行了语义特征和地理空间特征提取，并生成其相应的特征向量表示。

具体的，参见图4，包括如下子步骤：

S131：对于文本属性，预先通过Word2vec模型生成文本属性中每个词

的词向量表示，n表示通过步骤S121-S123生成所有词去重后的总数；将这些词向量进行堆叠构建文本属性词向量查找表

，d表示词向量的维度，R表示实数；

与所述文本属性词向量查找表D的子矩阵进行点积操作，生成新的特征图；然后，对卷积结果的特征图采用最大池化（Max Pooling）方法进行池化操作，使其变成固定长度的向量；最后，将这些特征进行拼接，并通过全连接的tanh层将其扩展为特定维度的向量，从而提取文本属性的语义特征，并得到其特征向量；

S133：对于地理坐标属性（经纬度属性）视为二维向量，输入多层感知器模型，所述多层感知器模型至少包含输入层、隐藏层和输出层三层节点，每一层中的任何节点都会全连接到下一层中的所有节点，其中所述隐藏层有两个，第一个隐藏层将输入的经纬度进行扩维操作，使其输出维度是文本属性特征向量维度的4倍；第二个隐藏层对上一层的输出进行降维操作，使其输出维度等于文本属性特征向量的维度，该层输出的特征向量为地理空间属性的地理空间特征向量。

基于ESIM的多源POI匹配步骤S140：

在步骤S130中，通过文本卷积神经网络和多层感知器模型提取属性的特征向量后，将在本步骤中实现POI对的匹配任务。

该步骤为：对于上述步骤所提取的特征向量，使用增强序列推理模型来对POI的相同属性（包括名称属性、地址属性、类型属性和经纬度属性）进行局部推理和推理组合，实现POI对的匹配任务；参见图5，所述增强序列推理模型包括，模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。

具体的，包括如下子步骤：

任取一对待匹配的POI _a和POI _b，通过步骤S110-S130得到POI _a和POI _b相同属性的特征向量表示，分别记为a ₁、a ₂……a _m和b ₁、b ₂……b _m，其中m表示POI _a和POI _b相同属性的个数,增强序列推理模型每一层详细的匹配过程如下。

作为网络输入；然后，使用Bi-LSTM对输入的特征向量进行编码，提取每个属性与其相邻属性之间的依赖信息，以获取更高级别的特征表示；最后，将Bi-LSTM的隐藏层状态

和

输出，作为下一层的输入。具体计算公式如下：

(1)

(2)

和

进行点积操作，得到注意力权重矩阵

；然后，基于该矩阵求得每个属性对应的新向量

和

，

是由

属性序列通过加权求和得到，

是由

属性序列通过加权求和得到；最后，将

和

，

和

进行差和点积操作，并对它们进行拼接。具体计算公式如下：

(3)

(4)

(5)

和

。具体计算公式如下：

(6)

(7)

(8)

(9)

(10)

(11)

进一步的，参见图6，公开了一种基于深度学习的多源POI语义匹配系统，用于运行本发明的基于深度学习的多源POI语义匹配方法，包括如下模块：

待匹配POI属性选取单元210：

获取文本属性词向量单元220：

提取属性特征向量单元230：

基于ESIM的多源POI匹配单元240：

进一步的，本发明还公开了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于深度学习的多源POI语义匹配方法。

实施例：

通过实验发现，本发明可以很好克服传统方法不能有效提取文本属性语义特征问题，同时避免了人工对于相似度阈值设置。

例如：在百度地图的“FILA(百盛购物中心四川时代店)”POI和腾讯地图的“7-ELEVEn(百盛购物中心四川时代店)”POI作为两个不同的POI，由于它们在同一个商场中，名称与地址相似度都较高，而且空间距离也非常近，因此通常会其他算法被误认为是同一个地理实体，但本发明能够很好地识别出名称语义特征和类型特征，从而有效地识别出这两个POI不是同一个地理实体。

同时，通过人工设置相似度阈值也将直接影响匹配精度，例如当阈值设置较大时，虽然能够得到较高的匹配精度，但是匹配的召回率就会很低。而当阈值设置较小时，虽然能够得到较高的匹配召回率，但是匹配的精度就会很低。本发明方法有效克服了人工设置阈值的缺陷。

综上，本发明有效克服了传统匹配方法在多源POI匹配中出现的准确率低或召回率低等问题，通过使用不同的中文分词方法对POI的文本属性进行分词，并利用分词结果来训练Word2vec模型生成相应的词向量；然后，使用Text-CNN和MLP模型分别提取文本属性和空间属性的特征，并生成其相应的特征向量表示；最后，使用ESIM对待匹配POI对进行局部推理和推理组合，以确定它们是否匹配，很大程度上提升了多源POI匹配效率。

本发明具有如下优点：

3、将POI语义匹配计算转化为信息二分类问题，解决了由于相似性阈值设置所导致了匹配准确率低等问题。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。