CN114461943B - 基于深度学习的多源poi语义匹配方法、装置及其存储介质 - Google Patents

基于深度学习的多源poi语义匹配方法、装置及其存储介质 Download PDF

Info

Publication number
CN114461943B
CN114461943B CN202210388468.7A CN202210388468A CN114461943B CN 114461943 B CN114461943 B CN 114461943B CN 202210388468 A CN202210388468 A CN 202210388468A CN 114461943 B CN114461943 B CN 114461943B
Authority
CN
China
Prior art keywords
attribute
poi
attributes
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210388468.7A
Other languages
English (en)
Other versions
CN114461943A (zh
Inventor
罗安
李朋朋
王勇
徐胜华
车向红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202210388468.7A priority Critical patent/CN114461943B/zh
Publication of CN114461943A publication Critical patent/CN114461943A/zh
Application granted granted Critical
Publication of CN114461943B publication Critical patent/CN114461943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Remote Sensing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于深度学习的多源POI语义匹配方法、装置及其存储介质,该方法在于:通过使用不同的中文分词方法对POI的文本属性进行分词,并利用分词结果来训练Word2vec模型生成相应的词向量;然后,使用Text‑CNN和MLP模型分别提取文本属性和空间属性的特征,并生成其相应的特征向量表示;最后,使用ESIM对待匹配POI对进行局部推理和推理组合,以确定它们是否匹配,很大程度上提升了多源POI匹配效率。本发明通过Word2Vec、Text‑CNN和MLP模型很好的提取了POI属性的文本语义特征和地理空间特征;基于Bi‑LSTM和注意力机制解决了POI属性之间相互孤立的问题;将POI语义匹配计算转化为信息二分类问题,解决了由于相似性阈值设置所导致了匹配准确率低等问题。

Description

基于深度学习的多源POI语义匹配方法、装置及其存储介质
技术领域
本发明属于地理信息技术领域,具体属于地理数据处理领域,尤其涉及一种基于深度学习的多源POI语义匹配方法、装置及其存储介质。
背景技术
近十年来,随着人们对基于位置服务数据需求的急剧增加,以POI为代表的空间地理数据也越来越备受关注,特别是在城市方面的应用极为广泛,如城市功能区识别、城市活力评估、城市资源配置分析等。这些POI数据的来源包括于以地图为中心的服务应用平台,例如Google Map、Bing Map、Baidu Map等;以文本为中心的社交媒体网络,例如:Facebook、Twitter、Weibo等;以及Volunteered Geographic Information (VGI) 数据集,例如OpenStreetMap。以上这些数据源所生成的数据具有各自不同的侧重点,其中地图服务应用平台产生的数据更多聚焦于位置信息,具有较为详细的位置描述信息和定准的定位信息,但缺少详细的文本描述信息;社交媒体网络所产生的数据更多聚焦文本描述信息,虽然有时也包含一些位置信息,但大多数都是签到数据,缺少精确的位置信息;VGI数据虽然包含了位置信息和文本描述信息,但由于该数据是公众自发贡献的,所以数据质量相较于其他数据源较差。同时,这些数据的访问也同样会受到各自API的限制,如:每天的访问数量、访问数量、用户权限等。因此,我们需要通过融合不同来源的POI数据来丰富数据完整性、提高数据质量和覆盖范围,实现POI数据的高效利用和快速更新。
目前,常见的匹配方法主要包括以下三类:基于空间属性的匹配方法,基于文本属性的匹配方法和空间属性与文本属性相结合的匹配方法。这些方法通常会使用特定的相似性度量方法对共有的属性进行相似度计算,然后基于相似性阈值做出决定。前两类方法仅使用了单一属性进行相似性度量与比较,第三类方法则是结合多个属性的相似性度量。单一属性的匹配方法一般在数据结构相似、文本相似度较高等情况下会取得不错的效果,但在如今多源、异构、高维的大数据集中就表现出匹配效率低、匹配精度差等问题。因此,基于空间属性与文本属性相结合的匹配方法也就成为了多源数据匹配的常用方法。
尽管多属性相结合的匹配方法在一些数据集上取得了不错了效果,但是,他们还存在着以下问题:(1)文本属性的相似性度量方法一般是基于编辑距离的计算方法。然而,编辑距离更适合计算纯文本的差异,它不考虑文本的顺序和含义,因此不能有效的捕获到属性的语义信息。(2)以往的研究更多关注的是相同属性之间的相似关系,从而忽略了不同属性之间的相互依赖关系。(3)这些匹配方法需要根据预先设定的相似性阈值判断是否匹配。因此,阈值大小将直接影响匹配精度。基于以上这些原因就导致了多源POI匹配效果差,匹配结果不理想的情况。
因此,如何克服现有技术中多源POI匹配存在的匹配效果差,匹配结果不理想成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提供一种基于深度学习的多源POI语义匹配方法,以缓解了现有多源POI匹配方法的准确率和效率较低的技术问题。
为达此目的,本发明采用以下技术方案:
一种基于深度学习的多源POI语义匹配方法,其特征在于,包括如下步骤:
待匹配POI属性选取步骤S110:
针对不同数据源中数据属性之间的类型差异,对待匹配数据集中的POI属性进行筛选,即筛选出不同数据源中地理空间实体的相同属性,所述相同属性包括:名称、地址、类型、经纬度中的一个或多个;
获取文本属性词向量步骤S120:
针对所述相同属性中具体不同的文本属性,采用不同的文本分词方法进行分词,然后利用中文分词结果训练Word2Vec模型生成其对应的词向量表示;
提取属性特征向量步骤S130:
对于文本属性,包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络,对于地理坐标属性,包括纬度属性,采用多层感知器模型进行了语义特征和地理空间特征提取,并生成其相应的特征向量表示;
基于ESIM的多源POI匹配步骤S140:
对于上述步骤所提取的特征向量,使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合,实现POI对的匹配任务;所述增强序列推理模型包括,模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。
可选的,所述步骤S110包括如下子步骤
S111:从待匹配的多种数据源中任意选择一个数据源作为参考数据源,并选取该数据源中的一个属性作为参考属性;
S112:判断该参考属性在其他剩余的所有待匹配数据源中是否都存在;
S113:如果存在,则将该参考属性作为相同属性进行保存;
S114:选取参考数据源中的下一个属性重复进行S111和S112的步骤,直到参考数据源中所有属性遍历完为止。
可选的,所述步骤S120包括如下子步骤:
S121:对于名称属性,采用结巴分词的精确模式进行名称属性的中文分词;
S122:对于地址属性,首先基于中文地址表达模型和地址要素组成特征,构建了地址要素的特征词库和表达规则,然后,基于该特征词库和规则进行了中文的地址要素的切分;
S123:对于类型属性,首先,基于各POI数据源开放发API获取各自POI的分类体系,构建相应的分类体系库,然后,基于该分类体系库利用双向最大匹配方法进行类型属性的分词;
S124:对通过步骤S121-S123的中文分词结果生成文本训练语料库,利用所述文本训练语料库对Word2Vec模型进行训练,获取文本属性中词与词之间的语义关系,及其相应的词向量表示。
可选的,所述步骤S130包括如下子步骤:
S131:对于文本属性,预先通过Word2vec模型生成文本属性中每个词c l 的词向量表示,
Figure DEST_PATH_IMAGE001
n表示通过步骤S121-S123生成所有词去重后的总数,将这些词向量进行堆叠构建文本属性词向量查找表
Figure 820406DEST_PATH_IMAGE002
d表示词向量的维度,R表示实数;
S132:对所述文本属性词向量查找表D采用一维卷积,卷积操作中使用区域大小为h的过滤器
Figure DEST_PATH_IMAGE003
与所述文本属性词向量查找表D的子矩阵进行点积操作,生成新的特征图;然后,对卷积结果的特征图采用最大池化方法进行池化操作,使其变成固定长度的向量;最后,将这些特征进行拼接,并通过全连接的tanh层将其扩展为特定维度的向量,从而提取文本属性的语义特征,并得到其特征向量;
S133:将地理坐标属性视为二维向量,输入多层感知器模型,所述多层感知器模型至少包含输入层、隐藏层和输出层三层节点,每一层中的任何节点都会全连接到下一层中的所有节点,其中所述隐藏层有两个,第一个隐藏层将输入的经纬度进行扩维操作,使其输出维度是文本属性特征向量维度的4倍;第二个隐藏层对上一层的输出进行降维操作,使其输出维度等于文本属性特征向量的维度,所述输出层输出的特征向量为地理空间属性的地理空间特征向量。
可选的,所述步骤S140包括:
任取一对待匹配的POI a POI b ,通过步骤S110-S130得到POI a POI b 相同属性的特征向量表示,分别记为a 1 a 2 ……a m b 1 b 2 ……b m ,其中,m表示POI a POI b 相同属性的个数,增强序列推理模型每一层详细的匹配过程如下:
S141:对于模型输入编码层,利用双向长短时记忆神经网络(Bi-LSTM)对POI相同属性进行编码,首先,将POI相同属性的特征向量a i b j ,其中
Figure 614706DEST_PATH_IMAGE004
,作为网络输入;然后,使用Bi-LSTM对输入的特征向量进行编码,提取每个属性与其相邻属性之间的依赖信息,以获取更高级别的特征表示,最后,将Bi-LSTM的隐藏层状态
Figure DEST_PATH_IMAGE005
Figure 945324DEST_PATH_IMAGE006
输出,作为下一层的输入;具体计算公式如下:
Figure DEST_PATH_IMAGE007
(1)
Figure 189354DEST_PATH_IMAGE008
(2)
S142:对于属性特征局部推理层,使用注意力机制模型来获取POI a POI b 之间的局部相关性,即相同属性之间的相关性;首先,将两个POI的隐藏层状态
Figure 552203DEST_PATH_IMAGE005
Figure 385029DEST_PATH_IMAGE006
进行点积操作,得到注意力权重矩阵e ij ;然后,基于该矩阵求得每个属性对应的新向量
Figure DEST_PATH_IMAGE009
Figure 355391DEST_PATH_IMAGE010
Figure 287050DEST_PATH_IMAGE009
是由
Figure DEST_PATH_IMAGE011
属性序列通过加权求和得到,
Figure 250327DEST_PATH_IMAGE010
是由
Figure 219551DEST_PATH_IMAGE012
属性序列通过加权求和得到;最后,将
Figure DEST_PATH_IMAGE013
Figure 626393DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 845016DEST_PATH_IMAGE016
进行差和点积操作,并对它们进行拼接;具体计算公式如下:
Figure DEST_PATH_IMAGE017
(3)
Figure 611983DEST_PATH_IMAGE018
(4)
Figure DEST_PATH_IMAGE019
(5)
S143:对于属性特征推理组合层,使用Bi-LSTM来整合局部推理信息;首先,采用Bi-LSTM提取局部推理信息
Figure 247100DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
及其相邻信息;然后,同时使用最大池化方法和平均池化方法进行池化操作,并将两个池化结果进行拼接,生成向量
Figure 90422DEST_PATH_IMAGE022
;具体计算公式如下:
Figure 734024DEST_PATH_IMAGE020
(6)
Figure 242366DEST_PATH_IMAGE021
(7)
Figure DEST_PATH_IMAGE023
(8)
Figure 717341DEST_PATH_IMAGE024
(9)
Figure DEST_PATH_IMAGE025
(10)
Figure 463055DEST_PATH_IMAGE026
(11)
S144:对于匹配结果输出层,使用MLP预测对拼接向量v进行二分类操作,并通过softmax函数进行激活;最终输出的预测结果是维二分类结果1或0,当结果为1时,表示POI a POI b 是匹配的,当结果为0时,表示POI a POI b 是不匹配的。
本发明进一步公开了一种基于深度学习的多源POI语义匹配装置,其特征在于,包括:
待匹配POI属性选取单元:
针对不同数据源中数据属性之间的类型差异,对待匹配数据集中的POI属性进行筛选,即筛选出不同数据源中地理空间实体的相同属性,所述相同属性包括:名称、地址、类型、经纬度中的一个或多个;
获取文本属性词向量单元:
针对所述相同属性中具体不同的文本属性,采用不同的文本分词方法进行分词,然后利用中文分词结果训练Word2Vec模型生成其对应的词向量表示;
提取属性特征向量单元:
对于文本属性,包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络,对于地理坐标属性,包括纬度属性,采用多层感知器模型进行了语义特征和地理空间特征提取,并生成其相应的特征向量表示;
基于ESIM的多源POI匹配单元:
对于上述单元所提取的特征向量,使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合,实现POI对的匹配任务;所述增强序列推理模型包括,模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。
本发明还公开一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于深度学习的多源POI语义匹配方法。
本发明具有如下优点:
1、通过Word2Vec、Text-CNN和MLP模型很好的提取了POI属性的文本语义特征和地理空间特征;
2、基于Bi-LSTM和注意力机制解决了POI属性之间相互孤立的问题;
3、将POI匹配问题转化为二分类问题,解决了由于相似性阈值设置所导致了匹配准确率低等问题。
附图说明
图1是根据本发明的具体实施的基于深度学习的多源POI语义匹配方法的流程图;
图2是根据本发明的具体实施的待匹配POI属性选取步骤的具体流程图;
图3是根据本发明的具体实施的获取文本属性词向量步骤的具体流程图;
图4是根据本发明的具体实施的提取属性特征向量步骤的具体流程图;
图5是根据本发明的具体实施的基于ESIM的多源POI匹配步骤的具体流程图;
图6是根据本发明的具体实施的基于深度学习的多源POI语义匹配装置的模块图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
参见图1,公开了根据本发明的具体实施的基于深度学习的多源POI语义匹配方法的流程图,其包括如下步骤:
待匹配POI属性选取步骤S110:
针对不同数据源中数据属性之间的类型差异,对待匹配数据集中的POI属性进行筛选,即筛选出不同数据源中地理空间实体的相同属性,所述相同属性包括:名称、地址、类型、经纬度中的一个或多个。
具体的,参见图2,所述步骤S110包括如下子步骤
S111:从待匹配的多种数据源中任意选择一个数据源作为参考数据源,并选取该数据源中的一个属性作为参考属性;
S112:判断该参考属性在其他剩余的所有待匹配数据源中是否都存在;
S113:如果存在,则将该参考属性作为相同属性进行保存;
S114:选取参考数据源中的下一个属性重复进行S111和S112的步骤,直到参考数据源中所有属性遍历完为止。
因此,通过该步骤提取出相同属性,以便后续步骤中基于所述相同属性进行特征提取和短文本匹配来实现多源POI的匹配。
获取文本属性词向量步骤S120:
本步骤主要针对所述相同属性中的文本属性,获取属性词向量,以便在将文本形式转化成计算机可以识别的形式,能够进一步提取出属性特征向量,进而能够输入到深度学习模型中用于深度学习。
该步骤首先进行对文本属性进行分词,然后利用分词的结果生成对应的词向量表示,具体的,针对所述相同属性中具体不同的文本属性,例如,名称属性、地址属性和类型属性,采用不同的文本分词方法,如:名称属性采用结巴分词工具、地址属性采用特征词和规则相结合的方法、类型属性采用基于类型词典的双向最大匹配方法。然后,利用中文分词结果训练Word2Vec模型生成其对应的词向量表示。
具体的,参见图3,包括如下子步骤:
S121:名称属性被认为是直观上区分不同POI的一个重要特征,它通常由生活中常用词构成。因此,对于名称的分词只需要满足现代汉语构词法即可。结巴中文分词由于其社区活跃、使用简单以及功能丰富等特点,已成为目前使用最为广泛的一种分词工具。因此,在本子步骤中,对于名称属性,采用结巴分词的精确模式进行名称属性的中文分词。
S122:中文地址可由多个不同的且具有空间拓扑约束的地址要素组成。因此,对于地址属性的分词只需将其切分成多个地址要素即可。因此,在本子步骤中,对于地址属性,首先基于中文地址表达模型和地址要素组成特征,构建了地址要素的特征词库和表达规则,然后,基于该特征词库和规则进行了中文的地址要素的切分。
S123:类型属性可以更好的对POI数据进行归类,不同的数据源有着不同的类别体系,这些不同的分类按照等级由大到小构成了POI类别,因此,对于类别属性的分词将其按照等级类别进行切分即可。在本子步骤中,首先,基于各POI数据源开放发API获取各自POI的分类体系,构建其相应的分类体系库,然后,基于该分类体系库利用双向最大匹配方法进行类型属性的分词。
S124:深度学习模型的输入需要将文本形式转化成计算机可以识别的形式,Word2Vec模型可以将单词转化为高维空间向量表示。因此,在本子步骤中,对通过步骤S121-S123的中文分词结果生成文本训练语料库,利用所述文本训练语料库对Word2Vec模型进行训练,获取文本属性中词与词之间的语义关系,及其相应的词向量表示。
提取属性特征向量步骤S130:
由于各类属性表达方式存在形式不完全相同的情况,其中,名称属性、地址属性、类型属性是以文本形式表达,而经纬度属性是以数字形式表达。因此,本发明在本步骤中对于文本属性和数字属性采用不同的模型进行特征提取并生成相应的特征向量表示。
具体的,对于文本属性,包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络,对于地理坐标属性,包括纬度属性,采用多层感知器模型进行了语义特征和地理空间特征提取,并生成其相应的特征向量表示。
具体的,参见图4,包括如下子步骤:
S131:对于文本属性,预先通过Word2vec模型生成文本属性中每个词
Figure DEST_PATH_IMAGE027
的词向量表示,n表示通过步骤S121-S123生成所有词去重后的总数;将这些词向量进行堆叠构建文本属性词向量查找表
Figure 390691DEST_PATH_IMAGE002
d表示词向量的维度,R表示实数;
S132:对所述文本属性词向量查找表D采用一维卷积,卷积操作中使用区域大小为h的过滤器
Figure 702724DEST_PATH_IMAGE003
与所述文本属性词向量查找表D的子矩阵进行点积操作,生成新的特征图;然后,对卷积结果的特征图采用最大池化(Max Pooling)方法进行池化操作,使其变成固定长度的向量;最后,将这些特征进行拼接,并通过全连接的tanh层将其扩展为特定维度的向量,从而提取文本属性的语义特征,并得到其特征向量;
S133:对于地理坐标属性(经纬度属性)视为二维向量,输入多层感知器模型,所述多层感知器模型至少包含输入层、隐藏层和输出层三层节点,每一层中的任何节点都会全连接到下一层中的所有节点,其中所述隐藏层有两个,第一个隐藏层将输入的经纬度进行扩维操作,使其输出维度是文本属性特征向量维度的4倍;第二个隐藏层对上一层的输出进行降维操作,使其输出维度等于文本属性特征向量的维度,该层输出的特征向量为地理空间属性的地理空间特征向量。
基于ESIM的多源POI匹配步骤S140:
在步骤S130中,通过文本卷积神经网络和多层感知器模型提取属性的特征向量后,将在本步骤中实现POI对的匹配任务。
该步骤为:对于上述步骤所提取的特征向量,使用增强序列推理模型来对POI的相同属性(包括名称属性、地址属性、类型属性和经纬度属性)进行局部推理和推理组合,实现POI对的匹配任务;参见图5,所述增强序列推理模型包括,模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。
具体的,包括如下子步骤:
任取一对待匹配的POI a POI b ,通过步骤S110-S130得到POI a POI b 相同属性的特征向量表示,分别记为a 1 a 2 ……a m b 1 b 2 ……b m ,其中m表示POI a POI b 相同属性的个数,增强序列推理模型每一层详细的匹配过程如下。
S141:对于模型输入编码层,利用双向长短时记忆神经网络(Bi-LSTM)对POI相同属性进行编码,首先,将POI相同属性的特征向量a i b j ,其中
Figure 484735DEST_PATH_IMAGE004
作为网络输入;然后,使用Bi-LSTM对输入的特征向量进行编码,提取每个属性与其相邻属性之间的依赖信息,以获取更高级别的特征表示;最后,将Bi-LSTM的隐藏层状态
Figure 607543DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
输出,作为下一层的输入。具体计算公式如下:
Figure 288054DEST_PATH_IMAGE030
(1)
Figure DEST_PATH_IMAGE031
(2)
S142:对于属性特征局部推理层,使用注意力机制模型来获取POI a POI b 之间的局部相关性,即相同属性之间的相关性;首先,将两个POI的隐藏层状态
Figure 954178DEST_PATH_IMAGE028
Figure 590695DEST_PATH_IMAGE029
进行点积操作,得到注意力权重矩阵
Figure 868093DEST_PATH_IMAGE032
;然后,基于该矩阵求得每个属性对应的新向量
Figure DEST_PATH_IMAGE033
Figure 35900DEST_PATH_IMAGE034
Figure 706047DEST_PATH_IMAGE033
是由
Figure DEST_PATH_IMAGE035
属性序列通过加权求和得到,
Figure 275700DEST_PATH_IMAGE034
是由
Figure 723999DEST_PATH_IMAGE036
属性序列通过加权求和得到;最后,将
Figure DEST_PATH_IMAGE037
Figure 376172DEST_PATH_IMAGE014
Figure 584431DEST_PATH_IMAGE015
Figure 195541DEST_PATH_IMAGE016
进行差和点积操作,并对它们进行拼接。具体计算公式如下:
Figure 831053DEST_PATH_IMAGE038
(3)
Figure DEST_PATH_IMAGE039
(4)
Figure 957141DEST_PATH_IMAGE019
(5)
S143:对于属性特征推理组合层,使用Bi-LSTM来整合局部推理信息;首先,采用Bi-LSTM提取局部推理信息
Figure 437932DEST_PATH_IMAGE020
Figure 169127DEST_PATH_IMAGE021
及其相邻信息;然后,同时使用最大池化方法和平均池化方法进行池化操作,并将两个池化结果进行拼接,生成向量
Figure 232330DEST_PATH_IMAGE022
。具体计算公式如下:
Figure 783397DEST_PATH_IMAGE020
(6)
Figure 333459DEST_PATH_IMAGE021
(7)
Figure 919161DEST_PATH_IMAGE023
(8)
Figure 630896DEST_PATH_IMAGE024
(9)
Figure 669259DEST_PATH_IMAGE025
(10)
Figure 272279DEST_PATH_IMAGE026
(11)
S144:对于匹配结果输出层,使用MLP预测对拼接向量v进行二分类操作,并通过softmax函数进行激活;最终输出的预测结果是维二分类结果1或0,当结果为1时,表示POI a POI b 是匹配的,当结果为0时,表示POI a POI b 是不匹配的。
进一步的,参见图6,公开了一种基于深度学习的多源POI语义匹配系统,用于运行本发明的基于深度学习的多源POI语义匹配方法,包括如下模块:
待匹配POI属性选取单元210:
针对不同数据源中数据属性之间的类型差异,对待匹配数据集中的POI属性进行筛选,即筛选出不同数据源中地理空间实体的相同属性,所述相同属性包括:名称、地址、类型、经纬度中的一个或多个。
获取文本属性词向量单元220:
针对所述相同属性中具体不同的文本属性,采用不同的文本分词方法进行分词,然后利用中文分词结果训练Word2Vec模型生成其对应的词向量表示;
提取属性特征向量单元230:
对于文本属性,包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络,对于地理坐标属性,包括纬度属性,采用多层感知器模型进行了语义特征和地理空间特征提取,并生成其相应的特征向量表示;
基于ESIM的多源POI匹配单元240:
对于上述单元所提取的特征向量,使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合,实现POI对的匹配任务;所述增强序列推理模型包括,模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层。
进一步的,本发明还公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于深度学习的多源POI语义匹配方法。
实施例:
通过实验发现,本发明可以很好克服传统方法不能有效提取文本属性语义特征问题,同时避免了人工对于相似度阈值设置。
例如:在百度地图的“FILA(百盛购物中心四川时代店)”POI和腾讯地图的“7-ELEVEn(百盛购物中心四川时代店)”POI作为两个不同的POI,由于它们在同一个商场中,名称与地址相似度都较高,而且空间距离也非常近,因此通常会其他算法被误认为是同一个地理实体,但本发明能够很好地识别出名称语义特征和类型特征,从而有效地识别出这两个POI不是同一个地理实体。
同时,通过人工设置相似度阈值也将直接影响匹配精度,例如当阈值设置较大时,虽然能够得到较高的匹配精度,但是匹配的召回率就会很低。而当阈值设置较小时,虽然能够得到较高的匹配召回率,但是匹配的精度就会很低。本发明方法有效克服了人工设置阈值的缺陷。
综上,本发明有效克服了传统匹配方法在多源POI匹配中出现的准确率低或召回率低等问题,通过使用不同的中文分词方法对POI的文本属性进行分词,并利用分词结果来训练Word2vec模型生成相应的词向量;然后,使用Text-CNN和MLP模型分别提取文本属性和空间属性的特征,并生成其相应的特征向量表示;最后,使用ESIM对待匹配POI对进行局部推理和推理组合,以确定它们是否匹配,很大程度上提升了多源POI匹配效率。
本发明具有如下优点:
1、通过Word2Vec、Text-CNN和MLP模型很好的提取了POI属性的文本语义特征和地理空间特征;
2、基于Bi-LSTM和注意力机制解决了POI属性之间相互孤立的问题;
3、将POI语义匹配计算转化为信息二分类问题,解决了由于相似性阈值设置所导致了匹配准确率低等问题。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (2)

1.一种基于深度学习的多源POI语义匹配方法,其特征在于,包括如下步骤:
待匹配POI属性选取步骤S110:
针对不同数据源中数据属性之间的类型差异,对待匹配数据集中的POI属性进行筛选,即筛选出不同数据源中地理空间实体的相同属性,所述相同属性包括文本属性和地理坐标属性,具体包括:名称、地址、类型和经纬度;
获取文本属性词向量步骤S120:
针对所述相同属性中具体不同的文本属性,采用不同的文本分词方法进行分词,然后利用中文分词结果训练Word2Vec模型生成其对应的词向量表示;
提取属性特征向量步骤S130:
对于文本属性,包括名称属性、地址属性、类型属性采用了基于文本卷积神经网络,对于地理坐标属性,包括经纬度属性,采用多层感知器模型进行了语义特征和地理空间特征提取,并生成其相应的特征向量表示;
基于ESIM的多源POI匹配步骤S140:
对于上述步骤所提取的特征向量,使用增强序列推理模型来对POI的相同属性进行局部推理和推理组合,实现POI对的匹配任务;所述增强序列推理模型包括,模型输入编码层、属性特征局部推理层、属性特征推理组合层和匹配结果输出层;
具体的,
所述步骤S110包括如下子步骤
S111:从待匹配的多种数据源中任意选择一个数据源作为参考数据源,并选取该数据源中的一个属性作为参考属性;
S112:判断该参考属性在其他剩余的所有待匹配数据源中是否都存在;
S113:如果存在,则将该参考属性作为相同属性进行保存;
S114:选取参考数据源中的下一个属性重复进行S111-S113的步骤,直到参考数据源中所有属性遍历完为止;
所述步骤S120包括如下子步骤:
S121:对于名称属性,采用结巴分词的精确模式进行名称属性的中文分词;
S122:对于地址属性,首先基于中文地址表达模型和地址要素组成特征,构建了地址要素的特征词库和表达规则,然后,基于该特征词库和规则进行了中文的地址要素的切分;
S123:对于类型属性,首先,基于各POI数据源开放API获取各自POI的分类体系,构建相应的分类体系库,然后,基于该分类体系库利用双向最大匹配方法进行类型属性的分词;
S124:对通过步骤S121-S123的中文分词结果生成文本训练语料库,利用所述文本训练语料库对Word2Vec模型进行训练,获取文本属性中词与词之间的语义关系,及其相应的词向量表示;
所述步骤S130包括如下子步骤:
S131:对于文本属性,预先通过Word2vec模型生成文本属性中每个词 c l 的词向量表示,
Figure 667538DEST_PATH_IMAGE001
n表示通过步骤S121-S123生成所有词去重后的总数,将这些词向量进行堆叠构建文本属性词向量查找表
Figure 178154DEST_PATH_IMAGE002
d表示词向量的维度,R表示实数;
S132:对所述文本属性词向量查找表D采用一维卷积,卷积操作中使用区域大小为h的过滤器
Figure 426732DEST_PATH_IMAGE003
与所述文本属性词向量查找表D的子矩阵进行点积操作,生成新的特征图;然后,对卷积结果的特征图采用最大池化方法进行池化操作,使其变成固定长度的向量;最后,将这些特征进行拼接,并通过全连接的tanh层将其扩展为特定维度的向量,从而提取文本属性的语义特征,并得到其特征向量;
S133:将地理坐标属性视为二维向量,输入多层感知器模型,所述多层感知器模型至少包含输入层、隐藏层和输出层三层节点,每一层中的任何节点都会全连接到下一层中的所有节点,其中所述隐藏层有两个,第一个隐藏层将输入的经纬度进行扩维操作,使其输出维度是文本属性特征向量维度的4倍;第二个隐藏层对上一层的输出进行降维操作,使其输出维度等于文本属性特征向量的维度,所述输出层输出的特征向量为地理空间属性的地理空间特征向量;
所述步骤S140包括:
任取一对待匹配的POI a POI b ,通过步骤S110-S130得到POI a POI b 相同属性的特征向量表示,分别记为a 1 a 2 ……a m b 1 b 2 ……b m ,其中,m表示POI a POI b 相同属性的个数,增强序列推理模型每一层详细的匹配过程如下:
S141:对于模型输入编码层,利用双向长短时记忆神经网络(Bi-LSTM)对POI相同属性进行编码,首先,将POI相同属性的特征向量a i b j ,其中
Figure 166149DEST_PATH_IMAGE004
,作为网络输入;然后,使用所述双向长短时记忆神经网络对输入的特征向量进行编码,提取每个属性与其相邻属性之间的依赖信息,以获取更高级别的特征表示,最后,将所述双向长短时记忆神经网络的隐藏层状态
Figure 449363DEST_PATH_IMAGE005
Figure 865301DEST_PATH_IMAGE006
输出,作为下一层的输入;
S142:对于属性特征局部推理层,使用注意力机制模型来获取POI a POI b 之间的局部相关性,即相同属性之间的相关性;首先,将两个POI的隐藏层状态
Figure 601176DEST_PATH_IMAGE007
Figure 347546DEST_PATH_IMAGE008
进行点积操作,得到注意力权重矩阵e ij ;然后,基于该矩阵求得每个属性对应的新向量
Figure 609900DEST_PATH_IMAGE009
Figure 72106DEST_PATH_IMAGE010
Figure 170643DEST_PATH_IMAGE009
是由
Figure 376496DEST_PATH_IMAGE011
属性序列通过加权求和得到,
Figure 493357DEST_PATH_IMAGE010
是由
Figure 392043DEST_PATH_IMAGE012
属性序列通过加权求和得到;最后,将
Figure 977876DEST_PATH_IMAGE013
Figure 721841DEST_PATH_IMAGE014
Figure 224366DEST_PATH_IMAGE015
Figure 28374DEST_PATH_IMAGE016
进行差和点积操作,并对它们进行拼接;
S143:对于属性特征推理组合层,使用所述双向长短时记忆神经网络来整合局部推理信息;首先,采用所述双向长短时记忆神经网络提取局部推理信息
Figure 101504DEST_PATH_IMAGE017
Figure 649160DEST_PATH_IMAGE018
及其相邻信息;然后,同时使用最大池化方法和平均池化方法进行池化操作,并将两个池化结果进行拼接,生成向量
Figure 740612DEST_PATH_IMAGE019
S144:对于匹配结果输出层,使用MLP预测对拼接向量v进行二分类操作,并通过softmax函数进行激活;最终输出的预测结果是1或0,当结果为1时,表示POI a POI b 是匹配的,当结果为0时,表示POI a POI b 是不匹配的。
2.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1所述的基于深度学习的多源POI语义匹配方法。
CN202210388468.7A 2022-04-14 2022-04-14 基于深度学习的多源poi语义匹配方法、装置及其存储介质 Active CN114461943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210388468.7A CN114461943B (zh) 2022-04-14 2022-04-14 基于深度学习的多源poi语义匹配方法、装置及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210388468.7A CN114461943B (zh) 2022-04-14 2022-04-14 基于深度学习的多源poi语义匹配方法、装置及其存储介质

Publications (2)

Publication Number Publication Date
CN114461943A CN114461943A (zh) 2022-05-10
CN114461943B true CN114461943B (zh) 2022-08-26

Family

ID=81418656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210388468.7A Active CN114461943B (zh) 2022-04-14 2022-04-14 基于深度学习的多源poi语义匹配方法、装置及其存储介质

Country Status (1)

Country Link
CN (1) CN114461943B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306638B (zh) * 2023-05-22 2023-08-11 上海维智卓新信息科技有限公司 Poi数据匹配方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法
CN112148894A (zh) * 2020-09-30 2020-12-29 武汉大学 一种基于深度学习和定性空间推理的泛在道路信息定位方法
CN113326267A (zh) * 2021-06-24 2021-08-31 中国科学技术大学智慧城市研究院(芜湖) 基于倒排索引和神经网络算法的地址匹配方法
CN113592037A (zh) * 2021-08-26 2021-11-02 武大吉奥信息技术有限公司 一种基于自然语言推断的地址匹配方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347776A (zh) * 2019-07-17 2019-10-18 北京百度网讯科技有限公司 兴趣点名称匹配方法、装置、设备及存储介质
CN110633853A (zh) * 2019-09-12 2019-12-31 北京彩云环太平洋科技有限公司 时空数据预测模型的训练方法、装置及电子设备
CN111881677A (zh) * 2020-07-28 2020-11-03 武汉大学 基于深度学习模型的地址匹配算法
CN112527938A (zh) * 2020-12-17 2021-03-19 安徽迪科数金科技有限公司 基于自然语言理解的中文poi匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444700A (zh) * 2020-04-02 2020-07-24 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法
CN112148894A (zh) * 2020-09-30 2020-12-29 武汉大学 一种基于深度学习和定性空间推理的泛在道路信息定位方法
CN113326267A (zh) * 2021-06-24 2021-08-31 中国科学技术大学智慧城市研究院(芜湖) 基于倒排索引和神经网络算法的地址匹配方法
CN113592037A (zh) * 2021-08-26 2021-11-02 武大吉奥信息技术有限公司 一种基于自然语言推断的地址匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Graph-based matching of Points-of-interest from collaborative geo-datasets;Tessio Novack等;《International Journal of Geo-Information》;20180315;全文 *

Also Published As

Publication number Publication date
CN114461943A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN111061961A (zh) 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统
CN112182230B (zh) 一种基于深度学习的文本数据分类方法和装置
CN111160471A (zh) 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN110598207B (zh) 一种词向量获取方法、装置及存储介质
CN113449110B (zh) 情感分类方法、装置、存储介质及计算机设备
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN110489507B (zh) 确定兴趣点相似度的方法、装置、计算机设备和存储介质
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
JP2023536773A (ja) テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム
Huang et al. Location prediction for tweets
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114461943B (zh) 基于深度学习的多源poi语义匹配方法、装置及其存储介质
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN116089607A (zh) 智能应答文本分类的方法、装置、电子设备及存储介质
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质
Yang et al. Point‐of‐interest detection from Weibo data for map updating
Gong Analysis of internet public opinion popularity trend based on a deep neural network
Li et al. EP‐LSTM: Novel prediction algorithm for moving object destination
CN114417166B (zh) 基于行为序列和动态社交影响的连续兴趣点推荐方法
Zhou et al. Unsupervised community detection algorithm based on graph convolution network and social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant