CN110347776A - 兴趣点名称匹配方法、装置、设备及存储介质 - Google Patents

兴趣点名称匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110347776A
CN110347776A CN201910644777.4A CN201910644777A CN110347776A CN 110347776 A CN110347776 A CN 110347776A CN 201910644777 A CN201910644777 A CN 201910644777A CN 110347776 A CN110347776 A CN 110347776A
Authority
CN
China
Prior art keywords
point name
interest point
interest
network
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910644777.4A
Other languages
English (en)
Inventor
朱重黎
谢红伟
宋宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910644777.4A priority Critical patent/CN110347776A/zh
Publication of CN110347776A publication Critical patent/CN110347776A/zh
Priority to US16/931,529 priority patent/US20210018332A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3807Creation or updating of map data characterised by the type of data
    • G01C21/3811Point data, e.g. Point of Interest [POI]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3679Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种兴趣点名称匹配方法、装置、设备及存储介质,通过获取待匹配的第一兴趣点名称和第二兴趣点名称;根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。本实施例通过网络模型进行兴趣点名称语义相似度的判断,实现兴趣点名称匹配,不需要维护大量人工规则、不依赖人工提取兴趣点名称的相似性特征,准确性更高、可维护性更好,具有较高的处理效率。

Description

兴趣点名称匹配方法、装置、设备及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种兴趣点名称匹配方法、装置、设备及存储介质。
背景技术
兴趣点(Point of Interest,POI)是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。兴趣点可记录在电子地图中,以满足人们日常生活中对兴趣点位置等信息的查询需求。
在地图需要新增兴趣点、或兴趣点去重、兴趣点基础属性补充或兴趣点内容属性补充时,通常需要进行兴趣点的判重,也即判断两个兴趣点是否为同一空间实体,一般会涉及到对兴趣点名称的相似度判断和空间相似度的判断。其中对于兴趣点名称的相似度判断,可采用基于规则的方法,通过规则比较两个兴趣点名称是否相似、是否为同一空间实体;或者采用传统机器学习模型如GBDT(梯度下降树)或ME(最大熵模型),也即将通过规则计算的结果转化为离散值或连续值特征,然后通过传统机器学习模型进行二分类判定。
现有技术中,基于规则的方法需要维护大量陈旧的人工规则,以及很难在陈旧规则中添加新的人工规则,难于继续迭代,且准确率不高;而采用传统机器学习模型相对于基于规则的方法具有更强的泛化能力,但仍需要依赖规则计算结果,依赖人工提取的兴趣点相似性特征,同样准确率不高。
发明内容
本发明实施例提供一种兴趣点名称匹配方法、装置、设备及存储介质,以提高可维护性和准确率,不需要维护大量人工规则、不依赖人工提取兴趣点名称的相似性特征。
本发明实施例的第一方面是提供一种兴趣点名称匹配方法,包括:
获取待匹配的第一兴趣点名称和第二兴趣点名称;
根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;
若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。
本发明实施例的第二方面是提供一种兴趣点名称匹配装置,包括:
获取模块,用于获取待匹配的第一兴趣点名称和第二兴趣点名称;
处理模块,用于根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。
本发明实施例的第三方面是提供一种兴趣点名称匹配设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
本发明实施例的第四方面是提供一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如第一方面所述的方法。
本发明实施例提供的兴趣点名称匹配方法、装置、设备及存储介质,通过获取待匹配的第一兴趣点名称和第二兴趣点名称;根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。本实施例通过网络模型进行兴趣点名称语义相似度的判断,实现兴趣点名称匹配,不需要维护大量人工规则、不依赖人工提取兴趣点名称的相似性特征,准确性更高、可维护性更好,具有较高的处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的兴趣点名称匹配方法流程图;
图2为本发明另一实施例提供的兴趣点名称匹配方法流程图;
图3为本发明实施例提供的网络模型的结构图;
图4为本发明另一实施例提供的网络模型的结构图;
图5为本发明实施例提供的兴趣点名称匹配装置的结构图;
图6为本发明实施例提供的兴趣点名称匹配设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的兴趣点名称匹配方法流程图。本实施例提供了一种兴趣点名称匹配方法,该方法具体步骤如下:
S101、获取待匹配的第一兴趣点名称和第二兴趣点名称。
本实施例可应用于新增兴趣点的判重,也即将新增兴趣点与地图中已有兴趣点进行比较,若新增兴趣点与已有兴趣点不同,则将新增兴趣点添加到地图中,其中新增兴趣点与地图中已有兴趣点进行比较过程中,涉及到兴趣点名称语义相似度的比较、位置信息的比较、联系方式信息的比较、兴趣点类别的比较等等,本发明实施例中仅涉及对兴趣点名称语义相似度的比较。此外,本实施例还可应用于兴趣点查询,例如用户查询指令中包括第一兴趣点名称,希望根据第一兴趣点名称从地图中查询到目标兴趣点,可将第一兴趣点名称与地图中的兴趣点的名称进行语义相似度比较,从而查询到名称语义相似度较高的目标兴趣点。当然本实施例也可应用于其他场景中,其中可不限于地理信息系统中兴趣点名称的语义相似度比较,还可进行其他领域中的两个字符串之间的语义相似度的比较中。
基于上述应用场景,本实施例中可首先获取到待匹配的第一兴趣点名称和第二兴趣点名称,进而输入到预先训练的网络模型,进行下述的步骤。
S102、根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
在本实施例中,预先训练的网络模型用于获取两个字符串之间的语义相似度,该网络模型具体可以为神经网络模型或者其他的机器学习模型,通过将获取到的第一兴趣点名称和第二兴趣点名称输入到该网络模型中,即可输出第一兴趣点名称和所述第二兴趣点名称的相似度。
S103、若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。
在本实施例中,将第一兴趣点名称和所述第二兴趣点名称的相似度与预设阈值进行比较,当第一兴趣点名称和所述第二兴趣点名称的相似度高于预设阈值,则可确定第一兴趣点名称和所述第二兴趣点名称的相似度较高,也即第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体(同一空间实体)。当然确定两个兴趣点在名称语义上是同一兴趣点实体,可能并不能百分之百的确定两个兴趣点就是同一兴趣点实体,还可进一步进行位置信息的比较、联系方式信息的比较、兴趣点类别的比较等,才能确定两个兴趣点是同一兴趣点实体(其中可以设定不同比较的结果占不同权重),其他的比较过程具体可通过决策树或其他方法实现,此处不再赘述。
本实施例提供的兴趣点名称匹配方法,通过获取待匹配的第一兴趣点名称和第二兴趣点名称;根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。本实施例通过网络模型进行兴趣点名称语义相似度的判断,实现兴趣点名称匹配,不需要维护大量人工规则、不依赖人工提取兴趣点名称的相似性特征,准确性更高、可维护性更好,具有较高的处理效率。
在上述实施例的基础上,所述网络模型包括自注意力(Self Attention)单元和多头注意力(Multi-head Attention)单元;
如图2所示,所述根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度,包括:
S201、通过所述自注意力单元分别获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量;
S202、通过所述多头注意力层获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量;
S203、根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
在本实施例中,可参考谷歌(Google)的Transformer翻译模型,采用自注意力(Self Attention)机制获取兴趣点名称的特征向量,具体的可通过自注意力机制获取兴趣点名称中每个词或字与其他词或字之间的依赖,最终得到兴趣点名称的特征向量来表征兴趣点名称中每个词或字的上下文信息,其中自注意力单元并不限于一个,可采用多个自注意力单元依次连接,由浅层次到深层次的逐步获取兴趣点名称的特征向量;在获取到每个兴趣点名称的特征向量后,通过多头注意力(Multi-head Attention)机制对两个兴趣点名称在对比时的相互作用关系进行计算,获取两个兴趣点名称的特征向量之间的相互作用关系向量;进一步的,在得到两个兴趣点名称的特征向量之间的相互作用关系向量后,可根据相互作用关系向量获取两个兴趣点名称之间的相似度,进而可以根据相似度判断两个兴趣点在名称语义上是同一兴趣点实体。
进一步的,所述根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度,包括:
根据所述相互作用关系向量进行二分类,获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
本实施例中,可采用Softmax回归对相互作用关系向量进行二分类,判断两兴趣点名称相似或者两兴趣点名称不相似,并给出对应的概率大小,从而可获取到两兴趣点名称相似的相似度。当然本实施例中也可采用其他的分类器,此处不再赘述。
此外,上述实施例中,将第一兴趣点名称和所述第二兴趣点名称输入到网络模型中后,可通过嵌入层(Embedding)首先对输入的兴趣点名称进行编码,获取用向量形式表示的兴趣点名称,进而再将用向量形式表示的兴趣点名称输入到自注意力单元,以使自注意力单元根据用向量形式表示的兴趣点名称获取该兴趣点名称的特征向量。
本实施例提供的兴趣点名称匹配方法,通过获取待匹配的第一兴趣点名称和第二兴趣点名称;根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。本实施例通过网络模型进行兴趣点名称语义相似度的判断,实现兴趣点名称匹配,不需要维护大量人工规则、不依赖人工提取兴趣点名称的相似性特征,准确性更高、可维护性更好,具有较高的处理效率。并且,本实施例中采用注意力机制,网络层次更深,从模型效果看可在保证准确率的前提下,大幅提升新增和关联的召回率。
在上述任一实施例的基础上,在一种可选实施例中,如图3所示,所述网络模型包括相互对称的两个子网络,每一子网络均包括所述自注意力单元和所述多头注意力单元;其中,将所述第一兴趣点名称和所述第二兴趣点名称分别输入到一所述子网络中;每一子网络的所述多头注意力单元用于获取另一子网络中的兴趣点名称的特征向量对本子网络中的兴趣点名称的特征向量的相互作用关系向量。
更具体的,如图3所示,每一子网络还包括嵌入层(Embedding),可将第一兴趣点名称和第二兴趣点名称分别输入到一子网络的嵌入层,由嵌入层对输入的兴趣点名称进行编码,获取用向量形式表示的兴趣点名称,进而由自注意力单元根据用向量形式表示的兴趣点名称获取该兴趣点名称的特征向量。
本实施例中的子网络中将多个自注意力单元依次连接由浅层次到深层次的逐步获取兴趣点名称的特征向量,其中每一自注意力单元中包括自注意力层和全连接层(FeedForward),全连接层用于对自注意力层提取的特征进行排列组合,从而形成兴趣点名称的特征向量。
进一步的,自注意力单元将最终得到的兴趣点名称的特征向量输入到多头注意力单元中,由于每一子网络中均具有多头注意力单元,而两个子网络的多头注意力单元之间相互连接,也即每一多头注意力单元均可获取到两个兴趣点名称的特征向量,两个多头注意力单元分别计算一个两个兴趣点名称的特征向量之间的相互作用关系向量,其中一个多头注意力单元计算第二兴趣点名称的特征向量对第一兴趣点名称的特征向量的相互作用关系向量,另一个多头注意力单元计算第一兴趣点名称的特征向量对第二兴趣点名称的特征向量的相互作用关系向量。
在获取到两个相互作用关系向量后,对两个相互作用关系向量进行拼接,得到拼接后的相互作用关系向量,可在网络模型中设置拼接单元(如采用Concat实现);然后对拼接后的相互作用关系向量获取第一兴趣点名称和第二兴趣点名称的相似度,具体的,在网络模型中设置相似度获取单元,例如通过Softmax回归对相互作用关系向量进行二分类,判断两兴趣点名称相似或者两兴趣点名称不相似,并给出对应的概率大小,从而可获取到两兴趣点名称相似的相似度。本实施例中通过两个多头注意力单元进行正反向的相互作用关系向量的获取以及后续相互作用关系向量的拼接,可提高获取相似度的准确性,避免相似度判断过程中存在正反向不一致的问题,也即判断第一兴趣点名称是否与第二兴趣点名称相似的判断结果、与判断第二兴趣点名称是否与第一兴趣点名称相似的判断结果,可能存在差异的情况。
进一步的,本实施例中的各层之间可采用Add&Norm的方式连接,Add&Norm可负责训练过程的残差连接和特征向量归一化。
在另一种可选实施例中,如图4所示,所述网络模型包括相互对称的两个子网络,每一子网络包括所述自注意力单元,两个子网络连接一个多头注意力单元,每一子网络的自注意力单元得到的兴趣点名称的特征向量均输入到该多头注意力单元中,以通过该多头注意力单元获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量。
在本实施例中,并未考虑相似度判断过程中存在正反向不一致的问题,也即每一子网络中包括自注意力单元,不包括多头注意力单元,每一子网络的自注意力单元得到的兴趣点名称的特征向量均输入到该多头注意力单元中,仅由该多头注意力单元得到一个第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量。进而,本实施例的网络模型不需要拼接单元,相互作用关系向量直接输入到相似度获取单元获取两兴趣点名称的相似度。
本实施例的网络模型的其他层可参见上述实施例的网络模型,此处不再赘述。
在上述任一实施例的基础上,所述兴趣点名称匹配方法还包括模型训练过程,具体包括:
获取训练数据,并根据所述训练数据对所述网络模型进行训练。
本实施例中,模型训练过程中,模型损失函数可采用交叉熵,优化方法可采用Momentum(动量),通过梯度下降方法最小化交叉熵来求得模型参数,当然训练方法并不限于上述所述,此处不再赘述。
其中,所述获取训练数据,包括:
根据数据库中具有不同名称的兴趣点实体获取训练数据中的正例数据;和/或
根据用户的兴趣点查询指令及对应的查询结果构造训练数据中的负例数据;和/或
获取数据库中具有父子关系或兄弟关系的兴趣点获取负例数据;和/或
获取数据库中兴趣点名称中字符串相似度低于阈值的兴趣点获取负例数据;和/或
选取数据库中兴趣点名称中包含的核心词或后缀不同的兴趣点获取负例数据。
本实施例中,对于训练数据中的正例数据,可从数据中查找具有不同名称的同一兴趣点实体,例如“北京大学”和“北大”,名称不同但为同一兴趣点实体,进而可将该兴趣点实体的两个名称作为一个正例数据。对于训练数据中的负例数据,可采用多种上述多种获取方法的至少一种来获取。其中,根据用户的兴趣点查询指令及对应的查询结果构造训练数据中的负例数据,例如用户查询“北京大学”时,可能返回与北大无关的“北京邮电大学”、“北京交通大学”等,但并不是同一兴趣点实体,因此可根据用户的兴趣点查询指令及对应的查询结果构造负例数据;还可根据兴趣点之间的关系构造负例数据,如父子关系(例如某一商圈的名称与该商圈中的某一店铺的名称)、兄弟关系(同一商圈中的不同店铺的名称);还可根据兴趣点名称中包含的核心词或后缀不同的兴趣点获取负例数据,例如同一公司旗下的不同店铺,或者不同公司旗下的同一类型的店铺等;此外,获取完全无关的兴趣点名称,只要两个兴趣点名称中字符串相似度低于阈值即可,其中字符串相似度可通过lcs(Longest Common Subsequence,最大公共子序列)来计算。本实施例中可控制训练数据中正例数据和负例数据的比例,例如1:3,训练数据的纯净度达到95%,通过海量训练样本,能更好的训练网络模型,提高模型的准确度。
图5为本发明实施例提供的兴趣点名称匹配装置的结构图。本实施例提供的兴趣点名称匹配装置可以执行兴趣点名称匹配方法实施例提供的处理流程,如图5所示,所述兴趣点名称匹配装置50包括获取模块51、以及处理模块52。
其中,获取模块51,用于获取待匹配的第一兴趣点名称和第二兴趣点名称;
处理模块52,用于根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。
在上述任一实施例的基础上,所述网络模型包括自注意力单元和多头注意力单元;
所述处理模块52用于:
通过所述自注意力单元分别获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量;
通过所述多头注意力层获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量;
根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
在上述任一实施例的基础上,所述网络模型包括相互对称的两个子网络,每一子网络均包括所述自注意力单元和所述多头注意力单元;
其中,所述第一兴趣点名称和所述第二兴趣点名称分别输入到一所述子网络中;每一子网络的所述多头注意力单元用于获取另一子网络中的兴趣点名称的特征向量对本子网络中的兴趣点名称的特征向量的相互作用关系向量;
所述网络模型还包括拼接单元和相似度获取单元;
所述处理模块52用于:
通过所述拼接单元对每一子网络得到的所述相互作用关系向量进行拼接,得到拼接后的相互作用关系向量;
通过相似度获取单元,根据所述拼接后的相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
在上述任一实施例的基础上,所述网络模型包括相互对称的两个子网络,每一子网络包括所述自注意力单元,两个子网络连接一个多头注意力单元,每一子网络的自注意力单元得到的兴趣点名称的特征向量均输入到该多头注意力单元中,以通过该多头注意力单元获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量;所述网络模型还包括相似度获取单元,用于根据所述拼接后的相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
在上述任一实施例的基础上,所述处理模块52用于:
根据所述相互作用关系向量进行二分类,获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
在上述任一实施例的基础上,所述子网络还包括嵌入层;
所述处理模块52用于:
通过所述嵌入层对输入的兴趣点名称进行编码,获取用向量形式表示的兴趣点名称,以使所述自注意力单元根据所述用向量形式表示的兴趣点名称获取该兴趣点名称的特征向量。
在上述任一实施例的基础上,所述装置50还包括:
训练数据获取模块53,用于获取训练数据;
训练模块54,用于根据所述训练数据对所述网络模型进行训练;
其中,所述训练数据获取模块53具体用于:
根据数据库中具有不同名称的兴趣点实体获取训练数据中的正例数据;和/或
根据用户的兴趣点查询指令及对应的查询结果构造训练数据中的负例数据;和/或
获取数据库中具有父子关系或兄弟关系的兴趣点获取负例数据;和/或
获取数据库中兴趣点名称中字符串相似度低于阈值的兴趣点获取负例数据;和/或
选取数据库中兴趣点名称中包含的核心词或后缀不同的兴趣点获取负例数据。
本发明实施例提供的兴趣点名称匹配装置可以具体用于执行上述图1-2所提供的方法实施例,具体功能此处不再赘述。
本发明实施例提供的兴趣点名称匹配装置,通过获取待匹配的第一兴趣点名称和第二兴趣点名称;根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。本实施例通过网络模型进行兴趣点名称语义相似度的判断,实现兴趣点名称匹配,不需要维护大量人工规则、不依赖人工提取兴趣点名称的相似性特征,准确性更高、可维护性更好,具有较高的处理效率。
图6为本发明实施例提供的兴趣点名称匹配设备的结构示意图。本发明实施例提供的兴趣点名称匹配设备可以执行兴趣点名称匹配方法实施例提供的处理流程,如图6所示,兴趣点名称匹配设备60包括存储器61、处理器62、计算机程序和通讯接口63;其中,计算机程序存储在存储器61中,并被配置为由处理器62执行以上实施例所述的兴趣点名称匹配方法。
图6所示实施例的兴趣点名称匹配设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的兴趣点名称匹配方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种兴趣点名称匹配方法,其特征在于,包括:
获取待匹配的第一兴趣点名称和第二兴趣点名称;
根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;
若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。
2.根据权利要求1所述的方法,其特征在于,所述网络模型包括自注意力单元和多头注意力单元;
所述根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度,包括:
通过所述自注意力单元分别获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量;
通过所述多头注意力层获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量;
根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
3.根据权利要求2所述的方法,其特征在于,所述网络模型包括相互对称的两个子网络,每一子网络均包括所述自注意力单元和所述多头注意力单元;
其中,将所述第一兴趣点名称和所述第二兴趣点名称分别输入到一所述子网络中;每一子网络的所述多头注意力单元用于获取另一子网络中的兴趣点名称的特征向量对本子网络中的兴趣点名称的特征向量的相互作用关系向量;
所述根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度,包括:
对每一子网络得到的所述相互作用关系向量进行拼接,得到拼接后的相互作用关系向量;
根据所述拼接后的相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
4.根据权利要求2所述的方法,其特征在于,所述网络模型包括相互对称的两个子网络,每一子网络包括所述自注意力单元,两个子网络连接一个多头注意力单元,每一子网络的自注意力单元得到的兴趣点名称的特征向量均输入到该多头注意力单元中,以通过该多头注意力单元获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度,包括:
根据所述相互作用关系向量进行二分类,获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
6.根据权利要求2-4任一项所述的方法,其特征在于,所述子网络还包括嵌入层;
将所述第一兴趣点名称和所述第二兴趣点名称分别输入到一所述子网络中,包括:
通过所述嵌入层对输入的兴趣点名称进行编码,获取用向量形式表示的兴趣点名称,以使所述自注意力单元根据所述用向量形式表示的兴趣点名称获取该兴趣点名称的特征向量。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取训练数据,并根据所述训练数据对所述网络模型进行训练;
其中,所述获取训练数据,包括:
根据数据库中具有不同名称的兴趣点实体获取训练数据中的正例数据;和/或
根据用户的兴趣点查询指令及对应的查询结果构造训练数据中的负例数据;和/或
获取数据库中具有父子关系或兄弟关系的兴趣点获取负例数据;和/或
获取数据库中兴趣点名称中字符串相似度低于阈值的兴趣点获取负例数据;和/或
选取数据库中兴趣点名称中包含的核心词或后缀不同的兴趣点获取负例数据。
8.一种兴趣点名称匹配装置,其特征在于,包括:
获取模块,用于获取待匹配的第一兴趣点名称和第二兴趣点名称;
处理模块,用于根据预先训练的网络模型获取所述第一兴趣点名称和所述第二兴趣点名称的相似度;若所述相似度高于预设阈值,则确定第一兴趣点和第二兴趣点在名称语义上是同一兴趣点实体。
9.根据权利要求8所述的装置,其特征在于,所述网络模型包括自注意力单元和多头注意力单元;
所述处理模块用于:
通过所述自注意力单元分别获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量;
通过所述多头注意力层获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量;
根据所述相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
10.根据权利要求9所述的装置,其特征在于,所述网络模型包括相互对称的两个子网络,每一子网络均包括所述自注意力单元和所述多头注意力单元;
其中,所述第一兴趣点名称和所述第二兴趣点名称分别输入到一所述子网络中;每一子网络的所述多头注意力单元用于获取另一子网络中的兴趣点名称的特征向量对本子网络中的兴趣点名称的特征向量的相互作用关系向量;
所述网络模型还包括拼接单元和相似度获取单元;
所述处理模块用于:
通过所述拼接单元对每一子网络得到的所述相互作用关系向量进行拼接,得到拼接后的相互作用关系向量;
通过相似度获取单元,根据所述拼接后的相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
11.根据权利要求9所述的装置,其特征在于,所述网络模型包括相互对称的两个子网络,每一子网络包括所述自注意力单元,两个子网络连接一个多头注意力单元,每一子网络的自注意力单元得到的兴趣点名称的特征向量均输入到该多头注意力单元中,以通过该多头注意力单元获取所述第一兴趣点名称和所述第二兴趣点名称的特征向量之间的相互作用关系向量;所述网络模型还包括相似度获取单元,用于根据所述拼接后的相互作用关系向量获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
12.根据权利要求9-11任一项所述的装置,其特征在于,所述处理模块用于:
根据所述相互作用关系向量进行二分类,获取所述第一兴趣点名称和所述第二兴趣点名称的相似度。
13.根据权利要求9-11任一项所述的装置,其特征在于,所述子网络还包括嵌入层;
所述处理模块用于:
通过所述嵌入层对输入的兴趣点名称进行编码,获取用向量形式表示的兴趣点名称,以使所述自注意力单元根据所述用向量形式表示的兴趣点名称获取该兴趣点名称的特征向量。
14.根据权利要求8所述的装置,其特征在于,还包括:
训练数据获取模块,用于获取训练数据;
训练模块,用于根据所述训练数据对所述网络模型进行训练;
其中,所述训练数据获取模块具体用于:
根据数据库中具有不同名称的兴趣点实体获取训练数据中的正例数据;和/或
根据用户的兴趣点查询指令及对应的查询结果构造训练数据中的负例数据;和/或
获取数据库中具有父子关系或兄弟关系的兴趣点获取负例数据;和/或
获取数据库中兴趣点名称中字符串相似度低于阈值的兴趣点获取负例数据;和/或
选取数据库中兴趣点名称中包含的核心词或后缀不同的兴趣点获取负例数据。
15.一种兴趣点名称匹配设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201910644777.4A 2019-07-17 2019-07-17 兴趣点名称匹配方法、装置、设备及存储介质 Pending CN110347776A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910644777.4A CN110347776A (zh) 2019-07-17 2019-07-17 兴趣点名称匹配方法、装置、设备及存储介质
US16/931,529 US20210018332A1 (en) 2019-07-17 2020-07-17 Poi name matching method, apparatus, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910644777.4A CN110347776A (zh) 2019-07-17 2019-07-17 兴趣点名称匹配方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110347776A true CN110347776A (zh) 2019-10-18

Family

ID=68175559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910644777.4A Pending CN110347776A (zh) 2019-07-17 2019-07-17 兴趣点名称匹配方法、装置、设备及存储介质

Country Status (2)

Country Link
US (1) US20210018332A1 (zh)
CN (1) CN110347776A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159563A (zh) * 2019-12-31 2020-05-15 广州市百果园信息技术有限公司 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111160471A (zh) * 2019-12-30 2020-05-15 腾讯云计算(北京)有限责任公司 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN111782977A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 兴趣点处理方法、装置、设备及计算机可读存储介质
CN112182409A (zh) * 2020-11-03 2021-01-05 北京百度网讯科技有限公司 数据处理方法、装置、设备及计算机存储介质
CN113254715A (zh) * 2020-02-11 2021-08-13 百度在线网络技术(北京)有限公司 视频与兴趣点关联关系构建方法、装置、设备及介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761841B (zh) * 2021-04-19 2023-07-25 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113915829B (zh) * 2021-06-04 2023-04-18 海信冰箱有限公司 冰箱及菜谱修正方法
CN114461943B (zh) * 2022-04-14 2022-08-26 中国测绘科学研究院 基于深度学习的多源poi语义匹配方法、装置及其存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325329A1 (en) * 2012-05-31 2013-12-05 Google Inc. Geographic data update based on user input
CN105808609A (zh) * 2014-12-31 2016-07-27 高德软件有限公司 一种信息点数据冗余的判别方法和设备
CN107292302A (zh) * 2016-03-31 2017-10-24 高德信息技术有限公司 检测图片中兴趣点的方法和系统
CN107609186A (zh) * 2017-09-30 2018-01-19 百度在线网络技术(北京)有限公司 信息处理方法及装置、终端设备及计算机可读存储介质
CN108345609A (zh) * 2017-01-24 2018-07-31 腾讯科技(深圳)有限公司 一种处理poi信息的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2523299A (en) * 2013-12-30 2015-08-26 Tribal Hives Ltd Method of accessing information and related networks
US20170212829A1 (en) * 2016-01-21 2017-07-27 American Software Safety Reliability Company Deep Learning Source Code Analyzer and Repairer
US10388274B1 (en) * 2016-03-31 2019-08-20 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
EP3497405B1 (en) * 2016-08-09 2022-06-15 Nauto, Inc. System and method for precision localization and mapping
CN106547871B (zh) * 2016-10-31 2020-04-07 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN107133202A (zh) * 2017-06-01 2017-09-05 北京百度网讯科技有限公司 基于人工智能的文本校验方法和装置
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
US11625573B2 (en) * 2018-10-29 2023-04-11 International Business Machines Corporation Relation extraction from text using machine learning
US11011154B2 (en) * 2019-02-08 2021-05-18 Tencent America LLC Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325329A1 (en) * 2012-05-31 2013-12-05 Google Inc. Geographic data update based on user input
CN105808609A (zh) * 2014-12-31 2016-07-27 高德软件有限公司 一种信息点数据冗余的判别方法和设备
CN107292302A (zh) * 2016-03-31 2017-10-24 高德信息技术有限公司 检测图片中兴趣点的方法和系统
CN108345609A (zh) * 2017-01-24 2018-07-31 腾讯科技(深圳)有限公司 一种处理poi信息的方法和装置
CN107609186A (zh) * 2017-09-30 2018-01-19 百度在线网络技术(北京)有限公司 信息处理方法及装置、终端设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIHK-ANCHOR: ""transformer 模型(self-attention自注意力)"", 《HTTPS://BLOG.CSDN.NET/WEIXIN_40871455/ARTICLE/DETAILS/86084560》 *
木东0419: ""Transformer模型的改进-句子相似性的探索"", 《HTTPS://BLOG.CSDN.NET/MUDONGCD0419/ARTICLE/DETAILS/83821013》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160471A (zh) * 2019-12-30 2020-05-15 腾讯云计算(北京)有限责任公司 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN111160471B (zh) * 2019-12-30 2023-04-07 腾讯云计算(北京)有限责任公司 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN111159563A (zh) * 2019-12-31 2020-05-15 广州市百果园信息技术有限公司 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111159563B (zh) * 2019-12-31 2024-02-09 广州市百果园信息技术有限公司 用户兴趣点信息的确定方法、装置、设备及存储介质
CN113254715A (zh) * 2020-02-11 2021-08-13 百度在线网络技术(北京)有限公司 视频与兴趣点关联关系构建方法、装置、设备及介质
CN111782977A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 兴趣点处理方法、装置、设备及计算机可读存储介质
CN111782977B (zh) * 2020-06-29 2023-08-11 北京百度网讯科技有限公司 兴趣点处理方法、装置、设备及计算机可读存储介质
CN112182409A (zh) * 2020-11-03 2021-01-05 北京百度网讯科技有限公司 数据处理方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
US20210018332A1 (en) 2021-01-21

Similar Documents

Publication Publication Date Title
CN110347776A (zh) 兴趣点名称匹配方法、装置、设备及存储介质
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN104915340B (zh) 自然语言问答方法及装置
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN111597314B (zh) 推理问答方法、装置以及设备
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN107102989A (zh) 一种基于词向量、卷积神经网络的实体消歧方法
CN110309393A (zh) 数据处理方法、装置、设备及可读存储介质
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN109978060A (zh) 一种自然语言要素抽取模型的训练方法及装置
CN106294313A (zh) 学习用于实体消歧的实体及单词嵌入
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
CN109684625A (zh) 实体处理方法、装置和存储介质
CN105302810A (zh) 一种信息搜索方法和装置
JP6308708B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN109766557A (zh) 一种情感分析方法、装置、存储介质及终端设备
CN109857844A (zh) 基于点餐对话文本的意图识别方法、装置、电子设备
CN108763535A (zh) 信息获取方法及装置
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN109933686A (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN107798387A (zh) 一种适用于高端装备全生命周期的知识服务系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018