CN110795515A - 兴趣点poi的处理方法、装置、电子设备及计算机存储介质 - Google Patents

兴趣点poi的处理方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN110795515A
CN110795515A CN201910791598.3A CN201910791598A CN110795515A CN 110795515 A CN110795515 A CN 110795515A CN 201910791598 A CN201910791598 A CN 201910791598A CN 110795515 A CN110795515 A CN 110795515A
Authority
CN
China
Prior art keywords
poi
name
word segmentation
new
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910791598.3A
Other languages
English (en)
Other versions
CN110795515B (zh
Inventor
周世洋
卢俊之
季成晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910791598.3A priority Critical patent/CN110795515B/zh
Publication of CN110795515A publication Critical patent/CN110795515A/zh
Application granted granted Critical
Publication of CN110795515B publication Critical patent/CN110795515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种兴趣点POI的处理方法、装置、电子设备及计算机可读存储介质,涉及数据处理技术领域。该方法包括:当接收到新POI,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息;基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。本申请实施例能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。

Description

兴趣点POI的处理方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种兴趣点POI的处理方法、装置、电子设备及计算机存储介质。
背景技术
无论是车载导航还是手机导航,如今市面上的导航都有自己的POI(Point ofInterest,兴趣点)。POI是指地理信息系统中的某个地标、景点,用以标示出该地所代表的政府部门、各行各业之商业机构(加油站、百货公司、超市、餐厅、酒店、便利店、医院等)、旅游景点(公园、公共厕所)、名胜古迹、交通设施(各式车站、停车场、超速照相机、限速标示)等处所。
兴趣点包含四方面信息:名称、类别、坐标、分类。在实际应用中,地图服务商通过会同时使用多个数据服务商提供的兴趣点,这样就会出现一个问题:多个数据服务商在采集同一个兴趣点的时候可能使用不一样的名称。
因此,需要对兴趣点进行相似计算,即通过模型来判断两个POI的名称是否是表示相同的实体。
在现有技术中,通常采用两种模型来进行相似计算:DSSM(Deep StructuredSemantic Models,深层结构化语义模型)和MatchPyramid(构造匹配矩阵)。
DSSM的模型如图1所示,DSSM模型是采用将两个文本表示为低纬度的语义向量,并通过cosine距离来计算两个语义向量的距离。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
但是,上述两种模型都存在如下缺陷:针对近似字,比如同义词、同音字及形近字等进行相似计算的效果较差,以及无法对未录入词库的字词进行相似计算,导致判断两个POI的名称是否表示相同的实体的准确率较低。而且,用户在搜索某个POI的时候,就会展示多个名称不同,但其实是同一地点的候选POI,需要用户手动选择,用户的体验较差。
发明内容
本申请提供了一种兴趣点POI的处理方法、装置、电子设备及计算机可读存储介质,可以解决现有技术中,判断两个POI的名称是否表示相同的实体的准确率较低的问题。所述技术方案如下:
第一方面,提供了一种兴趣点POI的处理方法,该方法包括:
当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。
优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;
对所述新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为所述匹配特征信息。
优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;
对所述新POI的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;
基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为所述匹配特征信息。
优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行语义角色标注,得到至少两个维度的第一语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第二语义分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
基于各个语义角色预设的权重值,分别将各个维度的第一语义分词与对应维度的第二语义分词进行匹配处理,得到至少两个第六匹配度,并将各个第六匹配度作为所述匹配特征信息。
优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述POI的名称进行语义角色标注,得到至少两个维度的第三语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第四语义分词;
分别计算各个维度的第三语义分词与对应维度的第四语义分词的编辑距离,得到至少两个第七匹配度,并将各个第七匹配度作为所述匹配特征信息。
优选地,在得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果的步骤之后,还包括:
当所述新POI的名称与所述目标POI的名称为相同的实体,建立所述新POI与所述目标POI的关联关系;
当所述新POI的名称与所述目标POI的名称为不相同的实体,则将所述新POI存储至所述POI数据库。
第二方面,提供了一种兴趣点POI的处理的装置,该装置包括:
接收模块,用于接收新POI;
分词模块,用于对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
匹配模块,用于将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
判定模块,用于基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。
优选地,所述分词模块包括:
一元分词子模块,用于对所述新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;
二元分词子模块,用于对所述新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;
所述匹配模块具体用于:
将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将基于各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为所述匹配特征信息。
优选地,所述分词模块包括:
细粒度分词子模块,用于对所述新兴趣的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;
粗粒度分词子模块,用于对所述新兴趣的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;
所述匹配模块包括:
交叉匹配子模块,用于将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;
匹配度更新子模块,用于基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为所述匹配特征信息。
优选地,所述分词模块具体用于:
对所述新POI的名称进行语义角色标注,得到至少两个维度的第一语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第二语义分词;
所述匹配模块具体用于:
基于各个语义角色预设的权重值,分别将各个维度的第一语义分词与对应维度的第二语义分词进行匹配处理,得到至少两个第六匹配度,并将各个第六匹配度作为所述匹配特征信息。
优选地,所述分词模块具体用于:
对所述POI的名称进行语义角色标注,得到至少两个维度的第三语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第四语义分词;
所述匹配模块具体用于:
分别计算各个维度的的第三语义分词与对应维度的第四语义分词的编辑距离,得到至少两个第七匹配度,并将各个第七匹配度作为所述匹配特征信息。
优选地,所述装置还包括:
生成模块,用于当所述新POI的名称与所述目标POI的名称为相同的实体,建立所述新POI与所述目标POI的关联关系;
存储模块,用于当所述新POI的名称与所述目标POI的名称为不相同的实体,则将所述新POI存储至所述POI数据库。
第三方面,提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的兴趣点POI的处理方法对应的操作。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的兴趣点POI的处理方法。
本申请提供的技术方案带来的有益效果是:
在本发明实施例中,当接收到新兴趣点时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过卷积神经网络,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积神经网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。
进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为现有技术DSSM的算法流程示意图;
图2本申请一个实施例提供的一种兴趣点POI的处理方法的流程示意图;
图3为本申请中预设的语义匹配模型的架构图;
图4A~4D为本申请中交叉匹配的示意图;
图5A~5B为本申请中近似词匹配的示意图;
图6为本申请中语义匹配的示意图;
图7本申请又一个实施例提供的一种兴趣点POI的处理方法的流程示意图;
图8-1为本申请又一实施例提供的一种兴趣点POI的处理装置的结构示意图;
图8-2为本申请另一实施例提供的一种兴趣点POI的处理装置的结构示意图;
图9为本申请又一实施例提供的一种兴趣点POI的处理的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的兴趣点POI的处理方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
在一个实施例中提供了一种兴趣点POI的处理方法,如图2所示,该方法包括:
步骤S201,当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
步骤S202,将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
如图3所示,为本发明实施例中计算新POI的名称与目标POI的名称的匹配度的计算模型,可以采用Wide&Deep模型,并在该模型中引入匹配层,本发明实施例在匹配层中可以采用交叉匹配、近似匹配、语义匹配,以及多通道语义匹配等匹配方式,得到新POI的名称与目标POI的名称之间的各个匹配特征信息。
步骤S203,基于匹配特征信息,通过卷积神经网络,得到新POI的名称与目标POI的名称是否为相同实体的判定结果。
具体的,将各个匹配特征信息输入卷积神经网络层,经过卷积、池化及全连接等处理,输出得到新POI的名称与目标POI的名称是否为相同实体的最终判定结果。
在本发明实施例中,在接收到新POI后,可以从POI数据库中确定出与新POI匹配度最高的目标POI,具体可以通过计算新兴趣点的名称与兴趣点数据库中任一兴趣点的名称的距离,也可以通过匹配关键字,或者其它方式来确定。这样,当接收到新POI时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过卷积神经网络,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积神经网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。
进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
在另一个实施例中继续对如图2所示的一种兴趣点POI的处理方法进行详细说明。
步骤S201,当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
步骤S202,将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
无论是车载导航还是手机导航,如今市面上的导航都有自己的POI。POI是指地理信息系统中的某个地标、景点,用以标示出该地所代表的政府部门、各行各业之商业机构(加油站、百货公司、超市、餐厅、酒店、便利店、医院等)、旅游景点(公园、公共厕所)、古迹名胜、交通设施(各式车站、停车场、超速照相机、限速标示)等处所。
每个兴趣点包含四方面信息:名称、类别、坐标、分类,全面的兴趣点信息是丰富导航地图的必备资讯,及时的兴趣点能提醒用户路况的分支及周边建筑的详尽信息,也能方便导航中查到用户所需要的各个地方。
在实际应用中,地图服务商通过会同时使用多个数据服务商提供的兴趣点,这样就会出现一个问题:多个数据服务商在采集同一个兴趣点的时候可能使用不一样的名称。比如,针对同一地点,数据服务商A使用的名称为“NIKE官方售后中心”,而数据服务商B使用的名称为“耐克官方售后中心”,这样,地理信息系统中的同一地点就会存在两个兴趣点,这样,不仅增加了兴趣点的重复率,而且,用户在搜索的时候,就会展示多个名称不同,但其实是同一地点的候选兴趣点,需要用户手动选择,用户的体验较差。
针对上述问题,在本发明实施例中,在接收到新兴趣点后,可以从兴趣点数据库中确定出与新兴趣点匹配度最高的目标兴趣点,具体可以通过计算新兴趣点的名称与兴趣点数据库中任一兴趣点的名称的距离,也可以通过匹配关键字,或者其它方式来确定。确定了之后,就可以判断新兴趣点的名称与目标兴趣点是否为同一实体。
进一步,也可以从兴趣点数据库中匹配出与新兴趣点匹配度最高的预设数量的目标兴趣点,比如匹配度最高的前10个目标兴趣点,然后将新兴趣点的名称分别与这10个目标兴趣点进行对比,判断新兴趣点的名称与10个目标兴趣点中的任一兴趣点的名称是否为同一实体。为方便描述,在本发明实话例中,以新兴趣点与一个目标兴趣点进行匹配为例进行详细说明,新兴趣点与多个目标兴趣点进行匹配的原理与新兴趣点与一个目标兴趣点进行匹配的原理类似,就不重复说明了。
其中,命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
举个简单的例子,在句子“小明早上8点去学校上课。”中,对其进行命名实体识别,可以提取到信息“人名:小明,时间:早上8点,地点:学校”。
应用于本发明实施例,通过计算新兴趣点的名称与目标兴趣点的名称的相似度,作为判断两个POI的名称是否为同一个实体的依据。参照图3,为本发明实施例中计算新兴趣点的名称与目标兴趣点的名称的相似度的计算模型,可以采用Wide&Deep模型,但是在匹配层,本发明实施例可以采用交叉匹配、近似匹配、语义匹配,以及多通道语义匹配,然后将各个匹配结果输入卷积神经网络层,得到卷积结果,再将卷积结果输入池化层,得到池化结果,接着将池化结果输入全连接层,最后基于全连接层的输出得到最终结果,即图3中最右边的黑点,最终结果可以采用“0”或“1”进行展示,“1”则表示新兴趣点的名称与目标兴趣点的名称为同一个实体,“0”则表示新兴趣点的名称与目标兴趣点的名称不为同一个实体;当然,采用其它的形式进行展示,比如“是”或“否”等,也是可以的,本发明实施例对此不作限制。
在本发明一种优选实施例中,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;
对新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;
将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将基于各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为匹配特征信息。
具体而言,也就是交叉匹配。比如,新兴趣点的名称为“NIKE官方售后中心”,目标兴趣点的名称为“耐克官方售后中心”,分别对“NIKE官方售后中心”和“耐克官方售后中心”按照词粒度进行一元分词,分别得到四个维度的第一分词:NIKI、官方、售后、中心,和四个维度的第二分词:耐克、官方、售后、中心;分别对“NIKE官方售后中心”和“耐克官方售后中心”按照词粒度进行二元分词,分别得到三个维度的第三分词:NIKI官方、官方售后、售后中心,和三个维度的第四分词:耐克官方、官方售后、售后中心。
然后采用矩阵形式计算四个维度的第一分词与四个维度的第二分词的匹配度,如图4A所示,采用矩阵形式计算四个维度的第一分词与三个维度的第四分词的匹配度,如图4B所示,采用矩阵形式计算三个维度的第三分词与四个维度的第二分词的匹配度,如图4C所示,以及,采用矩阵形式计算三个维度的第三分词与三个维度的第四分词的匹配度,如图4D所示。
需要说明的是,在交叉匹配时,各个维度的分词都会与各个其它维度的分词进行匹配,所以,各个维度的分词在与对应维度的其它分词进行匹配时,对应维度的分词可以是任一维度的分词。而且,图4A~4D所示的矩阵以及矩阵中相似度的结果仅仅只是用于举例说明,在实际应用中,采用其它的方式对相似度的结果进行记录也是适用于本发明实施例的,本发明实施例对此不作限制。
在本发明一种优选实施例中,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对新兴趣的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;
对新兴趣的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;
将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;
基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为匹配特征信息。
具体而言,也就是近似匹配。比如,新兴趣点的名称为“国税局”,目标兴趣点的名称为“国家税务局”,分别对“国税局”和“国家税务局”进行粗粒度分词,分别得到一个维度的第五分词:国税局,和两个维度的第六分词:国家、税务局;分别对“国税局”和“国家税务局”进行细粒度分词,分别得到两个维度的第七分词:国税、局,和三个维度的第八分词:国家、税务、局,然后采用矩阵形式将各个第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配,如图5A所示。
需要说明的是,在近似匹配时,各个维度的分词都会与各个其它维度的分词进行匹配,所以,各个维度的分词在与对应维度的其它分词进行匹配时,对应维度的分词可以是任一维度的分词。
接着,基于预置的近似词的先验信息确定新兴趣点的名称与目标兴趣点的名称是否为近似词。
其中,先验信息是指获得样本的试验之前,获得的经验和历史资料。可以用于统计推断和统计决策,因为当需要对未来的不确定性做出统计推断时,当前的状态固然重要,但历史的经验也同样是举足轻重的文献来源概念知识库。先验信息既与事物的运动状态及其状态变化的方式有关,也与主题自身的主观因素(个人经验、学习态度等)有关。
在本发明实施例中,先验信息可以是管理员预先预置好的,也可以是通过其它模型预先训练得到的,或者通过二者结合得到的。近似词可以包括同义词、形近字、同音字等相近或相似的词。
这样,基于先验信息可以确定出“国税局”与“国家税务局”互为近似词,因此,直接将各个匹配度更新为1,如图5B所示。
在本发明一种优选实施例中,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对新POI的名称进行语义角色标注,得到至少两个维度的第一语义分词,以及,对目标POI的名称进行语义角色标注,得到至少两个维度的第二语义分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
基于各个语义角色预设的权重值,分别将各个维度的第一语义分词与对应维度的第二语义分词进行匹配处理,得到至少两个第六匹配度,并将各个第六匹配度作为匹配特征信息。
具体而言,也就是语义匹配,指的是基于语义角色进行匹配。语义角色,是指根据谓语和变元之间不同的语义关系,可以把变元分为若干个类型,这种变元的类型一般称之为“语义角色”,常见的语义角色有施事、受事、与事、工具、结果、处所等。
在本发明实施例中,如表1所示,语义角色的标注具体包括以下特征维度:
Figure BDA0002179702950000151
Figure BDA0002179702950000161
表1
而且,每个语义角色都预设有对应的权重,在计算相似度的时候,需要结合各个语义角色对应的权重。
比如,新兴趣点为“北京大学南门”,目标兴趣点为“北京大学食堂”,对“北京大学南门”进行语义角色标注,得到三个维度的第一语义分词,如表2所示:
北京 大学 南门
核心词 核心词 What
表2
以及,对“北京大学食堂”进行语义角色标注,得到三个维度的第二语义分词,如表3所示:
北京 大学 食堂
核心词 核心词 What
表3
其中,核心词的预设权重为0.6,What词的预设权重为1,第一语义分词与第二语义分词匹配时,就是针对同一维度,比如“What”这一维度进行匹配,因此,“北京大学南门”与“北京大学食堂”的匹配度可如图6所示。
需要说明的是,上述事例仅仅用于举例说明,在实际应用中,每种语义角色对应的权重可以根据实际需要进行调整,本发明实施例对此不作限制。
在本发明一种优选实施例中,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对POI的名称进行语义角色标注,得到至少两个维度的第三语义分词,以及,对目标POI的名称进行语义角色标注,得到至少两个维度的第四语义分词;
分别计算各个维度的第三语义分词与对应维度的第四语义分词的编辑距离,得到至少两个第七匹配度,并将各个第七匹配度作为匹配特征信息。
在实际应用中,如果兴趣点的名称与目标兴趣点的名称存在跨语义匹配和语义角色缺失的情况,那么就需要进行多通道语义匹配,如表4所示,为便于理解,表4中同时对四个兴趣点的名称进行匹配。
特征维度 新中关大厦 KFC(新中关店) KFC(北大店) KFC(中关村店)
核心词:品牌 新中关 KFC KFC KFC
What:类别词 大厦 缺失 缺失 缺失
What:POI 缺失 新中关 北大 缺失
额外:其他 缺失 (,),店 (,),店 (,),店
Where:POI 缺失 缺失 缺失 中关村
表4
然后,针对同一维度的分词,即相同的语义角色的分词,计算各个分词之间的编辑距离,从而得到各个语义角色对应的各个分词的匹配度。这样,通过在相同的语义角色通道中进行匹配的方式,实现了跨语义匹配和语义角色缺失匹配。
步骤S203,基于匹配特征信息,通过卷积神经网络,得到新POI的名称与目标POI的名称是否为相同实体的判定结果。
具体的,将各个匹配特征信息输入卷积神经网络层,得到卷积结果,再将卷积结果输入池化层,得到池化结果,接着将池化结果输入全连接层,最后基于全连接层的输出得到最终结果,即图3中最右边的黑点,最终结果可以采用“0”或“1”进行展示,“1”则表示新兴趣点的名称与目标兴趣点的名称为同一个实体,“0”则表示新兴趣点的名称与目标兴趣点的名称不为同一个实体;当然,采用其它的形式进行展示,比如“是”或“否”等,也是可以的,本发明实施例对此不作限制。
在本发明实施例中,交叉匹配、近似匹配、语义匹配,以及多通道语义匹配可以是并行执行的,这样,依据四种匹配中至少一种匹配的匹配特征信息来判断两个POI的名称是否为同一个实体,可以大大提高判断结果的准确率。
在本发明实施例中,当接收到新兴趣点时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过语义匹配模型的卷积神经网络层,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积神经网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。
进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
在一个实施例中提供了另一种兴趣点POI的处理方法,如图7所示,该方法包括:
步骤S701,当接收到新POI,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用分词规则进行分词处理,得到至少两个维度的目标POI分词;
步骤S702,将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
步骤S703,基于匹配特征信息,通过语义匹配模型的卷积神经网络层,得到新POI的名称与目标POI的名称是否为相同实体的判定结果;
步骤S701~步骤S703具体可参照步骤S201~步骤S203,在此就不赘述了。
步骤S704,当新POI的名称与目标POI的名称为相同的实体,建立新POI与目标POI的关联关系;
步骤S705,当新POI的名称与目标POI的名称为不相同的实体,则将新POI存储至POI数据库。
具体而言,当确定新兴趣点的名称与目标兴趣点的名称为同一个实体时,就可以建立新兴趣点与目标兴趣点的关联了,这样,当用户搜索新兴趣点的名称时,直接展示目标兴趣点就可以了,不需要同时展示新兴趣点和目标兴趣点供用户选择了。比如,将新兴趣点“国税局”与目标兴趣点“国家税务局”进行关联,当用户搜索“国税局”的时候,直接展示“国家税务局”的名称、类别、坐标、分类即可。
进一步,可以将新兴趣点存储至除兴趣点数据库之外的其它数据库中,而且,与目标兴趣点有关联的其它兴趣点也都可以存储在该数据库中,比如,“国家税务局”有三个关联的兴趣点,那么就可以将“国家税务局”存储在兴趣点数据库中,与其关联的三个兴趣点存储在其它数据库中。
如果新兴趣点的名称与目标兴趣点的名称不是同一个实体,那么就直接将新兴趣点,包括新兴趣点的名称、类别、坐标、分类,存储至兴趣点数据库中即可。
在本发明实施例中,当接收到新兴趣点时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过语义匹配模型的卷积神经网络层,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积神经网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。
进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
图8为本申请又一实施例提供的一种兴趣点POI的处理装置的结构示意图,如图8-1所示,本实施例的装置可以包括:
接收模块801,用于接收新POI;
分词模块802,用于对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用分词规则进行分词处理,得到至少两个维度的目标POI分词;
匹配模块803,用于将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与所述目标POI的名称之间的匹配特征信息;
判定模块804,用于基于所述匹配特征信息,通过卷积神经网络,得到新POI的名称与目标POI的名称是否为相同实体的判定结果。
在本发明一种优选实施例中,分词模块包括:
一元分词子模块,用于对新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;
二元分词子模块,用于对新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;
匹配模块具体用于:
将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将基于各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为匹配特征信息。
在本发明一种优选实施例中,分词模块包括:
细粒度分词子模块,用于对新兴趣的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;
粗粒度分词子模块,用于对新兴趣的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;
匹配模块包括:
交叉匹配子模块,用于将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;
匹配度更新子模块,用于基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为匹配特征信息。
在本发明一种优选实施例中,分词模块具体用于:
对新POI的名称进行语义角色标注,得到至少两个维度的第一语义分词,以及,对目标POI的名称进行语义角色标注,得到至少两个维度的第二语义分词;
匹配模块具体用于:
基于各个维度的语义角色预设的权重值,分别将各个第一语义分词与对应维度的第二语义分词进行匹配处理,得到至少两个第六匹配度,并将各个第六匹配度作为匹配特征信息。
在本发明一种优选实施例中,分词模块具体用于:
对POI的名称进行语义角色标注,得到至少两个维度的第三语义分词,以及,对目标POI的名称进行语义角色标注,得到至少两个维度的第四语义分词;
匹配模块具体用于:
分别计算各个维度的第三语义分词与对应维度的第四语义分词的编辑距离,得到至少两个第七匹配度,并将各个第七匹配度作为匹配特征信息。
优选地,如图8-2所示,装置还包括:
生成模块805,用于当新POI的名称与目标POI的名称为相同的实体,建立新POI与目标POI的关联关系;
存储模块806,用于当新POI的名称与目标POI的名称为不相同的实体,则将新POI存储至POI数据库。
本实施例的兴趣点POI的处理装置可执行本申请第一个实施例所示的兴趣点POI的处理方法,其实现原理相类似,此处不再赘述。
在本发明实施例中,当接收到新兴趣点时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过卷积神经网络,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积神经网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。
进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
本申请的又一实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:当接收到新兴趣点时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过卷积神经网络,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积神经网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备9000包括:处理器9001和存储器9003。其中,处理器9001和存储器9003相连,如通过总线9002相连。可选地,电子设备9000还可以包括收发器9004。需要说明的是,实际应用中收发器9004不限于一个,该电子设备9000的结构并不构成对本申请实施例的限定。
处理器9001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器9001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线9002可包括一通路,在上述组件之间传送信息。总线9002可以是PCI总线或EISA总线等。总线9002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器9003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器9003用于存储执行本申请方案的应用程序代码,并由处理器9001来控制执行。处理器9001用于执行存储器9003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,当接收到新兴趣点时,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,然后将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息,再基于匹配特征信息,通过卷积神经网络,确定新POI的名称与目标POI的名称是否为相同实体,这样,输入至卷积网络的特征是可以体现新POI的名称与目标POI的名称之间的匹配程度的匹配特征信息,进而根据匹配特征信息来确定两个POI名称是否为相同实体,能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。进一步,当用户输入新的POI进行搜索时,可以自动化得到对应的目标POI,不需要从多个候选POI中选择自己需求的POI,特别是当候选POI的数量较多时,减少了用户的手动操作,提高了用户体验。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种兴趣点POI的处理方法,其特征在于,包括:当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。
2.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;
对所述新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为所述匹配特征信息。
3.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;
对所述新POI的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;
基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为所述匹配特征信息。
4.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行语义角色标注,得到至少两个维度的第一语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第二语义分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
基于各个语义角色预设的权重值,分别将各个维度的第一语义分词与对应维度的第二语义分词进行匹配处理,得到至少两个第六匹配度,并将各个第六匹配度作为所述匹配特征信息。
5.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述POI的名称进行语义角色标注,得到至少两个维度的第三语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第四语义分词;
分别计算各个维度的第三语义分词与对应维度的第四语义分词的编辑距离,得到至少两个第七匹配度,并将各个第七匹配度作为所述匹配特征信息。
6.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,在得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果的步骤之后,还包括:
当所述新POI的名称与所述目标POI的名称为相同的实体,建立所述新POI与所述目标POI的关联关系;
当所述新POI的名称与所述目标POI的名称为不相同的实体,则将所述新POI存储至所述POI数据库。
7.一种兴趣点POI的处理装置,其特征在于,包括:
接收模块,用于接收新POI;
分词模块,用于对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
匹配模块,用于将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
判定模块,用于基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。
8.根据权利要求7所述的兴趣点POI的处理装置,其特征在于,还包括:
生成模块,用于当所述新POI的名称与所述目标POI的名称为相同的实体,建立所述新POI与所述目标POI的关联关系;
存储模块,用于当所述新POI的名称与所述目标POI的名称为不相同的实体,则将所述新POI存储至所述POI数据库。
9.一种电子设备,其特征在于,其包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求1-6中任一项所述的兴趣点POI的处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1-6中任一项所述的兴趣点POI的处理方法。
CN201910791598.3A 2019-08-26 2019-08-26 兴趣点poi的处理方法、装置、电子设备及计算机存储介质 Active CN110795515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910791598.3A CN110795515B (zh) 2019-08-26 2019-08-26 兴趣点poi的处理方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910791598.3A CN110795515B (zh) 2019-08-26 2019-08-26 兴趣点poi的处理方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110795515A true CN110795515A (zh) 2020-02-14
CN110795515B CN110795515B (zh) 2022-04-12

Family

ID=69427054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910791598.3A Active CN110795515B (zh) 2019-08-26 2019-08-26 兴趣点poi的处理方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110795515B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460327A (zh) * 2020-03-10 2020-07-28 口口相传(北京)网络技术有限公司 兴趣地搜索方法及装置、存储介质、计算机设备
CN112711645A (zh) * 2021-01-11 2021-04-27 腾讯科技(深圳)有限公司 一种位置点信息扩展方法、装置、存储介质和电子设备
WO2022164387A1 (en) * 2021-01-26 2022-08-04 Grabtaxi Holdings Pte. Ltd. Method and system for deduplicating point of interest databases
CN114861062A (zh) * 2022-05-26 2022-08-05 北京百度网讯科技有限公司 信息过滤方法和装置
CN114896363A (zh) * 2022-04-19 2022-08-12 北京月新时代科技股份有限公司 一种数据管理方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN105320752A (zh) * 2015-09-30 2016-02-10 北京奇虎科技有限公司 一种兴趣点数据的挖掘方法和装置
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109255564A (zh) * 2017-07-13 2019-01-22 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置
US20190065529A1 (en) * 2017-08-28 2019-02-28 Mapquest Inc. Geographic predictive search
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110134969A (zh) * 2019-05-27 2019-08-16 北京奇艺世纪科技有限公司 一种实体识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572645A (zh) * 2013-10-11 2015-04-29 高德软件有限公司 兴趣点数据关联方法及装置
CN105320752A (zh) * 2015-09-30 2016-02-10 北京奇虎科技有限公司 一种兴趣点数据的挖掘方法和装置
CN109255564A (zh) * 2017-07-13 2019-01-22 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置
US20190065529A1 (en) * 2017-08-28 2019-02-28 Mapquest Inc. Geographic predictive search
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN109145219A (zh) * 2018-09-10 2019-01-04 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110134969A (zh) * 2019-05-27 2019-08-16 北京奇艺世纪科技有限公司 一种实体识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL ZHANG ET AL.: "Large-scale point-of-interest category prediction using natural language processing models", 《2017 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
郭栋: "基于LBS的兴趣点存储及查询的研究与优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460327A (zh) * 2020-03-10 2020-07-28 口口相传(北京)网络技术有限公司 兴趣地搜索方法及装置、存储介质、计算机设备
CN111460327B (zh) * 2020-03-10 2023-06-16 口口相传(北京)网络技术有限公司 兴趣地搜索方法及装置、存储介质、计算机设备
CN112711645A (zh) * 2021-01-11 2021-04-27 腾讯科技(深圳)有限公司 一种位置点信息扩展方法、装置、存储介质和电子设备
CN112711645B (zh) * 2021-01-11 2022-05-10 腾讯科技(深圳)有限公司 一种位置点信息扩展方法、装置、存储介质和电子设备
WO2022164387A1 (en) * 2021-01-26 2022-08-04 Grabtaxi Holdings Pte. Ltd. Method and system for deduplicating point of interest databases
CN114896363A (zh) * 2022-04-19 2022-08-12 北京月新时代科技股份有限公司 一种数据管理方法、装置、设备及介质
CN114861062A (zh) * 2022-05-26 2022-08-05 北京百度网讯科技有限公司 信息过滤方法和装置
CN114861062B (zh) * 2022-05-26 2023-05-16 北京百度网讯科技有限公司 信息过滤方法和装置

Also Published As

Publication number Publication date
CN110795515B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110795515B (zh) 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
CN110674419B (zh) 地理信息检索方法、装置、电子设备及可读存储介质
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
EP2987344B1 (en) A method and apparatus for identifying and communicating locations
US7574428B2 (en) Geometry-based search engine for navigation systems
CN108491387B (zh) 用于输出信息的方法和装置
US20190034816A1 (en) Methods and system for associating locations with annotations
CN110309432B (zh) 基于兴趣点的同义词确定方法、地图兴趣点处理方法
CN110309433B (zh) 一种数据处理方法、装置及服务器
CN102930048A (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN114579882A (zh) 地址查询方法、获取地理编码预测模型的方法及对应装置
Kilic et al. Investigating the quality of reverse geocoding services using text similarity techniques and logistic regression analysis
CN113515687B (zh) 物流信息的获取方法和装置
CN113722580A (zh) 地址信息处理方法、装置、电子设备和计算机可读介质
CN101567150A (zh) 一种数字地图精确定位的方法
Bui Automatic construction of POI address lists at city streets from geo-tagged photos and web data: a case study of San Jose City
CN111177585A (zh) 地图poi反馈方法及装置
CN110781283B (zh) 连锁品牌词库生成方法、装置以及电子设备
CN113449055A (zh) 地图检索方法、系统及相关设备
Puttitaweesri et al. Development of smartphone-based navigation system in Ratchaburi
CN113157868A (zh) 一种基于结构化数据库匹配问题答案的方法及装置
CN114329236A (zh) 一种数据处理方法及装置
CN112861023A (zh) 地图信息处理方法、装置、设备、存储介质及程序产品
Suzumura et al. Where can we accomplish our To-Do?: estimating the target location by analyzing the task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021094

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant