CN108363698B - 兴趣点关系识别方法及装置 - Google Patents

兴趣点关系识别方法及装置 Download PDF

Info

Publication number
CN108363698B
CN108363698B CN201810206377.0A CN201810206377A CN108363698B CN 108363698 B CN108363698 B CN 108363698B CN 201810206377 A CN201810206377 A CN 201810206377A CN 108363698 B CN108363698 B CN 108363698B
Authority
CN
China
Prior art keywords
point
interest
word
name
interest point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810206377.0A
Other languages
English (en)
Other versions
CN108363698A (zh
Inventor
季成晖
卢俊之
周世洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Tencent Dadi Tongtu Beijing Technology Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810206377.0A priority Critical patent/CN108363698B/zh
Publication of CN108363698A publication Critical patent/CN108363698A/zh
Application granted granted Critical
Publication of CN108363698B publication Critical patent/CN108363698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种兴趣点关系识别方法及装置,属于大数据技术领域。所述方法包括:获取第一兴趣点;获取所述第一兴趣点的名称中的至少两个第二兴趣点的名称以及所述至少两个第二兴趣点之间的层次结构,任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系;基于所述至少两个第二兴趣点之间的层次结构,将所述层次结构中除最后一层以外的第二兴趣点的名称组合作为所述第一兴趣点的主点的名称。本发明通过将存在主子点关系的不同第二兴趣点切分开来,将最后一层以外的第二兴趣点的名称组合作为第一兴趣点的主点的名称,能够准确地识别出主点的名称,提高识别兴趣点关系的准确性。

Description

兴趣点关系识别方法及装置
技术领域
本发明涉及大数据技术领域,特别涉及一种兴趣点关系识别方法及装置。
背景技术
兴趣点(Point Of Interest,POI)是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,如学校、银行、餐馆、加油站、医院、超市等。不同兴趣点之间可以存在主子点关系,例如“北京大学”是“北京大学昌平校区”的主点,“北京大学昌平校区”是“北京大学”的子点。为了提供高质量的检索服务,需要识别兴趣点数据库中不同兴趣点之间的关系,以便用户输入主点的名称时,兴趣点数据库可以提供主点对应的每个子点。
目前兴趣点挂载的过程为:计算机设备存储兴趣点索引信息,兴趣点索引信息中存储了兴趣点数据库中所有兴趣点的名称和对应的兴趣点的ID(Identifier,标识符),对于兴趣点数据库中的任一个兴趣点,计算机设备会获取兴趣点的名称,基于该兴趣点的名称在兴趣点索引信息中进行检索,从兴趣点索引信息中召回所有名称的格式为“兴趣点的名称+后缀”的兴趣点,将召回的兴趣点均作为该兴趣点的子点。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
目前仅是将名称的格式为“兴趣点的名称+后缀”的兴趣点作为兴趣点的子点,而没有理解兴趣点的名称本身的语义,会误将同一兴趣点的不同名称也作为兴趣点的不同子点,例如某一兴趣点的名称为“老刘百货”,会将该兴趣点的其他名称:“老刘百货商店”、“老刘百货(原老刘超市)”、“老刘百货(社区便民店)”等也作为“老刘百货”的子点,导致识别兴趣点关系的过程准确性较差。
发明内容
本发明实施例提供了一种兴趣点关系识别方法及装置,能够解决相关技术的识别兴趣点关系的过程准确性较差的问题。所述技术方案如下:
一方面,提供了一种兴趣点关系识别方法,所述方法包括:
获取第一兴趣点;
获取所述第一兴趣点的名称中的至少两个第二兴趣点的名称以及所述至少两个第二兴趣点之间的层次结构,任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系;
基于所述至少两个第二兴趣点之间的层次结构,将所述层次结构中除最后一层以外的第二兴趣点的名称组合作为所述第一兴趣点的主点的名称。
另一方面,提供了一种兴趣点关系识别装置,所述装置包括:
获取模块,用于获取第一兴趣点;
所述获取模块,还用于获取所述第一兴趣点的名称中的至少两个第二兴趣点的名称以及所述至少两个第二兴趣点之间的层次结构,任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系;
确定模块,用于基于所述至少两个第二兴趣点之间的层次结构,将所述层次结构中除最后一层以外的第二兴趣点的名称组合作为所述第一兴趣点的主点的名称。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述兴趣点关系识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述兴趣点关系识别方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法及装置,提供了一种结合兴趣点的名称本身的语义来识别兴趣点关系的方式,基于第一兴趣点的名称中不同第二兴趣点之间的层次结构,识别第一兴趣点的主点的名称,如果第一兴趣点的名称中仅包含一个第二兴趣点的名称,表明第一兴趣点的名称仅是映射它本身,则无需识别第一兴趣点的主点的名称,从而避免将同一兴趣点的不同名称误识别为兴趣点的主点或子点的情况。如果第一兴趣点的名称包含至少两个第二兴趣点的名称,通过将存在主子点关系的不同第二兴趣点切分开来,将最后一层以外的第二兴趣点的名称组合作为第一兴趣点的主点的名称,能够准确地识别出主点的名称,提高识别兴趣点关系的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种实施环境的示意图;
图2是本发明实施例提供的一种兴趣点关系识别方法的流程图;
图3是本发明实施例提供的一种词角色的示意图;
图4是本发明实施例提供的一种命名实体识别模型的结构示意图;
图5是本发明实施例提供的一种兴趣点关系识别方法的设计框架图;
图6是本发明实施例提供的一种同义词和/或别名的示意图;
图7是本发明实施例提供的一种兴趣点知识图谱的示意图;
图8是本发明实施例提供的一种兴趣点关系识别方法的流程图;
图9是本发明实施例提供的一种兴趣点关系识别装置的结构示意图;
图10是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,下面先对本公开实施例中涉及的术语进行解释:
主子点关系:是指不同兴趣点之间的主子依附关系。主子点关系具体可以分成三大类:①逻辑主子点关系:是指不同兴趣点之间存在逻辑隶属关系,而在物理上不存在隶属关系,即,从字面上看两个兴趣点之间存在主子关系,而两个兴趣点可以位于不同的地点。例如某企业的总部与分部、某学校的总校区与分校区等,例如“北京大学”和“北京大学昌平校区”即存在逻辑主子点关系,“北京大学”是“北京大学昌平校区”的主点,“北京大学昌平校区”是“北京大学”的子点。②物理主子点关系:是指不同兴趣点存在物理隶属关系,而逻辑上不存在隶属关系,即,从字面上看不出两个兴趣点之间的关联,而两个兴趣点所在的位置实际上是靠近的,例如老王服装精品店、银科大厦等。③逻辑物理主子点关系:是指不同兴趣点之间既存在物理隶属关系,同时也存在逻辑隶属关系,例如中国技术交易大厦东门、中国技术交易大厦。
NER(Named Entity Recognition,命名实体识别):又称作“专名识别”,是指识别文本中具有特定意义的实体,例如人名、地名、机构名、专有名词等。
知识图谱(Knowledge Graph)旨在描述真实世界中存在的各种实体、概念、事件及其关系,是一张巨大的语义网络图。知识图谱中的节点表示实体或概念,节点与节点之间可以通过边连接,边可以映射对应节点之间的关系。
序列标注模型:是NLP(Natural Language Processing,自然语言处理)领域中的一种经典模型,序列标注模型的功能为对序列中的每个元素进行标注,例如将序列输入至序列标注模型中,序列标注模型会输出每个元素的标签,从而通过元素的标签标注对应的元素。
图1是本发明实施例提供的一种实施环境的示意图,该实施环境包括多个终端101和多个计算机设备102。
该多个终端101通过无线或者有线网络和多个计算机设备102连接,该多个终端101可以为电脑、智能手机、平板电脑,每个计算机设备102可以为是一台服务器,或者由若干台服务器组成的集群,或者是一个云计算服务中心。可选地,计算机设备102还可以具有兴趣点数据库,该兴趣点数据库可以为兴趣点知识图谱或关系型数据库,用于存储大量兴趣点以及不同兴趣点之间的关系。
本发明实施例中,计算机设备可以根据兴趣点的名称,准确地识别兴趣点隶属的主点的名称,从而准确地识别兴趣点的主子点关系。之后,当终端向计算机设备请求兴趣点对应的子点的名称时,计算机设备即可基于之前识别出的主子点关系,得到兴趣点对应的子点的名称,提供给终端。
本发明实施例提供的兴趣点关系识别方法可以应用在多种实际应用场景,例如可以应用在地图导航的场景中:用户想要前往某一兴趣点时,经常面临用户并不清楚兴趣点的精确名称,只模糊地知道兴趣点隶属的主点的情况。为此,计算机设备需要具备模糊检索的能力,能够根据主点的名称确定其隶属的子点的名称。
相关技术中,识别兴趣点关系的方式为:从兴趣点识别其对应的子点,会搜索兴趣点的名称+后缀,作为识别出的兴趣点的子点的名称,经常会误将同一兴趣点的不同名称也作为兴趣点的不同子点。由于识别兴趣点关系的准确性较差,导致计算机设备在提供搜索服务时,并未提供用户需要了解的子点的名称,而是提供了兴趣点的其他名称,影响了搜索结果的准确性。
而采用本发明实施例提供的方法,识别兴趣点关系的方式为:从兴趣点识别其对应的主点,通过兴趣点的名称的语义,准确识别出主点的名称。那么,由于识别兴趣点关系的准确性较高,用户提供主点的名称后,计算机设备可以根据主点的名称,准确地提供主点对应的每个子点的名称,从而提高搜索结果的准确性,进而帮助用户精确地定位到想要前往的兴趣点。例如,对于“北京大学物理学院西门”、“北京大学物理学院东门”、“北京大学物理学院门口的水果店”等各种“北京大学物理学院”的子点来说,由于计算机设备预先针对这些兴趣点准确识别出了主子点关系,则用户在终端上输入“北京大学物理学院”,而计算机设备可以准确地向终端提供“北京大学物理学院西门”、“北京大学物理学院东门”、“北京大学物理学院门口的水果店”等各种子点的名称。
图2是本发明实施例提供的一种兴趣点关系识别方法的流程图。该发明实施例的执行主体为计算机设备,参见图2,该方法包括:
201、计算机设备获取第一兴趣点。
为了区分描述,本实施例以待识别关系的兴趣点称为第一兴趣点为例进行描述。针对获取第一兴趣点的方式,计算机设备可以预先挖掘的大量兴趣点中选取任一个兴趣点作为第一兴趣点,例如在构建兴趣点数据库的过程中,计算机设备可以遍历兴趣点数据库,依次将兴趣点数据库中的每个兴趣点作为第一兴趣点,另外,计算机设备也可以并发地执行识别兴趣点关系的任务,一次从兴趣点数据库中获取多个第一兴趣点。当然,也可以由开发人员指定某一兴趣点为第一兴趣点,本实施例对获取第一兴趣点的方式不做限定。
202、计算机设备获取第一兴趣点的名称中的至少两个第二兴趣点的名称以及至少两个第二兴趣点之间的层次结构。
为了区分描述,本实施例以第一兴趣点的名称中包含的兴趣点的名称对应的兴趣点称为第二兴趣点为例进行说明,第一兴趣点的名称可以包括一个或至少两个第二兴趣点的名称,从而映射一个第二兴趣点或至少两个不同的第二兴趣点。
如果第一兴趣点的名称仅包括一个第二兴趣点的名称,则表明第一兴趣点的名称仅映射它本身,而不包含映射其他兴趣点的语义,因此可以认为第一兴趣点是一个独立的兴趣点,第一兴趣点不存在其隶属的主点。而如果第一兴趣点的名称包括至少两个第二兴趣点的名称,则表明第一兴趣点的名称在映射它本身的基础上,还映射它隶属的主点,因此需要将第一兴趣点的名称中不同第二兴趣点的名称切分开来,以便将第一兴趣点的名称切分为映射它本身的部分和映射它隶属的主点的部分,从而识别出第一兴趣点的主点的名称。
例如,假设第一兴趣点的名称为“北京香格里拉酒店西餐厅”,可见第一兴趣点的名称不仅映射着“北京香格里拉酒店西餐厅”本身,还在名称中隐含表明了它隶属于“北京香格里拉酒店”,“北京香格里拉酒店”是它的主点。而假设第一兴趣点的名称为“老刘百货商店”,可见第一兴趣点的名称中没有语义上存在隶属关系的不同兴趣点,因此不会识别出它隶属的主点的名称。
结合以上原理,为了识别主点的名称,计算机设备会对第一兴趣点的名称进行分析,从第一兴趣点的名称中获取至少两个第二兴趣点的名称以及至少两个第二兴趣点之间的层次结构,该层次结构中任一个层次可以映射一个第二兴趣点,不同层次映射的第二兴趣点不同,任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系,即前一个层次映射的第二兴趣点是主点,后一个层次映射的第二兴趣点为子点。通过梳理第一兴趣点的名称中包含的层次结构,让字面上相对复杂的第一兴趣点的名称变得清晰化、条理化,便于充分、准确地理解第一兴趣点的名称的语义。
例如,假设第一兴趣点的名称为“北京香格里拉酒店西餐厅”,计算机设备可以获取两个第二兴趣点的名称:“北京香格里拉酒店”“西餐厅”,层次结构为“北京香格里拉酒店/西餐厅”。假设第一兴趣点的名称为“北京大学物理学院西门”,计算机设备可以获取三个第二兴趣点的名称“北京大学”、“物理学院”、“西门”,层次结构为“北京大学/物理学院/西门”。
针对获取第一兴趣点的名称中第二兴趣点的层次结构的具体方式,本实施例设计了以下步骤一至步骤三:
步骤一、对第一兴趣点的名称进行分词,得到多个词语。
计算机设备可以对第一兴趣点的名称进行分词,从而将第一兴趣点的名称切分为多个词语。其中,分词时切分的粒度可以根据业务需求确定,切分的粒度越细,则切分出的词语的数量越多。
可选地,计算机设备可以配置粗粒度切分、细粒度切分、全切分这三种切分方式,计算机设备可以从这三种切分方式中择一选取某一种切分方式,作为对第一兴趣点的名称进行分词的方式,例如默认将粗粒度切分作为进行分词的方式,或者将用户选择的切分方式作为进行分词的方式。
例如,假设第一兴趣点的名称为“北京香格里拉酒店西餐厅首都机场店”,对第一兴趣点的名称采用粗粒度切分时,得到的多个词语为“北京”、“香格里拉”“酒店”、“西餐厅”“首都”“机场”“店”,对第一兴趣点的名称采用细粒度切分时,得到的多个词语为“北京”、“香格里拉”“酒店”、“西餐”、“厅”、“首都”“机场”“店”,对第一兴趣点的名称采用全切分时,得到的多个词语为“北京”、“香格里拉”“酒店”、“西”“餐厅”、“首都”“机场”“店”。
步骤二、将第一兴趣点的名称中的多个词语输入至命名实体识别模型,输出每个词语的标签。
为了完成切分出第二兴趣点的名称的任务,本实施例中,计算机设备预先训练出了命名实体识别模型,该命名实体识别模型能够根据输入的兴趣点的名称中的多个词语,输出每个词语的标签,计算机设备将第一兴趣点的名称切分为多个词语后,可以将多个词语输入至该命名实体识别模型中,该命名实体识别模型通过对该多个词语进行模型处理,可以输出每个词语的标签,以便计算机设备根据每个词语的标签识别第一兴趣点的名称中的层次结构。
其中,词语的标签用于指示词语是否属于兴趣点的名称或词语在兴趣点的名称中的位置。例如,词语的标签可以为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签、独立兴趣点名称标签或预设非兴趣点名称标签,兴趣点名称开始标签用于指示对应的词语属于兴趣点的名称,且指示对应的词语位于兴趣点的名称中的开始部分,兴趣点名称中间标签用于指示对应的词语属于兴趣点的名称,且指示对应的词语位于兴趣点的名称中的中间部分,兴趣点名称结束标签用于指示对应的词语属于兴趣点的名称,且指示对应的词语位于兴趣点的名称中的结束部分,独立兴趣点名称标签用于指示对应的词语可以单独作为一个兴趣点的名称,预设非兴趣点名称标签用于指示对应的词语不属于兴趣点的名称,而用于对兴趣点的名称进行解释说明,例如为兴趣点的名称的别名、分店或描述等。
示例性地,兴趣点名称开始标签可以表示为B,兴趣点名称中间标签可以表示为M,兴趣点名称结束标签可以表示为E,独立兴趣点名称标签可以表示为S,预设非兴趣点名称标签可以表示为O,则对于“北京”、“香格里拉”“酒店”、“西餐厅”“首都”“机场”“店”,命名实体识别模型输出的每个词语的标签依次为“B”、“M”“E”、“S”“O”“O”“O”,对于“老刘”、“百货”“商店”,命名实体识别模型输出的每个词语的标签依次为“B”、“M”“E”。
针对命名实体识别模型内部进行模型处理的过程,本步骤二设计了以下步骤(2.1)至(2.4)。为了区分描述,本步骤二以语言处理工具输出的向量称为第一向量,基于词语所属的语义类别生成的向量称为第二向量,第一向量和第二向量拼接得到的向量称为第三向量为例进行阐述:
(2.1)将第一兴趣点的名称中的多个词语输入至命名实体识别模型,在命名实体识别模型内部,对于多个词语中的任一个词语,将词语输入至语言处理工具,输出第一向量。
语言处理工具即指NLP工具,例如为word2vec(单词转化为向量)。对于任一个词语,语言处理工具可以将词语转化为向量,在命名实体识别模型内部,当得到输入的多个词语后,可以将每个词语输入至语义处理工具,得到每个词语对应的第一向量。
(2.2)基于词语所属的语义类别,生成第二向量。
本实施例中,可以预先根据大量样本词语划分出不同语义类别,针对任一个词语,命名实体识别模型内部可以预测词语所属的词义类别,基于词语所属的词义类别生成第二向量,该第二向量可以指示词语所属的语义类别,可以看作词语的语义类别的数字化表示。
其中,语义类别可以指词语所属的词角色、词语在兴趣点词典中命中的词文件、兴趣点数据库预先存储的兴趣点的原始类别等。结合词义类别的具体内容,针对生成第二向量的具体过程,本步骤(2.2)提供以下设计一至设计三:
设计一(词角色)、每个词角色用于指示一种维度的语义类别,例如,词角色可以指示词性维度的语义类别,例如指示介词、连词等,也可以指示语法功能维度的语义类别,例如指示数量词、方位词等。参见图3,词角色可以包括地名、专名、业务词、类别词、位置子点、数量词、方位词、标点、泛类别词、修饰词等,每个词角色的举例如图3所示。在实施中,可以设计11个一级角色,40个二级角色,一级角色和二级角色的区别在于一级角色的范畴更宽,二级角色的范畴更细。
针对结合词角色生成第二向量的具体过程,可以将词语输入至序列标注模型中,输出词语所属的词角色,再基于词语所属的词角色,生成第二向量。
其中,序列标注模型是NLP领域中的一种经典模型,序列标注模型用于对序列中的每个元素进行标注,例如将序列输入至序列标注模型中,序列标注模型会输出每个元素的标签,从而通过元素的标签标注对应的元素。本实施例中,可以将第一兴趣点的名称中的多个词语作为序列,将每个词语作为序列中的元素,将词角色作为对元素标注的标签,根据这种序列、元素以及标签设计序列标注模型,该序列标注模型用于根据输入的词语输出所属的词角色,可以为CRF(Conditional Random Field,条件随机场)模型。计算机设备可以预先为大量的样本词语分别标注对应的词角色,根据已标注的大量样本词语进行模型训练,从而得到序列标注模型。
针对设计一中第二向量的数据格式,第二向量的每个位可以对应一种词角色,第二向量中位的个数可以等于预先设置的词角色的数量,第二向量中每个位的取值由对应的词角色是否为词语所属的词角色确定,例如每个位的取值可以为第一数值或第二数值,当词语属于任一词角色时,该词角色对应的位取第一数值,该词语不属于任一词角色时,该词角色对应的位取第二数值,该第一数值可以为1,第二数值可以为0。
设计二(兴趣点词典)、兴趣点词典用于存储至少一个词文件,任一个词文件用于存储对应语义类别下的多个词语。例如,兴趣点词典可以存储大主点文件、子点文件、商圈文件、品牌文件,大主点文件中存储了大量常见的主点的名称,如北京大学、九寨沟等,子点文件中存储了大量常见的子点的名称,如学校,商圈文件中存储了大量常见的商圈的名称,品牌文件中存储了大量常见的品牌的名称。
针对结合兴趣点词典生成第二向量的具体过程,可以基于词语,在兴趣点词典中进行搜索,得到词语命中的词文件,再基于词语命中的词文件,生成第二向量。其中,可以在兴趣点词典中采用倒排索引的方式进行搜索,以便提高搜索的效率。
针对设计二中第二向量的数据格式,第二向量的每个位对应一个词文件,每个位的取值由对应的词文件是否为词语命中的词文件确定。设计二中第二向量的数据格式与设计一同理,在此不做赘述。
设计三、基于是否存储第一兴趣点的原始类别,生成第二向量。
为了区分描述,本实施例以预先存储的兴趣点的类别为原始类别为例进行描述,计算机设备可以判断是否存储兴趣点的原始类别,基于是否存储兴趣点的原始类别生成第二向量,则第二向量的任一个位的取值由是否存储兴趣点的原始类别确定。其中,可以在向兴趣点数据库中录入兴趣点时,确定和存储兴趣点的原始类别。
进一步地,结合设计二和设计三,可以基于是否存储第一兴趣点的原始类别和词语在兴趣点词典中命中的词文件,生成第二向量。其中,第二向量的任一个位的取值由是否存储第一兴趣点的原始类别确定,任一个位以外的位的取值由词语是否命中兴趣点词典的词文件确定,或由第一兴趣点的原始类别以及词语在兴趣点词典的词文件是否匹配确定。
以根据是否存储第一兴趣点的原始类别确定取值的位称为第一指定位,根据词语是否命中兴趣点词典的词文件确定取值的位称为第二指定位,根据第一兴趣点的原始类别以及词语在兴趣点词典的词文件是否匹配确定的指定位包括第三指定位和第四指定位为例,确定第二向量中每一指定位的取值的具体过程可以如下:
确定第一指定位的取值的过程:计算机设备可以判断是否存储第一兴趣点的原始类别,根据判断结果确定第一指定位的取值,例如当未存储第一兴趣点的原始类别,将第一指定位取第一数值,当存储了第一兴趣点的原始类别,将第一指定位取第二数值。其中,第一指定位也可以命名为无信息指定位、缺失信息指定位等,本实施例对此不做限定。
确定第二指定位的取值的过程:可以判断词语是否命中兴趣点词典的词文件,根据判断结果确定第二指定位的取值,例如当词语未命中兴趣点词典的词文件,将第二指定位取第一数值,当词语命中兴趣点词典的词文件,将第二指定位取第二数值。第二指定位可以命名为未知指定位、未命中指定位等,本实施例对此不做限定。
确定第三指定位和第四指定位的取值的过程:可以判断第一兴趣点的原始类别和兴趣点词典的词文件是否匹配,根据判断结果确定第三指定位和第四指定位的取值,例如当第一兴趣点的原始类别和兴趣点词典的词文件匹配时,将第三指定位取第一数值,将第四指定位取第二数值,当第一兴趣点的原始类别和兴趣点词典的词文件不匹配,将第三指定位取第二数值,将第四指定位取第一数值。第三指定位可以命名为匹配指定位,第四指定位可以命名为不匹配指定位。
需要说明的第一点是,第二向量中可以包括第一指定位、第二指定位、第三指定位、第四指定位的任一个或多个,本实施例对第二向量中具体包括哪个指定位或包括哪几个指定位不做限定。
需要说明的第二点是,第一指定位、第二指定位、第三指定位、第四指定位中的“第一”、“第二”“第三”“第四”仅是用于区分第二向量中不同功能的位,第一指定位、第二指定位、第三指定位、第四指定位实际可以采用任意顺序排列构成第二向量。
需要说明的第三点是,上述设计一至设计三可以采用一项或多项的任意组合的方式形成生成第二向量的过程,本实施例对具体采用哪种设计以及采用哪种组合方式不做限定。
(2.3)对第一向量和第二向量进行拼接,得到第三向量。
计算机设备可以将第一向量和第二向量拼接为一个向量,得到第三向量。其中,可以采用第一向量在前、第二向量在后的方式拼接得到第三向量,也可以采用第一向量在后、第二向量在前的方式拼接得到第三向量,当然还可以采用其他方式拼接得到第三向量,本实施例对此不做限定。
需要说明的是,当采用上述设计一至设计三中多种设计的组合的方式时,可以向第一向量逐步拼接各个第二向量,最终得到第三向量。以依次执行设计一、设计二和设计三为例,当得到第一向量后,可以向第一向量拼接上设计一得到的第二向量,再拼接上设计二得到的第二向量,再拼接上设计三得到的第二向量,最终得到第三向量。
本实施例中,通过采用(2.2)和设计(2.3),可以达到如下技术效果:
对于任一种模型来说,喂给模型的信息量直接影响了模型进行处理时的难度以及模型预测结果的准确性,而语言处理工具输出的向量具有数据稀疏的问题,即向量会包含大量的零,向量蕴含的信息量过少,如果命名实体识别模型直接基于语言处理工具输出的第一向量进行模型处理,输出词语的标签,会导致词语的标签的准确性较差。
而采用(2.2)和设计(2.3),通过词角色、兴趣点词典等设计,在第一向量的基础上拼接第二向量,向第一向量填充了反映词语的语义的数据,解决了数据稀疏的问题,提高了后续进行模型处理时得到的信息量,进而提高模型处理的精确性,保证词语的标签的准确性。
(2.4)基于第三向量继续进行模型处理,输出任一个词语的标签。
可选地,可以将第一兴趣点的名称中的多个词语对应的第三向量输入至BI-LSTM-CRF(Bi directional-Long Short Term Memory-conditional random field algorithm,双向长短时记忆循环神经网络条件随机场)模型中,由BI-LSTM-CRF模型对每个词语的第三向量进行处理,输出每个词语的标签。其中,BI-LSTM-CRF模型中包括BI-LSTM(Bidirectional-Long Short Term Memory Recurrent Neural Network,双向长短时记忆循环神经网络)层和CRF层,另外,BI-LSTM-CRF模型还可以包括softmax(一种回归函数)层或者其他层。
针对BI-LSTM-CRF模型进行模型处理的过程,BI-LSTM层用于根据基于第一兴趣点的名称中每个词语的第三向量,获取每个词语分别对应各种标签的概率,将每个词语分别对应各种标签的概率输出给CRF层,例如当词语的标签为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签、独立兴趣点名称标签或预设非兴趣点名称标签时,可以为每个词语分别输出对应五个标签的五个概率,而CRF层可以根据每个词分别属于五种标签的概率以及每个词与下一个词的关联程度,判决每个词对应五种标签中的哪一种标签。
通过采用BI-LSTM-CRF模型继续进行模型处理,结合了BI-LSTM模型和CRF模型这两大模型的优势,BI-LSTM模型可以捕获长远的上下文信息,还具备神经网络模型拟合非线性的能力,而CRF模型考虑到了状态间的转移概率,同时在多个词语组成的整个序列上求取最优解,可以保证兴趣点的名称中的每个词语最终得以标注准确的标签。
需要说明的是,在实施中,可以将命名实体识别模型划分为不同的层,根据需要将模型内部处理的各个步骤分配给不同的层来完成,例如将(2.1)至(2.3)分配给命名实体识别模型中的第一层执行,将(2.4)分配给第一层之后的每个层执行。其中,当将(2.1)至(2.3)分配给命名实体识别模型中的第一层时,第一层可以称为word-embedding(词嵌入)层,实现将词语表示为分布式的词向量的功能,保证语义接近的词语对应的词向量在向量空间上也是接近的。
进一步地,可以将第一层拆分为不同的子层,通过不同的子层分别执行(2.1)至(2.3)中的各个步骤,例如,参见图4,图4示出了命名实体识别模型的内部结构图,可以将命名实体识别模型的第一层拆分为word2vec层、角色层、词典层和分类层,word2vec层执行(2.1),角色层执行(2.2)的设计一,词典层执行(2.2)的设计二,分类层执行(2.2)的设计三,当词语依次经过word2vec层、角色层、词典层和分类层后,可以转化为第三向量。其中,图4中的r1、r2、r3、r4、r5、r6、r7、l1、l2、l3、l4、l5、l6、l7等数字表示模型内部的一些参数。
步骤三、基于每个词语的标签,得到第一兴趣点的名称中的至少两个第二兴趣点的名称以及至少两个第二兴趣点之间的层次结构。
当命名实体识别模型输出每个单词的标签后,计算机设备可以基于每个词语的标签,识别第一兴趣点的名称中的第二兴趣点的名称以及不同第二兴趣点之间的层次结构,以便基于层次结构确定第一兴趣点的主点的名称。
在一种可能的实现方式中,计算机设备可以对第一兴趣点的名称进行主从以及层次识别,即,给定第一兴趣点的名称中的多个词语的标签,输出第一兴趣点的名称中的主要成分、从属成分以及主要成分的层次结构。其中,该主要成分即为由第二兴趣点的名称组成的成分,从属成分为第一兴趣点的名称中主要成分以外的成分,从属成分仅是用于支持主要成分,从而对主要成分的语义进行解释说明,而不会映射独立的第二兴趣点,从属成分可以包括别名、分店、描述等,别名为第二兴趣点的名称的其他命名,分店为第二兴趣点的连锁店或其他店铺,描述为第二兴趣点的评价信息、地址信息、打分信息等。
关于对第一兴趣点的名称进行主从以及层次识别的具体过程,本实施例设计了以下步骤(3.1)至步骤(3.2):
步骤(3.1)将第一兴趣点的名称划分为主要成分和从属成分。
计算机设备可以将第一兴趣点的名称中标签不属于预设非兴趣点名称的词语划分至主要成分,将标签属于预设非兴趣点名称的词语划分至从属成分。以兴趣点名称开始标签表示为B,兴趣点名称中间标签表示为M,兴趣点名称结束标签表示为E,独立兴趣点名称标签表示为S,预设非兴趣点名称标签表示为O为例,可以将标签不为O的词语(即标签为B、M、E或S的词语)划分至主要成分,将标签为O的词语划分至从属成分。
以第一兴趣点的名称为“北京香格里拉酒店西餐厅首都机场店”为例,其包括的多个词语为“北京”、“香格里拉”“酒店”、“西餐厅”“首都”“机场”“店”通过上述步骤二,可以得到命名实体识别模型为这多个词语输出的标签,依次为“B”、“M”“E”、“S”“O”“O”“O”,将标签不为“O”划分至主要成分,将标签为“O”划分至从属成分后,可以确定主要成分为“北京香格里拉酒店西餐厅”,从属成分为“首都机场店”。
步骤(3.2)将主要成分中每三个位置连续且标签分别为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签的词语划分为一个层次;和/或;将每个标签为独立兴趣点名称标签的词语划分为一个层次。
对于主要成分中标签为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签的词语来说,这三种词语在主要成分中会以三个一组的形式出现,每三个词语组成一个兴趣点的名称,单独的任一个词语不能与其他两个词语割裂开以分析语义。而对于主要成分中标签为独立兴趣点名词标签的词语来说,这种词语可以看作相对孤立的词语,能够单独作为兴趣点的名称。
因此,可以将主要成分中每三个位置连续且标签分别为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签的词语划分为一个层次,作为一个第二兴趣点的名称,例如,可以将每三个标签为“B”、“M”“E”的词语划分为一个层次。另外,可以将每个标签为独立兴趣点名称标签的词语划分为一个层次,作为一个第二兴趣点的名称,例如,将每个“O”对应的词语划分为一个层次。
示例性地,以主要成分为“北京香格里拉酒店西餐厅”为例,“北京”、“香格里拉”“酒店”、“西餐厅”的标签分别为“B”、“M”“E”、“S”,则将“北京香格里拉酒店”划分为一个层次,“西餐厅”划分为一个层次,得到“北京香格里拉酒店/西餐厅”。
203、计算机设备基于至少两个第二兴趣点之间的层次结构,将层次结构中除最后一层以外的第二兴趣点的名称组合作为第一兴趣点的主点的名称。
当识别第一兴趣点的名称中第二兴趣点的名称的层次结构后,如果第一兴趣点的名称中包含至少两个第二兴趣点之间的层次结构,即主要成分中至少包括两个层次,表明第一兴趣点的名称映射了第一兴趣点本身以及第一兴趣点隶属的主点,因此,计算机设备会将层次结构中最后一层的第二兴趣点的名称作为子点的名称,将最后一层以外的第二兴趣点的名称组合作为主点的名称,从而识别出一对主子点。其中,子点映射着第一兴趣点本身,主点即为第一兴趣点隶属的主点,主点的名称为第一层至倒数第二层的第二兴趣点的名称组合。
示例性地,假设第二兴趣点之间的层次结构包括N个层次,可以将第N个层次的第二兴趣点的名称作为子点的名称,将第一个层次至第N-1个层次的第二兴趣点的名称作为第一兴趣点的主点的名称。例如,假设层次结构为“北京香格里拉酒店/西餐厅”,该层次结构包括两个层次,第一个层次的第二兴趣点的名称为“北京香格里拉酒店”,第二个层次的第二兴趣点的名称为“西餐厅”,因此会将“北京香格里拉酒店”作为主点的名称,将“西餐厅”作为子点的名称。又如,假设层次结构为“北京大学/物理学院/西门”,该层次结构包括三个层次,第一个层次的第二兴趣点的名称为“北京大学”,第二个层次的第二兴趣点的名称为“物理学院”,第三个层次的第二兴趣点的名称为“西门”,因此会将第一个层次和第二个层次的第二兴趣点的名称组合“北京大学物理学院”作为主点名称,将“西门”作为子点名称。
另外,如果第一兴趣点的名称中仅包含一个层次,即仅是包括一个第二兴趣点的名称,则表明第一兴趣点的名称没有映射其隶属的主点,则无需识别主点的名称。
需要说明的是,当得到主点的名称后,计算机设备可以直接输出主点的名称,进一步地,还可以基于第二兴趣点的名称以及至少两个第二兴趣点之间的层次结构进一步进行语义分析,例如对第二兴趣点的名称以及至少两个第二兴趣点之间的层次结构进行语义分析,得到每个词语中的词权重和词功能,以备他用。
参见图5,其示出了本发明实施例提供的兴趣点关系识别方法的系统架构图,在该系统架构图中从下至上依次为词法分析模块、句法分析模块和语义分析模块,词法分析模块用于对第一兴趣点的名称进行分词,句法分析模块用于识别第一兴趣点的名称中的主要成分、从属成分以及层次结构,语义分析模块用于进一步语义分析,开发人员可以参照图5的架构,实现上述描述的兴趣点关系识别方法。
可选地,在识别了主点的名称后,计算机设备还可以进一步执行以下步骤204-步骤205,将第一兴趣点挂载到主点上,即存储第一兴趣点和主点之间的主子点关系。
204、计算机设备基于主点的名称,在兴趣点索引信息中进行检索,得到主点的标识。
兴趣点索引信息用于存储兴趣点的名称和兴趣点的标识之间的对应关系,兴趣点的标识可以为兴趣点的ID、索引号或者其它能够唯一确定对应的兴趣点的数据。计算机设备可以预先根据兴趣点数据库中的所有兴趣点的名称和对应的兴趣点的标识,生成兴趣点索引信息,当识别得到主点的名称后,计算机设备可以基于主点的名称在兴趣点索引信息中进行检索,从兴趣点索引信息中得到主点的标识,以便后续基于主点的标识和第一兴趣点的标识,存储第一兴趣点和主点之间的主子点关系。其中,检索方式可以为倒排索引方式或其他方式,本实施例对此不做限定。
在一种可能的设计中,考虑到兴趣点索引信息中可能并未存储识别出的主点的名称,而是存储了识别出的主点的名称的同义词或别名,例如识别出的主点名称为“北京大学物理学院”,而兴趣点索引信息存储了“北大物理学院”“School of Physics,PekingUniversity”等。面临这种情况,如果单纯基于识别出的主点的名称进行检索,可能会遗漏这些数据,导致检索的召回率较低。
因此,本实施例中,在基于主点的名称进行检索的基础上,还可以获取主点的名称的同义词和/或别名,基于主点的名称以及同义词和/或别名在兴趣点索引信息中进行检索,那么,当兴趣点索引信息存储了同义词对应的主点的标识和/或别名对应的主点的标识时,计算机设备通过基于同义词和/或别名进行检索,同样可以成功检索出主点的标识,从而提高召回率,保证检索的全面性、准确性。
其中,针对获取主点的名称的同义词和/或别名的方式,计算机设备可以采用翻译工具对主点的名称进行翻译,得到各种语种下的主点的名称,作为主点的名称的同义词。另外,计算机设备还可以获取第三方网站提供的语料库,在语料库中检索得到主点的名称的同义词和/或别名。当然计算机设备也可以预先存储同义词和/或别名的数据库,在同义词和/或别名的数据库中得到主点的名称的同义词和/或别名。示例性地,参见图6,同义词和/或别名的数据库可以存储大量词语的同义词和/或别名。
需要说明的第一点是,为了保证检索结果的可靠性,计算机设备检索出主点的标识后,可以获取兴趣点索引信息中的主点的标识对应的主点名称,计算兴趣点索引信息中的主点名称与识别出的主点名称之间的相似度,当相似度符合预设条件时,确定检索结果正确,则后续会基于主点的标识存储主子点关系,而当相似度不符合预设条件时,则确定检索结果不正确,后续不会基于主点的标识存储主子点关系。
需要说明的第二点是,本步骤204仅是以在兴趣点索引信息中检索得到主点的标识为例进行说明,在实施中,计算机设备也可以在兴趣点数据库中进行检索,得到主点的标识,这种检索的方式与步骤204同理,在此不做赘述。
205、计算机设备基于第一兴趣点的标识和主点的标识,存储第一兴趣点和主点之间的主子点关系。
计算机设备得到主点的标识,可以基于第一兴趣点的标识和主点的标识,在兴趣点数据库中存储兴趣点和主点之间的主子点关系,即,将兴趣点挂载到隶属的主点上,以便后续用户基于主点进行搜索时,兴趣点数据库可以返回主点对应的子点。
其中,兴趣点数据库可以采用知识图谱或关系型数据库的形式构建,兴趣点数据库采用不同的形式构建时,存储主子点关系的方式可以存在区别。示例性地,针对这两种构建形式,以下提供两种存储主子点关系的设计:
设计一(针对知识图谱)、计算机设备可以通过兴趣点知识图谱存储不同兴趣点之间的主子点关系。参见图7,兴趣点知识图谱中的任一个节点表示兴趣点,任一条边表示其连接的两个兴趣点之间的主子点关系。可选地,兴趣点知识图谱还可以存储每个兴趣点的属性,每个兴趣点可以指向其对应的属性,那么沿着兴趣点出发,可以快速找到对应的属性。其中兴趣点的属性包括兴趣点的重要度、连锁店、分类、详情评论信息等,该兴趣点的重要度可以为根据兴趣点所指代的地理信息的知名度,热度、客观影响力等因素得到的打分。
针对在兴趣点知识图谱存储主子点关系的具体过程,以兴趣点知识图谱中第一兴趣点对应的节点称为第一节点,主点对应的节点称为第二节点为例,计算机设备可以确定兴趣点知识图谱中第一兴趣点的标识对应的第一节点以及主点的标识对应的第二节点,将第一节点和第二节点以边相连,那么之后在兴趣点知识图谱中进行检索时,从第一节点出发,经过一条边的距离即可找到第二节点,反之,从第二节点出发,经过一条边的距离即可找到第一节点,从而快速找到兴趣点隶属的主点或者主点下的兴趣点。
设计二(针对关系型数据库)、计算机设备也可以通过关系型数据库存储不同兴趣点之间的主子点关系,关系型数据库中每个兴趣点可以对应一行,一行包括多个字段,该多个字段中包括主点标识字段,用于存储兴趣点隶属的主点的标识,计算机设备可以确定第一兴趣点对应的行的主点标识字段,将得到的主点的标识写入该主点标识字段中,从而存储第一兴趣点和主点之间的主子点关系。
综上所述,参见图8,其示出了本发明实施例提供的兴趣点关系识别的流程图,计算机设备可以按照流程图的顺序,依次执行每个步骤,最终将识别出的主子点关系写入兴趣点知识图谱。
本发明实施例提供的方法,提供了一种结合兴趣点的名称本身的语义来识别兴趣点关系的方式,基于第一兴趣点的名称中不同第二兴趣点之间的层次结构,识别第一兴趣点的主点的名称,如果第一兴趣点的名称中仅包含一个第二兴趣点的名称,表明第一兴趣点的名称仅是映射它本身,则无需识别第一兴趣点的主点的名称,从而避免将同一兴趣点的不同名称误识别为兴趣点的主点或子点的情况。如果第一兴趣点的名称包含至少两个第二兴趣点的名称,通过将存在主子点关系的不同第二兴趣点切分开来,将最后一层以外的第二兴趣点的名称组合作为第一兴趣点的主点的名称,能够准确地识别出主点的名称,提高识别兴趣点关系的准确性。
图9是本发明实施例提供的一种兴趣点关系识别装置的结构示意图。参见图9,该装置包括:获取模块901和确定模块902。
获取模块901,用于获取第一兴趣点;
该获取模块901,还用于获取该第一兴趣点的名称中的至少两个第二兴趣点的名称以及该至少两个第二兴趣点之间的层次结构,任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系;
确定模块902,用于基于该至少两个第二兴趣点之间的层次结构,将该层次结构中除最后一层以外的第二兴趣点的名称组合作为该第一兴趣点的主点的名称。
在一种可能的设计中,该获取模块901,包括:
输入子模块,用于将该第一兴趣点的名称中的多个词语输入至命名实体识别模型,输出每个词语的标签,词语的标签用于指示词语是否属于兴趣点的名称或词语在兴趣点的名称中的位置;
识别子模块,用于基于每个词语的标签,得到该第一兴趣点的名称中的至少两个第二兴趣点的名称以及该至少两个第二兴趣点之间的层次结构。
在一种可能的设计中,词语的标签为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签、独立兴趣点名称标签或预设非兴趣点名称标签;
该识别子模块,用于将该第一兴趣点的名称中标签不属于预设非兴趣点名称的词语划分至主要成分;将该主要成分中每三个位置连续且标签分别为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签的词语划分为一个层次;和/或;将每个标签为独立兴趣点名称标签的词语划分为一个层次。
在一种可能的设计中,该输入子模块,包括:
输入单元,用于将该第一兴趣点的名称中的多个词语输入至命名实体识别模型,在该命名实体识别模型内部,对于该多个词语中的任一个词语,将该词语输入至语言处理工具,输出第一向量;
生成单元,用于基于该词语所属的语义类别,生成第二向量;
拼接单元,用于对该第一向量和该第二向量进行拼接,得到第三向量;
模型处理单元,用于基于该第三向量继续进行模型处理,输出该任一个词语的标签。
在一种可能的设计中,该语义类别包括词语所属的词角色,每个词角色用于指示一种维度的语义类别,该生成单元,还用于将该词语输入至序列标注模型中,输出该词语所属的词角色,该序列标注模型用于根据输入的词语输出所属的词角色;
该生成单元,还用于基于该词语所属的词角色,生成该第二向量;
其中,该第二向量的每个位对应一种词角色,每个位的取值由对应的词角色是否为该词语所属的词角色确定。
在一种可能的设计中,该语义类别包括词语所属的词文件,该生成单元,还用于基于该词语,在兴趣点词典中进行搜索,得到该词语命中的词文件,该兴趣点词典用于存储至少一个词文件,任一个词文件用于存储对应语义类别下的多个词语;
该生成单元,还用于基于该词语命中的词文件,生成该第二向量;
其中,该第二向量的每个位对应一个词文件,每个位的取值由对应的词文件是否为该词语命中的词文件确定。
在一种可能的设计中,该生成单元,还用于基于是否存储该第一兴趣点的原始类别,生成该第二向量,该第二向量的任一个位的取值由是否存储第一兴趣点的原始类别确定。
在一种可能的设计中,该生成单元,还用于基于是否存储该第一兴趣点的原始类别和该词语在兴趣点词典中命中的词文件,生成该第二向量,该兴趣点词典用于存储至少一个词文件,任一个词文件用于存储对应语义类别下的多个词语;
其中,该第二向量的任一个位的取值由是否存储该第一兴趣点的原始类别确定,该任一个位以外的每个位的取值由该词语是否命中兴趣点词典的词文件确定,或由该兴趣点的原始类别以及该词语在兴趣点词典的词文件是否匹配确定。
在一种可能的设计中,该装置还包括:
检索模块,用于基于该主点的名称,在兴趣点索引信息中进行检索,得到该主点的标识,该兴趣点索引信息用于存储兴趣点的名称和兴趣点的标识之间的对应关系;
存储模块,用于基于该第一兴趣点的标识和该主点的标识,存储该第一兴趣点和该主点之间的主子点关系。
在一种可能的设计中,该检索模块,用于基于该主点的名称以及同义词和/或别名,在兴趣点索引信息中进行检索。
在一种可能的设计中,该存储模块,用于确定兴趣点知识图谱中该第一兴趣点的标识对应的第一节点以及该主点的标识对应的第二节点;将该第一节点和该第二节点以边相连;
其中,该兴趣点知识图谱中的任一个节点表示兴趣点,任一条边表示其连接的两个兴趣点之间的主子点关系。
图10是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备可以被提供为一服务器,该计算机设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)1001和一个或一个以上的存储器1002,其中,该存储器1002中存储有至少一条指令,该至少一条指令由该处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由计算机设备中的处理器执行以完成上述实施例中的兴趣点关系识别方法。例如,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种兴趣点关系识别方法,其特征在于,所述方法包括:
获取第一兴趣点;
将所述第一兴趣点的名称中的多个词语输入至命名实体识别模型,输出每个词语的标签,所述词语的标签用于指示词语是否属于兴趣点的名称或词语在兴趣点的名称中的位置,所述词语的标签为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签、独立兴趣点名称标签或预设非兴趣点名称标签;
将所述第一兴趣点的名称中标签不属于预设非兴趣点名称的词语划分至主要成分;
将所述主要成分中每三个位置连续且标签分别为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签的词语划分为一个层次;和/或;将每个标签为独立兴趣点名称标签的词语划分为一个层次;任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系;
基于所述至少两个第二兴趣点之间的层次结构,将所述层次结构中除最后一层以外的第二兴趣点的名称组合作为所述第一兴趣点的主点的名称。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一兴趣点的名称中的多个词语输入至命名实体识别模型,输出每个词语的标签,包括:
将所述第一兴趣点的名称中的多个词语输入至命名实体识别模型,在所述命名实体识别模型内部,对于所述多个词语中的任一个词语,将所述词语输入至语言处理工具,输出第一向量;
基于所述词语所属的语义类别,生成第二向量;
对所述第一向量和所述第二向量进行拼接,得到第三向量;
基于所述第三向量继续进行模型处理,输出所述任一个词语的标签。
3.根据权利要求2所述的方法,其特征在于,所述语义类别包括词语所属的词角色,每个词角色用于指示一种维度的语义类别,所述基于所述词语所属的语义类别,生成第二向量,包括:
将所述词语输入至序列标注模型中,输出所述词语所属的词角色,所述序列标注模型用于根据输入的词语输出所属的词角色;
基于所述词语所属的词角色,生成所述第二向量;
其中,所述第二向量的每个位对应一种词角色,每个位的取值由对应的词角色是否为所述词语所属的词角色确定。
4.根据权利要求2所述的方法,其特征在于,所述语义类别包括词语所属的词文件,所述基于所述词语所属的语义类别,生成第二向量,包括:
基于所述词语,在兴趣点词典中进行搜索,得到所述词语命中的词文件,所述兴趣点词典用于存储至少一个词文件,任一个词文件用于存储对应语义类别下的多个词语;
基于所述词语命中的词文件,生成所述第二向量;
其中,所述第二向量的每个位对应一个词文件,每个位的取值由对应的词文件是否为所述词语命中的词文件确定。
5.根据权利要求2所述的方法,其特征在于,所述基于所述词语所属的语义类别,生成第二向量,包括:
基于是否存储所述第一兴趣点的原始类别,生成所述第二向量,所述第二向量的任一个位的取值由是否存储第一兴趣点的原始类别确定。
6.根据权利要求5所述的方法,其特征在于,所述基于是否存储所述兴趣点的原始类别,生成所述第二向量,包括:
基于是否存储所述第一兴趣点的原始类别和所述词语在兴趣点词典中命中的词文件,生成所述第二向量,所述兴趣点词典用于存储至少一个词文件,任一个词文件用于存储对应语义类别下的多个词语;
其中,所述第二向量的任一个位的取值由是否存储所述第一兴趣点的原始类别确定,所述任一个位以外的每个位的取值由所述词语是否命中兴趣点词典的词文件确定,或由所述兴趣点的原始类别以及所述词语在兴趣点词典的词文件是否匹配确定。
7.根据权利要求1所述的方法,其特征在于,所述基于所述至少两个第二兴趣点之间的层次结构,将所述层次结构中除最后一层以外的第二兴趣点的名称组合作为所述第一兴趣点的主点的名称之后,所述方法还包括:
基于所述主点的名称,在兴趣点索引信息中进行检索,得到所述主点的标识,所述兴趣点索引信息用于存储兴趣点的名称和兴趣点的标识之间的对应关系;
基于所述第一兴趣点的标识和所述主点的标识,存储所述第一兴趣点和所述主点之间的主子点关系。
8.根据权利要求7所述的方法,其特征在于,所述基于所述主点的名称,在兴趣点索引信息中进行检索,包括:
基于所述主点的名称以及同义词和/或别名,在兴趣点索引信息中进行检索。
9.根据权利要求7所述的方法,其特征在于,所述基于所述第一兴趣点的标识和所述主点的标识,存储所述第一兴趣点和所述主点之间的主子点关系,包括:
确定兴趣点知识图谱中所述第一兴趣点的标识对应的第一节点以及所述主点的标识对应的第二节点;
将所述第一节点和所述第二节点以边相连;
其中,所述兴趣点知识图谱中的任一个节点表示兴趣点,任一条边表示其连接的两个兴趣点之间的主子点关系。
10.一种兴趣点关系识别装置,其特征在于,所述装置包括:
获取模块,用于获取第一兴趣点;
所述获取模块包括输入子模块和识别子模块;
所述输入子模块,用于将所述第一兴趣点的名称中的多个词语输入至命名实体识别模型,输出每个词语的标签,所述词语的标签用于指示词语是否属于兴趣点的名称或词语在兴趣点的名称中的位置,所述词语的标签为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签、独立兴趣点名称标签或预设非兴趣点名称标签;
识别子模块,用于将所述第一兴趣点的名称中标签不属于预设非兴趣点名称的词语划分至主要成分;将所述主要成分中每三个位置连续且标签分别为兴趣点名称开始标签、兴趣点名称中间标签、兴趣点名称结束标签的词语划分为一个层次;和/或;将每个标签为独立兴趣点名称标签的词语划分为一个层次;任两个相邻层次中后一个层次映射的第二兴趣点和前一个层次映射的第二兴趣点存在主子点关系;
确定模块,用于基于所述至少两个第二兴趣点之间的层次结构,将所述层次结构中除最后一层以外的第二兴趣点的名称组合作为所述第一兴趣点的主点的名称。
11.根据权利要求10所述的装置,其特征在于,所述获取模块,包括:
输入子模块,用于将所述第一兴趣点的名称中的多个词语输入至命名实体识别模型,输出每个词语的标签,词语的标签用于指示词语是否属于兴趣点的名称或词语在兴趣点的名称中的位置;
识别子模块,用于基于每个词语的标签,得到所述第一兴趣点的名称中的至少两个第二兴趣点的名称以及所述至少两个第二兴趣点之间的层次结构。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求9中任一项所述的兴趣点关系识别方法所执行的操作。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求9中任一项所述的兴趣点关系识别方法所执行的操作。
CN201810206377.0A 2018-03-13 2018-03-13 兴趣点关系识别方法及装置 Active CN108363698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810206377.0A CN108363698B (zh) 2018-03-13 2018-03-13 兴趣点关系识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810206377.0A CN108363698B (zh) 2018-03-13 2018-03-13 兴趣点关系识别方法及装置

Publications (2)

Publication Number Publication Date
CN108363698A CN108363698A (zh) 2018-08-03
CN108363698B true CN108363698B (zh) 2021-05-14

Family

ID=63004143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810206377.0A Active CN108363698B (zh) 2018-03-13 2018-03-13 兴趣点关系识别方法及装置

Country Status (1)

Country Link
CN (1) CN108363698B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125550B (zh) * 2018-11-01 2023-11-24 百度在线网络技术(北京)有限公司 兴趣点分类方法、装置、设备及存储介质
CN111460044B (zh) * 2019-01-21 2023-06-30 阿里巴巴集团控股有限公司 地理位置数据处理方法及装置
CN111457932B (zh) * 2019-01-21 2024-03-08 阿里巴巴集团控股有限公司 兴趣点识别方法、装置及导航方法及系统、设备
CN110298036B (zh) * 2019-06-06 2022-07-22 昆明理工大学 一种基于词性增量迭代的在线医疗文本症状识别方法
CN110427627B (zh) * 2019-08-02 2023-04-28 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN110457420B (zh) * 2019-08-13 2024-04-16 腾讯云计算(北京)有限责任公司 兴趣点位置识别方法、装置、设备及存储介质
CN110457706B (zh) * 2019-08-15 2023-08-22 腾讯科技(深圳)有限公司 兴趣点名称选择模型训练方法、使用方法、装置及存储介质
CN110489507B (zh) * 2019-08-16 2023-03-31 腾讯科技(深圳)有限公司 确定兴趣点相似度的方法、装置、计算机设备和存储介质
CN110795515B (zh) * 2019-08-26 2022-04-12 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110597943B (zh) * 2019-09-16 2022-04-01 腾讯科技(深圳)有限公司 基于人工智能的兴趣点处理方法、装置及电子设备
CN111858787A (zh) * 2019-09-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种poi信息获取的方法及装置
CN110909627B (zh) * 2019-11-04 2022-04-26 中国科学院深圳先进技术研究院 区域poi配置可视化方法及系统
CN111309834B (zh) * 2020-01-20 2023-05-12 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111256571A (zh) 2020-01-20 2020-06-09 腾讯科技(深圳)有限公司 柔性电容触觉传感器及其制备方法和触觉传感系统
CN113569128A (zh) * 2020-04-29 2021-10-29 北京金山云网络技术有限公司 数据检索方法、装置及电子设备
CN111767478B (zh) * 2020-06-22 2023-08-15 北京百度网讯科技有限公司 一种关联关系构建方法、装置、设备及存储介质
CN113822057B (zh) * 2021-08-06 2022-10-18 北京百度网讯科技有限公司 地点信息确定方法、装置、电子设备以及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963961A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
CN102128622A (zh) * 2010-01-13 2011-07-20 神达电脑股份有限公司 个人导航装置及其查询及显示兴趣点项目的信息的方法
CN103390044A (zh) * 2013-07-19 2013-11-13 百度在线网络技术(北京)有限公司 一种连锁类兴趣点数据识别方法及装置
CN103886082A (zh) * 2014-03-26 2014-06-25 百度在线网络技术(北京)有限公司 对兴趣点的位置信息进行校验的方法和设备
CN103902626A (zh) * 2012-12-30 2014-07-02 上海易罗信息科技有限公司 兴趣点检索方法、装置和带有该装置的设备
US9069744B2 (en) * 2012-05-15 2015-06-30 Google Inc. Extensible framework for ereader tools, including named entity information
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN106155998A (zh) * 2015-04-09 2016-11-23 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN106294744A (zh) * 2016-08-11 2017-01-04 上海动云信息科技有限公司 兴趣识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340895B2 (en) * 2009-11-05 2012-12-25 Mitac International Corp. Method of performing mixed category and point of interest search and related personal navigation device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963961A (zh) * 2009-07-23 2011-02-02 高德软件有限公司 兴趣点数据关联方法及装置
CN102128622A (zh) * 2010-01-13 2011-07-20 神达电脑股份有限公司 个人导航装置及其查询及显示兴趣点项目的信息的方法
US9069744B2 (en) * 2012-05-15 2015-06-30 Google Inc. Extensible framework for ereader tools, including named entity information
CN103902626A (zh) * 2012-12-30 2014-07-02 上海易罗信息科技有限公司 兴趣点检索方法、装置和带有该装置的设备
CN103390044A (zh) * 2013-07-19 2013-11-13 百度在线网络技术(北京)有限公司 一种连锁类兴趣点数据识别方法及装置
CN103886082A (zh) * 2014-03-26 2014-06-25 百度在线网络技术(北京)有限公司 对兴趣点的位置信息进行校验的方法和设备
CN106155998A (zh) * 2015-04-09 2016-11-23 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN106294744A (zh) * 2016-08-11 2017-01-04 上海动云信息科技有限公司 兴趣识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非结构化中文自然语言地址描述的自动识别;赵卫锋 等;《计算机工程与应用》;20161231;第52卷(第23期);第19-24页 *

Also Published As

Publication number Publication date
CN108363698A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363698B (zh) 兴趣点关系识别方法及装置
CN110609902B (zh) 一种基于融合知识图谱的文本处理方法及装置
US7937402B2 (en) Natural language based location query system, keyword based location query system and a natural language and keyword based location query system
CN110909170B (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN110569496B (zh) 实体链接方法、装置及存储介质
Zhou et al. Resolving surface forms to wikipedia topics
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN112528001B (zh) 一种信息查询方法、装置及电子设备
KR20120096894A (ko) 데이터베이스 검색방법, 네비게이션 장치 및 인덱스 구조 생성 방법
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN109508361B (zh) 用于输出信息的方法和装置
Chen et al. Georeferencing places from collective human descriptions using place graphs
CN112328890B (zh) 搜索地理位置点的方法、装置、设备及存储介质
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
JP2023519049A (ja) Poi状態情報を取得する方法、及び装置
CN110688434B (zh) 一种兴趣点处理方法、装置、设备和介质
CN114328799A (zh) 数据处理方法、装置以及计算机可读存储介质
EP3822818A1 (en) Method, apparatus, device and storage medium for intelligent response
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN113010752A (zh) 召回内容的确定方法、装置、设备以及存储介质
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN112069273A (zh) 地址文本的分类方法、装置、电子设备及存储介质
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant