CN111831929B

CN111831929B - 一种获取poi信息的方法及装置

Info

Publication number: CN111831929B
Application number: CN201910906457.1A
Authority: CN
Inventors: 陶言祺; 陈欢
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2024-01-02
Anticipated expiration: 2039-09-24
Also published as: CN111831929A

Abstract

本申请提供了一种获取POI信息的方法及装置，其中，该方法包括：获取用户通过客户端输入的输入字符串，并对输入字符串进行分词处理，得到与输入字符串对应检索词汇序列；将检索词汇序列输入预先训练的POI实体识别模型中，获得检索词汇中的POI实体，以及与各个POI实体对应的实体类型；若识别出的POI实体中存在实体类型为地名的目标POI实体，则根据目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与目标POI实体对应的目标区域轮廓信息；根据POI实体中除目标POI实体的其他POI实体，从与目标区域轮廓信息对应的区域中获取目标POI信息。本申请能够提升POI信息获取的准确率。

Description

一种获取POI信息的方法及装置

技术领域

本申请涉及信息检索技术领域，具体而言，涉及一种获取POI信息的方法及装置。

背景技术

信息检索在很多领域占据着重要的地位。在很多应用场景中，会根据用户输入的输入字符串为用户获取和展示多个检索结果。例如在网约车领域，用户会通过客户端的人机交互界面输入用于描述其目的地的输入字符串，客户端客户端会根据用户输入的输入字符串进行POI的获取。在数据库中，兴趣点(Point of Interest，POI)的存储形式一般为：建筑物(或者目标地的名称)与该名称对应的地名坐标。检索结果的获取方式一般为基于用户输入的输入字符串中的关键词，与数据库中存储的一定区域范围内的各个POI进行匹配，并将匹配成功的POI作为检索结果进行获取。关键词一般为输入字符串中的POI实体，POI实体主要包括人名、地名、机构名、专有名词等。POI的POI实体类型通常为地名、机构名或者专有名词。

但是实际上，用户在检索时输入的输入字符串通常会包括两个或者多个POI实体；当前的检索策略存在获取输入字符串对应的检索结果时，往往无法挖掘出输入字符串的潜在涵义，所获取的检索结果往往并非是用户想要真正获得的结果，存在获取POI获取准确率低的问题。

发明内容

有鉴于此，本申请的目的在于提供一种获取POI信息的方法及装置，能够通过输入字符串中实体的类别进行识别，并通过识别出的能够表征地名的目标POI实体，来确定区域轮廓，并在确定的区域轮廓对应的区域内，以其他POI实体进行检索获取目标POI信息，提升POI信息获取的准确率。

第一方面，本申请实施例提供一种获取兴趣点POI信息的方法，该方法包括：

获取用户通过客户端输入的输入字符串，并对所述输入字符串进行分词处理，得到与所述输入字符串对应检索词汇序列；所述检索词汇序列中包括多个检索词汇；

将所述检索词汇序列输入预先训练的POI实体识别模型中，获得所述检索词汇中的POI实体，以及与各个所述POI实体对应的实体类型；

若识别出的所述POI实体中存在实体类型为地名的目标POI实体，则根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息；

根据所述POI实体中除所述目标POI实体的其他POI实体，从与所述目标区域轮廓信息对应的区域中获取目标POI信息。

一种可选实施方式中，采用下述方式训练所述POI实体识别模型：

获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列；所述标签标注序列中包括多个与所述样本实体序列中各个样本POI实体一一对应的实体类型标注标签；

针对每个所述样本实体序列，将该样本实体序列输入至条件随机场模型，确定与该样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分；所述标签标注序列为多个所述标签预测序列中的一个；

根据所述得分，对所述条件随机场模型进行训练，得到所述POI实体识别模型。

一种可选实施方式中，所述获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列，包括：

获取多个样本输入字符串，并对各个所述样本输入字符串进行分词处理，得到与每个所述样本输入字符串对应的样本词汇；

从所述样本词汇中确定样本POI实体，并按照所述样本POI实体在所述样本输入字符串中的位置，基于所述样本POI实体构成所述样本实体序列；

按照各个样本POI实体的实际实体类型，生成各个所述样本实体序列对应的标签标注序列。

一种可选实施方式中，所述确定与所述样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分，包括：

基于所述条件随机场模型，针对每个标签预测序列，根据概率转移矩阵，确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率；

根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率，确定该标签预测序列对应的得分。

一种可选实施方式中，所述根据所述得分，对所述条件随机场模型进行训练，包括：

根据各个所述预测标签序列对应的得分，以及与所述标签标注序列对应的标签预测序列的得分，确定模型损失；

根据所述模型损失，调整所述条件随机场模型的参数，完成对所述条件随机场模型的本轮训练；

将经过多轮训练的条件随机场模型确定为所述POI实体识别模型。

一种可选实施方式中，还包括：若识别出的所述POI实体中不存在实体类型为地名的目标POI实体，则基于确定的所述POI实体检索并获取至少一条目标POI信息。

一种可选实施方式中，根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息，包括：

根据所述映射关系，确定是否存在与所述目标POI实体对应的区域轮廓信息；

若存在，则将与所述目标POI实体对应的区域轮廓信息，确定为所述目标区域轮廓信息。

一种可选实施方式中，采用下述方式确定POI实体与区域轮廓信息之间映射关系：

获取目标区域内多条目标道路中每个路段的地理位置信息；

根据所述地理位置信息，将所述目标区域划分为多个目标子区域；其中，每个所述目标子区域均以多个路段为边界；

针对每个所述目标子区域，根据作为该目标子区域边界的路段对应的地理位置信息，生成与该目标子区域对应的区域轮廓信息；

将所有地理位置落入所述区域轮廓信息对应的区域内的POI的名称，作为与该区域轮廓信息对应的POI实体，并建立该区域轮廓信息与该POI实体之间的映射关系。

第二方面，本申请实施例还提供一种获取兴趣点POI信息的装置，该装置包括：

获取模块，用于获取用户通过客户端输入的输入字符串，并对所述输入字符串进行分词处理，得到与所述输入字符串对应检索词汇序列；所述检索词汇序列中包括多个检索词汇；

识别目标，用于将所述检索词汇序列输入预先训练的POI实体识别模型中，获得所述检索词汇中的POI实体，以及与各个所述POI实体对应的实体类型；

确定模块，用于在识别出的所述POI实体中存在实体类型为地名的目标POI实体，则根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息；

检索模块，用于根据所述POI实体中除所述目标POI实体的其他POI实体，从与所述目标区域轮廓信息对应的区域中获取目标POI信息。

一种可选实施方式中，还包括：模型训练模块，用于采用下述方式训练所述POI实体识别模型：

一种可选实施方式中，所述模型训练模块，用于采用下述方式获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列：

一种可选实施方式中，所述模型训练模块，用于采用下述方式确定与所述样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分：

一种可选实施方式中，所述模型训练模块，用于采用下述方式根据所述得分，对所述条件随机场模型进行训练：

一种可选实施方式中，所述检索模块，还用于在识别出的所述POI实体中不存在实体类型为地名的目标POI实体时，基于确定的所述POI实体检索并获取至少一条目标POI信息。

一种可选实施方式中，所述确定模块，用于采用下述方式根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息：

一种可选实施方式中，映射关系获取模块，用于采用下述方式确定POI实体与区域轮廓信息之间映射关系：

获取目标区域内多条目标道路中每个路段的地理位置信息；

第三方面，本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的第一方面中任一种可能的实施方式中的步骤。

本申请实施例通过在接收到客户端发送的输入字符串后，对输入字符串进行分词处理，得到与输入字符串对应的检索词汇序列，然后讲检索词汇序列输入至预先训练的POI实体识别模型中，获得检索词汇中的POI实体，以及与各个POI实体对应的实体类型，并在POI实体中存在实体类型为地名的目标POI实体时，根据目标POI实体，以及POI实体和区域轮廓信息之间的映射关系，确定目标POI实体对应的目标区域轮廓信息，然后根据除目标POI实体外的其他POI实体，从与目标区域轮廓信息对应的区域中检索并获取目标POI，从而能够通过输入字符串中实体的类别进行识别，并通过识别出的能够表征地名的目标POI实体，来确定区域轮廓，并在确定的区域轮廓对应的区域内，以其他POI实体进行检索获取目标POI信息，提升POI信息获取的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种服务系统的架构示意图；

图2示出了本申请实施例提供的获取POI信息的方法的流程图；

图3示出了本申请实施例提供的获取POI信息的方法中，训练POI实体识别模型的具体方法的流程图；

图4示出了本申请实施例提供的获取POI信息的方法中，确定与样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分的具体方法的流程图；

图5示出了本申请实施例提供的获取POI信息的方法中，确定POI实体与区域轮廓信息之间映射关系的具体方法的流程图；

图6示出了本申请实施例提供的一种获取POI信息的装置的结构示意图；

图7示出了本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“网约车”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕输入网约车平台的输入字符串获取与输入字符串对应的POI进行描述，但是应该理解，这仅是一个示例性实施例。本申请实施例还可以用于其他领域，例如基于地图软件进行POI位置查询等。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种获取兴趣点POI信息的系统。该系统可以通过在接收到客户端发送的输入字符串后，对输入字符串进行分词处理，得到与输入字符串对应的检索词汇序列，然后讲检索词汇序列输入至预先训练的POI实体识别模型中，获得检索词汇中的POI实体，以及与各个POI实体对应的实体类型，并在POI实体中存在实体类型为地名的目标POI实体时，根据目标POI实体，以及POI实体和区域轮廓信息之间的映射关系，确定目标POI实体对应的目标区域轮廓信息，然后根据除目标POI实体外的其他POI实体，从与目标区域轮廓信息对应的区域中检索并获取目标POI，从而能够通过输入字符串中实体的类别进行识别，并通过识别出的能够表征地名的目标POI实体，来确定区域轮廓，并在确定的区域轮廓对应的区域内，以其他POI实体进行检索获取目标POI信息，提升POI信息获取的准确率。

值得注意的是，在本申请提出申请之前，当用户输入的输入字符串包括两个或者多个POI实体时，基于当前的检索策略获取检索结果存在获取的准确率低、获取检索结果少的问题。例如用户输入的输入字符串为“文慧桥金典烤鸭店”，其中包括了“文慧桥”和“金典烤鸭店”两个POI实体；“文慧桥”是一个地名，“金典烤鸭店”则是一个机构名，用户搜索在文慧桥附近的金典烤鸭店，因为在POI数据库中不会存储”文慧桥”附近的烤鸭店的这种信息，导致检索系统通过当前的信息获取策略进行信息获取时，存在获取结果准确率低，获取结果少，甚至无获取结果的问题。

图1是本申请实施例提供的一种用于获取POI信息的服务系统100的架构示意图。例如，服务系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台，还可以是地图导航平台。服务系统100可以包括服务器110、网络120、客户端130、和数据库140中的一种或多种。

在一些实施例中，服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从客户端130获得的输入字符串，确定目标区域轮廓信息，并在目标区域轮廓信息对应的区域中进行POI检索，获取目标POI。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(CentralProcessing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics ProcessingUnit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

在一些实施例中，客户端130对应的设备类型可以是移动设备，比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，也可以是平板计算机、膝上型计算机、或机动车辆中的内置设备等。

在一些实施例中，数据库140可以连接到网络120以与服务系统100中的一个或多个组件(例如，服务器110，客户端130等)通信。服务系统100中的一个或多个组件可以经由网络120访问存储在数据库140中的数据或指令。在一些实施例中，数据库140可以直接连接到服务系统100中的一个或多个组件，或者，数据库140也可以是服务器110的一部分。

下面结合上述图1示出的服务系统100中描述的内容，对本申请实施例提供的获取POI信息的方法进行详细说明。需要注意的是，该方法既可以由客户端130执行，又可以由服务器110执行。

参照图2所示，为本申请实施例提供的一种获取POI信息的方法的流程示意图，该方法包括：

S201：获取用户通过客户端输入的输入字符串，并对所述输入字符串进行分词处理，得到与所述输入字符串对应检索词汇序列；所述检索词汇序列中包括多个检索词汇；

S202：将所述检索词汇序列输入预先训练的POI实体识别模型中，获得所述检索词汇中的POI实体，以及与各个所述POI实体对应的实体类型；

S203：若识别出的所述POI实体中存在实体类型为地名的目标POI实体，则根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息；

S204：根据所述POI实体中除所述目标POI实体的其他POI实体，从与所述目标区域轮廓信息对应的区域中获取目标POI信息。

以下分别对上述S201～S204加以说明。

I：在上述S201中，输入字符串一般是用户通过客户端的人机交互界面输入的；在某些情况下，输入字符串也可以通过其他途径获得。以用户通过人机交互界面输入输入字符串为例，若该POI信息获取方法的执行主体为服务器，则客户端在接收到用户通过人机交互界面输入的输入字符串后，会将该输入字符串基于与服务器之间的连接发送至服务器；服务器在接收到输入字符串后，会对输入字符串进行分词处理。若该POI信息获取方法的执行主体为客户端，则客户端在接收到用户输入的输入字符串后，对输入字符串进行分词处理。

在对输入字符串进行分词处理后，可以采用下述方式中任意一种：

(1)基于字符串匹配的分词方；在数据词典中，或存储有多个词条；每个词条对应一个POI实体。在对输入字符串进行分词的时候，是将构成输入字符串的字符串与数据词典中的词条进行匹配；若匹配成功，则确定一个检索词汇。

在另一实施例中，在某些情况下，一个POI实体中包括了另一POI实体中的全部字符，例如“北京南站”中包括了“北京”，而这两个POI实体表征不同的POI；针对这种情况，在进行匹配的之前，可以首先使用多种切分尺寸对输入字符串进行切分处理，获取与每个切分尺寸分别对应的多个字符串组。每个字符串组中包括多个字符串。

然后根据数据词典，确定每个字符串组中的POI实体，然后对各个字符串组分别对应的POI实体进行去重复的处理，得到最终识别出的字符串。

切分尺寸的数量和大小均可以根据实际的需要进行设置，例如，多个切分尺寸可以设置为：两个字符、三个字符、四个字符、五个字符、六个字符、七个字符等中任意的多个。

示例性的，各个切分尺寸递增，切分尺寸为大于一个字符，且小于预设的字符数量阈值的整数；相邻的切分尺寸之间的差值为一个字符。例如，多个切分尺寸分别为：两个字符、三个字符、四个字符。

在按照确定的切分尺寸对样本实体序列进行切分时，得到的位置相邻的两个字符串之间，可以有位置相同的字符，也可以没有位置相同的字符。

例如，对“ABCDEFGH”进行切分时，切分尺寸为2个字符，当获得的位置相邻的字符串之间有位置相同的字符时，切分结果包括：AB、BC、CD、DE、EF、FG、GH。当获得的位置相邻的字符串之间没有位置相同的字符时，切分结果可以为：AB、CD、EF、GH。

在进行去重复处理的时候，是检测较大的切分尺寸对应的POI实体中，是否包括了较小的切分尺寸对应的某个POI实体的全部字符；如果是，则去除较小的切分尺寸对应的该POI实体。

(2)采用N元文法模型(N-gram)、因马尔可夫模型、最大熵模型、条件随机场模型等对输入字符串进行分词。

在对输入字符串进行分词后，得到对应的检索词汇序列。在检索词汇序列中包括多个检索词汇。

另外，在另外一种情况中，若得到的检索词汇序列中至包括一个检索词汇，则不需要执行下述S202～S204的步骤，只需要以得到的该检索词汇进行检索，得到目标POI信息即可。

Ⅱ：在上述S202中，参见图3所示，本申请实施例提供一种训练POI实体识别模型的具体方法，包括：

S301：获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列；所述标签标注序列中包括多个与所述样本实体序列中各个样本POI实体一一对应的实体类型标注标签。

在具体实施中，样本实体序列一般由至少两个样本POI实体构成。样本实体包括POI数据库中获取的针对不同POI的建筑物(或者目标地)的名称，如“北京南站”、“金百万”等。

与每个样本实体序列对应的标签标注序列，是指为各个样本实体序列中的各个样本POI实体标注的实体类型标注标签所构成的序列。在本申请中，实体类型一般包括：地名、除地名以外的其他实体；其中，还可以根据实际的需要将除地名以外的其他实例类型进行更详细的划分。同一个实体在不同情况下，对应的实体类型可能会有所不同；例如样本实体序列为“维亚大厦肯德基”，此时“维亚大厦”的实体类型为地名；若样本实体序列为“中关村维亚大厦”，此时“维亚大厦”的实体类型为除地名以外的其他实体。

若构成样本实体序列的各个样本POI实体中，例如若实体类型“地名”用a表示，实体类型“除地名以外的其他实体”用b表示；实体类型“非POI实体”用c表示，则对于样本实体序列“维亚大厦”、“肯德基”，对应的标签标注序列为：a、b。

示例性的，本申请实施例还提供一种获取样本实体序列以及与每个样本实体序列对应的标签标注序列的具体方法，包括：

此处，在从样本词汇中确定样本POI实体时，可以采用人工的方法，也可以按照上述分词方法来进行。在此不再赘述。

S302：针对每个所述样本实体序列，将该样本实体序列输入至条件随机场模型，确定与该样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分；所述标签标注序列为多个所述标签预测序列中的一个。

S303：根据所述得分，对所述条件随机场模型进行训练，得到所述POI实体识别模型。

具体地，样本实体序列对应的多个标签预测序列，是指当前样本实体序列有可能取到的所有标签序列。

例如，若POI实体的类型包括：地名和除地名外的其他类别，分别是用A、和B来表示。对于样本实体序列中的样本POI实体分别为：S1、S2和S3。则与该样本实体序列对应的标签预测序列分别为：(A，A，A)、(A，A，B)、(A，B，A)、(A，B，B)、(B，A，A)、(B，A，B)、(B，B，A)、(B，B，B)共8种。类似的，若对样本实体序列包括3个样本POI实体，POI实体的类别有5种，则可能的标签预测序列包括：3⁵种。

参见图4所示，本申请实施例还提供一种确定与所述样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分的具体方法，包括：

S401：基于所述条件随机场模型，针对每个标签预测序列，根据概率转移矩阵，确定该标签预测序列中每两个位置相邻的预测标签对应的转移概率。

S402：根据该标签预测序列中每两个位置相邻的预测标签对应的转移概率，确定该标签预测序列对应的得分。

在具体实施中，在条件随机场模型中存在一概率转移矩阵A，该概率转移矩阵中的每个元素，表示标签y^g转移标签y^h的概率，其中，g＝1，2，……，n_class；h＝1，2，……，n_class，n_class为POI实体类型的数量。

也即，A_gh＝p(y_t＝y^h|y_t-1＝y^g)。

例如，若有5个分类，则得到的概率转移矩阵为：

此处，概率转移矩阵可以预先根据爬取到的语料获取，也可以初始化得到，并在对条件随机场模型进行训练的过程中，将该概率转移矩阵也作为参数调整的目标。

对于输入第i个样本实体序列X_i＝(x_i1，x_i2，……，x_im)，其中，m为该样本实体序列中字符串的数量；对应的标签预测序列Y_i＝(y_i1,y_i2,……，y_im)的得分为：

确定了各个标签预测序列对应的分后，就能够根据各个所述标签预测序列对应的得分，以及与所述标签标注序列对应的标签预测序列的得分，确定模型损失；根据所述模型损失，调整所述条件随机场模型的参数，完成对所述条件随机场模型的本轮训练；将经过多轮训练的条件随机场模型确定为所述POI实体识别模型。

另外，还可以采用其他模型对输入字符串中的POI实体进行识别。

Ⅲ：在上述S203中，在基于上述步骤S202识别出输入字符串中的各个POI实体后，首先会确定识别出的POI实体中是否包括用于表征地理位置的目标POI实体。若确定识别出的POI实体中包括了目标POI实体，则可基于目标POI实体确定目标检索区域。

示例性的，在POI数据库中，存储有与各个不同POI实体对应的区域轮廓信息。该区域轮廓信息是通过对不同道路或区县的轮廓信息进行挖掘得到的。其中，区域轮廓信息包括多个位置点，以及与每个位置点对应的地理位置坐标；将这些位置点依次连线，即形成了与该区域轮廓信息对应的区域轮廓。

具体地，参见图5所示，本申请实施例提供一种确定POI实体与区域轮廓信息之间映射关系的具体方法，包括：

S501：获取目标区域内多条目标道路中每个路段的地理位置信息。

此处，目标区域可以根据实际的需要进行设定，例如某个城镇、某个市、省中的某个地区、省中的某几个相邻的地区、某个省、某几个相互相邻的省等，均可作为目标区域。目标道路一般市根据目标区域的不同来进行设定的。每个路段的地理位置信息，包括：多个位置点，以及与每个地理位置点对应的地理位置坐标。

示例性的，可以将道路等级达到一定标准的道路作为目标道路。例如，在城市道路等级中，包括：快速度、主干路、次干路、之路、街坊路五个等级，那么在在将某个市作为目标区域时，可以将该市中的快速度、主干路、次干路、支路作为目标道路；而街坊路则不将其做为目标道路。

S502：根据所述地理位置信息，将所述目标区域划分为多个目标子区域；其中，每个所述目标子区域均以多个路段为边界。

这里，目标子区域内一般不存在其他目标道路的路段。

在另一实施例中，在将目标区域划分为多个目标子区域时，可以根据目地理位置信息和目标区域的行政区域轮廓信息来进行。

例如在根据地理位置信息划分的目标子区域内虽然没有其他目标道路的路段，但是与该目标子区域相邻的另一目标子区域和该目标子区域归属于同一行政区域范围内，则可以将这两个目标子区域进行合并，形成一个较大的目标子区域。

S503：针对每个所述目标子区域，根据作为该目标子区域边界的路段对应的地理位置信息，生成与该目标子区域对应的区域轮廓信息。

这里，可以直接将作为该目标子区域边界的路段对应的地理位置信息，作为与该目标子区域对应的区域轮廓信息；也可以根据作为该目标子区域边界的路段对应的地理位置信息，获得与目标子区域对应的外接矩形区域的区域轮廓信息，将该外接矩形区域的区域轮廓信息，作为与该目标子区域对应的区域轮廓信息。

S504：将所有地理位置落入所述区域轮廓信息对应的区域内的POI的名称，作为与该区域轮廓信息对应的POI实体，并建立该区域轮廓信息与该POI实体之间的映射关系。

这里，若某个POI的地理位置落入该区域轮廓信息对应的区域内，则将该POI的名称作为与该区域轮廓信息对应的POI实体，并建立该区域轮廓信息与该POI实体之间的映射关系。也即，一个区域轮廓信息会和多个POI实体对应。

在确定与目标POI实体对应的目标区域轮廓信息时，可能存在目标POI实体没有对应的目标区域轮廓信息的情况。

因此，在具体实现时，可以首先根据映射关系，确定是否存在与目标POI实体对应的区域轮廓信息。在存在时，则将与目标POI实体对应的区域轮廓信息确定为目标区域轮廓信息。

Ⅳ：在上述S203中，获取目标POI信息的过程，是以识别出的POI实体中除目标POI实体以外的其他POI实体为关键字进行检索，所获得的目标POI信息为地理位置落入与目标区域轮廓信息对应的区域中的POI信息。

在本申请另一实施例中，若识别出的所述POI实体中不存在实体类型为地名的目标POI实体时，则基于确定的POI实体检索并获取至少一条目标POI信息。

基于同一发明构思，本申请实施例中还提供了与获取POI信息的方法对应的获取POI信息的装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述获取POI信息的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6所示，为本申请实施例提供的一种获取POI信息的装置的示意图，所述装置包括：获取模块61、识别目标62、确定模块63、以及检索模块64；其中，

获取模块61，用于获取用户通过客户端输入的输入字符串，并对所述输入字符串进行分词处理，得到与所述输入字符串对应检索词汇序列；所述检索词汇序列中包括多个检索词汇；

识别目标62，用于将所述检索词汇序列输入预先训练的POI实体识别模型中，获得所述检索词汇中的POI实体，以及与各个所述POI实体对应的实体类型；

确定模块63，用于在识别出的所述POI实体中存在实体类型为地名的目标POI实体，则根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息；

检索模块64，用于根据所述POI实体中除所述目标POI实体的其他POI实体，从与所述目标区域轮廓信息对应的区域中获取目标POI信息。

一种可选的实施方式中，还包括：模型训练模块65，用于采用下述方式训练所述POI实体识别模型：

一种可选的实施方式中，所述模型训练模块65，用于采用下述方式获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列：

一种可选的实施方式中，所述模型训练模块65，用于采用下述方式确定与所述样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分：

一种可选的实施方式中，所述模型训练模块65，用于采用下述方式根据所述得分，对所述条件随机场模型进行训练：

一种可选的实施方式中，所述检索模块64，还用于在识别出的所述POI实体中不存在实体类型为地名的目标POI实体时，基于确定的所述POI实体检索并获取至少一条目标POI信息。

一种可选的实施方式中，所述确定模块63，用于采用下述方式根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息：

一种可选的实施方式中，还包括：映射关系获取模块66，用于采用下述方式确定POI实体与区域轮廓信息之间映射关系：

获取目标区域内多条目标道路中每个路段的地理位置信息；

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本申请实施例还提供了一种计算机设备70，如图7所示，为本申请实施例提供的计算机设备70结构示意图，包括：处理器71、存储器72、和总线73。所述存储器72存储有所述处理器71可执行的机器可读指令(比如，图6中的装置中获取模块61、识别目标62、确定模块63、以及检索模块64对应的执行指令等)，当计算机设备70运行时，所述处理器71与所述存储器72之间通过总线73通信，所述机器可读指令被所述处理器71执行时执行如下处理：

一种可能的实施方式中，处理器71执行的指令中，采用下述方式训练所述POI实体识别模型：

一种可能的实施方式中，处理器71执行的指令中，所述获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列，包括：

一种可能的实施方式中，处理器71执行的指令中，所述确定与所述样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分，包括：

一种可能的实施方式中，处理器71执行的指令中，所述根据所述得分，对所述条件随机场模型进行训练，包括：

一种可能的实施方式中，处理器71执行的指令中，还包括：若识别出的所述POI实体中不存在实体类型为地名的目标POI实体，则基于确定的所述POI实体检索并获取至少一条目标POI信息。

一种可能的实施方式中，处理器71执行的指令中，根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息，包括：

一种可能的实施方式中，处理器71执行的指令中，采用下述方式确定POI实体与区域轮廓信息之间映射关系：

获取目标区域内多条目标道路中每个路段的地理位置信息；

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述获取POI信息的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述获取POI信息的方法，从而解决现有技术中存在的POI获取准确率低的问题，能够通过输入字符串中实体的类别进行识别，并通过识别出的能够表征地名的目标POI实体，来确定区域轮廓，并在确定的区域轮廓对应的区域内，以其他POI实体进行检索获取目标POI信息，提升POI信息获取的准确率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种获取兴趣点POI信息的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，采用下述方式训练所述POI实体识别模型：

3.根据权利要求2所述的方法，其特征在于，所述获取多个样本实体序列，以及与每个所述样本实体序列对应的标签标注序列，包括：

4.根据权利要求2所述的方法，其特征在于，所述确定与所述样本实体序列对应的多个标签预测序列中每个标签预测序列分别对应的得分，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述得分，对所述条件随机场模型进行训练，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：若识别出的所述POI实体中不存在实体类型为地名的目标POI实体，则基于确定的所述POI实体检索并获取至少一条目标POI信息。

7.根据权利要求1所述的方法，其特征在于，根据所述目标POI实体，以及POI实体与区域轮廓信息之间的映射关系，确定与所述目标POI实体对应的目标区域轮廓信息，包括：

8.根据权利要求1所述的方法，其特征在于，采用下述方式确定POI实体与区域轮廓信息之间映射关系：

获取目标区域内多条目标道路中每个路段的地理位置信息；

9.一种获取兴趣点POI信息的装置，其特征在于，该装置包括：

10.一种计算机设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至8任一所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一所述方法的步骤。