CN111026937A

CN111026937A - 提取poi名称的方法、装置、设备和计算机存储介质

Info

Publication number: CN111026937A
Application number: CN201911105580.XA
Authority: CN
Inventors: 黄际洲; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-04-17
Anticipated expiration: 2039-11-13
Also published as: JP7185023B2; CN111026937B; EP3848823A4; US20220019632A1; WO2021093308A1; EP3848823A1; JP2022512269A; US11768892B2

Abstract

本申请公开了一种提取POI名称的方法、装置、设备和计算机存储介质，涉及大数据领域。具体实现方案为：获取从POI的图像数据中识别得到的两个以上的文本片段；利用所述文本片段构建两个以上的候选名称；利用预先训练得到的名称排序模型对各候选名称进行排序，依据排序结果确定POI名称；其中所述名称排序模型利用从各候选名称中提取的搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率，依据概率对各候选名称进行排序。本申请实现了POI名称的自动提取，具有较高的准确率。且相比较现有技术中人工审核和标注的方式，降低了人力成本。

Description

提取POI名称的方法、装置、设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种大数据领域中提取POI名称的方法、装置、设备和计算机存储介质。

背景技术

POI(Point ofInterest)指的是兴趣点，是地理信息系统中的一个术语，泛指一切可以抽象为点的地理对象，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站、一所学校、一个医院，等等。POI的主要用途是对事物或事件的位置进行描述，从而增强对事物或事件位置的描述能力和查询能力。

在互联网地图类应用中，POI扮演了非常重要的角色。通过使用POI，用户可以在地图中方便地找到感兴趣的地点以及到达该地点的路线。现实世界中，由于社会的发展，不断有新的POI出现，如何更加全面、及时、准确地挖掘新出现的POI是一项非常重要的工作。作为一种较为常用的方式，可以通过采集图像数据，例如街景图像等，从采集的图像数据中提取POI的名称，并结合采集地点，从而建立POI名称和位置之间的关联关系。

其中在从采集的图像数据中提取POI名称时，现有技术往往对图像数据进行文字识别后需要人工审核和标注的方式来确定POI名称。显然这种方式需要花费大量的人力，成本较高。

发明内容

有鉴于此，本申请提供了一种提取POI名称的方法、装置、设备和计算机存储介质，以便于降低人力成本。

第一方面，本申请提供了一种提取兴趣点POI名称的方法，该方法包括：

获取从POI的图像数据中识别得到的两个以上的文本片段；

利用所述文本片段构建两个以上的候选名称；

利用预先训练得到的名称排序模型对各候选名称进行排序，依据排序结果确定POI名称；

其中所述名称排序模型利用从各候选名称中提取的搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率，依据概率对各候选名称进行排序。

根据本申请一优选实施方式，利用所述文本片段构建两个以上的候选名称包括：

将所述文本片段进行排列组合，得到两个以上的候选名称；

所述依据排序结果确定POI名称包括：

将排在首位的候选名称作为所述POI名称。

从所述文本片段中识别出分店信息片段；

将所述文本片段中除所述分店信息片段之外的其他文本片段进行排列组合，得到两个以上的候选名称；

所述依据排序结果确定POI名称包括：

将排在首位的候选名称与所述分店信息片段进行结合，得到所述POI名称。

根据本申请一优选实施方式，从所述文本片段中识别出分店信息片段包括：

利用预先训练得到的判别模型对各文本片段进行判别，以确定各文本片段是否为分店信息片段。

根据本申请一优选实施方式，所述判别模型采用如下方式预先训练得到：

从POI数据库中获取样本数据，其中将分店信息文本作为正样本，将非分店信息文本作为负样本；

利用所述样本数据训练判别模型。

根据本申请一优选实施方式，从候选名称中提取搜索网页特征包括：

将候选名称作为query进行搜索；

对获取到的搜索结果进行语义编码，得到搜索结果的隐向量作为所述候选名称的搜索网页特征。

根据本申请一优选实施方式，所述对获取到的搜索结果进行语义编码，得到搜索结果的隐向量包括：

获取排在前N个的搜索结果文本，所述N为预设的正整数；

对获取到的各搜索结果文本分别进行语义编码，得到各搜索结果文本的隐向量；

对所述各搜索结果文本的隐向量进行融合处理后，得到所述搜索结果的隐向量。

根据本申请一优选实施方式，从候选名称中提取文档统计特征包括：

在网页数据中统计所述候选名称的逆文档频率；

将所述逆文档频率的表示向量作为所述候选名称的文档统计特征。

根据本申请一优选实施方式，从候选名称中提取语义特征包括：

基于候选名称所包含各文本片段的语义特征、位置特征和文档统计特征中的至少一种，得到各文本片段的语义表示向量；

将所述各文本片段的语义表示向量进行融合处理，得到所述候选名称的语义表示向量。

根据本申请一优选实施方式，所述文本片段的语义表示向量采用如下方式确定：

对文本片段进行语义编码，得到文本片段的隐向量；

将文本片段在候选名称中的位置进行向量空间的映射，得到文本片段的位置表示向量；

在网页数据中统计所述文本片段的逆文档频率，得到所述逆文档频率的表示向量；

将文本片段的隐向量、位置表示向量和逆文档频率的表示向量进行拼接，得到该文本片段的语义表示向量。

第二方面，本申请提供了一种建立名称排序模型的方法，该方法包括：

获取训练样本，所述训练样本包括POI名称的正例和反例；

从各训练样本中提取搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各训练样本作为POI名称的概率；

利用pairwise算法进行训练得到名称排序模型，其中训练目标为最大化正例作为POI名称的概率与负例作为POI名称的概率之间的差值。

根据本申请一优选实施方式，从训练样本中提取搜索网页特征包括：

将训练样本作为query进行搜索；

对获取到的搜索结果进行语义编码，得到搜索结果的隐向量作为所述训练样本的搜索网页特征。

获取排在前N个的搜索结果文本，所述N为预设的正整数；

根据本申请一优选实施方式，从训练样本中提取文档统计特征包括：

在网页数据中统计所述训练样本的逆文档频率；

将所述逆文档频率的表示向量作为所述训练样本的文档统计特征。

根据本申请一优选实施方式，从训练样本中提取语义特征包括：

基于训练样本所包含各文本片段的语义特征、位置特征和文档统计特征中的至少一种，得到各文本片段的语义表示向量；

将所述各文本片段的语义表示向量进行融合处理，得到所述训练样本的语义表示向量。

对文本片段进行语义编码，得到文本片段的隐向量；

第三方面，本申请还提供了一种提取POI名称的装置，该装置包括：

获取单元，用于获取从POI的图像数据中识别得到的两个以上的文本片段；

构建单元，用于利用所述文本片段构建两个以上的候选名称；

排序单元，用于利用预先训练得到的名称排序模型对各候选名称进行排序；其中所述名称排序模型利用从各候选名称中提取的搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率，依据概率对各候选名称进行排序；

确定单元，用于依据所述排序单元的排序结果确定POI名称。

第四方面，本申请还提供了一种建立名称排序模型的装置，该装置包括：

样本获取单元，用于获取训练样本，所述训练样本包括POI名称的正例和反例；

模型训练单元，用于从各训练样本中提取搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各训练样本作为POI名称的概率；利用pairwise算法进行训练得到名称排序模型，其中训练目标为最大化正例作为POI名称的概率与负例作为POI名称的概率之间的差值。

第五方面，本申请还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述任一项所述的方法。

第六方面，本申请还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

由以上技术方案可以看出，本申请提供的方法、装置、设备和计算机存储介质具备以下优点：

1)本申请利用从POI的图像数据中识别得到的文本片段构造候选名称后，利用候选名称的搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率并以此对各候选名称进行排序，从而实现了POI名称的自动提取，具有较高的准确率。且相比较现有技术中人工审核和标注的方式，降低了人力成本。

2)本申请可以首先识别出分店信息片段，然后利用除分店信息片段之外的其他文本片段构造候选名称并进行排序，然后利用排在首位的候选名称和分店信息片段来得到POI名称的方式，能够更进一步提高POI名称提取的准确性和效率。

3)本申请中使用了候选名称的文档统计特征、搜索网页特征以及语义特征，将逆文档频率、搜索结果以及各文本片段的位置、逆文档频率和语义等对候选名称的表意能力描述引入候选名称作为POI名称的概率估计，从而选择出对POI名称进行最优表意的候选名称。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1示出了可以应用本申请实施例的方法或装置的示例性系统架构；

图2为本申请实施例提供的主要方法流程图；

图3为本申请实施例提供的POI招牌图像的实例图；

图4为本申请实施例提供的一种优选方法流程图；

图5为本申请实施例提供的名称排序模型的架构示意图

图6为本申请实施例提供的建立排序模型的方法流程图；

图7为本申请实施例提供的提取POI名称的装置结构图；

图8为本申请实施例提供的建立名称排序模型的装置结构图；

图9是用来实现本申请实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本申请实施例的方法或装置的示例性系统架构。如图1所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如地图类应用、网页浏览器应用、通信类应用等。

终端设备101和102可以是能够运行地图类应用的各类用户设备。包括但不限于智能手机、平板电脑、PC、智能电视等等。本申请所提供的提取POI名称的装置以及建立名称排序模型的装置可以设置并运行于上述服务器104中，也可以运行于独立于服务器104的设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。服务器104可以与POI数据库105之间进行交互，具体地，服务器104可以从POI数据库105中获取数据，也可以将数据存储于POI数据库105中。POI数据库105中存储有包括POI信息的地图数据。

例如，提取POI名称的装置设置并运行于上述服务器104中，服务器104采用本申请实施例提供的方法基于POI图像数据进行POI名称的提取，然后利用获取的POI的名称以及该POI图像数据对应的地点更新POI数据库105。服务器104能够响应于终端设备101、102的查询请求，查询POI数据库105，并向终端设备101、102返回所查询POI的信息。终端设备101、102也可以采用POI图像数据，并将POI图像数据以及对应的采集地点信息上传至服务器107。

服务器104可以是单一服务器，也可以是是多个服务器构成的服务器群组。另外104除了以服务器的形式存在之外，也可以是具有较高计算性能的其他计算机系统或处理器。应该理解，图1中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器和数据库。

实施例一、

图2为本发明实施例提供的主要方法流程图，如图2中所示，该方法可以包括以下步骤：

在201中，从POI的图像数据中识别两个以上的文本片段。

本申请的场景是：已采集到POI的图像数据，需要从POI的图像数据中提取POI名称。本申请并不限于POI的图像数据的采集方式，可以由专门的采集人员到POI实地进行采集，也可以由用户通过终端设备进行采集和上传等等。该POI的图像数据通常为拍摄的POI的招牌图像，例如图3中所示。

可以采用诸如OCR(Optical Character Recognition，光学字符识别)的方式对POI的图像数据进行文本识别，本申请适用于POI的招牌图像中包含多段文本的情况。如图3中所示，从该图像中会识别出“三千家”、“生态减肥”、“银座花园店”三个文本片段。

另外，需要说明的是，若从POI的图像数据中仅识别出一个文本片段，则可以直接将该文本片段作为POI的名称。

在202中，利用识别得到的文本片段构建两个以上的候选名称。

在203中，利用预先训练得到的名称排序模型对各候选名称进行排序，依据排序结果确定POI名称。

其中，名称排序模型利用从各候选名称中提取的搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率，依据概率对各候选名称进行排序。

作为其中一种实现方式，可以将步骤201识别得到的文本片段进行排列组合后，得到两个以上的候选名称；然后利用预先训练得到的名称排序模型对各候选名称进行排序，将排在首位的候选名称作为POI名称。

但作为一种优选的实施方式，可以首先对步骤201识别得到的文本片段进行分店信息的识别，然后再构建候选名称并进行排序得到最终的POI名称，这种方式能够提供更加准确的POI名称。下面结合实施例对这种优选的实施方式进行详细描述。

实施例二、

图4为本申请实施例提供的一种优选方法流程图，如图4中所示，该方法可以包括以下步骤：

在401中，从POI的图像数据中识别两个以上的文本片段。

本步骤与步骤201相同，在此不做赘述。

在402中，从识别得到的文本片段中识别出分店信息片段。

本步骤中，可以利用预先训练得到的判别模型对各文本片段进行判别，以确定各文本片段是否为分店信息片段。

在本申请中可以从POI数据库中预先获取训练样本，例如从POI数据库中获取POI名称“海底捞火锅万柳店”，切分为两个文本片段“海底捞火锅”和“万柳店”。人工标注“海底捞火锅”为非分店信息片段，即作为反例，人工标注“万柳店”为分店信息片段，即作为为正例。然后利用训练样本训练判别模型。其中判别模型可以采用但不限于基于ERNIE(Enhanced Representation from kNowledge IntEgration，知识增强语义表示模型)、BERT(Bidirectional Encoder Representations from Transformers，来自transformer的双向编码器表征)的判别模型、GBDT(Gradient Boosting Decision Tree，梯度提升树)模型，等等。

训练得到判别模型后，将文本片段输入判别模型就能够得到判别模型输出的判别结果，即文本片段是否为分店信息片段。

需要说明的是，除了采用预先训练得到的判别模型进行分店信息片段的识别之外，本申请还可以采用其他方式进行分店的识别。例如基于模板的方式，基于关键词词典的方式，等等。举个例子，预先配置模板“__分店”、“__分部”、“__分园”、“__分院”等，与这些模板匹配的文本片段被识别为分店信息片段。

在403中，将识别得到的文本片段中除分店信息片段之外的其他文本片段进行排列组合，得到两个以上的候选名称。

假设识别得到的文本片段为m个，识别出其中一个分店信息片段为t_b，剩下的m-1个文本片段的集合T1为{t_i}，i＝1,…,m-1。m为大于或等于2的正整数，将T1中的各文本片段进行全排列组合构造出候选名称集合P，P为{P_j}。即P为从T1中随机抽取出k个文本片段进行排列组合并集，k的取值为从1到m-1。

举个例子，从图3所示图像中识别出“三千家”、“生态减肥”、“银座花园店”三个文本片段，其中在402中识别出“银座花园店”为分店信息片段。那么剩下的文本片段“三千家”、“生态减肥”进行全排列组合后，得到的集合P为{“三千家”，“生态减肥”，“三千家生态减肥”，“生态减肥三千家”}。也就是说，得到了四个候选名称，分别为“三千家”，“生态减肥”，“三千家生态减肥”，“生态减肥三千家”，需要对这四个候选名称进行作为POI名称的概率排序。

在404中，利用预先训练得到的名称排序模型对各候选名称进行排序。

名称排序模型从候选名称中提取搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率，然后依据概率对各候选名称进行排序。作为一种优选的实施方式，在本实施例中以提取搜索网页特征、文档统计特征以及语义特征三种为例进行描述。即将各P_j输入名称排序模型，从P_j中提取搜索网页特征、文档统计特征以及语义特征，得到P_j作为POI名称的概率，然后依据各P_j的概率进行排序。

下面结合图5所示的模型架构，分别就三种特征的提取进行详细描述。

1)搜索网页特征的提取。

在从候选名称P_j中提取搜索网页特征时，可以将候选名称P_j作为query(搜索关键词)进行搜索，然后对获取到的搜索结果进行语义编码，得到搜索结果的隐向量作为候选名称P_j的搜索网页特征。

为了减小计算量，在本实施例中，可以取搜索结果中排在前N个的搜索结果文本，N为预设的正整数。另外，由于搜索结果的标题通常能够很好的表达搜索结果文本的含义，因此可以获取排在前N个搜索结果的标题文本。例如前N个搜索结果记为R＝{d_k},k＝1，…,N。

举个例子，对于候选名称“三千里生态减肥”而言，将其作为query进行网页搜索，从搜索中获取前N个搜索结果的标题文本，这有助于获取大众理解的该POI的最合理的名称。例如得到的搜索结果的标题文本包括“我要点评_三千家生态减肥”、“三千家生态减肥吧”，等等。然后对各标题文本分别进行语义编码，得到各搜索结果的标题文本的隐向量。

在进行语义编码时，为了解决POI名称的长尾现象，可以采用字符粒度的语言模型ERNIE进行语义编码。但除了ERNIE之外，也可以采用诸如可以使用传统的word2vec模型、glove模型等。后续实施例中涉及的语义编码以提取隐向量的方式均可如此。

例如，对搜索结果的标题文本d_k进行语义编码得到向量序列，然后对向量序列求平均得到标题文本d_k的隐向量

然后对各搜索结果标题文本的隐向量进行融合处理，得到搜索结果的隐向量。其中，融合处理可以是诸如求平均等处理方式。例如，P_j的搜索结果的隐向量V_dj为：

2)文档统计特征的提取。

有些时候某些候选名称是存在歧义的，例如候选名称“三千家”而言，可能存在“三千家生态减肥”的POI、“三千家茶铺”的POI、“三千家鲜奶茶”的POI。因此如果使用“三千家”作为POI名称显然歧义问题会对用户带来困扰。在本申请实施例中，可以引入候选名称的IDF(inverse document frequency，逆文档频率)特征来描述候选名称的表意能力。如果候选名称P_j在全网中出现的频率越少，表示越稀有，能独立表达一个POI的能力越强。

基于上述理论，在从候选名称P_j中提取文档统计特征时，可以在网页数据中统计候选名称P_j的IDF，将IDF的表示向量作为P_j的文档统计特征。具体地，P_j的IDF可以采用如下公式计算：

其中，DOC_NUM表示网页总数，DF表示包含候选名称P_j的网页数量，pow(x,y)函数用于求x的y次幂，α是超参数，可以取实验值，或者由人工进行调整。

获得候选名称P_j的IDF后，由于IDF是一个连续统计值，为了模型的稳定性，可以将IDF离散化后再利用嵌入层(图5中表示为Emb)转换成稠密向量表示，即得到P_j的IDF表示向量

3)语义特征的提取。

在本申请中，可以直接对候选名称进行语义编码，得到候选名称的隐向量作为语义特征。但候选名称作为一个整体，以字符串粒度的编码器进行语义编码会丢弃了片段级别的信息。但实际上从POI图像数据中提取的名称片段是一个表意的整体，因此作为一种优选的实施方式，候选名称的语义特征的提取主要分为两个步骤：

S1、基于候选名称所包含各文本片段的语义特征、位置特征和文档统计特征中的至少一种，得到各文本片段的语义表示向量。

首先，对于候选名称P_j而言，需要分别针对其包含的每一个文本片段t_i分别提取语义特征、位置特征和文档统计特征中的至少一种，下面以提取这三种特征为例进行描述。

在提取文本片段t_i的语义特征时，可以对文本片段t_i进行语义编码，得到文本片段t_i的隐向量V_ci。

在提取文本片段t_i的位置特征时，将文本片段t_i在候选名称中的位置进行向量空间的映射，得到文本片段t_i的位置表示向量V_posi。

在提取文本片段t_i的文档统计特征时，与之前提取候选名称的文档统计特征类似，可以在网页数据中统计文本片段的IDF，然后将IDF离散化后再利用嵌入层(图5中表示为Emb)转换成稠密向量表示，即得到t_i的IDF表示向量

最后，将V_ci、V_posi和

进行拼接后得到文本片段t_i的语义表示向量V_ti，例如：

其中，[,]表示其中的向量进行拼接。

S2、将各文本片段的语义表示向量进行融合处理，得到候选名称的语义表示向量。

例如候选名称P_j的语义表示向量V_cj为：

其中，q为P_j中包含的文本片段的数量。

在完成候选名称P_j的上述三个特征后，将得到的P_j的搜索结果的隐向量V_dj、IDF表示向量

以及语义表示向量V_cj进行拼接后，得到P_j的特征向量V_pj。例如：

然后将P_j的特征向量V_pj经过MLP(multi-layer perceptron，多层感知机)，得到P_j作为POI名称的概率Prob_j。

以上是名称排序模型的工作原理，后续会结合实施例三对名称排序模型的建立过程进行详述。

在405中，将排在首位的候选名称与分店信息片段进行结合，得到POI名称。

依据各P_j的概率Prob_j从大到小对各P_j进行排序后，选择排在首位的候选名称，该候选名称可以认为是最合适构成POI名称的。

接续上面的例子，通过上述过程假设确定出集合P{“三千家”，“生态减肥”，“三千家生态减肥”，“生态减肥三千家”}中四个候选名称的概率从大到小分别为：

因此，将“三千家生态减肥”与之前识别出的分店信息片段“银座花园店”进行组合后，得到最终的POI名称为“三千家生态减肥银座花园店”。

在最终确定出POI名称后，可以结合采集该POI的图像数据对应的地点信息，存储POI名称、地址、坐标等信息至POI数据库。后续用户在地图应用中检索该POI时，就能够基于该POI名称、地址、坐标等信息为用户提供服务。

实施例三、

图6为本申请实施例提供的建立排序模型的方法流程图，如图6中所示，该方法可以包括以下步骤：

在601中，获取训练样本，该训练样本中包括POI名称的正例和反例。

本申请中，可以从已有的POI数据库中获取POI名称，因为POI数据库中已经存在的POI名称通常为正确的名称，因此将其作为正例；然后基于POI数据库中已经存在的POI名称，人工构造一些不正确的名称作为反例。

举个例子，假设从POI数据库中获取已有的POI名称“红黄蓝幼儿园上地园”，将其作为正例。但优选地，为了与实施例二相适应，可以将POI名称中的分店信息片段去掉后，作为正例，即将“红黄蓝幼儿园”作为正例。然后人工构造“红黄蓝”、“幼儿园红黄蓝”、“幼儿园”等作为反例。采用这种方式构造出大量正例和反例后，作为训练样本。

在602中，从各训练样本中提取搜索网页特征、文档统计特征以及语义特征中的一种，确定各训练样本作为POI名称的概率。

将各训练样本采用实施例二中步骤404中所提供的方式，针对每一个训练样本(即每一个正例和反例)分别提取搜索网页特征、文档统计特征以及语义特征中的至少一种。以提取搜索网页特征、文档统计特征以及语义特征为例，提取出每一个训练样本的搜索结果的隐向量、IDF表示向量以及语义表示向量并进行拼接后，得到该训练样本的特征向量。然后将该训练样本的特征向量经过MLP，得到该训练样本作为POI名称的概率。具体的过程参见实施例中步骤404的记载，在此不做赘述。

在603中，利用pairwise算法进行训练得到名称排序模型，其中训练目标为最大化正例作为POI名称的概率与负例作为POI名称的概率之间的差值。

在本申请中进行模型训练时利用pairwise算法。即利用一个训练样本的正例和反例分别构成文档对，然后在模型训练过程中，尽量最大化正例作为POI名称的概率与负例作为POI名称的概率之间的差值。例如，采用的损失函数Loss可以为：

其中，margin和γ是超参数，θ是模型参数之一，Prob_p为正例作为POI名称的概率，Prob_n为负例作为POI名称的概率。在上述Loss中采用了L2正则化方法来防止模型过拟合。

在训练过程中可以采用随机梯度下降的方法进行模型参数的优化。

以上是对本申请所提供方法进行的详细描述，下面结合实施例对本申请所提供的装置进行详细描述。

实施例四、

图7为本申请实施例提供的提取POI名称的装置结构图，如图7中所示，该装置可以包括：获取单元01、构建单元02、排序单元03和确定单元04，还可以进一步包括识别单元05和模型训练单元06。其中各组成单元的主要功能如下：

获取单元01，用于获取从POI的图像数据中识别得到的两个以上的文本片段。本申请中并不限于从POI的图像数据中识别得到文本片段的方式，例如可以采用OCR的方式进行识别。

构建单元02，用于利用文本片段构建两个以上的候选名称。

排序单元03，用于利用预先训练得到的名称排序模型对各候选名称进行排序；其中名称排序模型利用从各候选名称中提取的搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各候选名称作为POI名称的概率，依据概率对各候选名称进行排序；

确定单元04，用于依据排序单元的排序结果确定POI名称。

作为其中一种实现方式，构建单元02可以将文本片段进行排列组合，得到两个以上的候选名称。然后确定单元04将排在首位的候选名称作为所述POI名称。

但作为一种优选的实施方式，识别单元05可以从文本片段中先识别出分店信息片段。然后再由构建单元02将文本片段中除分店信息片段之外的其他文本片段进行排列组合，得到两个以上的候选名称。相应地，确定单元04将排在首位的候选名称与分店信息片段进行结合，得到POI名称。

具体地，识别单元05可以利用预先训练得到的判别模型对各文本片段进行判别，以确定各文本片段是否为分店信息片段。

模型训练单元06负责预先训练判别模型。具体地，可以从POI数据库中获取样本数据，其中将分店信息文本作为正样本，将非分店信息文本作为负样本；利用样本数据训练判别模型。

排序单元03在利用名称排序模型从候选名称中提取搜索网页特征时，可以具体执行：

将候选名称作为query进行搜索；

其中，排序单元03在对获取到的搜索结果进行语义编码，得到搜索结果的隐向量时，可以具体执行：

获取排在前N个的搜索结果文本，N为预设的正整数；

对各搜索结果文本的隐向量进行融合处理后，得到搜索结果的隐向量。

排序单元03在利用名称排序模型从候选名称中提取文档统计特征时，可以具体执行：

在网页数据中统计候选名称的逆文档频率；

将逆文档频率的表示向量作为候选名称的文档统计特征。

排序单元03在利用名称排序模型从候选名称中提取语义特征时，具体执行：

将各文本片段的语义表示向量进行融合处理，得到候选名称的语义表示向量。

其中，排序模型03可以采用如下方式确定文本片段的语义表示向量：

对文本片段进行语义编码，得到文本片段的隐向量；

实施例五、

图8为本申请实施例提供的建立名称排序模型的装置结构图，如图8所示，该装置可以包括：样本获取单元11和模型训练单元12。其中，各组成单元的主要功能如下：

样本获取单元11，用于获取训练样本，训练样本包括POI名称的正例和反例。

具体地，可以从已有的POI数据库中获取POI名称，因为POI数据库中已经存在的POI名称通常为正确的名称，因此将其作为正例；然后基于POI数据库中已经存在的POI名称，人工构造一些不正确的名称作为反例。优选地，可以将POI名称中的分店信息片段去掉后，作为正例，再基于此构造反例。

模型训练单元12，用于从各训练样本中提取搜索网页特征、文档统计特征以及语义特征中的至少一种，确定各训练样本作为POI名称的概率；利用pairwise算法进行训练得到名称排序模型，其中训练目标为最大化正例作为POI名称的概率与负例作为POI名称的概率之间的差值。

具体地，模型训练单元12在从训练样本中提取搜索网页特征时，可以具体执行：

将训练样本作为query进行搜索；

对获取到的搜索结果进行语义编码，得到搜索结果的隐向量作为训练样本的搜索网页特征。

其中，模型训练单元12在对获取到的搜索结果进行语义编码，得到搜索结果的隐向量时，可以具体执行：

获取排在前N个的搜索结果文本，N为预设的正整数；

模型训练单元12在从训练样本中提取文档统计特征时，可以具体执行：

在网页数据中统计训练样本的逆文档频率；

将逆文档频率的表示向量作为训练样本的文档统计特征。

模型训练单元12在从训练样本中提取语义特征时，具体执行：

将各文本片段的语义表示向量进行融合处理，得到训练样本的语义表示向量。

其中，模型训练单元12可以采用如下方式确定文本片段的语义表示向量：

对文本片段进行语义编码，得到文本片段的隐向量；

在网页数据中统计文本片段的逆文档频率，得到逆文档频率的表示向量；

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种提取兴趣点POI名称的方法，其特征在于，该方法包括：

获取从POI的图像数据中识别得到的两个以上的文本片段；

利用所述文本片段构建两个以上的候选名称；

2.根据权利要求1所述的方法，其特征在于，利用所述文本片段构建两个以上的候选名称包括：

将所述文本片段进行排列组合，得到两个以上的候选名称；

所述依据排序结果确定POI名称包括：

将排在首位的候选名称作为所述POI名称。

3.根据权利要求1所述的方法，其特征在于，利用所述文本片段构建两个以上的候选名称包括：

从所述文本片段中识别出分店信息片段；

所述依据排序结果确定POI名称包括：

4.根据权利要求3所述的方法，其特征在于，从所述文本片段中识别出分店信息片段包括：

5.根据权利要求4所述的方法，其特征在于，所述判别模型采用如下方式预先训练得到：

利用所述样本数据训练判别模型。

6.根据权利要求1所述的方法，其特征在于，从候选名称中提取搜索网页特征包括：

将候选名称作为query进行搜索；

7.根据权利要求6所述的方法，其特征在于，所述对获取到的搜索结果进行语义编码，得到搜索结果的隐向量包括：

获取排在前N个的搜索结果文本，所述N为预设的正整数；

8.根据权利要求1所述的方法，其特征在于，从候选名称中提取文档统计特征包括：

在网页数据中统计所述候选名称的逆文档频率；

9.根据权利要求1所述的方法，其特征在于，从候选名称中提取语义特征包括：

10.根据权利要求9所述的方法，其特征在于，所述文本片段的语义表示向量采用如下方式确定：

对文本片段进行语义编码，得到文本片段的隐向量；

11.一种建立名称排序模型的方法，其特征在于，该方法包括：

获取训练样本，所述训练样本包括POI名称的正例和反例；

12.根据权利要求11所述的方法，其特征在于，从训练样本中提取搜索网页特征包括：

将训练样本作为query进行搜索；

13.根据权利要求12所述的方法，其特征在于，所述对获取到的搜索结果进行语义编码，得到搜索结果的隐向量包括：

获取排在前N个的搜索结果文本，所述N为预设的正整数；

14.根据权利要求11所述的方法，其特征在于，从训练样本中提取文档统计特征包括：

在网页数据中统计所述训练样本的逆文档频率；

15.根据权利要求11所述的方法，其特征在于，从训练样本中提取语义特征包括：

16.根据权利要求15所述的方法，其特征在于，所述文本片段的语义表示向量采用如下方式确定：

对文本片段进行语义编码，得到文本片段的隐向量；

17.一种提取POI名称的装置，其特征在于，该装置包括：

确定单元，用于依据所述排序单元的排序结果确定POI名称。

18.根据权利要求17所述的装置，其特征在于，该装置还包括：

识别单元，用于从所述文本片段中识别出分店信息片段；

所述构建单元，具体用于将所述文本片段中除所述分店信息片段之外的其他文本片段进行排列组合，得到两个以上的候选名称；

所述确定单元，具体用于将排在首位的候选名称与所述分店信息片段进行结合，得到所述POI名称。

19.根据权利要求18所述的装置，其特征在于，所述识别单元，具体用于利用预先训练得到的判别模型对各文本片段进行判别，以确定各文本片段是否为分店信息片段；

该装置还包括：模型训练单元，用于从POI数据库中获取样本数据，其中将分店信息文本作为正样本，将非分店信息文本作为负样本；利用所述样本数据训练判别模型。

20.根据权利要求17所述的装置，其特征在于，所述排序单元在利用名称排序模型从候选名称中提取搜索网页特征时，具体执行：

将候选名称作为query进行搜索；

获取排在前N个的搜索结果文本，所述N为预设的正整数；

对所述各搜索结果文本的隐向量进行融合处理后，得到搜索结果的隐向量作为所述候选名称的搜索网页特征。

21.根据权利要求17所述的装置，其特征在于，所述排序单元在利用名称排序模型从候选名称中提取文档统计特征时，具体执行：

在网页数据中统计所述候选名称的逆文档频率；

22.根据权利要求17所述的装置，其特征在于，所述排序单元在利用名称排序模型从候选名称中提取语义特征时，具体执行：

23.一种建立名称排序模型的装置，其特征在于，该装置包括：

24.根据权利要求23所述的装置，其特征在于，所述模型训练单元在从训练样本中提取搜索网页特征时，具体执行：

将训练样本作为query进行搜索；

获取排在前N个的搜索结果文本，所述N为预设的正整数；

对所述各搜索结果文本的隐向量进行融合处理后，得到搜索结果的隐向量作为所述训练样本的搜索网页特征。

25.根据权利要求23所述的装置，其特征在于，所述模型训练单元在从训练样本中提取文档统计特征时，具体执行：

在网页数据中统计所述训练样本的逆文档频率；

26.根据权利要求23所述的装置，其特征在于，所述模型训练单元在从训练样本中提取语义特征时，具体执行：

27.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-16中任一项所述的方法。