CN110765368B

CN110765368B - 用于语义检索的人工智能系统和方法

Info

Publication number: CN110765368B
Application number: CN201811647685.3A
Authority: CN
Inventors: 余鹏; 郑万吉; 赵骥; 陈欢; 宋奇; 马利
Original assignee: Ditu Beijing Technology Co Ltd
Current assignee: Ditu Beijing Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-10-27
Anticipated expiration: 2038-12-29
Also published as: CN110765368A; WO2020133549A1

Abstract

本申请涉及语义检索的系统和方法。系统可以执行以下方法：从用户终端获取查询词；使用预先生成的模型将所述查询词变换为查询词向量；使用乘积量化算法，根据所述查询词向量，从检索库检索一组POI向量；以及响应于所述查询词，基于所述一组POI向量确定至少一个POI，用于向用户推荐。

Description

用于语义检索的人工智能系统和方法

技术领域

本申请一般涉及用于语义检索的人工智能系统和方法，更具体地说，涉及基于深度学习的用于语义检索的人工智能系统和方法。

背景技术

在线上到线下服务期间，当用户想要检索感兴趣的地点(point of interest，POI)时，用户可以将与位置有关的查询词输入到在用户终端设备上实现的线上线下服务应用的搜索框中。线上到线下系统可以基于输入的查询词的语义向用户推荐至少一个位置。至少一个推荐位置可以帮助用户快速找出用户想要检索的POI。在用于语义搜索的现有方法中，线上到线下系统可以解析查询词，并且遍历至少两个召回策略以为用户检索至少一个推荐位置。然而，现有方法的问题在于搜索策略复杂，导致搜索效率低和搜索成本高。因此，希望提供直接基于用户输入的查询词的用于语义检索的人工智能系统和方法，更具体地，根据深度学习算法检索POI。

发明内容

本申请的一个方面是介绍一种用于语义检索的系统，该系统可以包括至少一个包括一组指令的存储介质。该系统可以包括通信地连接到网络的数据交换端口。该系统还可以包括与存储介质通信的至少一个处理器。当执行该组指令时，该至少一个处理器可以执行以下操作。至少一个处理器可以经由数据交换端口从用户终端获得查询词。至少一个处理器可以使用预先生成的模型将查询词变换为查询词向量。所述至少一个处理器可以使用乘积量化算法基于查询词向量从检索库检索出一组POI向量。该至少一个处理器可以响应于所述查询词，基于该组POI向量确定至少一个POI，用于向用户推荐。

在一些实施例中，可以通过执行以下操作来基于检索词语义和POI之间的相关性来训练预先生成的模型：获得初始模型；获得至少两个历史检索词-POI对，其中至少两个历史检索词-POI对的每一个包含一个历史查询词和相应的历史POI；对于至少两个历史检索词-POI对的每一个，将至少一个历史查询词或相应的历史POI解析为一个或以上的片段，并基于解析为历史检索词-POI对生成一个或以上文本表达；并使用深度学习方法基于历史检索词-POI对的文本表达训练初始模型，以获得预先生成的模型。

在一些实施例中，预先生成的模型可包括深度POI语义模型(deep POI semanticmodel，DPSM)模型。

在一些实施例中，为了使用乘积量化算法基于查询词向量从检索库检索出该组POI向量，该至少一个处理器可以获得POI数据库中至少两个POI的索引；从查询词中获取至少一个目标位置；并基于索引、查询词向量和至少一个目标位置，从检索库中确定该组POI向量。该组POI向量可以与查询词相关。

在一些实施例中，为了获得POI数据库中至少两个POI的索引，至少一个处理器可以从POI数据库获得至少两个POI；使用预先生成的模型将至少两个POI变换为至少两个POI向量；并使用图形处理单元(GPU)基于至少两个POI向量，生成至少两个POI的索引。

在一些实施例中，为了基于该组POI向量确定至少一个POI，用于响应于查询词向用户推荐，该至少一个处理器可以基于该组POI向量生成标识符(ID)列表。ID列表可以包括一组ID，每个ID指向一个候选POI。所述至少一个处理器可以使用训练好的质检模型确定关于该组POI向量的一组候选POI的一组相似值，每个相似值指示相应的POI与查询词的相关等级。至少一个处理器可以对该组候选POI的该组相似值进行排序。至少一个处理器可以基于该组相似值的排序从该组候选POI中确定至少一个POI。

在一些实施例中，训练好的质检模型是梯度提升决策树(GBDT)模型。

在一些实施例中，为了对候选POI的该组相似值进行排序，对于该组候选POI中的每一个，该至少一个处理器可以确定相应的相似值是否大于得分阈值；获得一个或以上相似值大于得分阈值的相关候选POI；并根据训练好的排序模型对一个或以上相关候选POI进行排序。

在一些实施例中，可以通过排序学习(learning to rank)方法获得训练好的排序模型。

根据本申请的另一方面，一种用于语义检索的人工智能方法可以包括：经由数据交换端口从用户终端获得查询词；使用预先生成的模型将查询词变换为查询词向量；使用乘积量化算法基于查询词向量从检索库检索出一组POI向量；响应于所述查询词，基于该组POI向量确定至少一个POI，用于向用户推荐。

根据本申请的又一方面，一种非暂时性计算机可读介质，包括与语义检索兼容的至少一组指令，其中当由电子设备的至少一个处理器执行时，所述至少一组指令指示至少一个处理器执行方法，该方法包括：从用户终端获得查询词；使用预先生成的模型将查询词变换为查询词向量；使用乘积量化算法基于查询词向量从检索库检索出一组POI向量；响应于所述查询词，基于该组POI向量确定至少一个POI，用于向用户推荐。

根据本申请的又一方面，一种用于语义检索的系统可以包括：查询词获取模块，用于从用户终端获得查询词；查询词向量变换模块，用于使用预先生成的模型将查询词变换为查询词向量；该组POI向量获取模块，用于使用乘积量化算法基于查询词向量从检索库检索出一组POI向量；推荐的POI确定模块，用于响应于所述查询词，基于该组POI向量确定至少一个POI，用于向用户推荐。

一部分的附加特征将在如下描述中详细解释，基于对如下内容和附图的审查或通过实现或操作实施例的学习，一部分的附加特征对本领域技术人员来说是显而易见的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的符号表示相同的部件，其中：

图1是根据本申请的一些实施例所示的示例性人工智能系统的示意图；

图2是根据本申请的一些实施例所示的计算设备的示例性硬件和/或软件组件的示意图；

图3是根据本申请的一些实施例所示的移动设备的示例性硬件组件和/或软件组件的示意图；

图4是根据本申请的一些实施例所示的示例性处理引擎的框图；

图5是根据本申请的一些实施例所示的用于确定至少一个POI的示例性过程的流程图。

图6是根据本申请的一些实施例所示的用于获得预先生成的模型的示例性过程的流程图。

图7是根据本申请的一些实施例所示的用于确定一组PIO向量的示例性过程的流程图。

图8是根据本申请的一些实施例所示的用于生成至少两个POI的索引的示例性过程的流程图；

图9是根据本申请的一些实施例所示的用于确定至少一个POI的示例性过程的流程图。

图10是根据本申请的一些实施例所示的排序一个或以上相关候选POI的示例性过程的流程图；以及

图11是根据本申请的一些实施例所示的用于确定至少一个POI的示例性过程的示意图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲，显然可以对所披露的实施例作出各种改变，并且在不偏离本申请的原则和范围的情况下，本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此，本申请并不限于所描述的实施例，而应该被给予与权利要求一致的最广泛的范围。

本申请中所使用的术语仅用于描述特定的示例性实施例，并不限制本申请的范围。如本申请使用的单数形式“一”、“一个”及“该”可以同样包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本申请说明书中，术语“包括”和/或“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。

在考虑了作为本申请一部分的附图的描述内容后，本申请的特征和特点以及操作方法、结构的相关元素的功能、各部分的组合、制造的经济性变得显而易见。然而，应当理解，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请中使用了流程图用来说明根据本申请的一些实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或者同时处理这些步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。

本申请的一个方面涉及用于语义检索的人工智能系统和方法。为此，人工智能系统和方法可以使用深度POI语义模型(DPSM)模型将用户输入的查询词变换为查询词向量。该人工智能系统和方法可以使用乘积量化算法检索与变换的查询词向量相关的至少两个相似的POI向量。然后，该人工智能系统和方法可以响应于查询词，从至少两个相似的POI向量中选择至少一个最相关的用于向用户推荐的POI。该人工智能系统和方法可以使用训练好的梯度提升决策树(GBDT)模型来预测相似值，该相似值指示至少两个相似POI向量中的POI与查询词的相关等级。以这种方式，该人工智能系统和方法可以确定至少一个最相关的POI并向用户推荐该至少一个最相关的POI。

图1是根据本申请的一些实施例所示的示例性人工智能(AI)系统100的示意图。例如，AI系统100可以是线上到线下服务平台，用于提供诸如出租车呼叫、司机服务、快车、拼车、公交车服务、司机招聘、班车服务、在线导航服务、递送服务等。AI系统100可以包括服务器110、网络120、用户终端130和存储器140。该服务器110可包含处理引擎112。

服务器110可以被配置为处理与用户输入的查询词有关的信息和/或数据。例如，服务器110可以将查询词变换为查询词向量。又例如，服务器110可以基于查询词向量从检索库检索出一组POI向量。再例如，服务器110可以响应于查询词，确定至少一个POI，用于向用户推荐。在一些实施例中，服务器110可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以经由网络120访问存储于用户终端130或存储器140的信息和/或数据。又例如，服务器110可以连接用户终端130和/或存储器140以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，服务器110可以在本申请中的图2描述的包含了一个或以上组件的计算设备200上执行。

在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与用户输入的查询词有关的信息和/或数据，以执行本申请中描述的一个或以上的功能。例如，处理引擎112可以将查询词变换为查询词向量。又例如，处理引擎112可以基于查询词向量从检索库检索出一组POI向量。再例如，处理引擎112可以响应于查询词，确定至少一个POI，用于向用户推荐。在一些实施例中，所述处理引擎112可包括一个或以上处理引擎(例如，单芯片处理引擎或多芯片处理引擎)。仅作为示例，处理引擎112可以包括一个或以上硬件处理器，例如中央处理单元(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任意组合。

网络120可以促进信息和/或数据的交换。在一些实施例中，AI系统100(例如，服务器110、用户终端130和存储器140)的一个或以上组件可以经由网络120向所述AI系统100中的其他组件发送信息和/或数据。例如，服务器110可以经由网络120从用户终端130获得查询词。又例如，服务器110可以向用户终端130发送至少一个推荐的POI，以使用户终端130呈现至少一个推荐的POI。在一些实施例中，网络120可以为任意形式的有线或无线网络，或其任意组合。仅作为示例，网络120可以包括缆线网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网络(LAN)、广域网路(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共开关电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络等或上述举例的任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或互联网交换点120-1、120-2、......，AI系统100的一个或以上组件可以通过网络交换点连接到网络120以交换数据和/或信息。

用户终端130可以是线上线下服务的用户使用的任何电子设备。在一些实施例中，用户终端130可以是移动设备130-1、平板计算机130-2、膝上型计算机130-3、台式计算机130-4等或其任意组合。在一些实施例中，移动装置130-1可包括可穿戴设备、智慧移动装置、虚拟实境装置、增强实境装置等或其任意组合。在一些实施例中，可穿戴设备可包括智能手镯、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣服、智能背包、智能配件等或其任意组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等或其任意组合。在一些实施例中，虚拟现实设备和/或增强型虚拟现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括Google Glass^TM、RiftCon^TM、Fragments^TM、Gear VR^TM等。在一些实施例中，台式计算机130-4可以是车载计算机、车载电视等。

在一些实施例中，用户终端130可以是具有定位技术的设备，用于定位用户和/或用户终端130的位置。本申请中使用的定位技术可以包括全球定位系统(GPS)、全球卫星导航系统(GLONASS)、北斗导航系统(COMPASS)、伽利略定位系统、准天顶卫星系统(QZSS)、无线保真(WiFi)定位技术等或其任意组合。以上定位技术中的一个或以上可以在本申请中交换使用。

在一些实施例中，用户终端130还可包括至少一个网络端口。该至少一个网络端口可以被配置为经由网络120向AI系统100(例如，服务器110、存储器140)中的一个或以上组件发送信息和/或从其接收信息。在一些实施例中，用户终端130可以在具有图2中所示的一个或以上组件的计算设备200上实现，或者在本申请中具有图3中所示的一个或以上组件的移动设备300上实现。

存储器140可以存储数据和/或指令。例如，存储器140可以存储预先生成的模型、训练好的质检模型和/或训练好的排序模型。又例如，存储器140可以存储检索库、POI数据库和/或至少两个历史检索词-POI对。再例如，存储器140可以存储服务器110可以执行或用于执行本申请中描述的示例性方法的数据和/或指令。在一些实施例中，存储器140可包括大容量储存器、可移动储存器、易失性读写内存、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取内存(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括掩模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(PEROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中，所述存储器140可在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储器140可以包括至少一个网络端口，以与AI系统100中的其他设备通信。例如，存储器140可以连接到网络120，以经由至少一个网络端口与AI系统100(例如，服务器110、用户终端130)的一个或以上组件通信。AI系统100中的一个或以上组件可以经由网络120访问存储在存储器140中的数据或指令。在一些实施例中，存储器140可以直接连接到AI系统100(例如，服务器110、用户终端130)中的一个或以上组件或与之通信。在一些实施例中，存储器140可以是服务器110的一部分。

在一些实施例中，AI系统100(例如，服务器110、用户终端130和存储器140)的一个或以上组件可以通过有线和/或无线通信，以电子和/或电磁信号的形式彼此通信。在一些实施例中，AI系统100还可包括至少一个数据交换端口。至少一个交换端口可以被配置用于在AI系统100中的任何电子设备之间接收和/或发送(例如，以电子信号和/或电磁信号的形式)与确定推荐位置有关的信息。在一些实施例中，至少一个数据交换端口可以是一个或以上天线、网络接口、网络端口等或其任意组合。例如，至少一个数据交换端口可以是连接到服务器110的网络端口，以向其发送信息和/或接收从其发送的信息。

图2是示出计算设备200的示例性硬件和软件组件的示意图，服务器110和/或用户终端130可以根据本申请的一些实施例在该计算设备200上实现。例如，处理引擎112可以在计算设备200上实现并被配置为实现本申请中所披露的功能。

计算设备200可用于实现本申请的AI系统100。计算设备200可用于实现AI系统100中执行本申请中披露的一个或以上功能的任何组件。例如，处理引擎112可以通过其硬件、软件程序、固件或其组合在计算设备200上实现。尽管仅示出了一个这样的计算机，但是为了方便，与本文所述的线上线下服务有关的计算机功能可以在多个类似平台上以分布式方式实现，以分配处理负荷。

例如，计算设备200可以包括连接到网络和从网络连接的通信端口250，以便于数据通信。通信端口250可以是任何用于数据通信的网络端口或数据交换端口。计算设备200还可以包括以一个或以上处理器(例如，逻辑电路)的形式执行程序指令的处理器(例如，处理器220)。例如，处理器可以包括接口电路和处理电路。接口电路可以被配置为从总线210接收电信号，其中电信号编码用于处理电路的结构化数据和/或指令。处理电路可以进行逻辑计算，然后将结论、结果和/或指令编码确定为电信号。处理电路还可以生成包括结论或结果(例如，至少一个推荐的POI)和触发代码的电子信号。在一些实施例中，触发代码可以是AI系统100中的电子设备(例如，用户终端130)的操作系统(或其中安装的应用程序)可识别的格式。例如，触发代码可以是可以激活移动电话的某些功能和/或操作或者让移动电话执行预定的程式的指令、代码、标记、符号等或其任意组合。在一些实施例中，触发代码可以被配置用于更新电子设备的操作系统(或应用程序)，以在电子设备的接口上生成结论或结果(例如，预测结果)的呈现。然后，接口电路可以经由总线210从处理电路发出电信号。

示例性计算设备可以包括内部通信总线210、不同形式的程序存储器和数据存储器，例如磁盘270、只读存储器(ROM)230或随机存取存储器(RAM)240，用于存储由计算设备处理和/或传输的各种数据文件。示例性计算设备也可以包括储存于ROM 230、RAM 240和/或其他形式的非暂时性存储介质中的能够被处理器220执行的程序指令。本申请的方法和/或流程可以以程序指令的方式实现。示例性计算设备还可以包括存储于ROM230、RAM 240和/或其他形式的非暂时性存储介质中的能够被处理器220执行的操作系统。程序指令可以与用于提供线上线下服务的操作系统兼容。计算设备200还包括输入/输出组件260，支持计算机和其他组件之间的输入/输出。计算设备200也可以通过网络通信接收编程和数据。

仅用于说明，图2中仅示出了一个处理器。还考虑了多个处理器；因此，由本申请中描述的一个处理器执行的操作和/或方法步骤也可以由多个处理器联合或单独执行。例如，如果在本申请中，计算设备200的处理器执行步骤A和步骤B，应当理解的是，步骤A和步骤B也可以由计算设备200的两个不同的处理器共同地或独立地执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同地执行步骤A和步骤B)。

图3是根据本申请的一些实施例的可以在其上实现用户终端130的示例性移动设备300的示例性硬件和/或软件组件的示意图。

如图3所示，移动设备300可以包括通信模块310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出350、内存360和存储器390。CPU可以包括类似于处理器220的接口电路和处理电路。在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可包括在移动设备300内。在一些实施例中，移动操作系统370(例如，iOS^TM、Android^TM、Windows Phone^TM等)和一个或以上应用程序380可以从存储器390加载到内存360中，以便由CPU 340执行。应用程序380可以包括浏览器或用于接收和呈现与至少一个推荐POI有关的信息的任何其他合适的移动应用程序。用户与信息流的交互可以通过输入/输出设备350实现，并通过网络120提供给处理引擎112和/或系统100的其他组件。

为了实现本申请中描述的各种模块、单元及其功能，可以将计算机硬件平台用作这里描述的至少一个元件(例如，AI系统100，和/或参考图1-11描述的AI系统100的其他组件)的硬件平台。这种计算机的硬件元件、操作系统和编程语言本质上是传统的，并且假设本领域普通技术人员对其进行了充分的熟悉以使这些技术适用于确定至少一个POI，用于响应于查询词向用户推荐。一台包含用户界面元素的计算机能够被用作个人计算机(personal computer，PC)或其他类型的工作站或终端设备，被适当程序化后也可以作为服务器使用。可知，本领域技术人员应熟悉该计算机装置的结构、程序设计和一般操作，因此，图对其应是不解自明的。

本领域的普通技术人员将理解，当AI系统100的元件执行时，该元件可以通过电信号和/或电磁信号执行。例如，当服务器110处理任务时，例如确定至少一个POI，用于响应于查询词向用户推荐，服务器110可以在其处理器中操作逻辑电路以处理这样的任务。当服务器110完成确定至少一个POI时，服务器110的处理器可以生成编码所述至少一个POI的电信号以推荐给用户。然后，服务器110的处理器可以将电信号发送到与服务器110相关联的目标系统的至少一个数据交换端口。服务器110经由有线网络与目标系统通信，至少一个数据交换端口可以物理连接到电缆，通过电缆可以将电信号发送到用户终端130的输入端口(例如，信息交换端口)。如果服务器110经由无线网络与目标系统通信，则目标系统的至少一个数据交换端口可以是一个或以上可以将电信号转换为电磁信号的天线。在诸如用户终端130和/或服务器110的电子设备内，当其处理器处理指令、发出指令和/或执行动作时，指令和/或动作通过电信号进行。例如，当处理器从存储介质(例如，存储器150)检索或保存数据时，它可以将电信号发送到存储介质的读/写设备，其可以在存储介质中读取或写入结构化数据。该结构数据可以通过电子设备的总线，以电讯号的形式传输至处理器。这里，电信号可以是一个电信号、一系列电信号和/或至少两个分立的电信号。

图4是根据本申请的一些实施例所示的示例性处理引擎112的框图。如图4所示，处理引擎112可包括查询词获取模块410、查询词向量变换模块420、POI向量集获取模块430、推荐的POI确定模块440和模型训练模块450。

查询词获取模块410可以用于从用户终端130获得查询词。用户可以输入查询词以搜索与线上线下服务有关的内容(例如，与线上线下服务的位置有关的内容)。线上线下服务可以包括但不限于导航服务、汽车服务、送餐服务。

查询词向量变换模块420可以被配置用于使用预先生成的模型将由查询词获取模块410获得的查询词变换为查询词向量。在一些实施例中，查询词向量可以是查询词的语义表示。例如，查询词向量可以是表示查询词的数值特性的多维向量，例如128维向量。在一些实施例中，预先生成的模型可包括深度POI语义模型(DPSM)模型。可以在线和/或离线训练DPSM模型，并且可以在本申请的其他地方找到DPSM的训练过程(例如，图5及其描述)。

POI向量集获取模块430可以是使用乘积量化(PQ)算法从检索库检索一组POI向量。在一些实施例中，检索库可以是用于搜索类似内容的算法库，例如，检索库可以包括Facebook开源检索库(例如，Faiss)。在一些实施例中，PQ方法可用于搜索最接近用户输入的查询词的至少两个POI向量。可选地或另外地，用于检索POI向量的PQ方法可以包括基于树的方法(例如，K维(KD)树方法，R树方法等)、基于散列的方法(例如，局部敏感散列(LSH)方法等)或其任意组合。

推荐的POI确定模块440可以被配置用于响应于查询词，基于该组POI向量确定至少一个POI，用于向用户推荐。该至少一个POI可以包括至少一个被确定为与用户输入的查询词最相关的POI。在一些实施例中，用于确定至少一个POI的方法和/或过程可以在本申请的其他地方找到(例如，图5和/或图9及其描述)。

模型训练模块450可以被配置为训练模型。例如，模型训练模块450可以获得初始模型和至少两个历史检索词-POI对。对于至少两个历史检索词-POI对的每一个，模型训练模块450可以将至少一个历史查询词或相应的历史POI解析为一个或以上的片段，并基于解析为历史检索词-POI对生成一个或以上文本表达。模型训练模块450可以使用深度学习方法基于历史检索词-POI对的文本表达训练初始模型，以获得预先生成的模型。关于模型训练的细节可以在本申请的其他地方找到(例如，图6及其描述)。

处理引擎112中的模块可以通过有线连接或无线连接以互相连接或互相通信。有线连接可以包括金属线缆、光缆、混合电缆等或其任意组合。无线连接可以包括局域网络(LAN)、广域网路(WAN)、蓝牙、紫蜂网络、近场通讯(NFC)等或其任意组合。两个或以上模块可以被组合为单个模块，且任意一个模块可以被分成两个或以上单元。例如，模型训练模块450可以分成两个或以上单元，分别用于训练深度POI语义模型(DPSM)模型、梯度提升决策树(GBDT)模型和排序模型。又例如，处理引擎112可包括用于存储与查询词有关的数据和/或信息的存储模块(未示出)。

图5是根据本申请的一些实施例的用于确定至少一个POI的示例性过程500的流程图。过程500可以由AI系统100执行。例如，过程500可以实现为存储在存储器ROM 230或RAM240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行指令时，可以被配置为执行过程500。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程500在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图5所示和下面描述的过程操作的顺序不是限制性的。

在510中，处理引擎112(例如，处理器220、查询词获取模块410)可以从用户终端130获得查询词。

在一些实施例中，用户可以将查询词输入到用户终端130，以搜索与线上线下服务有关的内容(例如，与线上线下服务的位置有关的内容)。在一些实施例中，查询词可以包括文本查询词、语音查询词、图像查询词等或其任意组合。例如，查询词可以包括单词、词语、句子等，或者与位置相关联的任何表达。

在一些实施例中，用户终端130可以通过通信地连接到网络120的数据交换端口，将查询词发送到处理引擎112。处理引擎112可以通过数据交换端口获得查询词。

在520中，处理引擎112(例如，处理器220、查询词向量变换模块420)可以使用预先生成的模型将查询词变换为查询词向量。

在一些实施例中，查询词向量可以是查询词的语义表示。例如，查询词向量可以是表示查询词的数值特性的多维向量。例如，查询词向量可以是128维向量的数学表达。

在一些实施例中，预先生成的模型可包括用于将查询词变换为查询词向量的训练模型。例如，预先生成的模型可以包括深度POI语义模型(DPSM)模型。DPSM模型可以包括查询词模型。查询词模型可以包括至少两层。例如，查询词模型可以包括上下文表示层、特征提取层和向量表达层。处理引擎112可以将查询词输入到DPSM模型中。在查询词分别通过上下文表示层、特征提取层和向量表达层之后，DPSM模型的输出可以是相应的查询词。

在一些实施例中，DPSM模型还可以将POI变换为POI向量，和/或确定对应于查询词的POI的相关等级(例如，相似值)。例如，DPSM模型还可以包括POI模型。POI模型可包括至少两个上下文表示层、至少两个特征提取层和至少两个向量表达层。例如，处理引擎112可以将POI的POI名称分别输入到上下文表示层、特征提取层和向量表达层，以获得POI名称向量。处理引擎112可以将POI的POI地址分别输入到上下文表示层、特征提取层和向量表达层，以获得POI地址向量。然后，处理引擎112可以将POI名称向量和POI地址向量输入到向量表达层以获得POI向量。DPSM模型最终可以基于查询词向量和POI向量输出对应于查询词的POI的相似值。如这里所使用的，处理引擎112可以使用预先生成的模型的中间输出(即，查询词向量、POI向量)。在一些实施例中，用于训练DPSM模型的过程和/或方法可以在本申请的其他地方找到(例如，图6及其描述)。

在一些实施例中，处理引擎112可以将查询词输入到DPSM模型的查询词模型中。DPSM模型的上下文表示层可以对输入的查询词进行分段，并且可以将分段的结果嵌入到单个词的向量表示中(例如，“go”、“location”)和/或短语(例如，“go to”、“a location”)。例如，根据输入的查询词的语义顺序，每个输入的查询词可以被分段为至少两个向量表示，并且每个向量表示可以表示单个词。可以将至少两个向量表示发送到特征提取层。在特征提取层中，可以对根据至少两个向量表示中输入的查询词的语义顺序的任何两个相邻向量表示进行卷积，即，可以提取上下文信息。可以最大池化卷积信息以获得查询词的语义信息。例如，可以选择与每个最大卷积信息对应的向量表示。然后在向量表达层中，可以通过完全连接来拼接语义信息以获得查询词向量。在一些实施例中，可以根据与表示单个词的至少两个向量表示相同的方式，来处理表示短语的至少两个向量表示。

在530中，处理引擎112(例如，处理器220、该组POI向量获取模块430)可以使用乘积量化(PQ)算法基于查询词向量从检索库检索一组POI向量。

在一些实施例中，检索库可以是用于搜索类似内容的算法库。例如，检索库可以包括用于高维最近邻居搜索的Facebook开源检索库(例如，Faiss)。

在一些实施例中，PQ方法可以是用于POI的相似性搜索的基于产品量化的方法。例如，PQ方法可用于搜索最接近用户输入的查询词的至少两个POI向量。在一些实施例中，PQ方法可以包括PQ方法、IVFPQ方法或基于PQ方法的任何改进的方法，或其任意组合。可选地或另外地，用于检索该组POI向量的方法和/或过程可以包括基于树的方法(例如，K维(KD)树方法、R树方法等)、基于散列的方法(例如，局部敏感散列(LSH)方法等)等或其任意组合。

在一些实施例中，该组POI向量可包括与查询词高度相关的至少两个POI向量。例如，一组POI向量可以包括与查询词最相关的预定数量的POI向量。预定数量可以是默认值或由处理引擎112动态确定。

在一些实施例中，处理引擎112可以获取POI数据库中的至少两个POI的索引。索引可以指示至少两个POI的空间信息(例如，国家、城市、街道等)。处理引擎112可以从查询词获取至少一个目标位置。该目标位置可以指示用户搜索的位置，例如，目标位置可以包括城市、街道、道路、地点等或其任意组合。处理引擎112可以基于索引、查询词向量和至少一个目标位置，来确定来自检索库的该组POI向量。该组POI向量可以与查询词相关。例如，处理引擎112可以将索引，查询词向量和至少一个目标位置输入到检索库(例如，Faiss)中。处理引擎112可以首先基于至少一个目标位置的城市ID调用城市的对应索引，然后根据PQ方法搜索与城市中的对应POI相关联的一组POI向量。在一些实施例中，用于检索POI向量组的方法和/或方法可以在本申请的其他地方找到(例如，图7及其描述)。

在540中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以响应于查询词，基于该组POI向量确定至少一个POI，用于向用户推荐。

在一些实施例中，该至少一个POI可以包括被确定为与用户输入的查询词最相关的至少一个POI。处理引擎112可以响应于查询词，将该至少一个POI推荐给用户。

在一些实施例中，处理引擎112可以基于该组POI向量生成标识符(ID)列表。ID列表可以包括一组ID，每个ID指向一个候选POI(例如，一组候选POI-ID对)。该组POI向量可以对应于一组候选POI。对应的候选POI的ID可以是表示候选POI的标识符。处理引擎112可以使用训练好的质检模型确定对应于该组POI向量的一组候选POI的一组相似值。每个相似值可以指示相应的候选POI与查询词的相关等级。对于ID列表中的每个候选POI-ID对，训练好的质检模型可以预测候选位置和查询词的相似值。处理引擎112可以对该组候选POI的相似值的集合进行排序，并从该组候选POI中选择排列在排序靠前的至少一个POI。在一些实施例中，用于确定至少一个POI的方法和/或过程可以在本申请的其他地方找到(例如，图9及其描述)。

在一些实施例中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以向用户推荐至少一个POI。例如，推荐的至少一个POI可以显示在用户终端130的用户界面上以供用户查看和/或选择。仅作为示例，在表1中示出向用户推荐的至少一个响应于查询词的POI。

表1

当用户输入查询词时，处理引擎112可以确定至少一个推荐的POI，并将该至少一个推荐的POI发送给用户(或其用户终端)。例如，如表1所示，当用户通过用户终端输入“梨园贵友”时，处理引擎112可以显示推荐的POI，例如“贵友大厦”、“贵友大厦停车场”、和/或“贵友大厦A座”在用户终端的用户界面上供用户查看和/或选择。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的修正和改变。例如，操作510和操作520可以集成到单个步骤中。然而，这些修正和改变不会背离本申请的范围。

图6是根据本申请的一些实施例的用于获得预先生成的模型的示例性过程600的流程图。过程600可以由AI系统100执行。例如，过程600可以实现为存储在存储器ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行该指令时，可以被配置为执行该过程600。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程600在实现时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图6所示和下面描述的过程操作的顺序不是限制性的。

在610中，处理引擎112(例如，处理器220、模型训练模块450)可以获得初始模型。

在一些实施例中，初始模型可以是一个初始神经网络模型，该初始模型被训练以获得预先生成的模型。例如，如果预先生成的模型是DPSM模型，则初始模型可以是包括初始查询词模型和初始POI模型的初始DPSM模型。初始查询词模型可以是包括至少两层的初始神经网络。例如，初始查询词模型可包括至少两个上下文表示层、至少两个特征提取层、至少两个向量表达层和至少两个输出层。类似地，初始POI模型可以是包括至少两层的初始神经网络。例如，初始POI模型可以包括至少两个上下文表示层、至少两个特征提取层、以及至少两个向量表达层。

在620中，处理引擎112(例如，处理器220、模型训练模块450)可以获得至少两个历史检索词-POI对。在一些实施例中，至少两个历史检索词-POI对中的每一个可包括一个历史查询词和对应的历史POI。

在一些实施例中，历史检索词中的历史检索词-POI对可以指示历史用户输入的历史查询词和对应的用户选择的响应于历史查询词的历史POI的匹配对。例如，历史用户可以输入查询词，例如“梨园贵友”，并且可以向历史用户显示至少两个POI，例如“梨园贵友大厦”、“贵友大厦停车场”、“贵友汽车站”等。响应于查询词，用户可以点击/选择“贵友大厦停车场”。因此，“梨园贵友”和“贵友大厦停车场”可能形成一个检索词-POI对。在一些实施例中，至少两个历史检索词-POI对可以存储在用户日志中。用户日志可以包括用户信息，诸如用户名、用户的历史查询词、用户选择的历史POI等或其任意组合。用户日志可以存储在ROM230、RAM 240和/或其他类型的存储介质中，以由处理引擎112执行。

在630中，对于至少两个历史检索词-POI对的每一个，处理引擎112(例如，处理器220、模型训练模块450)可以将至少一个历史查询词或相应的历史POI解析为一个或以上的片段，并基于解析为历史检索词-POI对生成一个或以上文本表达。

在一些实施例中，对于至少两个历史检索词-POI对的每一个，处理引擎112(模型训练模块450，或模型训练模块450中的分段单元)可以使用不同的分割方法将历史查询词或相应的历史POI分割成一个或以上的片段。例如，处理引擎112可以将“北京大学”的查询词或POI分成三个片段(例如，“北”+“京”+“大学”)或两个片段(例如，“北京”+“大学”)，或一个片段(例如，“北京大学”)。

在一些实施例中，可以基于解析，为历史检索词-POI对生成一个或以上文本表达。文本表达可以是文本表示形式。例如，处理引擎112可以分别基于“北”+“京”+“大学”的三个片段生成“北/京/大学”的文本表达、基于“北京”+“大学”的两个片段生成“北京/大学”的文本表达、以及基于“北京大学”的一个片段生成“北京大学”的文本表达。

在一些实施例中，处理引擎112可以解析每个历史检索词-POI对中的历史查询词和对应的历史POI，以获得历史检索词-POI对的一个或以上文本表达。或者，处理引擎112可以仅解析每个历史检索词-POI对中的历史查询词(或仅相应的历史POI)，以获得历史检索词-POI对的一个或以上文本表达。

在640中，处理引擎112(例如，处理器220、模型训练模块450)可以使用深度学习方法基于历史检索词-POI对的文本表达训练初始模型，以获得预先生成的模型。

在一些实施例中，处理引擎112可以将至少两个历史检索词-POI对的文本表达输入到初始模型中以训练初始模型。例如，处理引擎112可以将至少两个历史检索词-POI对的每一个的一个或以上文本表达输入到包括初始查询词模型和初始POI模型的初始DPSM模型，并根据深度学习方法修改或调整初始查询词模型和初始POI模型的参数(例如，层、节点、权重等)。可以训练初始模型直到初始模型在训练过程中收敛，以获得预先生成的模型。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的修正和改变。然而，这些修正和改变不会背离本申请的范围。在一些实施例中，可以在示例性过程600中的其他地方添加一个或以上其他可选操作(例如，存储操作)。例如，过程600还可以包括在获得预先生成的模型之后存储预先生成的模型。

图7是根据本申请的一些实施例的用于确定一组POI向量的示例性过程700的流程图。过程700可以由AI系统100执行。例如，过程700可以实现为存储在存储器ROM 230或RAM240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行该指令时，可以被配置为执行过程700。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程700在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图7所示和下面描述的过程操作的顺序不是限制性的。

在710中，处理引擎112(例如，处理器220、POI向量集获取模块430)可以获取POI数据库中的至少两个POI的索引。

在一些实施例中，索引可以指示至少两个POI的空间信息(例如，国家、城市、街道等)。例如，POI“北京大学-北京市海淀区颐和园路5号”可以包含在至少两个POI中，与该POI对应的索引可以指示北京或海淀区等的空间信息。索引可以存储在存储器(例如，ROM 230、RAM 240和/或将由处理引擎112执行的其他类型的存储介质中)中。

在一些实施例中，POI数据库可以包括大量POI的数据集。在一些实施例中，处理引擎112可使用预先生成的模型(例如，DPSM模型)将POI数据库中的至少两个POI变换为至少两个POI向量。例如，处理引擎112可以将至少两个POI中的每一个输入到DPSM模型中以获取至少两个POI向量。在一些实施例中，POI向量可以是128维向量的数学表达。处理引擎112可以使用图形处理单元(GPU)通过将至少两个POI向量映射到空间信息来生成索引。POI变换为POI向量的转化可以在本申请的其他地方找到(例如，图8及其描述)。

在一些实施例中，处理引擎112可以使用GPU获取POI数据库中的至少两个POI的索引。可选地或另外地，索引可以是预先生成的并且存储在存储设备(例如，存储器140、ROM230、RAM 240和/或将由处理引擎112执行的其他类型的存储介质)中，并且处理引擎112可以直接从存储器140获取索引。

在720中，处理引擎112(例如，处理器220、该组POI向量获取模块430)可以从查询词获取至少一个目标位置。

在一些实施例中，目标位置可以指示用户搜索的目标区域，例如，目标位置可以包括国家、城市、街道、道路、点等或其任意组合。在一些实施例中，处理引擎112可以从用户终端获得的GPS信息中提取目标位置。例如，处理引擎112可以基于GPS信息获得用户终端所位于的目标城市。在一些实施例中，处理引擎112可以从用户在用户终端130的用户界面上选择的所选位置提取目标位置。例如，在用户输入查询词之前，用户可以在用户界面上选择目标位置。在一些实施例中，目标位置可以包括国家ID、城市ID、街道ID等或其任意组合。

在730中，处理引擎112(例如，处理器220、POI向量集获取模块430)可以基于索引、查询词向量和至少一个目标位置，从检索库中确定该组POI向量。该该组POI向量与查询词相关。

在一些实施例中，处理引擎112可以将查询词向量、索引和至少一个目标位置输入到检索库(例如，Faiss)中。例如，处理引擎112可以使用索引来映射至少一个目标位置(例如，城市ID)，以获得至少一个目标位置的城市中的至少两个POI向量。然后，处理引擎112可以确定城市中的查询词向量和至少两个POI向量之间的相似性，并从城市中的至少两个POI向量中选择一组POI向量。该组POI向量中的每个POI向量可以与查询词向量具有高度相似性。在一些实施例中，处理引擎112可以使用PQ方法执行相似性搜索，以确定查询词向量与城市中的至少两个POI向量之间的相似性。在一些实施例中，该组POI向量可以包括与查询词向量最相似(或最相关)的预定数量的POI向量。预定数量可以是默认值或由处理引擎112动态确定。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的修正和改变。然而，这些修正和改变不会背离本申请的范围。例如，可以在操作710之前执行操作720。

图8是根据本申请的一些实施例的用于生成至少两个POI的索引的示例性过程800的流程图。过程800可以由AI系统100执行。例如，过程800可以实现为存储在存储器ROM 230或RAM240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行指令时，可以被配置为执行过程800。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程800在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图8所示和下面描述的过程操作的顺序不是限制性的。

在810中，处理引擎112(例如，处理器220、POI向量集获取模块430)可以从POI数据库获得至少两个POI。

在820中，处理引擎112(例如，处理器220、POI向量集获取模块430)可以使用预先生成的模型将至少两个POI变换为至少两个POI向量。

在一些实施例中，可以使用预先生成的模型(例如，DPSM模型)将POI数据库中的每个POI变换为POI向量。例如，处理引擎112可以将POI数据库中的每个POI输入到预先生成的模型中。POI可以被输入到DPSM模型的POI模型中。POI模型可以输出响应于所输入POI的POI向量。如这里所使用的，处理引擎112可以使用预先生成的模型的中间输出(即，POI向量)。POI数据库中的每个POI可以被变换为响应于该POI的POI向量。因此，可以使用预先生成的模型将POI数据库中的至少两个POI变换为响应于POI的至少两个POI向量。

在830中，处理引擎112(例如，处理器220、该组POI向量获取模块430)可以使用图形处理单元(GPU)基于至少两个POI向量生成至少两个POI的索引。

在一些实施例中，处理引擎112可以使用图形处理单元(GPU)，通过将至少两个POI向量映射到空间信息来生成索引。例如，GPU可以从至少两个POI向量中的每一个提取空间信息，并且通过将提取的空间信息转换为多维向量来生成索引。索引可以是使用二进制、十六进制值或其他数值转换的空间信息的多维向量。在一些实施例中，GPU中的索引的生成可以离线实现。生成的索引可以存储在ROM 230、RAM 240和/或其他类型的存储介质中，以由处理引擎112执行。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的修正和改变。然而，这些修正和改变不会背离本申请的范围。例如，可以在示例性过程800中的其他地方添加一个或以上其他可选操作(例如，存储操作)。例如，过程800还可以包括在生成索引之后存储索引。

图9是根据本申请的一些实施例的用于确定至少一个POI的示例性过程900的流程图。过程900可以由AI系统100执行。例如，过程900可以实现为存储在存储器ROM 230或RAM240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行该指令时，可以被配置为执行该过程900。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程900在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图9所示和下面描述的过程操作的顺序不是限制性的。

在910中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以基于该组POI向量生成标识符(ID)列表。在一些实施例中，ID列表可以包括一组ID，每个ID指向一个候选POI。

在一些实施例中，该组POI向量可包括与查询词向量最接近或最相似(或最相关)的预定数量的POI向量。该组POI向量中的每个POI向量可以对应于一个候选POI。候选POI可以指示用户可以通过用户终端130搜索的可能目标位置。

在一些实施例中，ID列表可以包括至少两个ID，每个ID指向一个候选POI。每个ID可以是指示候选POI的标识符。处理引擎112可以为与该组POI向量中的每个POI向量相对应的每个候选POI生成ID，并且至少两个ID可以形成ID列表。

在920中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以使用训练好的质检模型确定对应于该组POI向量的一组候选POI的一组相似值。每个相似值可以指示POI相对于查询词的相关等级。

在一些实施例中，相似值可以是指示候选POI与用户输入的查询词之间的相关等级的参数。相似值与候选POI和查询词之间的相关等级可以是正相关性，即相似值越高，POI与查询词之间的相关等级越高。并且用户可能更有可能检索相应的候选POI。例如，如果相似值是1，而另一个相似值是3，则相似值为3的相应的候选POI和输入的查询词之间的相关等级可以高于相似值为1的相应的候选POI和输入的查询词之间相关等级，并且用户可能更有可能获得具有相似值3的候选POI而不是具有相似值1的候选POI。

在一些实施例中，训练好的质检模型可用于预测查询词和POI之间的相似值。例如，训练好的质检模型可以包括梯度推进决策树(GBDT)模型。在一些实施例中，处理引擎112(例如，处理器220、模型训练模块450)可以获得初始模型。例如，初始模型可以是初始GBDT模型。至少两个用户在历史中输入的大量历史查询词和从历史POI列表中召回的响应于历史查询词的历史POI可以被手动标记以获得标记数据。标记数据可以包括手动标记的相似值。可以根据预定标准手动地为查询词和POI列表中的每个POI生成相似值。该预定标准可以手动预先确定。处理引擎112可以将标记数据输入到初始GBDT模型中以训练初始GBDT模型。可以训练初始模型直到初始模型在训练过程中收敛以获得训练好的质检模型。

在一些实施例中，处理引擎112可以将查询词和该组POI向量中的对应于向量的每个候选POI输入训练好的质检模型，训练好的质检模型可以输出查询词和相应的候选POI的相似值。因此，处理引擎112可以针对该组POI向量确定该组候选POI的一组相似值。

在930中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以排序该组候选POI的该组相似值。

在一些实施例中，处理引擎112可以根据预定规则对该组相似值中的相似值进行排序。例如，处理引擎112可以根据升序、降序等或其任意组合来排序该组相似值。又如例，处理引擎112可以首先确定每个相似值是否大于得分阈值。得分阈值可以手动设置或由处理引擎112确定。响应于确定对应的相似值不大于得分阈值，处理引擎112可以删除对应的POI，并且响应于确定对应的相似值大于得分阈值，处理引擎112可以将相应的POI输入排序模型以排列相应的候选POI。排序过程的详细描述可以在本申请的其他地方找到(例如，图10及其描述)。

在940中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以基于该组相似值的排列从该组候选POI确定至少一个POI。

在一些实施例中，处理引擎112可以从排列在该组相似值的排列靠前的候选POI中选择预定数量的POI，并且通过通信连接到网络120的数据交换端口向用户推荐预定数量的POI。预定数量可以是系统的默认数量，或者可以是根据不同条件确定的数量。例如，处理引擎112可以按降序选择与POI的集合相对应的该组相似值的排序中的前5个POI。处理引擎112可以经由用户终端向用户推荐5个POI。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的修正和改变。然而，这些修正和改变不会背离本申请的范围。在一些实施例中，可以在示例性过程900中的其他地方添加一个或以上其他可选操作(例如，存储操作)。例如，过程900还可以包括在确定至少一个POI之后存储至少一个POI。

图10是根据本申请的一些实施例的用于排序一组候选POI的一组相似值的示例性过程1000的流程图。过程1000可以由AI系统100执行。例如，过程1000可以实现为存储在存储器ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行该指令时，可以被配置为执行过程1000。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程1000在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图10所示和下面描述的过程操作的顺序不是限制性的。

在1010中，对于该组候选POI中的每一个，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以确定对应的相似值是否大于得分阈值。

在一些实施例中，得分阈值可用于确定候选POI与查询词的相关等级是否满足要求。例如，响应于候选POI集合中的候选POI的相似值高于得分阈值，处理引擎112可以确定候选POI与查询词的相关等级满足要求。响应于候选POI的相似值小于得分阈值，处理引擎112可以确定候选POI与查询词的相关等级可能不符合要求。在一些实施例中，得分阈值可以是存储设备(例如，存储器140、ROM 230、RAM2 40和/或将由处理引擎112执行的其他类型的存储介质)中存储的默认值，或者可以根据不同的条件动态地确定。

在1020中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以获得具有相似值大于得分阈值的一个或以上相关的候选POI。

在一些实施例中，处理引擎可以选择具有大于得分阈值的相似值的一组候选POI中的一个或以上候选POI作为相关候选POI。例如，得分阈值可以由处理引擎112设置为1，具有相似值小于1的候选POI可以由处理引擎112删除，并且可以由处理引擎112选择具有相似值大于1的候选POI作为相关的候选POI。

在1030中，处理引擎112(例如，处理器220、推荐的POI确定模块440)可以基于训练好的排序模型排序一个或以上相关的候选POI。

在一些实施例中，处理引擎112可以将一个或以上相关的候选POI输入到训练好的排序模型中。排序模型可以排序一个或以上相关候选POI并输出排序顺序。训练好的排序模型可用于预测与查询词相关的至少两个相关候选POI的相关性排序。训练好的排序模型可以预先训练并存储在存储设备(例如，存储器140、ROM 230、RAM 240和/或将由处理引擎112执行的其他类型的存储介质)中，或者可以由处理引擎112在线训练。例如，处理引擎112可以根据学习排序方法(Learn to Rank)训练排序模型。

应该注意的是，上述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的修正和改变。然而，这些修正和改变不会背离本申请的范围。

图11是根据本申请的一些实施例的用于确定至少一个POI的示例性过程1100的示意图。过程1100可以由AI系统100执行。例如，过程1100可以实现为存储在存储器ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220可以执行该组指令，并且当执行该指令时，可以被配置为执行该过程1100。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程1100在实施时可以添加一个或以上本申请未描述的额外操作，和/或删减一个或以上此处所描述的操作。另外，如图11所示和下面描述的过程操作的顺序不是限制性的。

如图11所示，在虚线框中，处理引擎112可以训练DPSM模型。处理引擎112可以在用户日志中获得至少两个历史查询词和至少两个对应的历史POI。历史查询词和相应的历史POI可能形成一个历史的检索词-POI对。处理引擎112可以将历史检索词-POI对解析为一个或以上的片段，并基于解析生成一个或以上用于历史检索词-POI对的文本表达。处理引擎112可以使用深度学习方法基于历史检索词-POI对的文本表达训练初始DPSM模型，以获得DPSM模型。在一些实施例中，训练过程可以由处理引擎112离线执行。

当用户想要线上到线下服务时，用户可以通过用户终端130将查询词输入到线上线下服务的应用的搜索框中来发送用户请求。处理引擎112可以基于用户请求从用户终端130获得查询词和/或城市ID。处理引擎112可以使用Tensor Flow服务(TF_SVR)调用在虚线框中训练的训练好的DPSM模型，并将查询词输入到训练好的DPSM模型中。训练好的DPSM模型可以将查询词变换为查询词向量。处理引擎112可以获得POI数据库，并将POI数据库中的每个POI输入到训练好的DPPSM模型中以获得至少两个POI向量。然后，处理引擎112可以基于该至少两个POI向量和GPU生成索引。处理引擎112可以将查询词、城市ID和索引输入到检索库(例如，Faiss)，并且使用PQ方法执行相似性搜索以检索与查询词类似的至少一个候选POI向量。

处理引擎112可以为至少一个相似POI向量的每一个生成ID以获得ID列表。ID列表可以包括一组ID，每个ID指向一个候选POI。处理引擎112可以针对该组POI向量测试一组候选POI，以测试每个候选POI和查询词之间的相关等级。例如，处理引擎112可以使用训练好的质检模型确定对应于该组POI向量的一组候选POI的一组相似值。每个相似值可以指示相应的候选POI与查询词的相关等级。处理引擎112可以使用训练好的排序模型对该组候选POI的该组相似值进行排序，并且基于该组相似值的排序从该组候选POI中选择至少一个POI。最后，处理引擎112可以由用户终端向用户显示排序结果。处理引擎112可以通过数据交换端口将所选择的至少一个POI推荐给用户终端130，并且响应于查询词，用户可以从该至少一个显示的POI中选择一个POI。

本实施例至少具备以下之一的技术效果：当用户输入查询词时，无需进行复杂的查询词分析或遍历多个召回策略，模型可以直接学习用户的历史查询词和点击的POI，无需特征工程，即可检索到用户想要的POI。解决了搜索策略复杂，导致搜索效率低和搜索成本高的问题。

上文已对基本概念做了描述，显然，对于已阅读此详细披露的本领域的普通技术人员来讲，上述详细披露仅作为示例，而并不构成对本申请的限制。虽然此处并没有明确说明，本领域具有通常知识者可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如，“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可以采取体现在一个或以上计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

计算机可读信号介质可能包含一个内含有计算机程序代码的传播数据信号，例如在基带上或作为载波的一部分。所述传播信号可以有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

本申请各方面操作所需的计算机程序码可以用一种或多种程序语言的任意组合编写，包括面向对象程序设计，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET，Python或类似的常规程序编程语言，如“C”编程语言，Visual Basic，Fortran1703，Perl，COBOL1702，PHP，ABAP，动态编程语言如Python，Ruby和Groovy或其它编程语言。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网络(LAN)或广域网路(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非申请专利范围中明确说明，本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

在一些实施例中，用于描述和要求保护本申请的某些实施例的数量，性质等，应被理解为在一些情况下被术语“约”，“近似”或“基本上”修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

本文中提及的所有专利、专利申请、专利申请公布和其他材料(如论文、书籍、说明书、出版物、记录、事物和/或类似的东西)均在此通过引用的方式全部并入本文以达到所有目的，与上述文件相关的任何起诉文档记录、与本文件不一致或冲突的任何上述文件或对迟早与本文件相关的权利要求书的广泛范畴有限定作用的任何上述文件除外。举例来说，如果任何并入材料相关的与本文件相关的描述、定义和/或术语使用之间有任何不一致或冲突，那么本文件中的描述、定义和/或术语使用应当优先。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。因此，本申请的实施例不限于精确地如所示和所述的那些。

Claims

1.一种用于语义检索的人工智能系统，其特征在于，包括：

查询词获取模块，被配置为通过数据交换端口从用户终端获取查询词；

查询词向量变换模块，被配置为使用预先生成的模型将所述查询词变换为查询词向量；

POI向量集获取模块，被配置为使用乘积量化算法，根据所述查询词向量，从检索库检索一组POI向量；以及

推荐的POI确定模块，被配置为响应于所述查询词，基于所述一组POI向量确定至少一个POI，用于向用户推荐；

还包括模型训练模块，被配置为通过以下步骤基于检索词语义与POI之间的相关性训练所述预先生成的模型：

获得初始模型；

获得至少两个历史检索词-POI对，所述至少两个历史检索词-POI对中的每一个包含一个历史查询词和相应的历史POI；

对于所述至少两个历史检索词-POI对中的每一个，

解析所述至少一个历史查询词或所述至少一个相应的历史POI到一个或以上的片段，以及

基于所述解析为所述历史检索词-POI对生成一个或以上文本表达；以及

使用深度学习方法基于所述至少两个历史检索词-POI对的所述文本表达训练所述初始模型来获得所述预先生成的模型。

2.根据权利要求1所述的系统，其特征在于，所述预先生成的模型包括深度POI语义模型DPSM模型。

3.根据权利要求1至2任一项所述的系统，其特征在于，为使用乘积量化算法，根据所述查询词向量，从检索库检索该组POI向量，所述POI向量集获取模块进一步被配置为：

获取POI数据库中至少两个POI的索引；

从所述查询词获取至少一个目标位置；以及

根据所述索引、所述查询词向量和所述至少一个目标位置，从所述检索库中确定所述一组POI向量，所述一组POI向量与所述查询词有关。

4.根据权利要求3所述的系统，其特征在于，为获取POI数据库中至少两个POI的索引，所述POI向量集获取模块进一步被配置为：

从所述POI数据库中获取所述至少两个POI；

使用所述预先生成的模型将所述至少两个POI变换为所述至少两个POI向量；以及

使用图形处理单元GPU基于所述至少两个POI向量，生成所述至少两个POI的所述索引。

5.根据权利要求1所述的系统，其特征在于，为响应于所述查询词，基于所述一组POI向量确定所述至少一个POI，用于向用户推荐，所述推荐的POI确定模块进一步被配置为：

基于所述一组POI向量生成标识符ID列表，所述ID列表包括一组ID，每个ID指向一个候选POI；

使用训练好的质检模型确定对应于所述一组POI向量的一组候选POI的一组相似值，每个相似值表示相应的POI与所述查询词的相关等级；

排序所述一组候选POI的所述相似值；以及

根据所述一组相似值的所述排序，从所述一组候选POI中确定所述至少一个POI。

6.根据权利要求5所述的系统，其特征在于，所述训练好的质检模型是梯度提升决策树GBDT模型。

7.根据权利要求5所述的系统，其特征在于，为排序所述一组候选POI的所述相似值，所述推荐的POI确定模块进一步被配置为：

对于所述一组候选POI中的每一个，确定所述对应的相似值是否大于得分阈值；

获得一个或以上相关的候选POI，其相似值大于所述得分阈值；以及

基于训练好的排序模型排序所述一个或以上相关的候选POI。

8.根据权利要求7所述的系统，其特征在于，所述训练好的排序模型是通过排序学习learn to rank方法获得的。

9.一种用于在计算设备上实现的语义检索的人工智能方法，所述方法包括：

从用户终端获取查询词；

使用预先生成的模型将所述查询词变换为查询词向量；

使用乘积量化算法，根据所述查询词向量，从检索库检索一组POI向量；以及

响应于所述查询词，基于所述一组POI向量确定至少一个POI，用于向用户推荐；

通过以下步骤基于检索词语义与POI之间的相关性训练所述预先生成的模型：

获得初始模型；

对于所述至少两个历史检索词-POI对中的每一个，

10.根据权利要求9所述的方法，其特征在于，所述预先生成的模型包括深度POI语义模型DPSM模型。

11.根据权利要求9至10任一项所述的方法，其特征在于，所述使用乘积量化算法，根据所述查询词向量，从检索库检索该组POI向量还包括：

获取POI数据库中至少两个POI的索引；

从所述查询词获取至少一个目标位置；以及

12.根据权利要求11所述的方法，其特征在于，所述获取POI数据库中至少两个POI的索引还包括：

从所述POI数据库中获取所述至少两个POI；

13.根据权利要求9所述的方法，其特征在于，所述响应于所述查询词，基于所述一组POI向量确定所述至少一个POI，用于向用户推荐还包括：

排序所述一组候选POI的所述相似值；以及

14.根据权利要求13所述的方法，其特征在于，所述训练好的质检模型是梯度提升决策树GBDT模型。

15.根据权利要求13所述的方法，其特征在于，所述排序所述一组候选POI的所述相似值还包括：

基于训练好的排序模型排序所述一个或以上相关的候选POI。

16.根据权利要求15所述的方法，其特征在于，所述训练好的排序模型是通过排序学习learn to rank方法获得的。

17.一种非暂时性计算机可读介质，其特征在于，包括用于语义检索的至少一组指令，当所述至少一组指令由一个或多个电子设备的至少一个处理器执行时，实现如权利要求9-16中任一项所述的方法。

18.一种语义检索的人工智能装置，其特征在于，包括：

至少一个存储介质，包括用于语义检索的一组指令；和

至少一个与所述存储介质通信的处理器，其中，当执行所述一组指令时，所述至少一个处理器用于实现如权利要求9-16中任一项所述的方法。