CN111222058B

CN111222058B - 查询自动补全的方法、装置、设备和计算机存储介质

Info

Publication number: CN111222058B
Application number: CN202010010479.2A
Authority: CN
Inventors: 李莹; 黄际洲; 范淼; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2021-04-16
Anticipated expiration: 2040-01-06
Also published as: WO2021139209A1; EP3879416A4; EP3879416A1; US20220342936A1; CN111222058A

Abstract

本申请公开了一种查询自动补全的方法、装置、设备和计算机存储介质，涉及智能搜索技术领域。具体实现方案为：获取用户当前输入的查询前缀，以及确定与所述查询前缀对应的候选POI；获取所述用户的查询历史信息的向量表示以及各候选POI的向量表示；将所述用户的查询历史信息的向量表示以及各候选POI的向量表示输入预先训练得到的排序模型，得到对各候选POI的评分；依据各候选POI的评分确定向所述用户推荐的查询补全建议。本申请能够使得推荐的查询补全建议更好地符合用户的现实需求。

Description

查询自动补全的方法、装置、设备和计算机存储介质

技术领域

本申请涉及计算机应用技术领域，特别涉及智能搜索技术领域的一种查询自动补全的方法、装置、设备和计算机存储介质。

背景技术

QAC(Query Auto-Completion，查询自动补全)目前已被主流的通用搜索引擎和垂直搜索引擎广泛采用。例如，在地图类应用中，当用户输入query(查询)以搜索某个POI(Point ofInterest，兴趣点)时，从用户输入不完整query开始(在本申请中将用户输入的不完整query称为查询前缀)，搜索引擎可以在候选列表中实时向用户推荐一系列候选的POI以供用户选择作为query的补全结果(在本申请中将候选列表中推荐的query称为查询补全建议)。一旦用户在候选列表中发现其意向的POI，则通过从候选列表中选择该POI即可补全query，从而发起该POI的检索。

举个例子，如图1中所示，当用户在地图类应用的检索框中输入查询前缀“百度”时，能够以候选列表的形式向用户推荐诸如“百度大厦”、“百度大厦-C座”、“百度科技园”等等候选POI以供用户选择，一旦用户从中选择了“百度大厦”，则完成query的补全，发起针对“百度大厦”的检索。

然而，现有的查询自动补全方案中，针对相同的查询前缀提供的建议均是相同的，例如均是在候选列表中基于各POI的检索热度进行排序，并不能够很好地符合用户的个性化需求。

发明内容

有鉴于此，本申请提供了一种查询自动补全的方法、装置、设备和计算机存储介质，使得推荐的查询补全建议更好地符合用户的现实需求。

第一方面，本申请提供了一种查询自动补全的方法，该方法包括：

获取用户当前输入的查询前缀，以及确定与所述查询前缀对应的候选兴趣点POI；

获取所述用户的查询历史信息的向量表示以及各候选POI的向量表示；

将所述用户的查询历史信息的向量表示以及各候选POI的向量表示输入预先训练得到的排序模型，得到对各候选POI的评分；

依据各候选POI的评分确定向所述用户推荐的查询补全建议。

根据本申请一优选实施方式，获取所述用户的查询历史信息的向量表示包括：

获取所述用户的查询历史信息，所述查询历史信息包括所述用户在第一时长内查询或点击过的POI以及所述用户在第二时长内查询或点击过的高频POI，所述第二时长大于所述第一时长；

利用POI的向量表示获取所述用户的查询历史信息的向量表示。

根据本申请一优选实施方式，各POI的向量表示采用如下方式预先得到：

获取大规模用户的POI查询日志，将各用户查询或点击的POI分别按照时序进行排列，得到各POI序列；

按照预设的滑动窗口大小，对各POI序列进行切片，各切片包括中心POI和该中心POI的上下文POI；

利用各切片进行跳字skip-gram模型的训练；

训练结束后，从skip-gram模型获得各POI的向量表示。

根据本申请一优选实施方式，所述利用各切片进行skip-gram模型的训练包括：

利用skip-gram模型对各POI的属性信息进行编码，得到各POI的向量表示，以各切片中中心POI的向量表示预测同一切片中上下文POI的向量表示，依据预测结果的误差迭代更新skip-gram模型的模型参数。

根据本申请一优选实施方式，对各POI的属性信息进行编码包括：

将POI的名称和地址信息采用卷积神经网络进行编码；

将POI的其他属性信息采用前馈神经网络进行编码；

将同一POI的编码结果进行拼接后，经过全连接层的映射，得到该POI的向量表示。

根据本申请一优选实施方式，所述排序模型在对各候选POI进行评分时，进一步利用所述用户的属性特征向量表示和各候选POI的热度特征向量表示。

第二方面，本申请提供了一种建立用于查询自动补全的排序模型的方法，该方法包括：

从POI查询日志中获取用户标识、用户从查询补全建议中选择POI时已输入的查询前缀、该查询前缀对应的查询补全建议中的各POI以及查询补全建议中被用户选择的POI；

获取用户在输入查询前缀之前的查询历史信息的向量表示以及查询补全建议中各POI的向量表示；

将用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中被用户选择的POI的向量表示作为正例，用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中未被用户选择的POI作为负例，训练神经网络模型，得到所述排序模型，其中训练目标为：最大化神经网络模型对正例POI的评分与负例POI的评分之间的差值。

根据本申请一优选实施方式，所述获取用户在输入查询前缀之前的查询历史信息的向量表示包括：

获取用户在输入所述查询前缀之前的查询历史信息，所述查询历史信息包括用户在输入所述查询前缀之前第一时长内查询或点击过的POI以及第二时长内查询或点击过的高频POI，所述第二时长大于所述第一时长；

利用POI的向量表示获取所述用户在输入查询前缀之前的查询历史信息的向量表示。

利用各切片进行跳字skip-gram模型的训练；

训练结束后，从skip-gram模型获得各POI的向量表示。

根据本申请一优选实施方式，所述正例中进一步包括用户的属性特征向量表示和被用户选择的POI的热度特征向量表示；

所述负例中进一步包括用户的属性特征向量表示和未被用户选择的POI的热度特征向量表示。

第三方面，本申请还提供了一种查询自动补全的装置，该装置包括：

第一获取单元，用于获取用户当前输入的查询前缀，以及确定与所述查询前缀对应的候选POI；

第二获取单元，用于获取所述用户的查询历史信息的向量表示以及各候选POI的向量表示；

评分单元，用于将所述用户的查询历史信息的向量表示以及各候选POI的向量表示输入预先训练得到的排序模型，得到对各候选POI的评分；

查询补全单元，用于依据各候选POI的评分确定向所述用户推荐的查询补全建议。

第四方面，本申请提供了一种建立用于查询自动补全的排序模型的装置，该装置包括：

第一获取单元，用于从POI查询日志中获取用户标识、用户从查询补全建议中选择POI时已输入的查询前缀、该查询前缀对应的查询补全建议中的各POI以及查询补全建议中被用户选择的POI；

第二获取单元，用于获取用户在输入查询前缀之前的查询历史信息的向量表示以及查询补全建议中各POI的向量表示；

模型训练单元，用于将用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中被用户选择的POI的向量表示作为正例，用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中未被用户选择的POI作为负例，训练神经网络模型，得到所述排序模型，其中训练目标为：最大化神经网络模型对正例POI的评分与负例POI的评分之间的差值。

第五方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

第六方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

由以上技术方案可以看出，本申请在POI的查询自动补全中，将用户的查询历史信息融入排序模型进行候选POI的排序，使得向用户推荐的查询补全建议更加符合用户的检索偏好。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是查询自动补全的界面示例图；

图2示出了可以应用本发明实施例的示例性系统架构；

图3为本申请实施例一提供的查询补全的方法流程图；

图4为本申请实施例一提供的获取POI向量表示的方法流程图；

图5为本申请实施例提供的方法处理示意图；

图6为本申请实施例二提供的建立排序模型的方法流程图；

图7为本申请实施例三提供的查询自动补全的装置结构图；

图8为本申请实施例提供的建立排序模型的装置结构图；

图9是用来实现本申请实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图2示出了可以应用本发明实施例的示例性系统架构。如图2所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如语音交互应用、网页浏览器应用、通信类应用等。

终端设备101和102可以是各种电子设备，包括但不限于智能手机、平板电脑、PC、智能电视等等。本发明所提供的查询自动补全的装置可以设置并运行于服务器104上。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

例如，当用户通过在终端设备101上的浏览器或客户端提供的检索界面上输入查询前缀时，浏览器或客户端将该查询前缀实时提供给服务器端104，由服务器端采用本申请提供的方法向终端设备101返回用户当前输入的查询前缀对应的查询补全建议。如果用户从该查询补全建议中发现意愿的POI，则可以通过选择该POI发起针对该POI的检索。如果用户从查询补全建议中未发现意愿的POI，则可以继续进行输入，然后浏览器或客户端在将查询前缀实时提供给服务器端104，由服务器端104返回用户输入的查询前缀对应的查询补全建议。从而形成这样一种效果：在用户输入query的过程中，随着用户输入的查询前缀实时向用户推荐查询补全建议。

服务器104可以是单一服务器，也可以是多个服务器构成的服务器群组。应该理解，图2中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本申请的技术实质在于建立用户与POI之间的关联，其使用场景可以为：当用户使用地图类数据进行POI检索的过程中，随着用户输入的查询前缀实时向用户推荐查询补全建议。其中查询补全建议是在确定出用户输入的查询前缀对应的候选POI后，利用排序模型对各候选POI进行排序后得到的。

在现有技术中，针对各候选POI的排序往往是考虑各候选POI的热度特征，还有些情况还会考虑一些用户的属性特征。但该排序方式并不能够很好地满足用户的实际需求。通过使用大规模地图数据中用户进行真实POI检索的数据进行统计，发现有很大数量的用户会重复检索相同的POI。例如有20％左右的用户会在7天内重复检索相同的POI。基于此，本申请的核心思想在于，将用户个性化的查询历史信息作为每一个用户独有的特征融入排序模型，那么就可以快速捕捉用户重复检索相同POI的情形，更加快速地补全用户的检索意图。下面结合实施例对本申请提供的方法进行详细描述。

实施例一、

图3为本申请实施例一提供的查询补全的方法流程图，如图3中所示，该方法可以包括以下步骤：

在301中，获取用户当前输入的查询前缀，以及确定与该查询前缀对应的候选POI。

在本申请适用于各种形式的输入内容，可以是汉字、拼音、首字母简称，等等，但输入的查询前缀均可以看成是字符串。随着用户输入查询前缀，实时获取用户当前输入的查询前缀。例如，用户想输入“百度大厦”的过程中，会经历输入“百”、“百度”、“百度大”等多个查询前缀，则针对每一个查询前缀都执行本申请所提供的方法。即用户输入“百”时，当前输入的查询前缀为“百”，针对该查询前缀执行本申请的方法为用户推荐查询补全建议。当用户输入“百度”时，当前输入的查询前缀为“百度”，针对该查询前缀执行本申请的方法为用户推荐查询补全建议。当用户输入“百度大”时，当前输入的查询前缀为“百度大”，针对该查询前缀执行本申请的方法为用户推荐查询补全建议。

确定与当前输入的查询前缀对应的候选POI的方式可以采用现有的实现方式，目的是找到与该查询前缀强相关的POI，或者找到以该查询前缀为文本开头的POI。例如可以在POI库中预先针对POI以各种对应的查询前缀建立倒排索引。当用户输入query时，针对当前输入的查询前缀查询POI库，命中的所有POI作为候选POI。

在302中，获取用户的查询历史信息的向量表示以及各候选POI的向量表示。

其中，在获取用户的查询历史的向量表示时，可以首先获取用户的查询历史信息，然后利用POI的向量表示获取用户的查询历史信息的向量表示。

具体地，用户的查询历史信息可以包括用户在第一时长内查询或点击过的POI，以及用户在第二时长内查询或点击过的高频POI，第二时长大于第一时长。

其中，用户在第一时长内查询或点击过的POI可以看作是用户的短期查询历史。短期查询历史可以包括与当前输入的查询前缀处于同一个检索会话中的前序用户行为，例如，同一会话中在当前输入的查询前缀之前查询的POI、点击的POI。短期检索历史可以看做是当前query(查询前缀)的上下文信息，其反映了用户的短期即时兴趣。

其中，上述的“会话”(session)指的是检索会话，在此可以使用一个被广泛采用的检索会话的确定方式。如果用户在第一时长(例如30分钟)之前没有任何检索行为，则可以将该第一时长之内首次检索行为是指为本次session的开始。也就是说，如果用户在30分钟内有连续的检索行为，那么这30分钟内的连续检索行为都属于同一session。

其中，用户在第二时长内查询或点击过的POI可以看作是用户的长期查询历史。长期查询历史指的是当前输入的query(查询前缀)之前的第二时长内用户所有的检索行为，包括第二时长内该用户的所有session内的查询或点击过的高频POI。其中，所谓“高频POI”可以是查询或点击次数超过预设阈值的POI。长期查询历史反映了用户长期的内在的兴趣偏好。

在本申请中，上述第一时长可以选取分钟级别、小时级别，例如30分钟。上述第二时长可以选取天级别、月级别，例如3个月。

在本申请实施例中，各POI的向量表示可以预先获取到。假设POI的向量表示是k维的，k为大于1的正整数。用户在第一时长内查询或点击过m个POI，在第二时长内查询或点击过n个高频POI，则利用POI的向量表示来表示这(m+n)个POI，就能够获取到(m+n)*k维的向量矩阵作为用户的查询历史信息的向量表示。

下面对预先获取POI的向量表示的方法进行详细描述。这里的POI的向量表示体现的是文本含义的向量表示，其获取方式可以如图4中所示，包括以下步骤：

在401中，获取大规模用户的POI查询日志，将各用户查询或点击的POI分别按照时序进行排列，得到各POI序列。

从大规模用户的POI查询日志中，按照用户汇总其先后查询或点击的POI时序，例如：

user_A：POI_ID_1，POI_ID_2，POI_ID_3，…

user_B：POI_ID_2，POI_ID_6，POI_ID_7，POI_ID_8，…

在402中，按照预设的滑动窗口大小，对各POI序列进行切片，各切片包括中心POI和该中心POI的上下文POI。

例如滑动窗口的大小为3，那么可以将各POI序列切成由最多3个POI构成的切片，例如对上述user_B对应的POI时序进行切片后，可以得到切片：【POI_ID_2，POI_ID_6，POI_ID_7】、【POI_ID_6，POI_ID_7，POI_ID_8】等等。

在每一个切片中都可以包括中心POI和中心POI的上下文POI。所谓中心POI就是不位于切片两端的POI，中心POI的上下文POI可以是该切片中除了该中心POI之外的其他POI，也可以是该切片中与该中心POI相邻的POI。

在403中，利用各切片进行skip-gram(跳字)模型的训练。

skip-gram模型是自然语言处理领域中使用的一种模型，用于预测给定中心词相对应的上下文词。本申请中借鉴和利用了skip-gram模型用于获取各POI的向量表示。

具体地，可以利用skip-gram模型对各POI的属性信息进行编码，得到各POI的向量表示，以各切片中中心POI的向量表示预测同一切片中上下文POI的向量表示，依据预测结果的误差迭代更新skip-gram模型的模型参数。

其中，对各POI的属性信息进行编码时，其中涉及的属性信息可以包括但不限于POI的标识、名称、类别、地址、标签等信息。可以将POI的名称和地址信息采用卷积神经网络进行编码，将POI的其他属性信息采用前馈神经网络进行编码。然后，将同一POI的编码结果进行拼接后得到的向量经过全连接层的映射，得到该POI的向量表示。

经过对skip-gram模型的模型参数进行迭代更新后，若预测结果的误差满足预设要求，或者迭代次数达到预设阈值等等训练结束的条件满足时，结束对skip-gram模型的训练。

在404中，训练结束后，从skip-gram模型获得各POI的向量表示。

继续参见图3。在303中，将用户的查询历史信息的向量表示以及各候选POI的向量表示输入预先训练得到的排序模型，得到各候选POI的评分。

排序模型在对各候选POI进行评分时，进一步利用用户的属性特征向量表示和各候选POI的热度特征向量表示。也就是说，排序模型的输入包括用户的查询历史信息的向量表示、各候选POI的向量表示、用户的属性特征向量表示和各候选POI的热度特征向量表示，排序模型的输出为对各候选POI的评分。其中，排序模型可以是神经网络模型，其训练过程将在实施例二中进行详细描述。

用户的属性特征可以包括诸如用户的年龄、性别、工作、收入等级、所在城市等信息，用户属性特征的向量表示可以对这些信息进行编码后得到。候选POI的热度特征可以由候选POI的点击频率、检索频率、导航频率等信息进行表征，候选POI的热度特征的向量表示可以对这些信息进行编码后得到。具体不做赘述，可以采用现有技术中的方式。

在本申请实施例中以e_w2v作为POI的向量表示，将U_per作为用户的查询历史信息的向量表，将U_d作为用户属性特征的向量表示，将V_pop作为候选POI的热度特征的向量表示，上述整个过程可以如图5中所示。作为一种实现方式，可以将(m+n)*k维的U_per和k维的e_w2v进行相乘处理后，得到m+n维的相似性特征矩阵V_per：

然后将V_per、U_d和V_pop输入排序模型，在排序模型中可以将V_per、U_d和V_pop拼接为一个新的特征向量后，经过神经网络的转化得到对候选POI的评分。

在304中，依据各候选POI的评分确定向用户推荐的查询补全建议。

本步骤中，可以将评分值大于或等于预设评分阈值的候选POI作为查询补全建议，也可以将评分值排在前P个的POI作为查询补全建议，等等，其中P为预设的正整数。在向用户推荐查询补全建议时，依据各POI的评分在候选列表中进行排序。推荐方式可以沿用现有的在检索框附近的下拉框的形式，也可以采用其他形式。

通过本实施例中的方式，将用户的查询历史信息融入排序模型进行候选POI的排序，使得向用户推荐的查询补全建议更加符合用户的检索偏好。举个例子，一个用户在“百度大厦”工作，因此会经常检索“百度大厦”的POI从而进行导航或路况查询等，但现有技术中需要根据POI的检索热度来进行排序。除非大量用户都非常喜欢点击或检索“百度大厦”这一POI，否则“百度大厦”不会在查询补全建议中排序很靠前。而通过本申请实施例中的方式，当该用户输入“ba”等查询前缀时，由于该用户经常检索“百度大厦”，因此对于该用户提供的查询补全建议中，“百度大厦”的排名会非常靠前，从而快速满足用户的检索偏好。

实施例二、

图6为本申请实施例二提供的建立排序模型的方法流程图，如图6中所示，该方法可以具体包括以下步骤：

在601中，从POI查询日志中获取用户标识、用户从查询补全建议中选择POI时已输入的查询前缀、该查询前缀对应的查询补全建议中的各POI以及查询补全建议中被用户选择的POI。

例如，某用户user_A在逐一输入字符形成各查询前缀的过程中，在输入“百度大”时，从查询补全建议中点击了POI“百度大厦A座”，那么获取用户标识user_A、查询前缀“百度大”、对应的查询补全建议中的各POI，以及被用户选择的POI“百度大厦A座”，作为一条数据。采用同样方式可以从大规模用户的POI查询日志中获取很多条数据用于排序模型的训练。

在602中，获取用户在输入查询前缀之前的查询历史信息的向量表示以及查询补全建议中各POI的向量表示。

本步骤中，可以获取用户在输入查询前缀之前的查询历史信息，查询历史信息可以包括用户在输入该查询前缀之前第一时长内查询或点击过的POI以及第二时长内查询或点击过的高频POI，其中第二时长大于第一时长；然后利用POI的向量表示获取该用户在输入查询前缀之前的查询历史信息的向量表示。

本步骤的实现方式与实施例一中步骤302的实现方式类似，其中POI的向量表示也可以参见实施例一中步骤302的实现方式，在此不做赘述。

在603中，将用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中被用户选择的POI的向量表示作为正例，用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中未被用户选择的POI作为负例，训练神经网络模型，得到排序模型。

排序模型的训练可以采用pairwise的方式。更进一步地，上述正例中可以进一步包括用户的属性特征向量表示和被用户选择的POI的热度特征向量表示；负例中进一步包括用户的属性特征向量表示和未被用户选择的POI的热度特征向量表示。

处理过程与图5类似。也就是说，正例包括：用户在输入查询前缀之前的查询历史信息的向量表示(对应图5中的U_per)、对应查询补全建议中被用户选择的POI的向量表示(对应图5中的e_w2v)、用户的属性特征向量表示(对应图5中的U_d)和被用户选择的POI的热度特征向量表示(对应图5中的V_pop)，其中U_per和e_w2v可以经过相乘处理后得到相似性特征矩阵V_per。负例包括用户在输入查询前缀之前的查询历史信息的向量表示(对应图5中的U_per)、对应查询补全建议中未被用户选择的POI的向量表示(对应图5中的e_w2v)、用户的属性特征向量表示(对应图5中的U_d)和未被用户选择的POI的热度特征向量表示(对应图5中的V_pop)，其中U_per和e_w2v可以经过相乘处理后得到相似性特征矩阵j≠k⁽ⁱ⁾。

输入的各向量表示经过排序模型的拼接和转化后，分别得到正例POI的评分和负例POI的评分，根据得到的正例POI的评分和负例POI的评分更新排序模型的参数，直至达到训练目标。其中训练目标可以为：最大化神经网络模型对正例POI的评分与负例POI的评分之间的差值。

具体地，上述训练目标可以体现为最小化神经网络模型的损失L_Δ，例如可以采用以下公式：

其中，τ为超参数。一条训练数据(第i条训练数据)可以表示为：(u⁽ⁱ⁾,{v^(i,1)，…,v^(i,j),…v^(i,n)},k⁽ⁱ⁾)，m为训练数据的条数。其中，u为用户的向量表示，在本申请实施例中为用户的U_d，{v^(i,1)，…,v^(i,j),…v^(i,n)}为查询补全建议中的POI构成的集合，k⁽ⁱ⁾为用户在查询补全建议中选择的POI。在本申请实施例中，向量v可以V_pop和V_per的拼接。

为正例，(u⁽ⁱ⁾,v^(i,j))为负例，其中j≠k⁽ⁱ⁾。h()为排序模型对POI进行评分时采用的函数，其中包含排序模型训练过程中需要更新的模型参数。

以上是对本申请提供的方法进行的详细描述，下面结合实施例对本申请提供的装置进行详细描述。

实施例三、

图7为本申请实施例三提供的查询自动补全的装置结构图，如图7中所示，该装置可以包括：第一获取单元01、第二获取单元02、评分单元03和查询补全单元04，还可以进一步包括第三获取单元05。其中各组成单元的主要功能如下：

第一获取单元01负责获取用户当前输入的查询前缀，以及确定与查询前缀对应的候选POI。

第二获取单元02负责获取用户的查询历史信息的向量表示以及各候选POI的向量表示。

具体地，第二获取单元02可以获取用户的查询历史信息，查询历史信息包括用户在第一时长内查询或点击过的POI以及用户在第二时长内查询或点击过的高频POI，第二时长大于第一时长；利用POI的向量表示获取用户的查询历史信息的向量表示。

各POI的向量表示可以由第三获取单元05预先确定。具体地，第三获取单元05可以获取大规模用户的POI查询日志，将各用户查询或点击的POI分别按照时序进行排列，得到各POI序列；按照预设的滑动窗口大小，对各POI序列进行切片，各切片包括中心POI和该中心POI的上下文POI；利用各切片进行skip-gram模型的训练；训练结束后，从skip-gram模型获得各POI的向量表示。

其中，第三获取单元05在利用各切片进行skip-gram模型的训练时，可以利用skip-gram模型对各POI的属性信息进行编码，得到各POI的向量表示，以各切片中中心POI的向量表示预测同一切片中上下文POI的向量表示，依据预测结果的误差迭代更新skip-gram模型的模型参数。

第三获取单元05在对各POI的属性信息进行编码时，可以将POI的名称和地址信息采用卷积神经网络进行编码；将POI的其他属性信息采用前馈神经网络进行编码；将同一POI的编码结果进行拼接后，经过全连接层的映射，得到该POI的向量表示。

评分单元03负责将用户的查询历史信息的向量表示以及各候选POI的向量表示输入预先训练得到的排序模型，得到对各候选POI的评分。

进一步地，评分单元03可以将用户的属性特征向量表示和各候选POI的热度特征向量表示一并输入排序模型，用于排序模型对各候选POI进行评分。具体处理方式可以参见实施例一中的相关描述，在此不做赘述。

查询补全单元04负责依据各候选POI的评分确定向用户推荐的查询补全建议。例如，可以将评分值大于或等于预设评分阈值的候选POI作为查询补全建议，也可以将评分值排在前P个的POI作为查询补全建议，等等，其中P为预设的正整数。在向用户推荐查询补全建议时，依据各POI的评分在候选列表中进行排序。推荐方式可以沿用现有的在检索框附近的下拉框的形式，也可以采用其他形式。

实施例四、

图8为本申请实施例提供的建立排序模型的装置结构图，如图8中所示，该装置可以包括：第一获取单元11、第二获取单元12和模型训练单元13，还可以进一步包括第三获取单元14。其中各组成单元的主要功能如下：

第一获取单元11负责从POI查询日志中获取用户标识、用户从查询补全建议中选择POI时已输入的查询前缀、该查询前缀对应的查询补全建议中的各POI以及查询补全建议中被用户选择的POI。

第二获取单元12负责获取用户在输入查询前缀之前的查询历史信息的向量表示以及查询补全建议中各POI的向量表示。

具体地，第二获取单元12可以获取用户在输入查询前缀之前的查询历史信息，查询历史信息包括用户在输入查询前缀之前第一时长内查询或点击过的POI以及第二时长内查询或点击过的高频POI，第二时长大于第一时长；利用POI的向量表示获取用户在输入查询前缀之前的查询历史信息的向量表示。

其中，各POI的向量表示由第三获取单元14预先获取。具体地，第三获取单元14可以获取大规模用户的POI查询日志，将各用户查询或点击的POI分别按照时序进行排列，得到各POI序列；按照预设的滑动窗口大小，对各POI序列进行切片，各切片包括中心POI和该中心POI的上下文POI；利用各切片进行跳字skip-gram模型的训练；训练结束后，从skip-gram模型获得各POI的向量表示。

具体地，第三获取单元14在利用各切片进行skip-gram模型的训练时，可以利用skip-gram模型对各POI的属性信息进行编码，得到各POI的向量表示，以各切片中中心POI的向量表示预测同一切片中上下文POI的向量表示，依据预测结果的误差迭代更新skip-gram模型的模型参数。

在第三获取单元14对各POI的属性信息进行编码时，可以将POI的名称和地址信息采用卷积神经网络进行编码；将POI的其他属性信息采用前馈神经网络进行编码；将同一POI的编码结果进行拼接后，经过全连接层的映射，得到该POI的向量表示。

模型训练单元13负责将用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中被用户选择的POI的向量表示作为正例，用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中未被用户选择的POI作为负例，训练神经网络模型，得到排序模型，其中训练目标为：最大化神经网络模型对正例POI的评分与负例POI的评分之间的差值。

其中，上述正例中还可以进一步包括用户的属性特征向量表示和被用户选择的POI的热度特征向量表示；上述负例中还可以进一步包括用户的属性特征向量表示和未被用户选择的POI的热度特征向量表示。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的查询自动补全的方法或建立排序模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的查询自动补全的方法或建立排序模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的查询自动补全的方法或建立排序模型的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的查询自动补全的方法或建立排序模型的方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的查询自动补全的方法或建立排序模型的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

该电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与该电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

由以上描述可以看出，本申请实施例提供的上述方法、装置、设备和计算机存储介质可以具备以下优点：

1)本申请在POI的查询自动补全中，将用户的查询历史信息融入排序模型进行候选POI的排序，使得向用户推荐的查询补全建议更加符合用户的检索偏好。

2)本申请在融入用户的查询历史信息时，既考虑了用户的短期即时兴趣，又考虑了用户的长期兴趣偏好，从而使得推荐的查询补全建议尽可能符合用户的检索偏好。

3)本申请在确定POI的向量表示时，利用了skip-gram模型，使得POI的向量表示在文本含义上更加符合上下文约束。

4)本申请中在对各POI的属性信息进行编码时，充分考虑了POI作为一个多源信息的聚合体，融合POI的名称、地址、类别、标识等信息，从而使得对POI的表示更加准确。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种查询自动补全的方法，其特征在于，该方法包括：

依据各候选POI的评分确定向所述用户推荐的查询补全建议；

其中，POI的向量表示采用如下方式预先得到：

从各用户的POI查询日志中，将各用户查询或点击的POI分别按照时序进行排列，得到各POI序列；按照预设的滑动窗口大小，对各POI序列进行切片，各切片包括中心POI和该中心POI的上下文POI；利用各切片进行跳字skip-gram模型的训练；训练结束后，从skip-gram模型获得各POI的向量表示。

2.根据权利要求1所述的方法，其特征在于，获取所述用户的查询历史信息的向量表示包括：

3.根据权利要求1所述的方法，其特征在于，所述利用各切片进行skip-gram模型的训练包括：

4.根据权利要求3所述的方法，其特征在于，对各POI的属性信息进行编码包括：

将POI的名称和地址信息采用卷积神经网络进行编码；

将POI的其他属性信息采用前馈神经网络进行编码；

5.根据权利要求1所述的方法，其特征在于，所述排序模型在对各候选POI进行评分时，进一步利用所述用户的属性特征向量表示和各候选POI的热度特征向量表示。

6.一种建立用于查询自动补全的排序模型的方法，其特征在于，该方法包括：

将用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中被用户选择的POI的向量表示作为正例，用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中未被用户选择的POI作为负例，训练神经网络模型，得到所述排序模型，其中训练目标为：最大化神经网络模型对正例POI的评分与负例POI的评分之间的差值；

其中，POI的向量表示采用如下方式预先得到：

7.根据权利要求6所述的方法，其特征在于，所述获取用户在输入查询前缀之前的查询历史信息的向量表示包括：

8.根据权利要求6所述的方法，其特征在于，所述利用各切片进行skip-gram模型的训练包括：

9.根据权利要求6所述的方法，其特征在于，所述正例中进一步包括用户的属性特征向量表示和被用户选择的POI的热度特征向量表示；

10.一种查询自动补全的装置，其特征在于，该装置包括：

查询补全单元，用于依据各候选POI的评分确定向所述用户推荐的查询补全建议；

第三获取单元，用于采用下方式预先获取各POI的向量表示：

11.根据权利要求10所述的装置，其特征在于，所述第二获取单元，具体用于：获取所述用户的查询历史信息，所述查询历史信息包括所述用户在第一时长内查询或点击过的POI以及所述用户在第二时长内查询或点击过的高频POI，所述第二时长大于所述第一时长；利用POI的向量表示获取所述用户的查询历史信息的向量表示。

12.根据权利要求10所述的装置，其特征在于，所述评分单元，还用于进一步将所述用户的属性特征向量表示和各候选POI的热度特征向量表示输入所述排序模型，用于所述排序模型对各候选POI进行评分。

13.一种建立用于查询自动补全的排序模型的装置，其特征在于，该装置包括：

模型训练单元，用于将用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中被用户选择的POI的向量表示作为正例，用户在输入查询前缀之前的查询历史信息的向量表示以及对应查询补全建议中未被用户选择的POI作为负例，训练神经网络模型，得到所述排序模型，其中训练目标为：最大化神经网络模型对正例POI的评分与负例POI的评分之间的差值；

第三获取单元，用于利用如下方式预先获取各POI的向量表示：

14.根据权利要求13所述的装置，其特征在于，该装置包括：

所述第二获取单元，具体用于获取用户在输入所述查询前缀之前的查询历史信息，所述查询历史信息包括用户在输入所述查询前缀之前第一时长内查询或点击过的POI以及第二时长内查询或点击过的高频POI，所述第二时长大于所述第一时长；利用POI的向量表示获取所述用户在输入查询前缀之前的查询历史信息的向量表示。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。