CN113297456B

CN113297456B - 搜索方法、装置、电子设备及存储介质

Info

Publication number: CN113297456B
Application number: CN202110552831.XA
Authority: CN
Inventors: 黄海涛; 李宗海; 卢宏亮; 李扬; 王军涛; 周介乾
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-04-07
Anticipated expiration: 2041-05-20
Also published as: CN113297456A

Abstract

本发明实施例提供了一种搜索方法、装置、电子设备及存储介质。搜索方法包括：接收客户端发送的搜索词和定位城市；识别所述搜索词对应的候选城市；基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。本发明实施例中，在进行搜索的过程中，不再局限于基于定位城市进行搜索，而是进一步考虑到了搜索词本身的特征，识别得到搜索词对应的候选城市，然后根据实际情况选择基于候选城市和/或定位城市进行搜索，扩大了搜索范围，避免了仅基于定位城市搜索导致的搜索偏差问题，提高了搜索的准确性。

Description

搜索方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，特别是涉及一种搜索方法、装置、电子设备及存储介质。

背景技术

搜索引擎是根据用户需求与一定算法，运用特定策略检索出指定信息反馈给用户的一门检索技术。搜索技术可以应用于多种领域，比如打车搜索领域等。打车搜索是建立在垂直领域打车场景下，用户通过打车软件输入相关搜索词搜索目的地，基于用户的搜索词反馈相关的目的地集推荐给用户。

现有技术中的搜索方法，通常是基于特定规则策略或文本匹配方式实现召回，然后基于召回结果进行排序，之后选择排序靠前的部分结果推荐给用户。现有搜索过程中，默认基于用户的定位城市进行搜索召回。但是，该种方式会造成部分跨城搜索意图出现偏差，导致搜索结果不准确。比如，用户输入的搜索词为“首都机场”，用户的定位城市为上海，但用户真实搜索目的是北京的首都机场，由于默认使用定位城市上海，因此会导致召回为上海的相关机场，而未召回北京的首都机场。

发明内容

鉴于上述问题，本发明实施例提出了克服上述问题或者至少部分地解决上述问题的一种搜索方法、装置、电子设备及存储介质。

第一方面，本发明实施例公开了一种搜索方法，执行于服务器，所述方法包括：

接收客户端发送的搜索词和定位城市；

识别所述搜索词对应的候选城市；

基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

可选地，所述识别所述搜索词对应的候选城市，包括：判断所述搜索词中是否包含城市信息；若包含所述城市信息，则将所述城市信息对应的城市作为所述候选城市；若不包含所述城市信息，则判断所述搜索词中是否包含场景信息；若包含所述场景信息，则将所述定位城市之外的城市作为所述候选城市；若不包含所述场景信息，则预测所述搜索词对应的目标城市，将所述目标城市作为所述候选城市。

可选地，所述判断所述搜索词中是否包含城市信息，包括：将所述搜索词输入预先训练的城市实体识别模型，得到所述城市实体识别模型输出的所述搜索词对应的BIO标注序列；如果所述BIO标注序列中存在标注B和标注I，则从所述搜索词中提取出所述标注B和所述标注I对应的文本，作为所述城市信息；如果所述BIO标注序列中不存在标注B和标注I，则确定所述搜索词中不包含城市信息。

可选地，所述城市实体识别模型通过如下方式训练：从历史用户行为数据中，获取包含城市信息的样本文本序列和所述样本文本序列对应的实际BIO标注序列，将所述样本文本序列和所述实际BIO标注序列作为第一样本数据；利用所述第一样本数据对第一初始模型进行训练；其中，所述第一初始模型的输入为所述样本文本序列，输出为预测BIO标注序列；在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第一初始模型训练完成后，得到训练完成的所述城市实体识别模型。

可选地，所述判断所述搜索词中是否包含场景信息，包括：将所述搜索词与预设的场景信息字典进行匹配，所述场景信息字典中包含多个场景信息；如果所述搜索词中包含位于所述场景信息字典中的场景信息，则确定所述搜索词中包含场景信息。

可选地，所述预测所述搜索词对应的目标城市，包括：获取所述搜索词对应的特征向量；将所述特征向量输入预先训练的城市预测模型，得到所述城市预测模型输出的各城市对应的相关概率，并将所述相关概率转换为0到1之间的数值；选取相关概率大于预设阈值的至少一个城市作为所述目标城市。

可选地，所述城市预测模型通过如下方式训练：从历史用户行为数据中，获取用户输入的历史搜索词作为样本搜索词，并获取用户点击的搜索结果所属的实际城市，基于所述实际城市确定各城市对应的实际相关概率，将所述样本搜索词和所述各城市对应的实际相关概率作为第二样本数据；利用所述第二样本数据对第二初始模型进行训练；其中，所述第二初始模型的输入为所述样本搜索词对应的样本特征向量，输出为各城市对应的预测相关概率；将所述预测相关概率转换为0到1之间的数值，在基于所述预测相关概率和所述实际城市确定出所述第二初始模型训练完成后，得到训练完成的所述城市预测模型。

可选地，所述基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息，包括：如果所述候选城市为所述城市信息，则基于所述候选城市，搜索与所述搜索词相关的信息；如果所述候选城市不为所述城市信息，则通知所述客户端展示跨城交互界面，并接收用户在所述跨城交互界面中触发的搜索方式；根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

可选地，所述根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息，包括：在所述搜索方式为跨城搜索时，基于所述候选城市，搜索与所述搜索词相关的信息；在所述搜索方式为定位搜索时，基于所述定位城市，搜索与所述搜索词相关的信息；在所述搜索方式为全面搜索时，基于所述候选城市和所述定位城市，搜索与所述搜索词相关的信息。

第二方面，本发明实施例公开了一种搜索装置，应用于服务器，所述装置包括：

接收模块，用于接收客户端发送的搜索词和定位城市；

识别模块，用于识别所述搜索词对应的候选城市；

搜索模块，用于基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

可选地，所述识别模块包括：第一判断单元，用于判断所述搜索词中是否包含城市信息；第一确定单元，用于在所述第一判断单元判断出包含所述城市信息时，将所述城市信息对应的城市作为所述候选城市；第二判断单元，用于在所述第一判断单元判断出不包含所述城市信息时，判断所述搜索词中是否包含场景信息；第二确定单元，用于在所述第二判断单元判断出包含所述场景信息时，将所述定位城市之外的城市作为所述候选城市；预测单元，用于在所述第二判断单元判断出不包含所述场景信息时，预测所述搜索词对应的目标城市，将所述目标城市作为所述候选城市。

可选地，所述第一判断单元，包括：模型识别子单元，用于将所述搜索词输入预先训练的城市实体识别模型，得到所述城市实体识别模型输出的所述搜索词对应的BIO标注序列；城市确定子单元，用于如果所述BIO标注序列中存在标注B和标注I，则从所述搜索词中提取出所述标注B和所述标注I对应的文本，作为所述城市信息；如果所述BIO标注序列中不存在标注B和标注I，则确定所述搜索词中不包含城市信息。

可选地，所述城市实体识别模型通过如下模块训练：第一获取模块，用于从历史用户行为数据中，获取包含城市信息的样本文本序列和所述样本文本序列对应的实际BIO标注序列，将所述样本文本序列和所述实际BIO标注序列作为第一样本数据；第一训练模块，用于利用所述第一样本数据对第一初始模型进行训练，其中，所述第一初始模型的输入为所述样本文本序列，输出为预测BIO标注序列；在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第一初始模型训练完成后，得到训练完成的所述城市实体识别模型。

可选地，所述第二判断单元包括：字典匹配子单元，用于将所述搜索词与预设的场景信息字典进行匹配，所述场景信息字典中包含多个场景信息；场景确定子单元，用于如果所述搜索词中包含位于所述场景信息字典中的场景信息，则确定所述搜索词中包含场景信息。

可选地，所述预测单元包括：模型预测子单元，用于获取所述搜索词对应的特征向量，将所述特征向量输入预先训练的城市预测模型，得到所述城市预测模型输出的各城市对应的相关概率，并将所述相关概率转换为0到1之间的数值；城市选取子单元，用于选取相关概率大于预设阈值的至少一个城市作为所述目标城市。

可选地，所述城市预测模型通过如下模块训练：第二获取模块，用于从历史用户行为数据中，获取用户输入的历史搜索词作为样本搜索词，并获取用户点击的搜索结果所属的实际城市，基于所述实际城市确定各城市对应的实际相关概率，将所述样本搜索词和所述各城市对应的实际相关概率作为第二样本数据；第二训练模块，用于利用所述第二样本数据对第二初始模型进行训练，其中，所述第二初始模型的输入为所述样本搜索词对应的样本特征向量，输出为各城市对应的预测相关概率；将所述预测相关概率转换为0到1之间的数值，在基于所述预测相关概率和所述实际城市确定出所述第二初始模型训练完成后，得到训练完成的所述城市预测模型。

可选地，所述搜索模块包括：第一搜索单元，用于如果所述候选城市为所述城市信息，则基于所述候选城市，搜索与所述搜索词相关的信息；通知单元，用于如果所述候选城市不为所述城市信息，则通知所述客户端展示跨城交互界面，并接收用户在所述跨城交互界面中触发的搜索方式；第二搜索单元，用于根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

可选地，所述第二搜索单元包括：跨城搜索子单元，用于在所述搜索方式为跨城搜索时，基于所述候选城市，搜索与所述搜索词相关的信息；定位搜索子单元，用于在所述搜索方式为定位搜索时，基于所述定位城市，搜索与所述搜索词相关的信息；全面搜索子单元，用于在所述搜索方式为全面搜索时，基于所述候选城市和所述定位城市，搜索与所述搜索词相关的信息。

第三方面，本发明实施例公开了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述搜索方法。

第四方面，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述的搜索方法。

本发明实施例中，接收到客户端发送的搜索词和定位城市后，识别搜索词对应的候选城市，在进行搜索的过程中，基于候选城市和/或定位城市，搜索与搜索词相关的信息。由此可知，本发明实施例中，在进行搜索的过程中，不再局限于基于定位城市进行搜索，而是进一步考虑到了搜索词本身的特征，识别得到搜索词对应的候选城市，然后根据实际情况选择基于候选城市和/或定位城市进行搜索，扩大了搜索范围，避免了仅基于定位城市搜索导致的搜索偏差问题，提高了搜索的准确性。

附图说明

图1是本发明实施例的一种搜索过程的整体示意图。

图2是本发明实施例的一种搜索方法的步骤流程图。

图3是本发明实施例的另一种搜索方法的步骤流程图。

图4是本发明实施例的一种跨城交互界面的示意图。

图5是本发明实施例的一种搜索装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的搜索方法可以应用于配送、打车、公交、驾车等各种场景的搜索环节中，可以集成到地图搜索服务中，能够大幅度提升地图搜索业务服务质量，有广阔的应用空间，广泛适用于垂直搜索领域。

图1是本发明实施例的一种搜索过程的整体示意图。如图1所示，在搜索过程中，用户在客户端输入搜索词(Query)，客户端将搜索词发送至搜索推荐系统(SearchRecommendation System)。搜索推荐系统基于搜索词执行召回(Retrieval)过程，在召回过程中从数据库(Database)存储的全部条目(All Items)中召回x个条目(O(x)Items)。推荐系统对召回结果执行排序(Ranking)过程，在排序过程中，利用预先基于用户日志(Logs)进行机器学习(Machine Learning)或深度学习(Deep Learning)训练后得到的排序模型(Ranking Model)对召回结果进行排序，从排序结果中提取排序靠前的y个条目(O(y)Items)，将这y个条目推荐给用户。其中，用户输入的搜索词、推荐的条目、用户行为数据(User Actions)等可以作为用户日志进行存储。需要说明的是，对于上述的x和y的具体数值，本发明实施例不做限制。比如，x可以为80、100等，y可以为10、15、20等。

本发明实施例的搜索方法可以应用于服务器，比如图1中的搜索推荐系统服务器。本发明实施例可以应用于图1中的召回过程，通过识别搜索词对应的候选城市，根据实际情况基于候选城市和/或定位城市进行召回，进而提高搜索结果的准确性。其中，客户端可以为能够提供搜索服务的APP(应用程序)，比如各种地图APP等。服务器可以为上述APP对应的后台服务器。

下面，通过以下各实施例进行详细说明。

参照图2，示出了本发明实施例的一种搜索方法的步骤流程图。图2所示的搜索装置应用于服务器。

如图2所示，搜索方法可以包括以下步骤：

步骤201，接收客户端发送的搜索词和定位城市。

用户在客户端提供的搜索界面上输入搜索词，客户端可以接收用户输入的搜索词。可选地，用户可以在客户端的搜索界面通过文本输入、语音输入等方式输入搜索词。

客户端所在的移动设备具有定位功能，移动设备可以获取当前的定位城市，因此客户端可以获取客户端所在的移动设备当前的定位城市。

客户端将搜索词和定位城市发送至服务器。

步骤202，识别所述搜索词对应的候选城市。

服务器接收到搜索词和定位城市后，识别搜索词对应的候选城市。候选城市可以指，用户输入的搜索词对应的可能被用户选择的城市，也即用户意图搜索的城市。

步骤203，基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

服务器根据实际情况，基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。“和/或”是指两者中的至少之一。

其中，与搜索词相关的信息可以为与搜索词相关的POI(Point of Interest，兴趣点)。POI是地理信息系统发展到一定阶段后，随着用户的个性化服务需求而出现的。一个POI可以是一个商铺、一个商场、一个公交站、一个机场、一个火车站、一个景点、一个写字楼、一个公园、一个小区，等等。

本发明实施例中，在进行搜索的过程中，不再局限于基于定位城市进行搜索，而是进一步考虑到了搜索词本身的特征，识别得到搜索词对应的候选城市，然后根据实际情况选择基于候选城市和/或定位城市进行搜索，扩大了搜索范围，避免了仅基于定位城市搜索导致的搜索偏差问题，提高了搜索的准确性。

参照图3，示出了本发明实施例的另一种搜索方法的步骤流程图。图3所示的搜索装置应用于服务器。

如图3所示，搜索方法可以包括以下步骤：

步骤301，接收客户端发送的搜索词和定位城市。

步骤302，判断搜索词中是否包含城市信息。若是，则执行步骤308；若否，则执行步骤303。

考虑到在某些情况下，用户在输入搜索词时，可能会指定搜索的城市信息，在该种情况下，服务器基于用户指定的城市信息进行搜索即可。因此，本发明实施例中，服务器可以先判断搜索词中是否包含城市信息。

在一种可选实施方式中，可以预先训练用于识别城市信息的城市实体识别模型，然后利用城市实体识别模型判断搜索词中是否包含城市信息。

可选地，所述城市实体识别模型通过如下步骤A1～A3训练：

A1，从历史用户行为数据中，获取包含城市信息的样本文本序列和所述样本文本序列对应的实际BIO标注序列，将所述样本文本序列和所述实际BIO标注序列作为第一样本数据。

获取历史用户行为数据，历史用户行为数据可以为用户最近一段时间内的搜索日志。历史用户行为数据可以包括但不限于以下至少一种：用户输入的历史搜索词、用户针对该搜索词点击的搜索结果、用户的搜索时间，等等。

由于城市实体识别模型主要识别的是城市信息，因此，从历史用户行为数据中获取大量包含城市信息的样本文本序列，并分别针对每个样本文本序列进行BIO(Begin开头，Inside中间，Outside无效)标注，得到各样本文本序列对应的实际BIO标注序列。将一个样本文本序列和该样本文本序列对应的实际BIO标注序列作为一个第一样本数据。

在BIO标注过程中，对样本文本序列中属于城市信息实体的开头文字标注为B，对属于城市信息实体的中间文字标注为I，对不属于城市信息实体的文字标注为O。比如，对于文本序列“天津车站”，其中的“天津”为城市信息实体，因此，将其中的“天”标注为B，将其中的“津”标注为I，将其中的“车”、“站”均标注为O。

A2，利用所述第一样本数据对第一初始模型进行训练。

第一初始模型是指还未进行训练的具有城市信息识别能力的模型。可选地，第一初始模型可以选用任意一种NER(Named Entity Recognition，命名实体识别)模型。比如，NN(Neural Networks，神经网络)-CRF(Conditional Random Field，条件随机场)模型、CNN(Convolutional Neural Networks，卷积神经网络)-CRF模型、RNN(Recurrent NeuralNetwork，循环神经网络)-CRF模型、BiLSTM(Bi-directional Long Short-Term Memory，双向循环神经网络)-CRF模型，等等。比如，在BiLSTM-CRF模型中，BiLSTM层的输出是文本属于每个标注的分数。这些分数将作为CRF层的输入，在CRF层中选择预测得分最高的标注序列作为最佳标注结果。

在城市实体识别模型的训练过程中，利用大量第一样本数据对第一初始模型进行训练。其中，所述第一初始模型的输入为所述样本文本序列，输出为预测BIO标注序列。

A3，在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第一初始模型训练完成后，得到训练完成的所述城市实体识别模型。

在一种可选实施方式中，根据预测BIO标注序列和实际BIO标注序列，可以计算第一损失。第一损失可以表示预测BIO标注序列和实际BIO标注序列的偏差程度。因此，可以在第一损失小于预设的第一损失阈值时，确定训练完成，得到训练完成的所述城市实体识别模型。对于第一损失阈值的具体数值，本领域技术人员根据实际经验选用任意适用的值均可。在另一种可选实施方式中，可以设置在达到预设的迭代次数时，确定训练完成，得到训练完成的所述城市实体识别模型。对于迭代次数的具体数值，本领域技术人员根据实际经验选用任意适用的值均可。

可选地，所述判断所述搜索词中是否包含城市信息的过程，可以包括以下步骤B1～B3：

B1，将所述搜索词输入预先训练的城市实体识别模型，得到所述城市实体识别模型输出的所述搜索词对应的BIO标注序列。

B2，如果所述BIO标注序列中存在标注B和标注I，则从所述搜索词中提取出所述标注B和所述标注I对应的文本，作为所述城市信息。

B3，如果所述BIO标注序列中不存在标注B和标注I，则确定所述搜索词中不包含城市信息。

比如，将搜索词“天津车站”输入城市实体识别模型，得到城市实体识别模型输出的BIO标注序列为BIOO，因此从搜索词中提取出标注为B的文本为“天”，标注为I的文本为“津”，则提取出的城市信息为“天津”。再比如，将搜索词“大兴机场”输入城市实体识别模型，得到城市实体识别模型输出的BIO标注序列为OOOO，因此确定搜索词中不包含城市信息。

步骤303，判断搜索词中是否包含场景信息。若是，则执行步骤305；若否，则执行步骤304。

考虑到在某些情况下，用户在输入搜索词时，可能会指定搜索的场景信息，并且未指定城市信息，在该种情况下，服务器可能要基于多个城市对用户指定的场景信息进行搜索。因此，本发明实施例中，服务器在判断出搜索词中不包含城市信息时，可以进一步判断搜索词中是否包含场景信息。

在一种可选实施方式中，可以根据实际经验，预先创建场景信息字典，将各场景信息添加到场景信息字典中。可选地，场景信息可以包括但不限于以下至少一种：机场、火车站、景点、酒店，等等。

因此，所述判断所述搜索词中是否包含场景信息的过程，可以包括：将所述搜索词与预设的场景信息字典进行匹配；如果所述搜索词中包含位于所述场景信息字典中的场景信息，则确定所述搜索词中包含场景信息；如果所述搜索词中不包含位于所述场景信息字典中的场景信息，则确定所述搜索词中不包含场景信息。

步骤304，将定位城市之外的城市作为候选城市。之后执行步骤306。

如果服务器判断出搜索词中包含场景信息，则服务器可以将定位城市之外的城市作为候选城市，之后执行步骤306。

步骤305，预测搜索词对应的目标城市，将目标城市作为候选城市。

如果服务器判断出搜索词中既不包含城市信息，也不包含场景信息，则服务器可以进一步预测搜索词对应的目标城市。

在一种可选实施方式中，可以预先训练城市预测模型，然后利用城市预测模型预测搜索词对应的目标城市。

可选地，所述城市预测模型通过如下步骤C1～C3训练：

C1，从历史用户行为数据中，获取用户输入的历史搜索词作为样本搜索词，并获取用户点击的搜索结果所属的实际城市，基于所述实际城市确定各城市对应的实际相关概率，将所述样本搜索词和所述各城市对应的实际相关概率作为第二样本数据。

获取历史用户行为数据。历史用户行为数据可以包括但不限于以下至少一种：用户输入的历史搜索词、用户针对该搜索词点击的搜索结果、用户的搜索时间，等等。

从历史用户行为数据中，获取用户输入的历史搜索词，对用户输入的历史搜索词进行去重、删除停用词等处理后，将各历史搜索词作为样本搜索词，获取用户针对该样本搜索词点击的搜索结果，并获取该搜索结果所属的实际城市，基于实际城市确定各城市对应的实际相关概率。可选地，可以将实际城市对应的实际相关概率设置为1，将其他城市对应的实际相关概率设置为0。将一个样本搜索词和该样本搜索词对应的各城市对应的实际相关概率作为一个第二样本数据。

C2，利用所述第二样本数据对第二初始模型进行训练。

第二初始模型是指还未进行训练的具有预测能力的模型。可选地，第二初始模型可以选用任意一种概率预测模型。比如，逻辑回归模型、Transformer模型等。比如，在Transformer模型中，采用了Encoder(编码)-Decoder(解码)架构。对于Encoder，包含两层，一个self-attention(自注意力机制)层和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。对于Decoder，也包含Encoder提到的两层网络，但是在这两层中间还有一层attention(注意力机制)层，帮助当前节点获取到当前需要关注的重点内容。

在城市预测模型的训练过程中，利用大量第二样本数据对第二初始模型进行训练。在训练过程中，获取样本搜索词对应的特征向量，所述第二初始模型的输入为所述样本搜索词对应的样本特征向量，输出为各城市对应的预测相关概率。

在实现中，预先对汉字进行排序，并按照排序顺序为每个汉字赋予一个编号。针对样本搜索词，分别获取该样本搜索词中的每个汉字对应的编号，将这些编号组成特征向量，并对该特征向量进行填充0的处理，以使特征向量的维度达到预设维度，从而得到该样本搜索词对应的样本特征向量。对于预设维度的具体数值，本发明实施例不做限制，比如，预设维度可以为10、16、32，等等。

C3，在基于所述预测相关概率和所述实际城市确定出所述第二初始模型训练完成后，得到训练完成的所述城市预测模型。

在针对样本搜索词预测得到各城市对应的预测相关概率后，将所述预测相关概率转换为0到1之间的数值。可选地，可以利用softmax函数，将预测相关概率映射到(0，1)区间内。根据各城市对应的预测相关概率和各城市对应的实际相关概率，可以计算第二损失。第二损失可以表示预测数据和实际数据的偏差程度。因此，可以在第二损失小于预设的第二损失阈值时，确定训练完成，得到训练完成的所述城市预测模型。对于第二损失阈值的具体数值，本领域技术人员根据实际经验选用任意适用的值均可。在另一种可选实施方式中，可以设置在达到预设的迭代次数时，确定训练完成，得到训练完成的所述城市预测模型。对于迭代次数的具体数值，本领域技术人员根据实际经验选用任意适用的值均可。

可选地，所述预测所述搜索词对应的目标城市的过程，可以包括以下步骤D1～D3：

D1，获取所述搜索词对应的特征向量。

对于获取特征向量的具体过程，与上述步骤C2类似，针对搜索词，分别获取该搜索词中的每个汉字对应的编号，将这些编号组成特征向量，并对该特征向量进行填充0的处理，以使特征向量的维度达到预设维度，从而得到该搜索词对应的特征向量。

D2，将所述特征向量输入预先训练的城市预测模型，得到所述城市预测模型输出的各城市对应的相关概率，并将所述相关概率转换为0到1之间的数值。

可选地，可以利用softmax函数，将相关概率映射到(0，1)区间内。

D3，选取相关概率大于预设阈值的至少一个城市作为所述目标城市。

可选地，目标城市的数量范围可以为：大于等于1，且小于等于N。优选地，N的取值可以为3。

对于预设阈值的具体数值，本领域技术人员根据实际经验选用任意适用的值均可。比如，预设阈值可以为0.7、0.8，等等。

在预测得到搜索词对应的目标城市后，将目标城市作为候选城市，之后执行步骤306。

步骤306，通知客户端展示跨城交互界面，并接收用户在跨城交互界面中触发的搜索方式。

如果服务器判断出搜索词中包含场景信息，将定位城市之外的城市作为候选城市，或者，服务器预测出搜索词对应的目标城市，将目标城市作为候选城市，则可以根据用户的意愿，确定选择基于候选城市和/或定位城市，搜索与搜索词相关的信息。

服务器可以向客户端发送通知，以便通知客户端展示跨城交互界面。用户可以在跨城交互界面中触发搜索方式，客户端将用户在跨城交互界面中触发的搜索方式发送至服务器。其中，搜索方式可以包括但不限于：跨城搜索、定位搜索、全面搜索。

图4是本发明实施例的一种跨城交互界面的示意图。如图4所示，用户可在跨城交互界面自主选择搜索方式。比如，在搜索框中通过滑动窗口，可以选择定位搜，从而触发搜索方式为定位搜索，也可以选择跨城搜，从而触发搜索方式为跨城搜索，如果用户不选择定位搜或者跨城搜，则触发搜索方式为全面搜索。

步骤307，根据搜索方式，选择基于候选城市和/或定位城市，搜索与搜索词相关的信息。

服务器接收到用户选择的搜索方式后，根据搜索方式，选择基于候选城市和/或定位城市，搜索与搜索词相关的信息。

可选地，在所述搜索方式为跨城搜索时，基于所述候选城市，搜索与所述搜索词相关的信息；在所述搜索方式为定位搜索时，基于所述定位城市，搜索与所述搜索词相关的信息；在所述搜索方式为全面搜索时，基于所述候选城市和所述定位城市，搜索与所述搜索词相关的信息。

步骤308，将城市信息对应的城市作为候选城市。

步骤309，基于候选城市，搜索与搜索词相关的信息。

如果在步骤303中判断出判断搜索词中包含城市信息，则将城市信息对应的城市作为候选城市，并基于候选城市，搜索与搜索词相关的信息。

如果是基于候选城市，搜索与搜索词相关的信息，则服务器将搜索词和候选城市作为特征进行召回，得到召回的信息(比如与搜索词相关的POI)。如果是基于定位城市，搜索与搜索词相关的信息，则服务器将搜索词和定位城市作为特征进行召回，得到召回的信息。如果是基于候选城市和定位城市，搜索与搜索词相关的信息，则服务器将搜索词、候选城市和定位城市作为特征进行召回，得到召回的信息。服务器在得到召回的信息后，利用排序模型对召回的信息进行排序，然后选取排序靠前的部分信息作为搜索结果(也即与搜索词相关的信息)，将搜索结果推荐至客户端。

本发明实施例中，提出一种跨城搜索方法，后端利用城市实体识别模型、场景信息字典索引、城市预测模型确定搜索时依据的城市，前端选用跨城交互界面设计与用户进行交互，实现基于用户需求进行搜索召回，提升搜索业务服务质量，提升用户搜索体验。

参照图5，示出了本发明实施例的一种搜索装置的结构框图。图5所示的搜索装置应用于服务器。

如图5所示，搜索装置可以包括以下模块：

接收模块501，用于接收客户端发送的搜索词和定位城市；

识别模块502，用于识别所述搜索词对应的候选城市；

搜索模块503，用于基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

可选地，所述识别模块502包括：第一判断单元，用于判断所述搜索词中是否包含城市信息；第一确定单元，用于在所述第一判断单元判断出包含所述城市信息时，将所述城市信息对应的城市作为所述候选城市；第二判断单元，用于在所述第一判断单元判断出不包含所述城市信息时，判断所述搜索词中是否包含场景信息；第二确定单元，用于在所述第二判断单元判断出包含所述场景信息时，将所述定位城市之外的城市作为所述候选城市；预测单元，用于在所述第二判断单元判断出不包含所述场景信息时，预测所述搜索词对应的目标城市，将所述目标城市作为所述候选城市。

可选地，所述搜索模块503包括：第一搜索单元，用于如果所述候选城市为所述城市信息，则基于所述候选城市，搜索与所述搜索词相关的信息；通知单元，用于如果所述候选城市不为所述城市信息，则通知所述客户端展示跨城交互界面，并接收用户在所述跨城交互界面中触发的搜索方式；第二搜索单元，用于根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本发明的实施例中，还提供了一种电子设备。该电子设备可以包括一个或多个处理器，以及其上存储有指令的一个或多个机器可读介质，指令例如应用程序。当所述指令由所述一个或多个处理器执行时，使得所述处理器执行上述的搜索方法。

在本发明的实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序可由电子设备的处理器执行，以完成上述的搜索方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种搜索方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种搜索方法，其特征在于，执行于服务器，所述方法包括：

接收客户端发送的搜索词和定位城市；

判断所述搜索词中是否包含城市信息；

若所述搜索词包含城市信息，则将所述城市信息对应的城市作为候选城市，基于所述候选城市，搜索与所述搜索词相关的信息；

若所述搜索词不包含所述城市信息，则识别所述搜索词对应的候选城市，包括：判断所述搜索词中是否包含场景信息；若包含所述场景信息，则将所述定位城市之外的城市作为所述候选城市；若不包含所述场景信息，则利用预先训练的城市预测模型预测所述搜索词对应的目标城市，将所述目标城市作为所述候选城市；通知所述客户端展示跨城交互界面，并接收用户在所述跨城交互界面中触发的搜索方式；

根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

2.根据权利要求1所述的方法，其特征在于，所述判断所述搜索词中是否包含城市信息，包括：

将所述搜索词输入预先训练的城市实体识别模型，得到所述城市实体识别模型输出的所述搜索词对应的BIO标注序列；

如果所述BIO标注序列中存在标注B和标注I，则从所述搜索词中提取出所述标注B和所述标注I对应的文本，作为所述城市信息；

如果所述BIO标注序列中不存在标注B和标注I，则确定所述搜索词中不包含城市信息。

3.根据权利要求2所述的方法，其特征在于，所述城市实体识别模型通过如下方式训练：

从历史用户行为数据中，获取包含城市信息的样本文本序列和所述样本文本序列对应的实际BIO标注序列，将所述样本文本序列和所述实际BIO标注序列作为第一样本数据；

利用所述第一样本数据对第一初始模型进行训练；其中，所述第一初始模型的输入为所述样本文本序列，输出为预测BIO标注序列；

在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第一初始模型训练完成后，得到训练完成的所述城市实体识别模型。

4.根据权利要求1所述的方法，其特征在于，所述判断所述搜索词中是否包含场景信息，包括：

将所述搜索词与预设的场景信息字典进行匹配，所述场景信息字典中包含多个场景信息；

如果所述搜索词中包含位于所述场景信息字典中的场景信息，则确定所述搜索词中包含场景信息。

5.根据权利要求1所述的方法，其特征在于，所述利用预先训练的城市预测模型预测所述搜索词对应的目标城市，包括：

获取所述搜索词对应的特征向量；

将所述特征向量输入预先训练的城市预测模型，得到所述城市预测模型输出的各城市对应的相关概率，并将所述相关概率转换为0到1之间的数值；

选取相关概率大于预设阈值的至少一个城市作为所述目标城市。

6.根据权利要求5所述的方法，其特征在于，所述城市预测模型通过如下方式训练：

从历史用户行为数据中，获取用户输入的历史搜索词作为样本搜索词，并获取用户点击的搜索结果所属的实际城市，基于所述实际城市确定各城市对应的实际相关概率，将所述样本搜索词和所述各城市对应的实际相关概率作为第二样本数据；

利用所述第二样本数据对第二初始模型进行训练；其中，所述第二初始模型的输入为所述样本搜索词对应的样本特征向量，输出为各城市对应的预测相关概率；

将所述预测相关概率转换为0到1之间的数值，在基于所述预测相关概率和所述实际相关概率确定出所述第二初始模型训练完成后，得到训练完成的所述城市预测模型。

7.根据权利要求1所述的方法，其特征在于，所述根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息，包括：

在所述搜索方式为跨城搜索时，基于所述候选城市，搜索与所述搜索词相关的信息；

在所述搜索方式为定位搜索时，基于所述定位城市，搜索与所述搜索词相关的信息；

在所述搜索方式为全面搜索时，基于所述候选城市和所述定位城市，搜索与所述搜索词相关的信息。

8.一种搜索装置，其特征在于，应用于服务器，所述装置包括：

接收模块，用于接收客户端发送的搜索词和定位城市；

判断模块，用于判断所述搜索词中是否包含城市信息；

第一搜索模块，用于若所述搜索词包含城市信息，则将所述城市信息对应的城市作为候选城市，基于所述候选城市，搜索与所述搜索词相关的信息；

搜索方式接收模块，用于若所述搜索词不包含所述城市信息，则识别所述搜索词对应的候选城市，包括：判断所述搜索词中是否包含场景信息；若包含所述场景信息，则将所述定位城市之外的城市作为所述候选城市；若不包含所述场景信息，则利用预先训练的城市预测模型预测所述搜索词对应的目标城市预测所述搜索词对应的目标城市，将所述目标城市作为所述候选城市；通知所述客户端展示跨城交互界面，并接收用户在所述跨城交互界面中触发的搜索方式；

第二搜索模块，用于根据所述搜索方式，选择基于所述候选城市和/或所述定位城市，搜索与所述搜索词相关的信息。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质；

当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如权利要求1至7任一项所述的搜索方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1至7任一项所述的搜索方法。