CN112650907A

CN112650907A - 搜索词的推荐方法、目标模型的训练方法、装置及设备

Info

Publication number: CN112650907A
Application number: CN202011563137.XA
Authority: CN
Inventors: 姜富春
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-13
Anticipated expiration: 2040-12-25
Also published as: CN112650907B; EP3876114A2; KR20210151728A; JP2021166098A; EP3876114A3; JP7369740B2; US20210365515A1

Abstract

本公开提供了搜索词的推荐方法、装置、电子设备、存储介质及计算机程序产品，涉及计算机领域和信息处理领域。具体实现方案为：获取输入的目标搜索词；以目标搜索词为当前节点，确定当前节点的邻居节点以及当前节点与邻居节点之间的关系；对当前节点的第一文本信息和邻居节点的第二文本信息分别进行语义表征处理，得到当前节点的第一语义表征和邻居节点的第二语义表征；根据第一语义表征、第二语义表征以及当前节点与邻居节点之间的关系，得到目标搜索词的语义聚合表征；以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。根据本公开的技术方案，能提高推荐的候选搜索词的正确率。

Description

搜索词的推荐方法、目标模型的训练方法、装置及设备

技术领域

本公开涉及计算机技术领域，尤其涉及信息处理领域。

背景技术

随着互联网技术和智能移动终端技术的快速发展，用户可通过计算机或手机等智能终端对需求信息进行搜索。在信息搜索时，用户输入搜索词(query)，以寻求有价值信息，电子设备基于搜索词在网络大数据中进行信息匹配，输出搜索结果。通常对同一个搜索需求，不同用户的表达可能是多样的，一个不够精确的表达，往往无法得到需要的搜索结果。

发明内容

本公开提供了一种搜索词的推荐方法、目标模型的训练方法、装置、电子设备、存储介质以及产品。

根据本公开的第一方面，提供了一种搜索词的推荐方法，包括：

获取输入的目标搜索词；

以目标搜索词为当前节点，确定当前节点的邻居节点以及当前节点与邻居节点之间的关系；

对当前节点的第一文本信息和邻居节点的第二文本信息分别进行语义表征处理，得到当前节点的第一语义表征和邻居节点的第二语义表征；

基于第一语义表征和第二语义表征，以及根据当前节点与邻居节点之间的关系，确定目标搜索词的语义聚合表征；

以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。

根据本公开的第二方面，提供了一种目标模型的训练方法，包括：

将训练样本中样本搜索词输入预设模型的预设第一网络模型，得到所述预设模型的所述预设第一网络模型输出的以所述样本搜索词为当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系；

将所述当前节点的第一文本信息和所述邻居节点的第二文本信息输入所述预设模型中的预设第二网络模型，得到所述预设第二网络模型输出的所述当前节点的第一语义表征和所述邻居节点的第二语义表征；

将所述当前节点的所述第一语义表征和所述邻居节点的所述第二语义表征输入所述预设模型的预设第三网络模型，得到所述预设第三网络模型输出的所述样本搜索词的语义聚合表征；

基于以所述样本搜索词为当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系、所述样本搜索词的语义聚合表征、所述训练样本中各个节点的语义聚合表征标签以及节点与节点之间的关系的标签，确定损失函数；

根据所述损失函数进行反向传导更新所述预设模型，得到所述目标模型。

根据本公开的第三方面，提供了一种搜索词的推荐装置，包括：

获取模块，用于获取输入的目标搜索词；

第一确定模块，用于以目标搜索词为当前节点，确定当前节点的邻居节点以及当前节点与邻居节点之间的关系；

第二确定模块，用于对当前节点的第一文本信息和邻居节点的第二文本信息分别进行语义表征处理，得到当前节点的第一语义表征和邻居节点的第二语义表征；

聚合表征模块，用于基于第一语义表征和第二语义表征，以及根据当前节点与邻居节点之间的关系，确定目标搜索词的语义聚合表征；

召回模块，用于以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。

根据本公开的第四方面，提供了一种目标模型的训练装置，包括：

第一信息确定模块，用于将训练样本中样本搜索词输入预设模型的预设第一网络模型，得到所述预设模型的所述预设第一网络模型输出的以所述样本搜索词为当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系；

第二信息确定模块，用于将所述当前节点的第一文本信息和所述邻居节点的第二文本信息输入所述预设模型中的预设第二网络模型，得到所述预设第二网络模型输出的所述当前节点的第一语义表征和所述邻居节点的第二语义表征；

第三信息确定模块，用于将所述当前节点的所述第一语义表征和所述邻居节点的所述第二语义表征输入所述预设模型的所述预设第一网络模型，得到所述预设第一网络模型输出的所述样本搜索词的语义聚合表征；

训练模块，用于基于以所述样本搜索词为当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系、所述样本搜索词的语义聚合表征、所述训练样本中各个节点的语义聚合表征标签以及节点与节点之间的关系的标签，确定损失函数；根据所述损失函数进行反向传导更新所述预设模型，得到所述目标模型。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上文任一项所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行上文任一项所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术方案，能提高推荐的候选搜索词的正确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的搜索词的推荐方法的流程图；

图2是根据本公开一个实施例的获取训练样本的流程图；

图3是本公开实施例中文本图的一个示例；

图4是根据本公开一个实施例的训练目标模型的流程图；

图5是本公开实施例中获取语义聚合表征的一个示意图；

图6是根据本公开一个实施例的建立候选词集合的流程图；

图7是本公开实施例中建立候选搜索词集合的一个示例；

图8是本公开实施例中从候选搜索词集合中召回待推荐的候选搜索词的一个示例；

图9是本公开实施例中用来实现搜索词的推荐的架构示意图；

图10是根据本公开一个实施例的搜索词的推荐装置的示意图；

图11是根据本公开另一个实施例的搜索词的推荐装置的示意图；

图12是根据本公开一个实施例的目标模型的训练装置的示意图；

图13是根据本公开一个实施例的目标模型的训练装置的示意图；

图14是用来实现本公开实施例的搜索词的推荐方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了根据本公开一个实施例的搜索词的推荐方法的示意图，该方法可以应用于电子设备，该电子设备包括但不限于固定设备和/或移动设备，例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机或平板电脑中的一项或是多项。如图1所示，该方法包括：

步骤S11，获取输入的目标搜索词；

步骤S12，以目标搜索词为当前节点，确定当前节点的邻居节点以及当前节点与邻居节点之间的关系；

步骤S13，对当前节点的第一文本信息和邻居节点的第二文本信息分别进行语义表征处理，得到当前节点的第一语义表征和邻居节点的第二语义表征；

步骤S14，基于第一语义表征和第二语义表征，以及当前节点与邻居节点之间的关系，确定目标搜索词的语义聚合表征；

步骤S15，以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。

其中，步骤S11中的目标搜索词(也可称为query)是用户在终端设备上输入的信息。示例性地，该目标搜索词可以包含下述信息中的一项或多项：人物名称、物品名称、时间、地点、事件。举例来说，用户输入了“刘德华”，则目标搜索词为“刘德华”。又举例来说，用户输入了“百度发展史”，则目标搜索词为“百度发展史”。终端设备接收到用户的输入操作后，根据该输入操作获取目标搜索词，向电子设备发送目标搜索词。

其中，候选搜索词集合中存储有多个候选搜索词，本公开并不对待推荐的候选搜索词的个数进行限定。实际应用中，待推荐的候选搜索词的个数可以根据设计需求或用户需求来设定。

其中，由于不同目标搜索词的搜索次数可能不同，因此，对于不同节点而言，邻居节点的个数可能不同。例如，高频的目标搜索词A对应的邻居节点有i个，低频的目标搜索词B对应的邻居节点为j个，其中，i的值为正整数，j的值为正整数，i不等于j。

其中，步骤S14中的语义聚合表征是聚合有当前节点和邻居节点的簇的语义表征。

在一些实施方式中，步骤S12中，以目标搜索词为当前节点，确定当前节点的邻居节点，可以通过下述至少一种方式实现：

获取用户的历史搜索记录，将历史搜索记录中的历史搜索词确定为邻居节点；或者

获取搜索时的展现网页信息，将展现网页信息中的网页标题确定为邻居节点；或者

获取历史搜索日志中历史搜索词的共现信息，建立以历史搜索词为键、以共现信息为值的键值对格式的词典，通过查词的方式获取邻居节点。

比如，当前搜索刘德华，从历史搜索日志中可以找到刘德华与张学友、郭富城等有共线关系，则将构建以刘德华为键，张学友和郭富城为值的词典，对当前搜索词通过查询词典，获取张学友和郭富城等邻居节点。

实际应用中，具体如何确定当前节点的邻居节点，可以采用上述方式中的一种或多种方式来完成。当然，还可以采用其他能够确定邻居节点的方式来确定当前节点的邻居节点，本公开对此不做限定。

本实施例所述的搜索词的推荐方法，以目标搜索词为当前节点，确定当前节点的邻居节点；基于当前节点的第一文本信息和邻居节点的第二文本信息确定目标搜索词的语义聚合表征；以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词；相对于仅根据当前节点对应的语义表征确定候选搜索词而言，由于语义聚合表征是聚合有当前节点和邻居节点的簇的语义表征，解决了因目标搜索词不确定或者不准确等问题给搜索操作造成的搜索效果差的问题，能召回更为精确的待推荐的候选搜索词，进而有助于用户根据推荐的候选搜索词进行搜索，简化了搜索操作过程，降低了搜索难度，提升用户的搜索效率，从而提升用户的搜索体验。

在一些实施方式中，步骤S12、S13和S14可通过训练好的目标模型来实现，该目标模型用于输出语义聚合特征。

具体如何训练得到目标模型将在下文进行介绍。

为了能够方便基于当前节点的第一文本信息和其邻居节点的第二文本信息确定语义聚合表征，需要先对预设模型进行训练，以得到能够输出语义聚合表征的目标模型。而要对预设模型进行训练，需要有训练样本，在本公开实施例中，在实现上述任一方法的基础上，如图2所示，方法还可以包括以下步骤：

步骤S21，基于用户交互行为，从搜索日志中挖掘多个节点以及该多个节点中节点与节点之间的关系；该多个节点至少包括样本搜索词和样本网页标题其中一类节点；

步骤S22，根据该多个节点以及该多个节点中节点与节点之间的关系构建文本图；

步骤S23，基于该文本图生成训练样本。

通过上述实施方式，根据多个节点以及该多个节点中节点与节点之间的关系构建文本图能够得到好的训练样本，从而使得训练好的目标模型能够输出更为准确的语义聚合表征。

在一些实施方式中，确定多个节点中节点与节点之间的关系的方式，包括下述至少之一：

确定样本搜索词与样本搜索词之间的第一类关系；

确定样本搜索词与样本网页标题之间的第二类关系；

确定样本网页标题与样本网页标题之间的第三类关系。

具体实施方式可以包括：将两个样本搜索词同时出现在一个搜索时域的共现关系、两个样本搜索词共同展现同一个样本网页标题的共展关系、以及两个样本搜索词共同点击同一样本网页标题的共点关系中的至少之一，确定为样本搜索词与样本搜索词之间的第一类关系；

具体实施方式可以包括：将搜索一搜索词情景下对样本网页标题有召回展现的展现关系、搜索一样本搜索词情景下点击网页标题的点击关系、以及样本搜索词和网页标题有文本包含关系的文本匹配关系中的至少之一，确定样本搜索词与样本网页标题之间的第二类关系；

具体实施方式可以包括：将在同一次搜索中同时展现的两个样本网页标题的共展关系，以及在同一次搜索中同时点击的两个样本网页标题的共点关系中的至少之一，确定样本网页标题与样本网页标题之间的第三类关系。

图3是文本图的一个示例，如图3所示，Q1、Q2、Q3均表示搜索词，T1、T2、T3、T4均表示网页标题，在图3中的各连接线中，粗实线表示网页标题与网页标题之间的连接边，即第三类关系；细实线表示搜索词与网页标题之间的连接边，即第二类关系；点虚线表示搜索词与搜索词之间的连接边，即第一类关系。应理解，图3所示的文本图仅仅是示意性的。举例来说，T1表示“天王刘德华十大经典歌曲，首首都百听不厌一直单曲循环”，T2表示“岁月留曲，感动年华！那些年刘德华的经典老歌”，T3表示“刘德华经典歌曲《来生缘》”，T4表示“刘德华生日，重温他的这部电影一定会让你对他的演技有重新的认识”，Q1表示“刘德华歌曲”，Q2表示“刘德华经典老歌”，Q3表示“刘德华影视歌曲”。

通过上述实施方式，通过挖掘节点以及节点与节点之间的关系，能够获取一个语义簇的意图；以根据节点以及节点与节点之间的构建出的文本图作为训练样本，使得训练好的目标模型能够捕获节点自身及其周边节点的语义信息，获取每个节点的语义聚合表征，此时节点的表征是聚合了节点自身和邻居节点的簇的表征，能够输出更为准确的语义聚合表征。

需要说明的是，在预测待推荐的候选搜索词的投产应用中，无需构建文本图，只需将确定出的当前节点的第一文本信息和邻居节点的第二文本信息输入该目标模型，由该目标模型输出文本聚合特征。

在本公开实施例中，在实现上述任一方法的基础上，如图4所示，训练目标模型的方法可以包括：

步骤S31：将训练样本中样本搜索词输入预设模型的预设第一网络模型，得到预设模型的预设第一网络模型输出的以样本搜索词为当前节点的邻居节点以及当前节点与邻居节点之间的关系；

步骤S32：将当前节点的第一文本信息和邻居节点的第二文本信息输入预设模型中的预设第二网络模型，得到预设第二网络模型输出的当前节点的第一语义表征和邻居节点的第二语义表征；

步骤S33：将当前节点的第一语义表征和邻居节点的第二语义表征输入预设模型的预设第三网络模型，得到预设第三网络模型输出的样本搜索词的语义聚合表征；

步骤S34：基于以样本搜索词为当前节点的邻居节点以及当前节点与邻居节点之间的关系、样本搜索词的语义聚合表征、训练样本中各个节点的语义聚合表征标签以及节点与节点之间的关系的标签，确定损失函数；

步骤S35：根据损失函数进行反向传导更新预设模型，得到目标模型。

训练预设模型前，需要先基于构建好的文本图构造训练样本，再采用图学习和语义表征相结合的技术对上述预设模型进行训练；其中，正负样本分别为：

正样本：文本图中有边的两个节点；

负样本：文本图中无边连接的两个节点。

这里，有边是指两个节点之间有关系，无边是指两个节点之间无关系。

图5示出了获取语义聚合表征的一个示意图，根据文本图的构图关系，相当于获取了一个语义簇的意图；每个节点同时捕获了自身及其周边节点的语义信息，获取每个节点的语义表征向量，此时节点的语义表征是聚合了节点自身和邻居节点的簇的表征，也即语义聚合表征。通过训练好的目标模型执行预测流程，可以获取每个节点的语义表征向量，此时节点的语义表征是聚合了节点自身和邻居节点的簇的语义表征，因此通过这个聚合语义表征做索引召回，能更精准地捕获用户搜索意图，召回与用户搜索意图相关的扩展搜索词。

为了基于输入的目标搜索词确定出更为精准的待推荐的候选搜索词，需要预先建立候选搜索词集合，在本公开实施例中，在实现上述任一方法的基础上，如图6所示，方法还可以包括以下步骤：

步骤S41，根据目标搜索词的搜索频次、结果页展现量和点击量的统计特征，筛选候选搜索词；

步骤S42，根据筛选出的候选搜索词，建立候选搜索词集合。

其中，搜索频次是指某一段时间内对某个或者某些搜索词的搜索次数。例如，在一天时间内，搜索“刘德华”的次数为100次，那么，搜索词“刘德华”的搜索频次为100。

其中，结果页展现量是指搜索词在预设网站上的结果页展现量，预设网站包括具有统计价值的网站，如官方网站，口碑好的民用网站等。比如，结果页展现量可以是官网上的或优质作者的文章的展现次数。

其中，点击量是指某一段时间内某个或者某些搜索词被点击的次数。

上述实施方式中，根据目标搜索词的搜索频次、预设网站的结果页展现量和点击量的统计特征，筛选候选搜索词，使得候选搜索词集合中的所有候选搜索词均为优质的候选搜索词，且候选搜索词集合覆盖用户搜索意图的覆盖能力更强，从而有助于从该搜索词集合中召回更符合用户搜索意图的待推荐的候选搜索词，为用户提供更精准的待推荐的候选搜索词。

在本公开实施例中，在实现上述任一方法的基础上，如图7所示，根据筛选出的候选搜索词，建立候选搜索词集合，包括：

步骤S421，对筛选出的所有候选搜索词，通过目标模型预测所有候选搜索词的语义聚合表征；

步骤S422，基于所有候选搜索词的语义聚合表征，建立ANN索引库。

上述实施方式中，基于所有候选搜索词的语义聚合表征，建立ANN索引库，为基于近邻检索服务召回待推荐的候选搜索词提供支撑，有助于提升召回速度，从而提升用户的搜索体验。

在本公开实施例中，在实现上述任一方法的基础上，在一些实施方式中，如图8所示，步骤S15中以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词，包括：

步骤S151：以语义聚合表征为索引，确定语义聚合表征与ANN索引库中的语义聚合表征的相似度；

步骤S152：将相似度排名前N的语义聚合表征确定为目标语义聚合表征，N的值为正整数；

步骤S153：召回目标语义聚合表征对应的候选搜索词作为待推荐的候选搜索词。

其中，N的取值可以根据用户需求或设计需求或终端类型进行设定。

上述实施方式中，通过计算文本聚合特征的相似度来确定出排名前N的目标文本聚合特征，将目标文本聚合特征对应的候选搜索词确定为待推荐的候选搜索词，能够从候选搜索词集合中召回更符合用户搜索意图的候选搜索词，有助于解决因目标搜索词输入不正确或不准确或搜索词属于非高频搜索词而导致的搜索效果差的问题。

图9示出了搜索词推荐的架构示意图，从图9可以看出，该架构主要包括语义聚合表征学习和召回系统两个部分。其中，语义聚合表征学习这部分，主要负责根据训练样本训练预设模型，通过训练好的目标模型得到搜索词的语义聚合表征。召回系统部分主要负责基于近邻检索服务(ANN)，从候选词集合中召回与搜索词的语义聚合表征的相似度高的候选搜索词，最终展现给用户终端。具体的，语义聚合表征学习也分为两大部分，第一部分是样本工程部分，主要负责从搜索日志中根据用户的交互行为，挖掘多个节点以及多个节点中节点与节点之间的关系(可以记为边关系)，根据节点以及节点与节点之间的边关系构建文本图；第二部分是目标模型部分，主要负责获取所有节点的语义聚合表征。其中，目标模型包括图分析模型和语义表征模型，通过图分析模型获取节点的多阶邻居节点；通过语义表征模型，获取节点自身以及邻居节点的语义表征。进而，目标模型对对节点自身以及邻居节点的文本信息进行聚合表征处理，得到语义聚合表征。示例性地，例如，图分析模型采用图卷积神经网络(Graph Convolutional Network，GCN)，语义表征模型采用知识增强的语义表示模型(Enhanced Representation from knowledge Integration，ERNIE)。可见，通过充分挖掘搜索场景下的用户行为特征和文本特征，通过结合语义表征和图学习方法聚合搜索词的语义聚合表征，并基于近邻检索服务召回待推荐的候选搜索词，能更精准地捕获用户的搜索意图，相比现有其他方法有更强的召回能力，能召回更契合意图的推荐结果。

应理解，图9所示的架构图为一种可选的具体实现方式，本领域技术人员可以基于图9的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开提供的搜索词的推荐方法，可以用于搜索引擎或搜索推荐等项目中。示例性地，方法的执行主体可以是电子设备，该电子设备可以是各种搜索引擎设备，如搜索引擎服务器。

作为对上述各方法的实现，本申请还提供一种搜索词的推荐装置。图10示出了搜索词的推荐装置的示意图。如图10所示，该装置包括：

获取模块710，用于获取输入的目标搜索词；

第一确定模块720，用于以目标搜索词为当前节点，确定当前节点的邻居节点以及当前节点与邻居节点之间的关系；

第二确定模块730，用于对当前节点的第一文本信息和邻居节点的第二文本信息分别进行语义表征处理，得到当前节点的第一语义表征和邻居节点的第二语义表征；

聚合表征模块740，用于基于第一语义表征和第二语义表征，以及根据当前节点与邻居节点之间的关系，确定目标搜索词的语义聚合表征；

召回模块750，用于以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。

在一些实施方式中，如图11所示，该装置还包括：

集合建立模块760，用于：

根据目标搜索词的搜索频次、结果页展现量和点击量的统计特征，筛选候选搜索词；

根据筛选出的候选搜索词，建立候选搜索词集合。

在一些实施方式中，候选搜索词集合是以近邻检索服务(ANN)索引库的形式存在的，集合建立模块760，还用于：

对筛选出的所有候选搜索词，通过目标模型预测所有候选搜索词的语义聚合表征；

基于所有候选搜索词的语义聚合表征，建立近邻检索服务ANN索引库。

在一些实施方式中，召回模块740，用于：

以语义聚合表征为索引，确定语义聚合表征与ANN索引库中的语义聚合表征的相似度；

将相似度排名前N的语义聚合表征确定为目标语义聚合表征，N的值为正整数；

召回目标语义聚合表征对应的候选搜索词作为待推荐的候选搜索词。

本公开实施例各装置中的各模块的功能可以参见上述搜索词的推荐方法中的对应描述，在此不再赘述。

本公开的搜索词的推荐装置，以目标搜索词为当前节点，确定当前节点的邻居节点；基于当前节点的第一文本信息和邻居节点的第二文本信息确定目标搜索词的语义聚合表征；以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词；相对于仅根据当前节点对应的语义表征确定候选搜索词而言，由于语义聚合表征是聚合有当前节点和邻居节点的簇的语义表征，解决了因用户输入的目标搜索词不确定或者不准确等问题给搜索操作造成的搜索效果差的问题，能召回更为精确的待推荐的候选搜索词，进而有助于用户根据推荐的候选搜索词进行搜索，简化了搜索操作过程，降低了搜索难度，提升用户的搜索效率，从而提升用户的搜索体验。

作为对上述各方法的实现，本申请还提供一种目标模型的训练装置。图12示出了目标模型的训练装置的示意图。如图12所示，该装置包括：

第一信息确定模块810，用于将训练样本中样本搜索词输入预设模型的预设第一网络模型，得到预设模型的预设第一网络模型输出的以样本搜索词为当前节点的邻居节点以及当前节点与邻居节点之间的关系；

第二信息确定模块820，用于将当前节点的第一文本信息和邻居节点的第二文本信息输入预设模型中的预设第二网络模型，得到预设第二网络模型输出的当前节点的第一语义表征和邻居节点的第二语义表征；

第三信息确定模块830，用于将当前节点的第一语义表征和邻居节点的第二语义表征输入预设模型的预设第一网络模型，得到预设第一网络模型输出的样本搜索词的语义聚合表征；

训练模块840，用于基于以样本搜索词为当前节点的邻居节点以及当前节点与邻居节点之间的关系、样本搜索词的语义聚合表征、训练样本中各个节点的语义聚合表征标签以及节点与节点之间的关系的标签，确定损失函数；根据损失函数进行反向传导更新预设模型，得到目标模型。

在一些实施方式中，如图13所示，该装置还包括：

样本采集模块850，用于：

基于用户交互行为，从搜索日志中挖掘多个节点以及多个节点中节点与节点之间的关系；节点至少包括样本搜索词和样本网页标题其中一类节点；

根据多个节点以及多个节点中节点与节点之间的关系构建文本图；

基于文本图生成训练样本。

在一些实施方式中，样本采集模块850确定多个节点中节点与节点之间的关系的方式，包括下述至少之一：

确定样本搜索词与样本搜索词之间的第一类关系；

确定样本搜索词与样本网页标题之间的第二类关系；

确定样本网页标题与样本网页标题之间的第三类关系。

在一些实施方式中，样本采集模块850，具体用于：

确定多个节点中节点与节点之间的关系的方式，包括下述至少之一：

将两个样本搜索词同时出现在一个搜索时域的共现关系、两个样本搜索词共同展现同一个样本网页标题的共展关系、以及两个样本搜索词共同点击同一样本网页标题的共点关系中的至少之一，确定为样本搜索词与样本搜索词之间的第一类关系；

将搜索一搜索词情景下对样本网页标题有召回展现的展现关系、搜索一样本搜索词情景下点击网页标题的点击关系、以及样本搜索词和网页标题有文本包含关系的文本匹配关系中的至少之一，确定样本搜索词与样本网页标题之间的第二类关系；

将在同一次搜索中同时展现的两个样本网页标题的共展关系，以及在同一次搜索中同时点击的两个样本网页标题的共点关系中的至少之一，确定样本网页标题与样本网页标题之间的第三类关系。

本公开实施例各装置中的各模块的功能可以参见上述目标模型的训练方法中的对应描述，在此不再赘述。

本公开的目标模型的训练装置，能够使目标模型输出语义聚合表征。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图14所示，是根据本公开实施例的搜索词推荐方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图14所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图14中以一个处理器901为例。

存储器902即为本公开所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本公开所提供的搜索词推荐方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的搜索词推荐方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的搜索词推荐方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的搜索词推荐方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据搜索词推荐方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至搜索词推荐方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

搜索词推荐方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与搜索词推荐方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

根据本公开的实施例，本公开还提供了一种电子设备。该设备可以包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述方法实施例中的搜索词分推荐方法。

其中，电子设备的处理器和存储装置的功能以及实现方式，可以参考上述电子设备实施例中的关于处理器和存储器的描述。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语"机器可读介质"和"计算机可读介质"指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Devices，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语"机器可读信号"指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(Virtual private server，VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开实施例的技术方案，以目标搜索词为当前节点，确定当前节点的邻居节点；基于当前节点的第一文本信息和邻居节点的第二文本信息确定目标搜索词的语义聚合表征；以语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词；相对于仅根据当前节点对应的语义表征确定候选搜索词而言，由于语义聚合表征是聚合有当前节点和邻居节点的簇的语义表征，解决了因输入的目标搜索词不确定或者不准确等问题给搜索操作造成的搜索效果差的问题，能召回更为精确的待推荐的候选搜索词，进而有助于用户根据推荐的候选搜索词进行搜索，简化了搜索操作过程，降低了搜索难度，提升用户的搜索效率，从而提升用户的搜索体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种搜索词的推荐方法，包括：

获取输入的目标搜索词；

以所述目标搜索词为当前节点，确定所述当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系；

对所述当前节点的第一文本信息和所述邻居节点的第二文本信息分别进行语义表征处理，得到所述当前节点的第一语义表征和所述邻居节点的第二语义表征；

基于所述第一语义表征和所述第二语义表征，以及所述当前节点与所述邻居节点之间的关系，确定所述目标搜索词的语义聚合表征；

以所述语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。

2.根据权利要求1所述的方法，还包括：

根据筛选出的候选搜索词，建立候选搜索词集合。

3.根据权利要求2所述的方法，其中，所述候选搜索词集合是以近邻检索服务ANN索引库的形式存在的，所述根据筛选出的候选搜索词，建立候选搜索词集合包括：

对筛选出的所有候选搜索词，预测所有候选搜索词的语义聚合表征；

基于所有候选搜索词的语义聚合表征，建立ANN索引库。

4.根据权利要求3所述的方法，其中，所述以所述语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词，包括：

以所述语义聚合表征为索引，确定所述语义聚合表征与所述ANN索引库中的语义聚合表征的相似度；

将相似度排名前N的语义聚合表征确定为目标语义聚合表征，所述N的值为正整数；

召回所述目标语义聚合表征对应的候选搜索词作为待推荐的候选搜索词。

5.一种目标模型的训练方法，包括：

6.根据权利要求5所述的方法，还包括：

基于用户交互行为，从搜索日志中挖掘多个节点以及所述多个节点中节点与节点之间的关系；所述节点至少包括样本搜索词和样本网页标题其中一类节点；

根据所述多个节点以及所述多个节点中节点与节点之间的关系构建文本图；

基于所述文本图生成训练样本。

7.根据权利要求6所述的方法，其中，确定所述多个节点中节点与节点之间的关系的方式，包括下述至少之一：

确定样本搜索词与样本搜索词之间的第一类关系；

确定样本搜索词与样本网页标题之间的第二类关系；

确定样本网页标题与样本网页标题之间的第三类关系。

8.一种搜索词的推荐装置，包括：

获取模块，用于获取输入的目标搜索词；

第一确定模块，用于以所述目标搜索词为当前节点，确定所述当前节点的邻居节点以及所述当前节点与所述邻居节点之间的关系；

第二确定模块，用于对所述当前节点的第一文本信息和所述邻居节点的第二文本信息分别进行语义表征处理，得到所述当前节点的第一语义表征和所述邻居节点的第二语义表征；

聚合表征模块，还用于基于所述第一语义表征和所述第二语义表征，以及所述当前节点与所述邻居节点之间的关系，确定所述目标搜索词的语义聚合表征；

召回模块，用于以所述语义聚合表征为索引，从候选搜索词集合中召回待推荐的候选搜索词。

9.根据权利要求8所述的装置，还包括集合建立模块，用于：

根据筛选出的候选搜索词，建立候选搜索词集合。

10.根据权利要求9所述的装置，其中，所述候选搜索词集合是以近邻检索服务ANN索引库的形式存在的，所述集合建立模块，用于：

基于所有候选搜索词的语义聚合表征，建立ANN索引库。

11.根据权利要求10所述的装置，其中，所述召回模块，用于：

12.一种目标模型的训练装置，包括：

13.根据权利要求12所述的装置，还包括样本采集模块，用于：

基于所述文本图生成训练样本。

14.根据权利要求13所述的装置，其中，所述样本采集模块确定所述多个节点中节点与节点之间的关系的方式，包括下述至少之一：

确定样本搜索词与样本搜索词之间的第一类关系；

确定样本搜索词与样本网页标题之间的第二类关系；

确定样本网页标题与样本网页标题之间的第三类关系。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。