CN117634576A

CN117634576A - 排序模型的训练的方法、搜索方法、装置及其设备

Info

Publication number: CN117634576A
Application number: CN202311841693.2A
Authority: CN
Inventors: 冯太锐
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-01

Abstract

本申请实施例提供一种排序模型的训练的方法、搜索方法、装置及其设备，获取多个用户的搜索会话数据，根据搜索会话数据获取用户的搜索词特征、文档特征、第一特征和第二特征，对搜索词特征、文档特征和第一特征进行特征交叉得到用户的长期搜索特征，对搜索词特征、文档特征和第二特征进行特征交叉得到用户的短期搜索特征，其中，该第一特征和第二特征是对用户标识处理得到的，排序模型使用用户的长期搜索偏好和短期搜索偏好预测搜索文档的预测交互概率，在模型的参数更新时使用两个不同的优化器分别对用户长期搜索相关参数和用户短期搜索相关参数进行优化，从而使得排序模型的排序结果能够满足用户需求，提高了用户对搜索结果的满意度。

Description

排序模型的训练的方法、搜索方法、装置及其设备

技术领域

本申请实施例涉及数据搜索技术领域，尤其涉及一种排序模型的训练的方法、搜索方法、装置及其设备。

背景技术

随着计算机技术的快速发展，视频已经成为人们日常生活中获取信息和享受娱乐的主要载体。面对海量的视频内容，基于文本的视频搜索方法是一种常用的搜索方法，用户通过搜索框输入搜索词，检索模型根据搜索词获取搜索文档，排序模型对搜索文档排序后展示给用户。用户可以对搜索文档进行消费，例如，点击、播放、收藏、转发等。但是，现有的排序模型的排序结果的准确性低，不满足用户需求。

发明内容

本申请实施例提供一种排序模型的训练的方法、搜索方法、装置及其设备，使得排序模型的排序结果能够满足用户需求，提高了用户对搜索结果的满意度。

第一方面，本申请实施例提供一种排序模型的训练方法，所述方法包括：

获取多个用户的搜索会话数据，所述搜索会话数据包括：搜索词、用户标识、与所述搜索词对应的至少一个搜索文档和所述搜索文档的交互标签；

将所述搜索会话数据输入排序模型，得到每个搜索文档的预测交互概率，所述排序模型用于：根据所述搜索会话数据，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征；对所述搜索词特征、所述文档特征和所述第一特征进行特征交叉得到长期搜索特征，对所述搜索词特征、所述文档特征和所述第二特征进行特征交叉得到短期搜索特征；将所述搜索词特征、所述文档特征、所述长期搜索特征和所述短期搜索特征输入排序模块，得到所述每个搜索文档的预测交互概率，其中，所述第一特征和所述第二特征是对所述用户标识处理得到的；

根据所述每个搜索文档的预测交互概率和交互标签，计算所述排序模型的损失；

根据所述排序模型的损失，以及第一优化器和第二优化器更新所述排序模型的参数，其中，所述第一优化器用于对所述第一特征和所述长期搜索特征相关参数进行优化，所述第二优化器用于对所述第二特征和所述短期搜索特征相关参数进行优化，所述第二优化器采用指数移动平均的方法计算参数的累计梯度，所述第一优化器采用非指数移动平均的方法计算参数的累计梯度。

第二方面，本申请实施例提供一种搜索方法，包括：

接收搜索请求，所述搜索请求中包括搜索词；

根据所述搜索请求获取用户标识和至少一个搜索文档；

将所述搜索词、所述用户标识和所述至少一个搜索文档输入第一方面所述方法训练得到的排序模型，得到所述至少一个搜索文档的预测交互概率；

根据所述至少一个搜索文档的预测交互概率，确定所述至少一个搜索文档的排序结果。

第三方面，本申请实施例提供一种排序模型的训练装置，所述装置包括：

会话获取模块，用于获取多个用户的搜索会话数据，所述搜索会话数据包括：搜索词、用户标识、与所述搜索词对应的至少一个搜索文档和所述搜索文档的交互标签；

预测模块，用于将所述搜索会话数据输入排序模型，得到每个搜索文档的预测交互概率，所述排序模型用于：根据所述搜索会话数据，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征；对所述搜索词特征、所述文档特征和所述第一特征进行特征交叉得到长期搜索特征，对所述搜索词特征、所述文档特征和所述第二特征进行特征交叉得到短期搜索特征；将所述搜索词特征、所述文档特征、所述长期搜索特征和所述短期搜索特征输入排序模块，得到所述每个搜索文档的预测交互概率，其中，所述第一特征和所述第二特征是对所述用户标识处理得到的；

损失计算模块，用于根据所述每个搜索文档的预测交互概率和交互标签，计算所述排序模型的损失；

更新模块，用于根据所述排序模型的损失，以及第一优化器和第二优化器更新所述排序模型的参数，其中，所述第一优化器用于对所述第一特征和所述长期搜索特征相关参数进行优化，所述第二优化器用于对所述第二特征和所述短期搜索特征相关参数进行优化，所述第二优化器采用指数移动平均的方法计算参数的累计梯度，所述第一优化器采用非指数移动平均的方法计算参数的累计梯度。

第四方面，本申请实施例提供一种搜索装置，包括：

接收模块，用于接收搜索请求，所述搜索请求中包括搜索词；

获取模块，用于根据所述搜索请求获取用户标识和至少一个搜索文档；

预测模块，用于将所述搜索词、所述用户标识和所述至少一个搜索文档输入第三方面所述的训练装置训练得到的排序模型，得到所述至少一个搜索文档的预测交互概率；

排序模块，用于根据所述至少一个搜索文档的预测交互概率，确定所述至少一个搜索文档的排序结果。

第五方面，本申请实施例提供一种电子设备，所述电子设备包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行如上述第一方面所述的方法。

第六方面，本申请实施例提供一种电子设备，所述电子设备包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行如上述第二方面所述的方法。

第七方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序使得计算机执行如上述第一方面所述的方法。

第八方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序使得计算机执行如上述第二方面所述的方法。

第九方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或者第二方面所述的方法。

本申请实施例提供的排序模型的训练的方法、搜索方法、装置及其设备，获取多个用户的搜索会话数据用于排序模型训练，该搜索会话数据包括：搜索词、用户标识、至少一个搜索文档和搜索文档的交互标签，根据搜索会话数据获取用户的搜索词特征、文档特征、第一特征和第二特征，对用户的搜索词特征、文档特征和第一特征进行特征交叉得到用户的长期搜索特征，对用户的搜索词特征、文档特征和第二特征进行特征交叉得到用户的短期搜索特征，其中，该第一特征和第二特征是对用户标识处理得到的，排序模型使用用户的长期搜索偏好和短期搜索偏好预测搜索文档的预测交互概率，在模型的参数更新时使用两个不同的优化器分别对用户长期搜索相关参数和用户短期搜索相关参数进行优化，从而使得排序模型的排序结果能够满足用户需求，提高了用户对搜索结果的满意度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的排序模型的训练方法的流程图；

图2为排序模型的一种结构示意图；

图3为排序模型的另一种结构示意图；

图4为排序模型的又一种结构示意图；

图5为本申请实施例二提供的一种搜索方法的流程图；

图6为本申请实施例三提供的排序模型的训练装置的结构示意图；

图7为本申请实施例四提供的搜索装置的结构示意图；

图8为本申请实施例五提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明，本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或方案不应被解释为比其它实施例或方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

可以理解的是，在使用本申请各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本申请所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本申请技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本申请的实现方式构成限定，其它满足相关法律法规的方式也可应用于本申请的实现方式中。可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

在本申请实施例的描述中，除了另有说明，“多个”是指两个或两个以上，即至少两个。“至少一个”是指一个或一个以上。

对用户搜索行为历史序列建模可以有效捕捉用户搜索意图和兴趣，用户兴趣包括用户长期兴趣和用户短期兴趣。用户长期兴趣是指用户固有的、相对稳定的偏好意图。用户短期兴趣则是在相对较短的时间内传达用户的偏好意图，可以从用户近期的行为中推断出来，短期兴趣通常会受到一些偶然事件和短暂事件的影响，例如，实时新闻、地域变化等。

如何捕获用户长期兴趣和短期兴趣，并利用用户长期兴趣和短期兴趣建模是推荐场景和搜索场景面临的一个挑战。

现有技术中，在搜索场景中，排序模型通常只捕获用户长期兴趣，难以捕获用户短期兴趣，从而导致排序模型的排序结果不能满足用户需求。

本申请实施例提供的模型训练方法应用在搜索场景下，在搜索场景下，由于搜索词(query)的存在，对用户兴趣范围存在限制，因此需要建模(query，user，item/doc)三元组。user表示用户输入的用户个性化信息，根据搜索词确定的搜索结果列表中包括很多文档(document，简称doc)或者项目(item)，搜索结果列表中包括的文档也称为搜索文档、搜索内容或者搜索资源等，该多个文档由排序模型排序得到。

本申请实施例提供的模型训练方法可以应用在大规模流式训练过程中，流式训练也称为在线学习(online learning)，大规模是指训练使用的数据样本量较大。

在线学习是不断将新的训练数据输入模型，使得模型不断学习新数据，不断进行模型更新，而不是将所有训练数据一次性输入模型学习。例如，在线学习一次输入一个批次训练数据，当基于该批次训练数据完成训练之后更新一次模型的参数。其中，一个批次训练数据的数量可以根据实际训练需求进行灵活调整，比如200个、256个或者其他数量。

本申请实施例训练得到的排序模型，可以应用在具有搜索功能的平台中，简称搜索平台，该搜索平台可以为具有搜索功能的应用软件(Application，APP)，例如，视频播放器、音频播放器、阅读软件、购物软件等，还可以为具有搜索功能的网页、小程序等，本申请实施例不对此进行限定。

下面通过一些实施例对本申请的技术方案进行详细说明。下面所描述的实施例可以相互结合，对于相同或相似概念或过程可能在某些实施例内不再赘述。

图1为本申请实施例一提供的排序模型的训练方法的流程图，本实施例的方法可以由训练设备执行，该训练设备可以是终端或者服务器，终端设备可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能语音交互设备和可穿戴式设备等，服务器可以是服务器集群或单个服务器，服务器可以为云服务器等。如图1所示，本实施例提供的方法包括以下步骤。

S101、获取多个用户的搜索会话数据，该搜索会话数据包括：搜索词、用户标识、与搜索词对应的至少一个搜索文档和搜索文档的交互标签。

训练设备获取到多个用户的多条搜索会话数据，其中，每个用户可能产生一条或多条搜索会话数据，每条搜索会话数据包括搜索词、用户标识、与所述搜索词对应的至少一个搜索文档和所述搜索文档的交互标签。

一次搜索会话(session)是指用户输入搜索词发起搜索请求后，与客户端返回的若干搜索文档进行一次或者多次交互的过程，一次搜索会话产生的搜索会话数据包括：搜索词、用户标识、与搜索词对应的至少一个搜索文档和搜索文档的交互标签。

用户可通过在搜索框内输入文本搜索词，或者通过语音方式输入语音搜索词，又或者通过图像输入方式输入图片搜索词等，搜索词能够反应用户搜索意图。

用户标识(User Identity，简称UID)用于唯一标识一个用户，用户ID是为了区分不同用户，用户ID并不包含用户的真实身份信息，用户ID可以是一个不具有物理意义的编号。

可选的，搜索会话数据中还包括用户输入的用户个性化信息，用户个性化信息包括但不限于用户性别、用户年龄段、用户所在城市等。该用户个性化信息均是在取得用户同意的情况下，由用户输入或者选择的。以用户性别、用户年龄段、用户所在城市为例，搜索平台可以向用户提供性别选项、多个年龄段选项以及多个城市选项，用户根据搜索平台提供的上述选项，选择自己的性别、年龄段以及所在城市，并进行确认。

该搜索文档可以是不同格式的视频、音乐、文本、图片等。搜索文档中包括但不限于搜索文档的ID、资源地址、搜索文档的属性信息(或者称为文本信息)等，该属性信息可以包括以下信息中一个或者多个：搜索文档的类型(例如短视频、电视剧或者电影等)、名称、时长、作者、发布时间、点击量、关键词、主要演员的名称、剧情摘要等。

搜索文档的交互标签用于表示用户是否对搜索文档进行了交互操作，例如，当交互操作为点击时，交互标签用于表示用户是否对搜索文档进行了点击，当交互操作为播放时，交互标签用于表示用户是否对搜索文档进行了播放。一个搜索文档可以有一个或者多个交互标签，例如，对于一个视频，可以包括播放和完播两个交互标签，完播是指对视频进行完整播放。

S102、将搜索会话数据输入排序模型，得到每个搜索文档的预测交互概率，其中，该排序模型用于：根据搜索会话数据，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征；对搜索词特征、文档特征和第一特征进行特征交叉得到长期搜索特征，对搜索词特征、文档特征和第二特征进行特征交叉得到短期搜索特征；将搜索词特征、文档特征、长期搜索特征和短期搜索特征输入排序模块，得到每个搜索文档的预测交互概率，其中，第一特征和第二特征是对用户标识处理得到的。

使用该多个用户的搜索会话数据进行排序模型的训练，训练过程中，依次将每条搜索会话数据输入该排序模型。图2为排序模型的一种结构示意图，如图2所示，该排序模型包括：搜索词特征获取模块、文档特征获取模块、第一特征获取模块、第二特征获取模块、第一特征交叉模块、第二特征交叉模块和排序模块，各模块的功能如下：

搜索词特征获取模块，用于根据搜索词获取搜索词特征。

文档特征获取模块，用于根据搜索文档获取每个搜索文档的文档特征。

第一特征获取模块，用于根据用户标识获取第一特征。

第二特征获取模块，用于根据用户标识获取第二特征。

第一特征交叉模块，用于对搜索词特征、文档特征和第一特征进行特征交叉得到长期搜索特征。

第二特征交叉模块，用于对搜索词特征、文档特征和第二特征进行特征交叉得到短期搜索特征。

排序模块，用于根据搜索词特征、文档特征、长期搜索特征和短期搜索特征预测得到每个搜索文档的预测交互概率。

搜索词特征获取模块根据用户输入的搜索词获取搜索词特征，搜索词特征包括搜索词id、basic terms特征及搜索意图(query intent)等特征。由于用户可以采用不同输入方式输入不同类型的搜索词，相应的，针对不同类型的搜索词采用不同的获取方式。

示例性的，当搜索词类型为文本搜索词时，可对文本搜索词进行特征提取，得到搜索词特征。当搜索词类型为语音搜索词时，先对语音搜索词进行语音识别，得到与语音搜索词对应的文本内容，进而对文本内容进行特征提取得到搜索词特征。当搜索词类型为图像搜索词时，先对图像搜索词进行图像识别，得到与图像搜索词对应的文本内容，进而对文本内容进行特征提取得到搜索词特征。

可选的，在对文本搜索词或文本内容进行特征提取时，可以利用神经网络模型对文本搜索词或文本内容进行向量化，得到与搜索词对应的搜索词特征。当然也可以采用已有的其他特征提取方式，本申请实施例不对此进行限制。

文档特征获取模块对每个搜索文档进行特征提取，得到搜索文档的文档特征，文档特征包括但不限于文档类型、文档标识或者其他高层的特征，该文档特征获取模块可以为一个神经网络模型。

可选的，通过如下方式获取第一特征和第二特征：

第一特征获取模块对用户ID进行独热编码(One-Hot Encoding)得到编码数据，将编码数据输入第一全连接层得到第一特征。

第二特征获取模块对用户ID进行独热编码得到编码数据，将编码数据输入第二全连接层得到第二特征。

One-Hot编码，又称为一位有效编码，其使用N位状态寄存器对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

当搜索会话数据还包括用户个性化信息时，一种实现方式中，通过如下方式获取第一特征和第二特征：

第一特征获取模块对用户ID进行独热编码得到编码数据，对用户个性化信息进行特征提取得到用户个性化特征，将编码数据和用户个性化特征进行组合后输入第一全连接层，得到第一特征。

第二特征获取模块对用户ID进行独热编码得到编码数据，对用户个性化信息进行特征提取得到用户个性化特征，将编码数据和用户个性化特征进行组合后输入第二全连接层，得到第二特征。

示例性的，通过concat函数将编码数据和用户个性化特征进行组合后输入第一全连接层或者第二全连接层。concat函数用于连接两个或者多个字符串或者数组。

另一种实现方式中，第一特征获取模块和第二特征获取模块只根据用户ID获取第一特征和第二特征。相应的，该排序模型还包括用户个性化特征获取模块，参照图3，图3为排序模型的另一种结构示意图，图3的排序模型相对于图2的排序模型多了用户个性化特征获取模块。

用户个性化特征获取模块用于根据用户个性化信息获取用户个性化特征，相应的，第一特征交叉模块，用于对搜索词特征、文档特征、用户个性化特征和第一特征进行特征交叉得到长期搜索特征。第二特征交叉模块，用于对搜索词特征、文档特征、用户个性化特征和第二特征进行特征交叉得到短期搜索特征。排序模块，用于根据搜索词特征、文档特征、用户个性化特征、长期搜索特征和短期搜索特征预测得到每个搜索文档的预测交互概率。

特征交叉(Feature Crosses)是指通过将两个或多个特征相乘，实现对样本空间的非线性变换，来增加模型的非线性能力，即利用非线性映射函数f(x)将样本从原始空间映射至特征空间。

可以理解，用户ID本身是一串无意义字符串，也就是说通过用户ID得到的第一特征和第二特征本身也是没有物理含义的，通过特征交叉为它赋予了物理含义，将第一特征、第二特征与搜索词特征、文档特征进行特征交叉之后，形成的长期搜索特征和短期搜索特征具有了物理含义或者可解释性，可以表示该用户ID对应的用户的长期搜索偏好和短期搜索偏好。长期搜索特征和短期搜索特征是对该用户ID对应的用户在过去的一些数据不断训练得到的，所以包含了该用户的特征。

本实施例中，通过特征交叉的方式捕获用户的长期搜索偏好和短期搜索偏好，搜索词特征和文档特征都是原排序模型使用的特征，只是将搜索词特征和文档特征共享给了特征交叉模块，并没有引入额外的大量参数，使得长期兴趣偏好和短期兴趣偏好的捕获方法的成本更低、效率更高。

排序模块可以为一个深度神经网络(Deep Neural Networks，简称DNN)，深度神经网络为多层神经网络，即具有多层隐含层的神经网络。

排序模块的输出为每个搜索文档的预测交互概率，即用户对每个搜索文档进行交互的预测概率，例如，当交互操作为播放时，排序模块的输出为用户对每个搜索文档播放的预测概率，当交互操作为点击时，排序模块的输出为用户对每个搜索文档点击的预测概率。根据各搜索文档点击的预测概率，对搜索文档进行排序。

不同于现有技术，本实施例中，排序模块在预测搜索文档的预测交互概率时，不仅根据搜索词特征和文档特征进行预测，还根据长期搜索特征和短期搜索特征进行预测，该长期搜索特征和短期搜索特征能够表征用户的长期兴趣偏好和短期兴趣偏好，从而使得排序模型的排序结果能够满足用户需求，提高了用户满意度。

应理解，本实施例涉及到的特征可以为一个特征向量或者特征表示(embedding)，例如，搜索词特征、文档特征、第一特征和第二特征也称为搜索词特征embedding、文档特征embedding、第一特征embedding和第二特征embedding。

S103、根据每个搜索文档的预测交互概率和交互标签，计算排序模型的损失。

搜索文档的交互标签即搜索文档的实际交互概率，例如，当搜索文档被点击时，搜索文档的交互标签的取值为1，则搜索文档的实际交互概率为1，当搜索文档未被点击时，搜索文档的交互标签的取值为0，则搜索文档的实际交互概率为0，根据每个搜索文档的交互标签和预测交互概率计算排序模型的损失，根据排序模型的损失对排序模型的参数进行更新，直至满足训练条件时，停止模型训练。

排序模型的损失可以采用均方误差(Mean Square Error，MSR)、平均绝对误差(Mean Absolute Error)、交叉熵损失(Cross Entropy Loss)、焦点损失(Focal loss)、相对熵或指数损失等。

S104、根据排序模型的损失，以及第一优化器和第二优化器更新排序模型的参数，其中，第一优化器用于对第一特征和长期搜索特征相关参数进行优化，第二优化器用于对第二特征和短期搜索特征相关参数进行优化，第二优化器采用指数移动平均的方法计算参数的累计梯度，第一优化器采用非指数移动平均的方法计算参数的累计梯度。

通过前向传播过程得到了排序模型的预测值和真实标签的差异，即排序模型的损失，然后进入反向传播过程得到模型的参数的梯度，优化器根据该梯度去更新模型的参数，使得模型的损失不断地降低。所以，优化器的作用是在深度学习反向传播过程中，指导损失函数的各个参数往正确的方向更新以及往合适的大小更新，使得更新后的各个参数让模型的损失值不断逼近全局最小。

示例性的，优化器可以采用如下几种优化方法进行参数更新：梯度下降法(Gradient Descent)、动量优化法(Momentum)和自适应学习率优化算法。

本实施例中，第一优化器用于对第一特征和长期搜索特征相关参数进行优化，第二优化器用于对第二特征和短期搜索特征相关参数进行优化，其中，第一特征和长期搜索特征相关参数是指与用户长期搜索相关参数，第二特征和短期搜索特征相关参数是指与用户短期搜索相关参数。用户长期搜索偏好根据用户长期的历史搜索数据捕获，而用户短期搜索偏好是根据用户近期的搜索会话数据捕获，因此，针对用户长期搜索偏好和短期搜索偏好使用的不同数据来源的特性，采用不同的优化器进行优化。

第二优化器采用指数移动平均(Exponential Moving Average，简称EMA)的方法计算参数的累计梯度，第一优化器采用非指数移动平均的方法计算参数的累计梯度。

指数移动平均方法是一种给予近期数据更高权重的平均方法，第二优化器采用指数移动平均方法计算参数的累计梯度，从而使得第二优化器能够丢弃距离当前时间较远的历史梯度信息，只保留用户近期的搜索会话数据对应的累计梯度。而第一优化器采用非指数移动平均的方法计算参数的累计梯度，对于近期数据和远期数据的权重差不多，从而能够保留距离当前时间较远的远期搜索会话数据对应的累计梯度以及近期的搜索会话数据对应的累计梯度，即保留了所有搜索会话数据对应的累计梯度。

示例性的，第一优化器为自适应梯度(Adaptive Gradient，简称AdaGrad)优化器，第二优化器为均方根传播(Root Mean Square Propagation，简称RMSProp)优化器。

AdaGrad优化器对梯度的平方进行累计，对每个参数分别调节学习率，或者理解为调节每个参数的梯度，AdaGrad优化器随着迭代次数增多，梯度累计越来越大，导致模型参数的实际更新越来微弱。

RMSProp优化器采用了EMA方式统计每个参数的最近的累计梯度，从而能够丢弃时间久远的历史梯度信息，多次迭代后不会导致模型参数更新缓慢。

参考图2或者图3所示的排序模型，与用户长期兴趣相关参数为第一特征交叉模块的参数和第一特征获取模块的参数，因此，通过第一优化器对第一特征交叉模块的参数和第一特征获取模块的参数进行更新。与用户短期兴趣相关参数为第二特征交叉模块的参数和第二特征获取模块的参数，因此，通过第二优化器对第二特征交叉模块的参数和第二特征获取模块的参数进行更新。

可选的，排序模型为多目标模型，即排序模型有多个目标，相应的，需要分别计算每个目标对应的损失。多目标训练为已有技术，具体训练过程本实施例不再详细描述。

可选的，第一优化器添加有第一stop_gradient函数，第一stop_gradient函数用于反向阻断第一优化器对搜索词特征获取模块的参数和文档特征获取模块的参数进行更新。

可选的，第二优化器添加有第二stop_gradient函数，第二stop_gradient函数用于反向阻断第二优化器对搜索词特征获取模块的参数和文档特征获取模块的参数进行更新。

stop_gradient函数用于在模型反向传播过程中停止梯度，通过停止梯度，避免对后续的参数进行更新。以第一优化器为例，通过添加第一stop_gradient函数，停止计算搜索词特征获取模块和文档特征获取模块的梯度，使得第一优化器在对第一特征交叉模块的参数更新之后，只更新第一特征获取模块的参数，不会反向更新搜索词特征获取模块的参数和文档特征获取模块的参数。同样，通过添加第二stop_gradient函数，停止计算搜索词特征获取模块和文档特征获取模块的梯度，使得第二优化器在对第二特征交叉模块的参数更新之后，只更新第一特征获取模块的参数，不会反向更新搜索词特征获取模块的参数和文档特征获取模块的参数。

如果不增加第一stop_gradient函数，在第一优化器对第一特征交叉模块的参数更新完之后，根据第一特征交叉模块的参数的更新结果，会反向更新第一特征获取模块、搜索词特征获取模块和文档特征获取模块的参数。同样，如果不增加第二stop_gradient函数，在第二优化器对第二特征交叉模块的参数更新完之后，会反向更新第二特征获取模块、搜索词特征获取模块和文档特征获取模块的参数。

图4为排序模型的又一种结构示意图，参考图4，第一stop_gradient函数可以理解为设置在第一特征交叉模块和搜索词特征获取模块、文档特征获取模块之间的一个层，第二stop_gradient函数为设置在第二特征交叉模块和搜索词特征获取模块、文档特征获取模块之间的一个层。

其中，第一特征交叉模块和搜索词特征获取模块之间的第一stop_gradient函数用于反向阻断第一特征交叉模块对搜索词特征获取模块的参数的更新，第一特征交叉模块和文档特征获取模块之间的第一stop_gradient函数用于反向阻断第一特征交叉模块对文档特征获取模块的参数的更新。

第二特征交叉模块和搜索词特征获取模块之间的第二stop_gradient函数用于反向阻断第二特征交叉模块对搜索词特征获取模块的参数的更新，第二特征交叉模块和文档特征获取模块之间的第二stop_gradient函数用于反向阻断第二特征交叉模块对文档特征获取模块的参数的更新。

参考图4，搜索词特征获取模块的参数和文档特征获取模块的参数的更新只根据排序模块的参数更新结果进行更新，增加的第一特征交叉模块和第二特征交叉模块的参数更新不会影响搜索词特征获取模块的参数和文档特征获取模块的参数的更新，从而能够保证原搜索词特征获取模块和原文档特征获取模块的性能不受影响。

本实施例中，获取多个用户的搜索会话数据用于排序模型训练，该搜索会话数据包括：搜索词、用户标识、至少一个搜索文档和搜索文档的交互标签，根据搜索会话数据获取用户的搜索词特征、文档特征、第一特征和第二特征，对用户的搜索词特征、文档特征和第一特征进行特征交叉得到用户的长期搜索特征，对用户的搜索词特征、文档特征和第二特征进行特征交叉得到用户的短期搜索特征，其中，该第一特征和第二特征是对用户标识处理得到的，排序模型使用用户的长期搜索偏好和短期搜索偏好预测搜索文档的预测交互概率，在模型的参数更新时使用两个不同的优化器分别对用户长期搜索相关参数和用户短期搜索相关参数进行优化，从而使得排序模型的排序结果能够满足用户兴趣，提高了用户满意度。

在对排序模型的训练过程进行详细介绍之后，本申请实施例二对排序模型的应用进行说明，实施例一训练得到的排序模型可以应用在具有搜索功能的平台中，对搜索结果进行排序。图5为本申请实施例二提供的一种搜索方法的流程图，如图5所示，该方法可包括如下步骤：

S201、接收搜索请求，该搜索请求中包括搜索词。

该搜索词可以是用户通过文本框输入的文本搜索词、语音搜索词或者图片搜索词等。可选的，该搜索请求中还包括用户标识。

S202、根据搜索请求获取用户标识和至少一个搜索文档。

当该搜索请求中不包括用户标识时，该检索模型根据搜索请求先获取用户标识，然后根据用户标识和搜索词从数据库中筛选展示给用户的搜索文档。当该搜索请求中包括用户标识时，直接根据用户标识和搜索词从数据库中筛选展示给用户的搜索文档。

S203、将搜索词、用户标识和至少一个搜索文档输入排序模型，得到该至少一个搜索文档的预测交互概率。

可选的，还获取用户输入的用户个性化信息，将搜索词、用户标识、用户个性化信息和至少一个搜索文档输入排序模型，得到该至少一个搜索文档的预测交互概率。

该排序模型为通过实施例一训练得到的排序模型，排序模型根据搜索词、用户标识和至少一个搜索文档，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征，对搜索词特征、文档特征和第一特征进行特征交叉得到长期搜索特征，对搜索词特征、文档特征和第二特征进行特征交叉得到短期搜索特征；将搜索词特征、文档特征、长期搜索特征和短期搜索特征输入排序模块，得到每个搜索文档的预测交互概率。

S204、根据该至少一个搜索文档的预测交互概率，确定该至少一个搜索文档的排序结果。

根据预测交互概率的大小对搜索文档进行排序，并将排序结果展示给用户。预测交互概率大的搜索文档被用户消费的概率更大，优先将预测交互概率大的搜索文档排到靠前位置，以提供排序结果的准确性。

可以理解，根据用户排序结果中搜索文档数量的多少，可以将搜索结果分屏显示，用户可以通过翻页浏览更多的搜索文档。

本实施例使用的排序模型能够通过特征交叉的方式能够获取到用户的长期搜索偏好和短期搜索偏好，使用用户的长期搜索偏好和短期搜索偏好预测搜索文档的预测交互概率，在模型的参数更新时使用两个不同的优化器分别对用户长期搜索相关参数和用户短期搜索相关参数进行优化，从而使得排序模型的排序结果能够满足用户需求，提高了用户满意度。

为便于更好的实施本申请实施例的排序模型的训练方法，本申请实施例还提供一种排序模型的训练装置。图6为本申请实施例三提供的排序模型的训练装置的结构示意图，如图6所示，该排序模型的训练装置100可以包括：

会话获取模块11，用于获取多个用户的搜索会话数据，所述搜索会话数据包括：搜索词、用户标识、与所述搜索词对应的至少一个搜索文档和所述搜索文档的交互标签；

预测模块12，用于将所述搜索会话数据输入排序模型，得到每个搜索文档的预测交互概率，所述排序模型用于：根据所述搜索会话数据，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征；对所述搜索词特征、所述文档特征和所述第一特征进行特征交叉得到长期搜索特征，对所述搜索词特征、所述文档特征和所述第二特征进行特征交叉得到短期搜索特征；将所述搜索词特征、所述文档特征、所述长期搜索特征和所述短期搜索特征输入排序模块，得到所述每个搜索文档的预测交互概率，其中，所述第一特征和所述第二特征是对所述用户标识处理得到的；

损失计算模块13，用于根据所述每个搜索文档的预测交互概率和交互标签，计算所述排序模型的损失；

更新模块14，用于根据所述排序模型的损失，以及第一优化器和第二优化器更新所述排序模型的参数，其中，所述第一优化器用于对所述第一特征和所述长期搜索特征相关参数进行优化，所述第二优化器用于对所述第二特征和所述短期搜索特征相关参数进行优化，所述第二优化器采用指数移动平均的方法计算参数的累计梯度，所述第一优化器采用非指数移动平均的方法计算参数的累计梯度。

在一种可选实现方式中，所述排序模型包括搜索词特征获取模块、文档特征获取模块、第一特征获取模块、第二特征获取模块、第一特征交叉模块、第二特征交叉模块和所述排序模块；

所述搜索词特征获取模块，用于根据所述搜索词获取搜索词特征；

所述文档特征获取模块，用于根据所述搜索文档获取所述每个搜索文档的文档特征；

所述第一特征获取模块，用于根据所述用户信息获取所述第一特征；

所述第二特征获取模块，用于根据所述用户信息获取所述第二特征；

所述第一特征交叉模块，用于对所述搜索词特征、所述文档特征和所述第一特征进行特征交叉得到所述长期搜索特征；

所述第二特征交叉模块，用于对所述搜索词特征、所述文档特征和所述第二特征进行特征交叉得到所述短期搜索特征；

所述排序模块，用于根据所述搜索词特征、所述文档特征、所述长期搜索特征和所述短期搜索特征预测得到所述每个搜索文档的预测交互概率。

在一种可选实现方式中，所述更新模块14具体用于：

通过所述第一优化器对所述第一特征交叉模块的参数和所述第一特征获取模块的参数进行更新；

通过第二优化器对所述第二特征交叉模块的参数和所述第二特征获取模块的参数进行更新。

在一种可选实现方式中，所述第一优化器添加有第一stop_gradient函数，所述第一stop_gradient函数用于反向阻断所述第一优化器对所述搜索词特征获取模块的参数和所述文档特征获取模块的参数进行更新；

所述第二优化器添加有第二stop_gradient函数，所述第二stop_gradient函数用于反向阻断所述第二优化器对所述搜索词特征获取模块的参数和所述文档特征获取模块的参数进行更新。

在一种可选实现方式中，所述第一优化器为自适应梯度AdaGrad优化器，所述第二优化器为均方根传播RMSProp优化器。

在一种可选实现方式中，所述预测模块12具体用于：

对用户ID进行独热编码得到编码数据，将所述编码数据输入第一全连接层得到所述第一特征；

对所述用户ID进行独热编码得到编码数据，将所述编码数据输入第二全连接层得到所述第二特征。

在一种可选实现方式中，所述搜索会话数据中还包括用户输入的用户个性化信息；

所述预测模块12具体用于：

对用户ID进行独热编码得到编码数据，对所述用户个性化信息进行特征提取得到用户个性化特征，将所述编码数据和所述用户个性化特征进行组合后输入第一全连接层，得到所述第一特征；

对所述用户ID进行独热编码得到编码数据，对所述用户个性化信息进行特征提取得到用户个性化特征，将所述编码数据和所述用户个性化特征进行组合后输入第二全连接层，得到所述第二特征。

在一种可选实现方式中，所述排序模型为多目标模型。

实施例的装置可用于执行上述实施例一所述的方法，具体实现方式参照方法实施例的描述，这里不再赘述。

图7为本申请实施例四提供的搜索装置的结构示意图，如图7所示，该搜索装置200可以包括：

接收模块21，用于接收搜索请求，所述搜索请求中包括搜索词；

获取模块22，用于根据所述搜索请求获取用户标识和至少一个搜索文档；

预测模块23，用于将所述搜索词、所述用户标识和所述至少一个搜索文档输入实施例三提供的装置100训练得到的排序模型，得到所述至少一个搜索文档的预测交互概率；

排序模块24，用于根据所述至少一个搜索文档的预测交互概率，确定所述至少一个搜索文档的排序结果。

可选的，所述获取模块22还用于获取用户输入的用户个性化信息，所述预测模块23具体用于：将所述搜索词、所述用户标识、所述用户个性化信息和所述至少一个搜索文档输入所述排序模型，得到所述至少一个搜索文档的预测交互概率。

本实施例的装置可用于执行上述实施例二提供的搜索方法，具体实现方式参照方法实施例的描述，这里不再赘述。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置100。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

本申请实施例还提供一种电子设备。图8为本申请实施例五提供的电子设备的一种结构示意图，如图8所示，该电子设备300可以包括：

存储器31和处理器32，该存储器31用于存储计算机程序，并将该程序代码传输给该处理器32。换言之，该处理器32可以从存储器31中调用并运行计算机程序，以实现本申请实施例提供的消除偏差的模型训练方法或者搜索方法。

例如，该处理器32可用于根据该计算机程序中的指令执行上述方法实施例提供的消除偏差的模型训练方法或者搜索方法。

在本申请的一些实施例中，该处理器32可以包括但不限于：通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器31包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器31中，并由该处理器32执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图8所示，该电子设备300还可包括：收发器33，该收发器33可连接至该处理器32或存储器31。

其中，处理器32可以控制该收发器33与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器33可以包括发射机和接收机。收发器33还可以进一步包括天线，天线的数量可以为一个或多个。

可以理解，虽然图8中未示出，该电子设备300还可以包括摄像头模组、无线保真WIFI模块、定位模块、蓝牙模块、显示器、控制器等，在此不再赘述。

应当理解，该XR设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。XR设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得XR设备执行方法实施例中的相应流程，为了简洁，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种排序模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述排序模型包括搜索词特征获取模块、文档特征获取模块、第一特征获取模块、第二特征获取模块、第一特征交叉模块、第二特征交叉模块和所述排序模块；

所述第一特征获取模块，用于根据所述用户标识获取所述第一特征；

所述第二特征获取模块，用于根据所述用户标识获取所述第二特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述排序模型的损失，以及第一优化器和第二优化器更新所述排序模型的参数，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一优化器添加有第一stop_gradient函数，所述第一stop_gradient函数用于反向阻断所述第一优化器对所述搜索词特征获取模块的参数和所述文档特征获取模块的参数进行更新；

5.根据权利要求3或4所述的方法，其特征在于，所述第一优化器为自适应梯度AdaGrad优化器，所述第二优化器为均方根传播RMSProp优化器。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述搜索会话数据，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征，包括：

对所述用户标识进行独热编码得到编码数据，将所述编码数据输入第一全连接层得到所述第一特征；

对所述用户标识进行独热编码得到编码数据，将所述编码数据输入第二全连接层得到所述第二特征。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述搜索会话数据中还包括用户输入的用户个性化信息；

根据所述搜索会话数据，获取搜索词特征、每个搜索文档的文档特征、第一特征和第二特征，包括：

对所述用户标识进行独热编码得到编码数据，对所述用户个性化信息进行特征提取得到用户个性化特征，将所述编码数据和所述用户个性化特征进行组合后输入第一全连接层，得到所述第一特征；

对所述用户标识进行独热编码得到编码数据，对所述用户个性化信息进行特征提取得到用户个性化特征，将所述编码数据和所述用户个性化特征进行组合后输入第二全连接层，得到所述第二特征。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述排序模型为多目标模型。

9.一种搜索方法，其特征在于，包括：

接收搜索请求，所述搜索请求中包括搜索词；

根据所述搜索请求获取用户标识和至少一个搜索文档；

将所述搜索词、所述用户标识和所述至少一个搜索文档输入权利要求1-7任一项训练得到的排序模型，得到所述至少一个搜索文档的预测交互概率；

10.一种排序模型的训练装置，其特征在于，包括：

11.一种搜索装置，其特征在于，包括：

预测模块，用于将所述搜索词、所述用户标识和所述至少一个搜索文档输入权利要求10所述的训练装置训练得到的排序模型，得到所述至少一个搜索文档的预测交互概率；

12.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至9中任一项所述的方法。