CN110765345B

CN110765345B - 搜索方法、装置以及设备

Info

Publication number: CN110765345B
Application number: CN201810751704.0A
Authority: CN
Inventors: 詹宇森; 笪庆; 曾安祥
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2023-04-25
Anticipated expiration: 2038-07-10
Also published as: CN110765345A

Abstract

本公开提出了一种搜索方法、装置以及设备。基于用户信息和搜索请求，从特征集中选取部分排序特征，其中，所述特征集中的排序特征为对搜索结果进行排序时所使用的特征；以及基于所述部分排序特征对响应于所述搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果。由此，排序引擎在对搜索到的搜索结果进行排序时，不必使用全部排序特征，而可以使用部分排序特征，从而可以减少引擎的计算资源消耗，并且使得引擎可以抵抗来自流量激增的压力，在流量激增时不会造成太大的搜索延时。

Description

搜索方法、装置以及设备

技术领域

本公开涉及搜索领域，特别是涉及一种搜索方法、装置以及设备。

背景技术

搜索结果排序一般是建立在多种排序特征之上的。随着近年来深度模型的广泛应用，越来越多复杂且耗时的特征，作为排序特征被引入到搜索排序中。这一方面带来了排序效果上的收益，另一方面，也对线上引擎的性能带来了新的挑战。这样的挑战不仅来自于高耗时排序策略无法全量生效，也来自于突发性高流量事件对引擎的瞬间压力。

面对大规模流量请求时，为了降低对引擎的压力，避免出现因引擎的处理能力不足导致搜索结果显示延时，目前通常是引擎端执行临时性的降级方案，比如，下线不重要业务、减少召回数量、通过粗排过滤更多搜索结果等方法。可以看到，现有方案的实质是对排序效果的硬妥协(hard compromise)，而不是通过一些软性(softer)的方法来完成性能的优化。

发明内容

本公开的一个目的在于提出一种能够在不显著降低排序效果的前提下，降低引擎压力的搜索方案。

根据本公开的第一个方面，提出了一种搜索方法，包括：基于用户信息和搜索请求，从特征集中选取部分排序特征，其中，特征集中的排序特征为对搜索结果进行排序时所使用的特征；以及基于部分排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果。

可选地，从特征集中选取部分排序特征的步骤包括：以基于选取的排序特征得到的排序结果与标准结果之间的差异不大于预定阈值为目标，从特征集中选取排序特征，其中，标准结果为使用特征集中的全部排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序所得到的排序结果。

可选地，从特征集中选取部分排序特征的步骤包括：基于用户信息和搜索请求，确定预测模型的模型参数；基于模型参数，使用预测模型预测部分排序特征。

可选地，模型参数包括与用户信息和搜索请求相对应的参数，确定预测模型的模型参数的步骤包括：从预先训练好的多个对应于不同预测模型的模型参数中，选取与用户信息和搜索请求相匹配的模型参数。

可选地，预测模型包括马尔科夫决策模型，确定部分排序特征的步骤包括：基于确定的模型参数，抽取当前决策状态；基于当前决策状态，预测模型按照预定顺序对特征集中不同的排序特征的动作进行预测，以得到最终的决策状态，其中，动作包括特征保留动作和特征丢弃动作，所有特征保留动作所对应的排序特征，即为部分排序特征。

可选地，当前决策状态包括用户特征信息和历史动作信息，其中，用户特征信息包括用户信息和搜索请求信息，历史动作信息包括历史决策状态中针对排序特征的动作做出的决策结果。

可选地，马尔科夫决策模型的奖赏包括第一奖赏和第二奖赏，第一奖赏为针对排序效果的奖赏，第二奖赏用于表征减少的计算开销。

可选地，所述第一奖赏为

其中，T(s_k,a_k)表示在状态s_k下采取动作a_k的第一奖赏，t为排序结果与标准结果的差异，C为预定阈值，r_p为排序结果与标准结果的差异t大于预定阈值C时的惩罚。

可选地，所述第二奖赏为

其中，

表示在状态s_k下采取动作a_k的第二奖赏，

为排序特征

的计算开销函数。

可选地，搜索方法还包括：根据用户对向其反馈的排序结果的操作信息，对预测模型的模型参数进行更新。

可选地，搜索方法还包括：将排序结果发送给用户。

根据本公开的第二个方面，还提供了一种搜索装置，包括：选取模块，用于基于用户信息和搜索请求，从特征集中选取部分排序特征，其中，特征集中的排序特征为对搜索结果进行排序时所使用的特征；和排序模块，用于基于部分排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果。

可选地，选取模块以基于选取的排序特征得到的排序结果与标准结果之间的差异不大于预定阈值为目标，从特征集中选取排序特征，其中，标准结果为使用特征集中的全部排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序所得到的排序结果。

可选地，选取模块包括：模型参数确定模块，用于基于用户信息和搜索请求，确定预测模型的模型参数；和预测模块，用于基于模型参数，使用预测模型预测部分排序特征。

可选地，模型参数包括与用户信息和搜索请求相对应的参数，模型参数确定模块从预先训练好的多个对应于不同预测模型的模型参数中，选取与用户信息和搜索请求相匹配的模型参数。

可选地，预测模型包括马尔科夫决策模型，预测模块包括：状态抽取模块，用于基于确定的模型参数，抽取当前决策状态；预测子模块，用于基于当前决策状态，预测模型按照预定顺序对特征集中不同的排序特征的动作进行预测，以得到最终的决策状态，其中，动作包括特征保留动作和特征丢弃动作，所有特征保留动作所对应的排序特征，即为部分排序特征。

可选地，第一奖赏为

其中，T(s_k,a_k)表示在状态s_k下采取动作a_k的第一奖赏，t为排序结果与标准结果的差异，C为预定阈值，r_p为排序结果与标准结果的差异t大于预设阈值C时的惩罚。

可选地，第二奖赏为

其中，

表示在状态s_k下采取动作a_k的第二奖赏，

为排序特征

的计算开销函数。

可选地，搜索装置还包括：更新模块，用于根据用户对向其反馈的排序结果的操作信息，对预测模型的模型参数进行更新。

可选地，搜索装置还包括：发送模块，用于将排序结果发送给用户。

根据本公开的第三个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面述及的方法。

根据本公开的第四个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面述及的方法。

本公开通过根据用户的上下文，从全部排序特征的集合中寻找合适的排序特征，使得排序引擎在对基于用户的搜索请求进行搜索而得到的搜索结果进行排序时，可以仅根据选取的排序特征进行排序。由此，可以减少排序特征的使用，从而降低引擎的资源消耗，并且可以降低搜索延时，提升用户的搜索体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出了抽取的特征子集内排序特征间的相关度的计算结果示意图。

图2是示出了根据本公开一实施例的搜索方法的示意性流程图。

图3是示出了强化学习过程示意图。

图4是示出了状态转移过程示意图。

图5是示出了根据本公开一实施例的排序系统的架构示意图。

图6是示出了现有排序和本公开排序的对比示意图。

图7A、图7B分别示出了在两种测试环境下的测试结果示意图。

图8是示出了根据本公开一实施例的搜索装置的结构的示意性方框图。

图9是示出了选取模块可以具有的功能模块的结构示意图。

图10示出了根据本公开一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

【术语解释】

1、强化学习

强化学习(Reinforcement Learning)，又称再励学习、评价学习，是一种重要的机器学习方法。

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是，如果Agent(智能体)的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

2、马尔科夫决策

马尔可夫决策过程(Markov Decision Process，MDP)是强化学习的最基本理论模型。一般地，MDP可以由一个四元组<S，A，R，T>表示。其中，(1)S为状态空间(State Space)，包含了Agent可能感知到的所有环境状态；(2)A为动作空间(Action Space)，包含了Agent在每个状态上可以采取的所有动作；(3)R:S×A×S→R为奖赏函数，R(s，a，s')表示在状态s上执行动作a，并转移到状态s'时，Agent从环境获得的奖赏；(4)T:S×A×S→[0,1]为环境状态转移函数(State Transition Function)，T(s，a，s')表示在状态s上执行动作a，并转移到状态s'的概率。

3、NP-Hard

NP-Hard是计算理论中用于判断问题难易程度的一个类型。在计算理论的问题分类中，P问题是最简单的一类问题，其可以在多项式时间内得到解；NP问题是指可以在多项式的时间里验证一个解的问题；NPC问题是这样一类问题，所有的NP问题都可以规约到这个问题，并且其本身也是NP问题；最后，NP-hard问题满足NPC问题的第一个条件，即所有NP问题都可以规约至NP-hard，但不需要满足NP问题的约束，即NP-hard问题可以不是NP问题。

4、Actor-Critic

Actor其实是一个Policy Network(预测网络)，Actor需要奖惩信息来进行调节不同状态下采取各种动作的概率。Critic是一个以值为基础的学习算法，其可以进行单步更新，计算每一步的奖惩值。

Actor-Critic就是Actor和Critic相结合。其中，Actor用于选择动作，Critic用于告诉Actor它选择的动作是否合适。在这一过程中，Actor不断迭代，得到每一个状态下选择每一动作的合理概率，Critic也不断迭代，不断完善每个状态下选择每一个动作的奖惩值。

4、策略梯度

策略梯度(Policy Gradient)是一种深度增强学习算法。

5、排序特征

排序特征，也即排序因子。在对搜索结果进行排序时，针对每个搜索结果，需要计算其在不同排序特征下的分值，所有分值之和可以作为其总的排序分。然后可以按照总的排序分的大小对搜索结果进行排序。

6、上下文

context，包括用户信息(user)和搜索请求相关的查询信息(query)。其中，用户信息可以是性别、年龄、购买力等特征，查询信息可以是检索词、检索词涉及的类别等特征。

【方案概述】

本公开发明人通过深入观察线上的排序特征后发现，即使每一个排序特征的上线初期都经过了测试(如A/B测试)来验证其有效性，但总体来看，排序特征之间的相关性仍然很高。为了论证该观点，本公开发明人从全部排序特征的集合中抽取了一个特征子集，并计算了两两之间的皮尔逊积矩相关系数(Pearson product-moment correlationcoefficient)。计算结果如图1所示，格子中颜色越白，对应的2个排序特征之间的相关性就越高，不难看出存在大量的相关排序特征对。

另一方面，本公开发明人还发现，不同的上下文下，搜索结果的转化率差异很大。举例来说，高购买力的用户在长尾query(搜索量小的query)上的查询，转化率通常要比平均高很多。因此，在类似这样的搜索场景下，廉价的排序特征就足以满足用户需求。

结合以上两方面的发现，本公开提出，响应于用户的搜索请求，可以根据上下文从排序特征集合(即下文述及的特征集)中选取一个合适的排序特征子集(即下文述及的部分排序特征)，以降低排序特征的数量。由此，排序引擎(实现搜索结果排序的功能模块，位于搜索服务器中)可以基于该排序特征子集内的排序特征，而非全部排序特征，对针对搜索请求执行搜索而得到的搜索结果进行排序，以减轻排序引擎的压力。

需要说明的是，本公开是根据用户的上下文，从排序特征的集合中选取合适的排序特征的，从而可以使得在保证排序质量的同时，减少排序特征的使用。因此，本公开可以视为是一种“软性的”性能优化方案。因此，本公开可以在不显著影响排序结果及用户的搜索体验的同时，降低排序引擎的资源消耗，减轻排序引擎的压力。

参见图2，在步骤S210，基于用户信息和搜索请求，从特征集中选取部分排序特征。

特征集中的排序特征为对搜索结果进行排序时所使用的特征，如可以是全部排序特征的集合。如上文所述，一方面，特征集中存在大量相关的排序特征对，另一方面，不同上下文，用户的排序需求也不尽相同，如对于高购买力的用户而言，廉价的排序特征就足以满足其需求。因此，响应于用户的搜索请求，可以根据用户上下文，也即用户信息和搜索请求，从特征集中选取部分排序特征，作为对该用户该次搜索请求的搜索结果的排序依据。

作为示例，从特征集中选取排序特征的一般性原则可以设置为，以选取的排序特征得到的排序结果与标准结果之间的差异不会太大(例如不大于预定阈值)为目标，从特征集中选取排序特征。例如，可以以选取尽可能少的排序特征，且基于选取的排序特征得到的排序结果与标准结果之间的差异不会太大(例如不大于预定阈值)为目标，从特征集中选取排序特征。其中，标准结果为使用特征集中的全部排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序所得到的排序结果。换句话说，此处述及的原则也可以理解为，在保证排序效果不会太差的同时，尽可能地选取少的排序特征，以最大限度地降低引擎的压力。

在上述选取原则的指导思想下，可以利用多种方式实现排序特征的选取。例如，可以预先准备训练样本，其中训练样本的特征可以基于用户信息和搜索请求生成，训练样本的标记可以是通过穷尽法、最优算法等多种计算方式确定的排序特征集。然后基于这些训练样本训练一个预测模型，预测模型的输入为用户信息和搜索请求，输出为排序特征的选取结果。再例如，对于不同的用户及搜索请求，也可以通过穷尽法、最优算法等多种计算方式实时计算应该选取的排序特征。当然，还可以有多种其它实现方式，此处不再赘述。

作为本公开的一个示例，可以预先划分多个(user，query)对，例如，可以按照购买力、年龄、性别以及搜索类别等特征维度，划分(user，query)对。对于不同的(user，query)对，可以预先计算适于从特征集中选取的排序特征，并保存计算结果，例如可以以列表的形式保存不同(user，query)对所对应的排序特征选取结果。如此，响应于用户的搜索请求，可以获取用户的购买力、年龄、性别等用户信息，并确定搜索请求所属的搜索类别，然后可以查找(如可以通过查表的方式查找)与当前用户及其搜索请求相匹配的(user，query)对，该(user，query)对所对应的排序特征选取结果，可以作为本次排序依据。

作为本公开的另一个示例，可以预先计算特征集中所有排序特征的相关度，如可以通过计算两两排序特征间的皮尔逊积矩相关系数，作为相关度。相关度较高(例如大于预定阈值)的两个排序特征可以视为相关排序特征对。根据用户信息(如性别、年龄、购买力等)和搜索请求(如检索词、检索词涉及的类别等)，可以确定用户的排序需求。例如，对于高购买力用户的针对长尾query的搜索请求，可以认为其排序需求较低，对于低购买力用户针对热门query的搜索请求，可以认为其排序需求较高。在本实施例中，可以粗略地认为相关排序特征对中的两个排序特征仅保留一个时，不会使排序结果偏离标准结果偏离太多。基于这种认知，对于不同程度的排序需求，对于所有相关排序特征对，可以选取不同数量的相关排序特征对进行特征去重。例如，对于排序需求较高的(user，query)，可以仅对少量的相关排序特征对进行去重，仅保留每个相关排序特征对中的一个排序特征；对于排序需求较低的(user，query)，则可以对大量的相关排序特征对进行去重。由此，可以根据用户信息和搜索请求，确定用户的排序需求，然后根据排序需求，选取合适数量的相关排序特征对进行去重，去重后的排序特征与剩余的排序特征可以作为排序时所使用的排序特征，也即所述部分排序特征。

在步骤S220，基于部分排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果。

由此，排序引擎在对搜索到的搜索结果进行排序时，不必使用全部排序特征，而可以使用步骤S210所选取的排序特征，如此在不显著降低排序效果的同时，可以减少引擎的计算资源消耗，并且使得引擎可以抵抗来自流量激增的压力，在流量激增时不会造成太大的搜索延时。另外，在得到排序结果后，可以将该排序结果直接发送给用户，从而可以降低用户的搜索延时。

至此，结合图2就本公开的发明原理及实现流程做了说明。根据上文描述可知，如何从特征集中选取合适的排序特征(即步骤S210)是实现本公开的关键。下面就选取排序特征的一种较佳实现方式做以示例性说明，应该知道，还可以有多种其它实现方式，对此本公开不做限定。

【问题建模】

以排序特征集合包括n个排序特征为例，对于一次搜索请求(u,q)_i，排序引擎会依次计算待排序的每个文档d在n个排序特征下的得分，即s(d)＝(x₁(d),x₂(d),...,x_n(d))∈Rⁿ。其中，部分排序特征的计算会同时依赖u,q和d，但这一点对我们考虑的问题是透明的，所以不失一般性，可以用x_j(d)来指代x_j(u,q,d)。最后将这些排序特征下的得分输入到一个最终排序模块(ranker)进行总分的计算，F(u,q,d)＝f(x₁(d),x₂(d),…,x_n(d))。值得指出的是，这里并没有对f的形式做任何假设，可以是一个线性模型，也可以是一个DNN(深度神经网络)，甚至是一个GBDT(梯度提升决策树)。

以某一个特定context下的优化为例，即对某个(u,q)来说，假设召回和海选之后还有m个商品待排序，我们可以使用全部的特征集合Ω计算总得分F_o(d)＝[f(s(d₁)),f(s(d₂)),…,f(s(d_m))]，亦选取一个子集

计算近似总得分F_a(d)＝[f(π_S(s(d₁))),f(π_S(s(d₂))),…,f(π_S(s(d_m)))]，这里的π_S(·)指的是特征全集向子集的映射，于是我们的目标可以写成

这里D(F_o||F_a)表示的是KL(相对熵)距离，而目标中的第二项表示是子集的大小，目标的直觉含义是，在使用尽量少的排序特征的情况下，最大可能地逼近原先的排序函数F_o。

但是，即使对单个context，Eq.(1)都不是特别好解的问题，其本质上是一个最优子集选择(optimal subset selection)问题，可以证明是NP-Hard问题。换言之，我们要尝试对所有的(u，q)，都要分别求解一个NP-Hard问题，显然这种实现方式的计算量太大。

基于上述考虑，本公开提出，可以把最优子集的解在context特征层上进行泛化，即我们不直接求解子集，而是通过定义：

S_u,q＝H(u,q|θ)

转而去求解一个全局的模型参数θ。同时，可以将子集选取定义为一个最优决策序列。其中，序列的奖赏(即reward)，则可以定义为我们想要的标准，例如可以将损失函数取反。

图3示出了强化学习的示意图。如图3所示，由于reward可以在模拟环境中得到，因此可以通过离线的充分训练，让预测模型有机会探索到更优的解，同时通过策略梯度更新预测模型，直至收敛。

在本公开中，预测模型的模型参数优选地可以包括与用户信息和搜索请求相对应的参数。由此，可以预先训练多个预测模型，不同的预测模型的模型参数不同，并可以保存这多个预测模型的模型参数。

基于用户信息和搜索请求，可以首先确定预测模型的模型参数，如可以从预先训练好的多个对应于不同预测模型的模型参数中，选取与用户信息和搜索请求相匹配的模型参数。然后基于选取的模型参数，使用预测模型预测选取的排序特征。

【马尔科夫决策模型】

如背景技术部分，马尔科夫决策模型是强化学习的最基本理论模型。因此，本公开提出，预测模型可以采用马尔科夫决策模型。具体来说，可以通过定义马尔科夫决策模型的四元素，将问题的求解过程转换为MDP过程。

(1)状态定义

为了能够包含context的信息，马尔科夫决策模型中的状态(也可称为“决策状态”)可以包括用户特征信息和历史动作信息。其中，用户特征信息可以包括用户信息和搜索请求信息，历史动作信息可以包括历史决策状态中针对排序特征的动作做出的决策结果。其中，用户信息可以是用户年龄、性别、购买力等信息，搜索请求信息可以是检索词、检索词所涉及的类目等。

作为示例，可以在状态(也即决策状态)中引入用户特征(例如年龄、性别、购买力等)、检索词特征(如检索词所属行业，检索词所包含的二级类目等)、记录前面步骤的决策的动作a_i以及决策的总步骤current_step。作为示例，最终状态的定义如下：

s＝(age,sex,power,a₁,a₂,…,a_n,current_step)

如此，定义的状态不仅包含了用户特征信息，如用户与query的上下文信息，同时包含了历史的决策信息(也可称为“历史动作信息”)。由于状态中不同维度的特征的尺度不一样，因此优选地可以将所有维度的特征值归一化到[0，1]区间内，再进行后续处理。

(2)动作定义

对于每个状态s，动作a_i∈{Skip,Eval}，其中，Eval代表排序特征x_i被保留作为排序特征，反之，Skip代表排序特征x_i不被保留作为排序标准。

(3)状态转移定义

在本公开中，状态转移函数T的设计比较简单。如图4所示，agent根据当前状态s，做出决策，选择动作a_k；这时将动作a_k存储在s'中，同时最后一维计数k+1。重复以上过程直到最后一维到达某个值。

(4)奖赏定义

奖赏的设定比较关键。正是由于正确的奖赏设计，才使得强化学习算法在保证排序的有效性，同时最大化的节省搜索引擎的性能开销。

在本公开中，马尔科夫决策模型的奖赏包括惩罚和奖励。其中，惩罚为排序结果差于期望值时的惩罚，奖励为特征丢弃动作所对应的排序特征的计算开销。基于这种奖赏设定，可以使得模型在保证排序的有效性的同时，更倾向于跳过开销更大的排序特征。

也就是说，马尔科夫决策模型的奖赏可以包括第一奖赏和第二奖赏，第一奖赏可以是针对排序效果的奖赏，第二奖赏可以用于表征减少的计算开销。其中，排序效果可以用排序结果与标准结果之间的差异表征，差异越大，排序效果越差。

作为示例，首先，可以定义一个{Skip,Eval}到[0,1]的b函数

本公开的主要目标是在保持排序的有效性(比如与原有的排序结果差异不大)的基础下，同时尽可能地减少排序特征的使用。所以本公开中的奖赏函数应在鼓励减少使用特征的同时，当排序结果太差的时候会给出一个惩罚(penalty)。

惩罚定义如下：首先确定排序结果与标准结果的差异t，

如果这个差异太大，超过某个阈值C，就会触发一个很大的惩罚r_p使得agent减少丢弃排序特征的数量

选择函数：

这里对r_p前加负号从而使得函数T(s_k,a_k)表示对于排序效果的奖赏。

奖赏可以定义如下：

其中，

是特征

的计算开销函数。该设计能够使得Agent倾向于跳过高开销的排序特征。最后将T(s_k,a_k)和

联合起来，就得到了最终的奖赏函数R(s_k,a_k)，

如此，R(s_k,a_k)在保证排序的有效性的同时，还能达到节省性能开销的目的。

通过上述定义，可以将排序特征的选取过程转换为MDP过程，即可以由马尔科夫决策模型按照预定顺序依次对特征集中每个排序特征是否保留，做出决策。

具体来说，由于模型参数中包括了与用户信息(user)和和搜索请求(query)相对应的参数，而马尔科夫决策模型的初始状态是由用户信息(user)和和搜索请求(query)决定的，因此在确定模型参数后，可以基于确定的模型参数，抽取当前决策状态。例如，可以抽取确定的模型参数中与用户信息(user)和和搜索请求(query)相对应的参数，作为当前决策状态(也即初始决策状态)。然后，基于当前决策状态，预测模型(也即马尔科夫决策模型)可以按照预定顺序对特征集中不同的排序特征的动作进行预测，以得到最终的决策状态，其中，动作包括特征保留动作和特征丢弃动作，所有特征保留动作所对应的排序特征，即为部分排序特征。

【排序系统】

图5示出了排序系统的框架图。其中，学习的模型(也即模型参数)可以存放于数据表(DII data)中，查询规划器(Query Planner，简称QP)用于排序策略(即排序特征选取)的实时计算，技术平台系统(可以称为“Porsche”)主要负责模型的训练。系统的大致工作过程如下所示。

(1)从右下角开始，QP接收用户输入的搜索请求，例如可以是用户输入的检索词(query，如可以是“连衣裙”)，并查询用户的相关信息(用户年龄，性别以及用户的购买力等用户信息)。

(2)根据获取的用户信息和搜索请求，QP可以从DII data获取当前模型参数θ，并抽取当前决策状态s的特征

计算出排序所需要的特征子集S，传给排序引擎(Ranker)。数据表中可以存放多个分别对应于不同模型的模型参数，如可以存放m个模型的模型参数θ₁,θ₂...θ_m，每种模型参数可以由多个模型系数组成，其中，部分模型系数可以与用户信息和搜素请求相对应。

(3)Ranker根据特征子集S，计算搜索结果的排序分值，并根据分值大小，对搜索结果进行排序。排序后的结果可以以搜索结果页的形式展示给用户，而用户在页面上的点击、购买等操作将会写进日志中，可以存入日志中心。

(4)日志中心的数据可以上传至Porsche，如可以以mini batch的形式输入到Porsche中，Porsche负责从日志中抽取训练样本，采取强化学习算法进行训练，如可以采取Actor-Critic方法进行训练。也就是，可以根据用户对向其反馈的排序结果的操作信息，对预测模型的模型参数进行更新。例如，在用户的操作信息主要是对排序结果中排在较后位置的搜索结果进行点击时，表明当前模型的策略较差，因此可以优选地使用该类数据生成训练样本，对预测模型进行着重训练。

(5)Porsche中的学习模型会定期更新到DII data中，确保引擎能根据最新的学习模型进行特征的选择。

可见，整个系统架构中，查询规划器QP和排序引擎Ranker可以看成是Agent的策略执行部分，Porsche可以看成Agent的策略更新部分，两者之间通过日志数据和DII data中的模型数据形成一个闭环。

Actor-Critic方法为本领成熟技术，下面就本公开中利用Actor-Critic方法进行训练的过程进行简要说明，对于其中涉及的细节本公开不再赘述。

【Actor-Critic算法设计】

如图6所示，本公开主要目标是通过学习b向量来选择线上的排序特征，从而在节省引擎性能开销的情况下，最小化对于业务效果的影响。其中，b向量可以表示为{b₁，b₂，…，b_i，…，b_n}，b_i∈{0,1}，用于确定排序特征x_i是否取用，b_i为0时，表示排序特征x_i被丢弃，b_i为1时，表示排序特征x_i被取用。

选取动作的概率和最终的reward可以用损失函数表示。在本公开中，损失函数可以定义如下：

其中，b(θ)是θ∈R^d参数化的函数d>0是参数向量的维度，q_i表示query，w^qi为权重，我们重新将奖赏函数写为：

这里Q是query的集合，|Q|表示query的个数。

是L₁范数，μ是正则参数，则可以得到：

其中，p_θ(τ)是轨迹τ出现的概率，π是策略函数。

可以采用Actor-Critic来优化上述的损失函数，其中可以利用一个策略网络来作为actor，然后利用一个参数化的网络来估计每个状态s_k的值函数。因此，critic网络的目标函数如下：

其中θ_c是刻画critic网络的参数。Actor-Critic的大致工作流程为：首先可以进行数据输入，然后分别初始化Actor网络和Critic，然后可以通过检索词q_i初始化初始状态s₀。继而，针对每个k＝1，…，n(n是特征序号)，可以对其进行动作选取，并计算Actor损失，更新Actor参数，计算Critic损失，更新Critic参数。关于Actor-Critic的实现过程为本领域成熟技术，这里仅是说明可以将Actor-Critic应用于本公开，以进行模型训练，关于算法的具体实现过程此处不再赘述。

【测试结果】

可以基于A/B test来搭建实验环境，测试和实验对照组可以都分配大约3％的线上流量。如图5所示，基于强化学习端的训练主要是在Porsche平台上面完成，预测可以通过QP完成。QP的功能主要是根据当前query和user info，给排序引擎发出跳过排序特征(skipfeature)的字符串，然后引擎按照给出的字符串丢弃(drop)相应的排序特征(feature)并计算排序分值。

以电商网站搜索场景为例，在平日流量平稳的环境下的测试结果如图7A所示，横坐标是时间，纵坐标是搜索延迟。上面的曲线是没有采取优化的对照结果，下面的曲线是使用本公开的方案的结果。结果表明，虽然排序指标稍微下降，但不会影响用户的体验，并且同时降低了大约30％的延时。

仍以电商网站搜索场景为例，在“双十一购物节”这种促销日流量激增环境下的测试结果如图7B所示，横坐标是时间，纵坐标是搜索延迟。上面的曲线是没有采取优化的对照结果，下面的曲线是使用本公开的方案的结果。结果表明，基于本公开的方案，能够节省引擎的性能开销，使得引擎能够抵抗来自流量激增的压力，不会造成太大的搜索延时。

【搜索装置】

本公开的搜索方法还可以实现为一种搜索装置。

图8是示出了根据本公开一实施例的搜索装置的结构的示意性方框图。其中，搜索装置的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图8所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就搜索装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图8，搜索装置800包括选取模块810和排序模块820。

选取模块810用于基于用户信息和搜索请求，从特征集中选取部分排序特征，其中，特征集中的排序特征为对搜索结果进行排序时所使用的特征。排序模块820用于基于部分排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果。

在本公开中，选取模块810可以通过多种方式实现排序特征的选取，具体可以参见上文结合图2描述的几种可行的选取实现示例，此处不再赘述。在本公开中，选取模块810可以以基于选取的排序特征得到的排序结果与标准结果之间的差异不大于预定阈值为目标，从特征集中选取排序特征，其中，标准结果为使用特征集中的全部排序特征对响应于搜索请求执行搜索而得到的搜索结果进行排序所得到的排序结果。例如，选取模块810可以以选取尽可能少的排序特征，且基于选取的排序特征得到的排序结果与标准结果之间的差异不大于预定阈值为目标，从特征集中选取排序特征。

如图9所示，选取模块810可以可选地包括模型参数确定模块811和预测模块813。

模型参数确定模块811用于基于用户信息和搜索请求，确定预测模型的模型参数。预测模块813用于基于模型参数，使用预测模型预测部分排序特征。其中，模型参数可以包括与用户信息和搜索请求相对应的参数，模型参数确定模块从预先训练好的多个对应于不同预测模型的模型参数中，选取与用户信息和搜索请求相匹配的模型参数。

可选地，预测模型可以为马尔科夫决策模型，预测模块813还可以可选地包括图中虚线框所示的状态抽取模块8131和预测子模块8133。

状态抽取模块8131用于基于确定的模型参数，抽取当前决策状态。预测子模块8133用于基于当前决策状态，预测模型按照预定顺序对特征集中不同的排序特征的动作进行预测，以得到最终的决策状态，其中，动作包括特征保留动作和特征丢弃动作，所有特征保留动作所对应的排序特征，即为部分排序特征。

当前决策状态可以包括用户特征信息和历史动作信息，其中，用户特征信息包括用户信息和搜索请求信息，历史动作信息包括历史决策状态中针对排序特征的动作做出的决策结果。马尔科夫决策模型的奖赏包括第一奖赏和第二奖赏，所述第一奖赏为针对排序效果的奖赏，，第二奖赏用于表征减少的计算开销。

作为本公开的一个示例，搜索装置800还可以包括图中虚线框所示的更新模块830。更新模块830可以根据用户对向其反馈的排序结果的操作信息，对预测模型的模型参数进行更新。

作为本公开的另一个示例，搜索装置800还可以包括图中虚线框所示的发送模块840。发送模块840用于将排序结果发送给用户。

【计算设备】

图10示出了根据本公开一实施例可用于实现上述搜索方法的数据处理的计算设备的结构示意图。

参见图10，计算设备1000包括存储器1010和处理器1020。

处理器1020可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1020可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1020可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020执行时，可以使处理器1020执行上文述及的搜索方法。

上文中已经参考附图详细描述了根据本公开的搜索方法、装置以及计算设备。

此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种搜索方法，其特征在于，包括：

基于用户信息和搜索请求，从特征集中选取部分排序特征，其中，所述特征集中的排序特征为对搜索结果进行排序时所使用的特征；以及

基于所述部分排序特征对响应于所述搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果，

其中，所述从特征集中选取部分排序特征的步骤包括：

以基于选取的排序特征得到的排序结果与标准结果之间的差异不大于预定阈值为目标，从所述特征集中选取排序特征，其中，所述标准结果为使用所述特征集中的全部排序特征对响应于所述搜索请求执行搜索而得到的搜索结果进行排序所得到的排序结果。

2.根据权利要求1所述的搜索方法，其特征在于，所述从特征集中选取部分排序特征的步骤包括：

基于所述用户信息和所述搜索请求，确定预测模型的模型参数；

基于所述模型参数，使用所述预测模型预测所述部分排序特征。

3.根据权利要求2所述的搜索方法，其特征在于，所述模型参数包括与所述用户信息和所述搜索请求相对应的参数，所述确定预测模型的模型参数的步骤包括：

从预先训练好的多个对应于不同预测模型的模型参数中，选取与所述用户信息和所述搜索请求相匹配的模型参数。

4.根据权利要求2所述的搜索方法，其特征在于，所述预测模型包括马尔科夫决策模型，基于所述模型参数，使用所述预测模型预测所述部分排序特征，包括：

基于确定的模型参数，抽取当前决策状态；

基于当前决策状态，所述预测模型按照预定顺序对所述特征集中不同的排序特征的动作进行预测，以得到最终的决策状态，其中，所述动作包括特征保留动作和特征丢弃动作，所有特征保留动作所对应的排序特征，即为所述部分排序特征。

5.根据权利要求4所述的搜索方法，其特征在于，

所述当前决策状态包括用户特征信息和历史动作信息，其中，所述用户特征信息包括用户信息和搜索请求信息，所述历史动作信息包括历史决策状态中针对排序特征的动作做出的决策结果。

6.根据权利要求4所述的搜索方法，其特征在于，

所述马尔科夫决策模型的奖赏包括第一奖赏和第二奖赏，

所述第一奖赏为针对排序效果的奖赏，

所述第二奖赏用于表征减少的计算开销。

7.根据权利要求6所述的搜索方法，其特征在于，所述第一奖赏为

其中，T(s_k,a_k)表示在状态s_k下采取动作a_k的第一奖赏，t为排序结果与标准结果的差异，C为预定阈值，r_p为排序结果与标准结果的差异t大于预设阈值C时的惩罚，s_k表示第k个状态，a_k表示在第k个状态下针对排序特征x_k采取的动作。

8.根据权利要求6所述的搜索方法，其特征在于，所述第二奖赏为

其中，

表示在状态s_k下采取动作a_k的第二奖赏，c_k为排序特征x_k的计算开销函数，s_k表示第k个状态，a_k表示在第k个状态下针对排序特征x_k采取的动作。

9.根据权利要求2所述的搜索方法，其特征在于，还包括：

根据用户对向其反馈的排序结果的操作信息，对所述预测模型的模型参数进行更新。

10.根据权利要求1至9中任何一项所述的搜索方法，其特征在于，还包括：将所述排序结果发送给用户。

11.一种搜索装置，其特征在于，包括：

选取模块，用于基于用户信息和搜索请求，从特征集中选取部分排序特征，其中，所述特征集中的排序特征为对搜索结果进行排序时所使用的特征；和

排序模块，用于基于所述部分排序特征对响应于所述搜索请求执行搜索而得到的搜索结果进行排序，以得到排序结果，

其中，所述选取模块以基于选取的排序特征得到的排序结果与标准结果之间的差异不大于预定阈值为目标，从所述特征集中选取排序特征，其中，所述标准结果为使用所述特征集中的全部排序特征对响应于所述搜索请求执行搜索而得到的搜索结果进行排序所得到的排序结果。

12.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-10中任何一项所述的方法。