CN116821513B

CN116821513B - 一种推荐场景下的参数搜索方法、装置、设备和介质

Info

Publication number: CN116821513B
Application number: CN202311079748.0A
Authority: CN
Inventors: 陈煜钊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-11-10
Anticipated expiration: 2043-08-25
Also published as: CN116821513A

Abstract

本申请涉及计算机技术领域，尤其涉及一种推荐场景下的参数搜索方法、装置、设备和介质。方法包括：基于各离线样本获得推荐模型的基线评估指标；基于各离线样本以及基线评估指标，执行迭代搜索过程，每次搜索中，针对待搜索的每个初始参数组合，基于该初始参数组合以及各离线样本，获得离线评估指标，并结合基线评估指标，获得相应的奖励值；将奖励值满足预设条件的初始参数组合作为中间参数组合，并选取新的各初始参数组合；将最后一次搜索的中间参数组合作为候选参数组合，基于候选参数组合以及各在线样本，获得新的基线评估指标，继续执行迭代搜索过程，获得目标参数组合。本申请可准确搜索推荐模型的参数组合，提高推荐模型的预估准确性。

Description

一种推荐场景下的参数搜索方法、装置、设备和介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种推荐场景下的参数搜索方法、装置、设备和介质。

背景技术

在信息流推荐场景中，为了对各待推荐信息进行排序，可以通过推荐模型从多个预估维度对每个待推荐信息进行预估，获得每个待推荐信息的多个预估维度各自的预估值（例如，点击率、阅读时长等），然后将多个预估值融合为融合值，以及根据融合值对各待推荐信息进行排序，以确定推荐信息。

实际应用中，通常使用通过搜索算法配置的参数组合，将上述推荐模型预估的多个预估值融合为融合值；例如，融合值= w1*预估值1+w2*预估值2+w3*预估值3，其中，w1、w2、w3为通过搜索算法配置的参数组合。

相关技术中，进化搜索算法作为一种常用的搜索算法，被用于配置上述参数组合；该算法采用迭代方式进行搜索，每次迭代过程中，根据定义的奖励函数（奖励值的计算公式）从候选的各参数组合中搜索奖励值最高的参数组合；上述奖励函数表征参数组合中不同参数的重要程度。通常的，奖励函数由推荐模型的离线指标（例如，点击指标、阅读时长指标等）相对于参考模型的参考指标的增长幅度确定；其中，参考模型为已经线上使用的其它推荐模型，且该参考模型的参数组合已知。

然而，由于推荐模型和参考模型各自的样本集之间存在曝光偏差；例如，基于参考模型推荐的一个曝光未点击样本，在推荐模型的推荐下可能是一个曝光且点击样本，因此，上述离线指标和参考指标不可公平比较，这使得上述奖励函数的定义不准确，无法准确搜索上述参数组合，导致推荐模型的预估结果不准确，降低了推荐准确性。

发明内容

本申请实施例提供一种推荐场景下的搜索方法、装置、电子设备和存储介质，用以准确搜索推荐模型的参数组合，提高推荐模型的预估准确性，进而提高推荐准确性。

一方面，本申请实施例提供的一种推荐场景下的参数搜索方法，所述方法包括：

基于各离线样本各自关联的指定预估维度的预估值，获得推荐模型的基线评估指标；其中，每个离线样本关联有多个预估维度；

将各离线样本作为各搜索样本，结合所述基线评估指标，执行迭代搜索过程，将最新获得的中间参数组合作为候选参数组合，其中，每次搜索包括：

针对待搜索的各初始参数组合，分别执行以下操作：基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标，并结合所述基线评估指标，获得相应的奖励值；

将奖励值满足预设条件的初始参数组合作为中间参数组合，并选取新的各初始参数组合；

基于由所述候选参数组合获得的，各在线样本各自的多个预估维度的融合值，获得新的基线评估指标，并结合各在线样本构成的新的各搜索样本，继续执行所述迭代搜索过程，获得目标参数组合；

其中，所述目标参数组合用于获得所述推荐模型对待推荐信息的预估结果，以对所述待推荐信息进行推荐。

一方面，本申请实施例提供的一种推荐场景下的参数搜索装置，所述装置包括：

获取单元，用于基于各离线样本各自关联的指定预估维度的预估值，获得推荐模型的基线评估指标；其中，每个离线样本关联有多个预估维度；

第一搜索单元，用于将各离线样本作为各搜索样本，结合所述基线评估指标，执行迭代搜索过程，将最新获得的中间参数组合作为候选参数组合，其中，每次搜索包括：

第二搜索单元，用于基于由所述候选参数组合获得的，各在线样本各自的多个预估维度的融合值，获得新的基线评估指标，并结合各在线样本构成的新的各搜索样本，继续执行所述迭代搜索过程，获得目标参数组合；

可选的，所述基线评估指标包括多个基线评估子指标，所述离线评估指标包括多个离线评估子指标，且每个基线评估子指标与一个离线评估子指标相对应；

则在执行迭代搜索过程的每次搜索中，基于获得的离线评估指标，结合所述基线评估指标，获得相应的奖励值时，所述第一搜索单元具体用于：

针对所述离线评估指标中的多个离线评估子指标，分别执行以下操作：基于一个离线评估子指标，与所述基线评估指标中相对应的一个基线评估子指标的差异，确定相应的子奖励值；

基于所述多个离线评估子指标各自对应的子奖励值，获得相应的奖励值。

可选的，所述装置还包括指标分类单元，用于：

获得参考模型的参考评估指标；其中，所述参考模型为已线上使用的其它推荐模型，所述参考评估指标包括多个参考评估子指标，且每个参考评估子指标与新的所述基线评估指标中的一个基线评估子指标相对应；

基于新的所述基线评估指标中的多个基线评估子指标，分别与所述参考评估指标中相对应的参考评估子指标之间的差异，确定所述离线评估指标所包含的多个离线评估子指标中的主优化子指标以及约束子指标；

则在继续执行所述迭代搜索过程的每次搜索中，基于所述离线评估指标和所述基线评估指标，获得相应的奖励值时，所述第二搜索单元具体用于：

基于所述离线评估指标中的主优化子指标和约束子指标，分别与新的所述基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值。

可选的，所述指标分类单元具体用于：

针对新的所述基线评估指标中的多个基线评估子指标，分别执行以下操作：获得一个基线评估子指标，与所述参考评估指标中相对应的参考评估子指标之间的差异；

将差异不满足差异条件的基线评估子指标所对应的离线评估子指标，作为所述主优化子指标，以及，将差异满足所述差异条件的基线评估子指标所对应的离线评估子指标，作为所述约束子指标。

可选的，所述基于所述离线评估指标中的主优化子指标和约束子指标，分别与新的所述基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值时，所述第二搜索单元具体用于：

针对所述主优化子指标，基于所述主优化子指标的权重系数，以及所述主优化子指标与相对应的基线评估子指标之间的差异，确定所述主优化子指标的子奖励值；

针对所述约束子指标，基于所述约束子指标的权重系数、惩罚系数，以及所述约束子指标与相对应的基线评估子指标之间的差异，确定所述约束子指标的子奖励值；

基于所述主优化子指标的子奖励值以及所述约束子指标的子奖励值，获得相应的奖励值。

可选的，所述主优化子指标的数量为一个或多个，在继续所述迭代搜索过程中，每次搜索中的每个主优化子指标的权重系数为第一预设值。

可选的，当所述主优化子指标的数量为多个时，在继续所述迭代搜索过程中，第一次搜索中的每个主优化子指标的权重系数为第二预设值，在第一次搜索之后的每次搜索中，一个主优化子指标的权重系数通过以下方式获得：

基于本次搜索中的一个主优化子指标与上一次搜索中的所述一个主优化子指标的差异、本次搜索中的所有主优化子指标各自与上一次搜索中的相应的主优化子指标的差异之和，以及上一次搜索中的所述一个主优化子指标的权重系数，获得本次搜索中的所述一个主优化子指标的权重系数。

可选的，所述约束子指标的数量为一个或多个，每个约束子指标的惩罚系数通过以下方式获得：

针对每个约束子指标，基于所述约束子指标与相对应的基线评估子指标之间的差异，与差异阈值之间的关系，获得所述约束子指标的惩罚系数。

可选的，所述第二搜索单元，还用于在继续执行所述迭代搜索过程中，当本次搜索的中间参数组合与上一次搜索的中间参数组合收敛时，从下一次搜索开始，每次执行以下操作，直至再次收敛：

针对待搜索的各初始参数组合，分别执行以下操作：

基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标；

将上一次搜索中的主优化子指标，作为本次搜索的离线评估指标中的约束子指标，以及将上一次搜索中的约束子指标，作为本次搜索的离线评估指标中的主优化子指标；

基于本次搜索中的主优化子指标和约束子指标，分别与新的所述基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值；

将奖励值满足预设条件的初始参数组合作为中间参数组合，并选取新的各初始参数组合。

可选的，在继续执行所述迭代搜索过程中，当本次搜索的中间参数组合与上一次搜索的中间参数组合收敛时，从下一次搜索开始，每次搜索中的所述差异阈值通过以下方式获得：

基于多次搜索中的所述主优化子指标与所述约束子指标的切换次数，获得所述差异阈值；其中，在多次搜索中，所述差异阈值的绝对值逐次递减。

可选的，所述基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标时，所述第一搜索单元具体用于：

基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，将所述各搜索样本进行排序，并基于排序结果从所述各搜索样本中选择各推荐样本；

基于所述各推荐样本各自的多个预估维度的预估值以及标签信息，获得所述离线评估指标。

可选的，所述离线评估指标包括以下离线评估子指标中的部分或全部：

所述各推荐样本的总点击指标；

所述各推荐样本中的同一类型样本的点击指标；

所述各推荐样本的总浏览时长指标；

所述各推荐样本的质量指标；

所述各推荐样本的发布时效指标。

可选的，所述装置还包括推荐单元，用于：

将待推荐信息输入所述推荐模型，获得所述待推荐信息关联的多个预估维度各自的预估值；

基于所述目标参数组合，将所述待推荐信息关联的多个预估维度各自的预估值进行融合，获得所述待推荐信息对应的融合值；

基于所述待推荐信息对应的融合值，对所述待推荐信息进行推荐。

一方面，本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一种推荐场景下的参数搜索方法的步骤。

一方面，本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任意一种推荐场景下的参数搜索方法的步骤。

一方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行上述任意一种推荐场景下的参数搜索方法的步骤。

本申请上述方案至少具有以下有益效果：

本申请实施例中，将参数搜索分为两个阶段，在第一阶段迭代搜索中，基于推荐模型的各离线样本获得基线评估指标，并将各离线样本作为各搜索样本，在每次搜索中，针对搜索的每个初始参数组合，基于各搜索样本获得该初始参数组合下的离线评估指标，然后基于该离线评估指标和上述基线评估指标，获得该初始参数组合下的奖励值；这样，由于基线评估指标和离线评估指标是基于同一样本集的，因此具有可比性，使得每个初始参数组合下的奖励值更准确。

同时，考虑到第一阶段的离线评估指标和基线评估指标，相比在线指标具有一定的偏差，因此，在第二阶段迭代搜索中，基于推荐模型的各在线样本获得新的基线评估指标，并结合各在线样本构成的新的各搜索样本，继续执行迭代搜索过程，从而消除了第一阶段迭代搜索中的偏差，进而准确搜索到推荐模型的目标参数组合，提高推荐模型的预估准确性，进而提高推荐准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一种推荐场景下的参数搜索方法的应用场景示意图；

图2为本申请实施例中的一种推荐场景下的参数搜索方法的流程图；

图3为本申请实施例中的一种离线评估指标和基线评估指标的示意图；

图4为本申请实施例中的一种第一阶段迭代搜索过程示意图；

图5为本申请实施例中的一种第二阶段迭代搜索过程示意图；

图6为本申请实施例中的另一种第二阶段迭代搜索过程示意图；

图7为本申请实施例中的一种推荐场景下的参数搜索方法的逻辑示意图；

图8为本申请实施例中的另一种推荐场景下的参数搜索方法的逻辑示意图；

图9为本申请实施例中的一种信息推荐方法的流程示意图；

图10为本申请实施例中的一种信息推荐方法的逻辑示意图；

图11为本申请实施例中的一种推荐场景下的消息界面示意图；

图12为本申请实施例中的一种推荐场景下的参数搜索装置的组成结构示意图；

图13为本申请实施例中的另一种推荐场景下的参数搜索装置的组成结构示意图；

图14为应用本申请实施例的一种电子设备的一个硬件组成结构示意图；

图15为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

1、推荐模型：用于从多个预估维度对待推荐信息进行预估，获得多个预估维度的预估值；例如，多个预估维度可以包括点击、浏览时长、时效、质量等，相应的，该推荐模型可以包括点击预估子模型、时长预估子模型、时效预估子模型、质量预估子模型等。

2、目标参数组合：针对推荐模型进行参数搜索获得的，用于对推荐模型输出的多个预估维度的预估值进行融合，获得融合值，后续根据各待推荐信息的融合值对它们进行排序，从而确定推荐信息。

4、离线样本：已被推荐并真实曝光过的曝光样本，已知该曝光样本的多个预估维度的标签信息。

5、在线样本：在线预估的推荐样本，其实际的曝光情况由在线用户的实时行为决定，当在线用户执行完实时行为后，获得在线样本的多个预估维度的标签信息。

6、AUC（Area Under Curve，曲线下面积）: ROC（receiver operatingcharacteristic curve，接受者操作特性曲线）曲线下面积，用于评估点击预估模型的性能表现的指标，数值越高越好。

7、GAUC：即group AUC ，为AUC指标的改进版本，对多个样本的AUC进行加权求和得到。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面对本申请实施例的设计思想进行简要介绍。

相关技术中，通常采用进化搜索算法搜索推荐模型的参数组合，该参数组合用于融合推荐模型输出的多个预估值。进化搜索算法采用迭代方式进行搜索，每次迭代过程中，根据定义的奖励函数从候选的各参数组合中搜索奖励值最高的参数组合。通常的，奖励函数由推荐模型的离线指标（例如，点击指标、阅读时长指标等）相对于参考模型的参考指标的增长幅度确定；其中，参考模型为已经线上使用的其它推荐模型，且该参考模型的参数组合已知。

有鉴于此，本申请实施例提供一种推荐场景下的参数搜索方法、装置、设备和介质，将参数搜索分为两个阶段，在第一阶段迭代搜索中，基线评估指标和离线评估指标是基于同一样本集的，因此具有可比性，使得奖励函数的定义更准确；同时，考虑到第一阶段的离线评估指标和基线评估指标，相比在线指标具有一定的偏差，在第二阶段迭代搜索中，基于各在线样本获得新的基线评估指标（为在线指标），并继续执行迭代搜索过程，从而消除了第一阶段迭代搜索中的偏差，从而准确搜索到推荐模型的目标参数组合，提高推荐模型的预估准确性，进而提高推荐准确性。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例的应用场景示意图。该应用场景图中包括终端设备110和服务器120。

在本申请实施例中，终端设备110包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有客户端，该客户端可以是软件（例如资讯软件、社交软件、视频软件、购物软件、音乐软件等），也可以是网页、小程序等，服务器120可以是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行参数搜索的服务器，本申请不做具体限定。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一种可选的实施方式中，终端设备110与服务器120之间可以通过通信网络进行通信；其中，通信网络可以是有线网络或无线网络，本申请在此不做限制。

需要说明的是，本申请各实施例中的推荐场景下的参数搜索方法可以由终端设备110或者服务器120执行，下面以服务器120执行为例进行说明。

在一些实施例中，在信息流推荐场景下，服务器120可以采用本申请实施例的参数搜索方法，获得推荐模型的目标参数组合。在实际应用中，服务器120针对每个待推荐信息，基于推荐模型预估每个待推荐信息的多个预估维度的预估值，然后，将多个预估值和目标参数组合，代入预设的融合公式，获得该待推荐信息的融合值，进而基于该融合值对各待推荐信息进行排序，并从中选择融合值较高的待推荐信息进行推荐。终端设备110中的信息流相关的客户端可以接收服务器120推荐的信息，并展示给用户。

需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的推荐场景下的参数搜索方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图2所示，为本申请实施例提供的一种推荐场景下的参数搜索方法的实施流程图，以服务器为执行主体为例，该方法的具体实施流程包括以下S21- S23：

S21：基于各离线样本各自关联的指定预估维度的预估值，获得推荐模型的基线评估指标；其中，每个离线样本关联有多个预估维度；

本申请实施例中，离线样本可以是在线真实曝光过的信息，该信息包括但不限于：视频、信息流（例如文章、资讯）、问答、话题、百科、贴子、商品、音乐、电子书。

获取到各离线样本后，针对每个离线样本，基于推荐模型预估该离线样本的多个预估维度的预估值，例如包括：点击预估值（即点击率）、浏览（包括阅读、播放等）时长预估值、质量预估值、时效预估值等，指定预估维度可以是多个预估维度中的重要预估维度，例如点击预估维度。下面以指定预估维度为点击预估维度为例进行说明。

示例性的，按照点击预估值从高到低对各离线样本进行排序，将排在前M个的离线样本作为推荐样本，M为大于1的整数，这里的推荐样本并不需要真实推荐，而是模拟推荐。基于各推荐样本的多个预估维度的预估值，以及每个推荐样本的标签信息，可以计算基线评估指标，标签信息包括多个预估维度的标签，例如包括：点击标签（即是否被点击）、浏览时长标签（即实际浏览时长）、质量标签（例如优质、低质）、时效标签（例如已发表时长）等。

其中，基线评估指标可以包括多个基线评估子指标，具体可以根据上述多个预估维度确定，例如包括：点击指标、浏览时长指标、质量指标、发布时效指标等。示例性的，基线评估指标包括以下基线评估子指标中的部分或全部：

（1）各推荐样本的总点击指标。

例如，总点击指标可以包括：各推荐样本的点击预估值与点击标签的GAUC。

（2）各推荐样本中的同一类型样本的点击指标。

例如，同一类型可以包括图文类型、视频类型、文字类型、图片类型等，对此不做限定。同一类型样本的点击指标可以为同一类型样本的点击预估值与点击标签的GAUC。

（3）各推荐样本的总浏览时长指标。

例如，总浏览时长指标可以包括：各推荐样本中排序在前几个（例如前4个）的推荐样本的平均浏览时长，每个推荐样本的浏览时长根据浏览时长标签获得。

（4）各推荐样本的质量指标。

例如，质量指标可以包括：各推荐样本中，低质的推荐样本占所有推荐样本的比例，以及优质的推荐样本占所有推荐样本的比例等。其中，推荐样本为低质或优质可以根据质量标签确定

（5）各推荐样本的发布时效指标。

例如，发布时效指标可以包括：各推荐样本中，预设时间段内发表的推荐样本占所有推荐样本的比例，其中，预设时间段可以根据需要设定，比如为24小时前的时间段。

S22：将各离线样本作为各搜索样本，结合基线评估指标，执行迭代搜索过程，将最新获得的中间参数组合作为候选参数组合，其中，每次搜索包括以下S221-S222。

S221：针对待搜索的各初始参数组合，分别执行以下操作：基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标，并结合基线评估指标，获得相应的奖励值。

其中，在第一次搜索中，各初始参数组合可以随机采样，每个初始参数组合由多个参数值组成，在第一次搜索之后的每次搜索中，待搜索的各初始参数组合可以根据上一次搜索得到的中间参数组合确定；例如，以上一次搜索到的中间参数组合为中心，采样本次搜索的各初始参数组合，上一次搜索到的中间参数组合也作为本次搜索的各初始参数组合中的一个初始参数组合，其对应的奖励值在上一次搜索中已获得，不需要重复计算。

在一些实施例中，上述S221中基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标，可以包括以下步骤A1-A2：

A1：基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，将各搜索样本进行排序，并基于排序结果从各搜索样本中选择各推荐样本。

其中，针对每个搜索样本，基于推荐模型预估该搜索样本的多个预估维度的预估值，例如包括：点击预估值、浏览（包括阅读、播放等）时长预估值、质量预估值、时效预估值等，然后，基于一个初始参数组合中的各参数值，结合预设的融合公式，将多个预估值进行融合，获得该搜索样本的多个预估维度的融合值。

示例性的，通过以下式（1）对多个预估值进行融合：

其中，w₁、w₂、w₃、w₄、w₅为参数组合，score₁为点击预估值，score₂为浏览时长预估值，score₃为时效预估值，score₄为质量预估值，fusion为融合值。

在获得各搜索样本各自的融合值后，按照融合值从高到低对各搜索样本进行排序，将排在前P个的搜索样本作为推荐样本，P为大于1的整数，这里的推荐样本并不需要真实推荐，而是模拟推荐。

A2：基于各推荐样本各自的多个预估维度的预估值以及标签信息，获得离线评估指标。

该步骤中，基于各推荐样本的多个预估维度的预估值，以及每个推荐样本的标签信息，可以计算离线评估指标，该标签信息包括多个预估维度的标签，例如包括：点击标签（即是否被点击）、浏览时长标签（即实际浏览时长）、质量标签（例如优质、低质）、时效标签（例如已发表时长）等。该离线评估指标包含的各项指标与上述基线评估指标包含的各项指标类似。

其中，离线评估指标可以包括多个离线评估子指标，且每个离线评估子指标与上述基线评估指标中的一个基线评估子指标相对应。

可选的，离线评估指标包括以下离线评估子指标中的部分或全部：

各推荐样本的总点击指标；

各推荐样本中的同一类型样本的点击指标；

各推荐样本的总浏览时长指标；

各推荐样本的质量指标；

各推荐样本的发布时效指标。

其中，上述各离线评估子指标与上述实施例中的基线评估指标包含的各基线评估子指标类似，在此不再赘述。

如图3所示，当离线评估指标包括上述全部指标时，离线评估指标中的总点击指标m₁与基线评估指标中的总点击指标m’₁相对应，离线评估指标中的同一类型样本的点击指标m₂与基线评估指标中的同一类型样本的点击指标m’₂相对应，离线评估指标中的总浏览时长指标m₃与基线评估指标中的总浏览时长指标m’₃相对应，离线评估指标中的质量指标m₄与基线评估指标中的质量指标m’₄相对应，离线评估指标中的发布时效指标m₅与基线评估指标中的发布时效指标m’₅相对应。

S222：将奖励值满足预设条件的初始参数组合作为中间参数组合，并选取新的各初始参数组合。

具体的，在每次搜索中，可以将奖励值最高的初始参数组合作为中间参数组合，然后，以中间参数组合为中心，采样新的各初始参数组合，这样，可以根据定义的奖励值确定参数组合的扰动方向，迭代式地收敛到一个较好的参数组合，能够避免在效果较差的参数组合空间中进行搜索，减少较多无效的计算。

在一些实施例中，上述S22中在执行迭代搜索过程的每次搜索中，基于获得的离线评估指标，结合基线评估指标，获得相应的奖励值，可以包括以下步骤B1-B2：

B1：针对离线评估指标中的多个离线评估子指标，分别执行以下操作：基于一个离线评估子指标，与基线评估指标中相对应的一个基线评估子指标的差异，确定相应的子奖励值。

其中，每个离线评估子指标与相对应的一个基线评估子指标的差异，可以是离线评估子指标相对于基线评估子指标的提升幅度，也可以是二者的差值，对此不做限定。相应的，可以将离线评估子指标相对于基线评估子指标的提升幅度值作为子奖励值，也可以将二者的差值作为子奖励值。

B2：基于多个离线评估子指标各自对应的子奖励值，获得相应的奖励值。

具体的，将多个离线评估子指标各自对应的子奖励值求和，获得奖励值。考虑到可能一些离线评估子指标的绝对值越高越好，而另一些离线评估子指标的绝对值越低越好，因此，每个离线评估子指标的子奖励值可以乘以指标优化方向系数，当离线评估子指标的绝对值越高越好时，指标优化方向系数为1，当离线评估子指标的绝对值越低越好时，指标优化方向系数为-1。

示例性的，在第一阶段迭代搜索的每次搜索中，一个初始参数组合的奖励值可以通过以下式（2）-式（4）计算得到：

其中，Reward(W)为奖励值，n为离线评估子指标的数量，m _i为第i个离线评估子指标，m’ _i为第i个离线评估子指标对应的基线评估子指标，RELImpr _i为第i个离线评估子指标相对于对应的基线评估子指标的提升幅度，I为指标优化方向系数。

本申请实施例中，基于每个初始参数组合下的离线评估指标，与基线评估指标的差异，计算该初始参数组合的奖励值，由于离线评估指标和基线评估指标是基于同一样本集（上述各离线样本）获得的，因此具有可比性，可以提高奖励值的计算准确性。

示例性的，如图4所示，在第一阶段迭代搜索中，基于推荐模型的各离线样本，获得基线评估指标，以及获得每次搜索中一个初始参数组合下的离线评估指标，进而基于该离线评估指标与基线评估指标之间的差异，计算该一个初始参数组合下的奖励值。

S23：基于由候选参数组合获得的，各在线样本各自的多个预估维度的融合值，获得新的基线评估指标，并结合各在线样本构成的新的各搜索样本，继续执行迭代搜索过程，获得目标参数组合。

其中，目标参数组合用于获得推荐模型对待推荐信息的预估结果，以对待推荐信息进行推荐。

在S23中，基于第一阶段迭代搜索过程获得的推荐模型的候选参数组合，将推荐模型投入线上应用，获得各在线样本，这些在线样本是推荐模型预估的推荐样本。具体的，获取线上的各待推荐信息，通过推荐模型预估每个待推荐信息的多个预估维度的预估值，然后采用候选参数组合，结合预设的融合公式，将多个预估值融合为融合值，然后，按照融合值从高到低将各待推荐信息进行排序，将排在前面的待推荐信息进行推荐，并作为各在线样本。后续根据用户针对各在线样本的实时行为，可以获得各在线样本的标签信息，该标签信息包括多个预估维度的标签，例如包括：点击标签、浏览时长标签、质量标签、时效标签等。

在第二阶段迭代搜索过程中，基于各在线样本的多个预估维度的预估值以及标签信息，计算新的基线评估指标，该新的基线评估指标与第一阶段迭代搜索过程中的基线评估指标类型，在此不再赘述。

本申请实施例中，第二阶段迭代搜索过程与第一阶段迭代搜索过程类似，在每次搜索中，可以执行上述S221-S222。其中，在第二阶段的每次搜索中，基于离线评估指标以及基线评估指标计算相应的奖励值时，计算方式可以与第一阶段不同，具体可以根据需要设置。

示例性的，如图5所示，在第二阶段迭代搜索中，基于推荐模型的各在线样本，获得新的基线评估指标（为在线指标），以及获得每次搜索中一个初始参数组合下的新的离线评估指标，进而基于该新的离线评估指标与新的基线评估指标之间的差异，计算该一个初始参数组合下的奖励值。

本申请实施例中，将参数搜索分为两个阶段，在第一阶段迭代搜索中，基线评估指标和离线评估指标是基于同一样本集的，因此具有可比性，使得奖励函数的定义更准确；同时，考虑到第一阶段的离线评估指标和基线评估指标，相比在线指标具有一定的偏差，在第二阶段迭代搜索中，基于各在线样本获得新的基线评估指标（为在线指标），并继续执行迭代搜索过程，从而消除了第一阶段迭代搜索中的偏差，从而准确搜索到推荐模型的目标参数组合，提高推荐模型的预估准确性，进而提高推荐准确性。

下面对第二阶段迭代搜索过程中，基于离线评估指标以及基线评估指标计算奖励值的过程进行介绍。

本申请实施例中，考虑到第一阶段迭代搜索中的离线评估指标和基线评估指标是基于离线样本获得，具有一定的偏差，因此，在第二阶段迭代搜索中，基于在线样本重新计算新的离线评估指标和新的基线评估指标，该新的基线评估指标为在线指标，更加准确，进而继续进行迭代搜索。并且，在第二阶段的迭代搜索中，可以将新的基线评估指标的多个基线评估子指标划分为主优化子指标和约束子指标，以更准确地计算奖励值。

在一些实施例中，为了确定新的基线评估指标中的主优化子指标和约束子指标，在执行上述S23之前，还可以执行以下步骤C1-C2：

C1：获得参考模型的参考评估指标；其中，参考模型为已线上使用的其它推荐模型，参考评估指标包括多个参考评估子指标，且每个参考评估子指标与新的基线评估指标中的一个基线评估子指标相对应。

其中，参考模型与上述实施例中的推荐模型类似，用于获得多个预估维度的预估值，该多个预估维度与上述实施例中的推荐模型的多个预估维度相同，且该参考模型的参数组合已知，该参数组合用于融合参考模型的多个预估值。

在步骤C1中，可以获得参考模型的各在线样本，这些在线样本为推荐样本，基于各在线样本各自的多个预估维度的预估值以及标签信息，计算参考评估指标，该标签信息与上述实施例中的各搜索样本的标签信息类似，且，该参考评估指标所包含的各项参考评估子指标，与上述实施例中的基线评估指标所包含的各项基线评估子指标类似，在此不再赘述。

可选的，参考评估指标包括以下参考评估子指标中的部分或全部：

各在线样本的总点击指标；

各在线样本中的同一类型样本的点击指标；

各在线样本的总浏览时长指标；

各在线样本的质量指标；

各在线样本的发布时效指标。

其中，上述各参考评估子指标与基线评估指标包含的各基线评估子指标类似，在此不再赘述。

C2：基于新的基线评估指标中的多个基线评估子指标，分别与参考评估指标中相对应的参考评估子指标之间的差异，确定离线评估指标所包含的多个离线评估子指标中的主优化子指标以及约束子指标。

具体的，每个基线评估子指标与相对应的参考评估子指标之间的差异，可以是基线评估子指标相对于参考评估子指标的提升幅度，也可以是二者的差值，可以将相对于参考评估子指标提升或者持平的基线评估子指标，作为约束子指标，以及，将相对于参考评估子指标下降的基线评估子指标，作为主优化子指标。

在一些可选的实施方式中，在确定主优化子指标以及约束子指标时，可以执行以下步骤C21-C22：

C21：针对新的基线评估指标中的多个基线评估子指标，分别执行以下操作：获得一个基线评估子指标，与参考评估指标中相对应的参考评估子指标之间的差异。

由上述实施例可知，基线评估子指标与相对应的参考评估子指标之间的差异，可以是提升幅度或者差值。

C22：将差异不满足差异条件的基线评估子指标所对应的离线评估子指标，作为主优化子指标，以及，将差异满足差异条件的基线评估子指标所对应的离线评估子指标，作为约束子指标。

其中，以差异是提升幅度为例，差异条件可以是提升幅度的值为正或者0，即，如果一个基线评估子指标相对于参考评估子指标提升或者持平，则将该基线评估子指标所对应的离线评估子指标，作为约束子指标；相反，如果个基线评估子指标相对于参考评估子指标下降（提升幅度的值为负），则将该基线评估子指标所对应的离线评估子指标，作为主优化子指标。

示例性的，如图6所示，新的基线评估指标中的多个基线评估子指标包括：总点击指标m’₁、同一类型样本的点击指标m’₂、总浏览时长指标m’₃、质量指标m’₄、发布时效指标m’₅，参考评估指标中的多个参考评估子指标也包括：总点击指标m’’₁、同一类型样本的点击指标m’’₂、总浏览时长指标m’’₃、质量指标m’’₄、发布时效指标m’’₅；假设，基线评估子指标m’₁、m’₂、m’₃、m’₄分别相对于对应的参考评估子指标m’’₁、m’’₂、m’’₃、m’’₄提升或者持平，而m’₅相对于m’’₅下降，则主优化子指标为多个离线评估子指标中的发布时效指标，而其余离线评估子指标均为约束子指标。

本申请实施例中，在第二阶段迭代搜索中，基于推荐模型的各在线样本获得的新的基线评估指标为在线指标，可以准确反映第一阶段搜索到的候选参数组合的在线表现，同时，结合参考模型的参考评估指标，对新的基线评估指标中的多个基线评估子指标的在线表现进行评估，将在线表现较差的基线评估子指标所对应的离线评估子指标，作为第二阶段迭代搜索的主优化子指标，作为重点需要提升的指标，将在线表现符合预期的基线评估子指标所对应的离线评估子指标，作为第二阶段迭代搜索的约束子指标，从而更准确地搜索最终的目标参数组合。

在上述步骤C1-C2的基础上，上述S23中继续执行迭代搜索过程的每次搜索中，基于离线评估指标和基线评估指标，获得相应的奖励值，具体可以包括以下步骤：

基于离线评估指标中的主优化子指标和约束子指标，分别与新的基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值。

其中，针对主优化子指标，基于主优化子指标与相对应的基线评估子指标之间的差异，确定主优化子指标的子奖励值；针对约束子指标，基于约束子指标与相对应的基线评估子指标之间的差异，确定约束子指标的子奖励值；然后，将主优化子指标的子奖励值和约束子指标的子奖励值求和（或者加权求和），获得奖励值。

下面结合图7和图8对本申请实施例的参数搜索方法的整体流程进行介绍。

如图7所示，本申请实施例的参数搜索方法包括两阶段迭代搜索，在第一阶段迭代搜索中，基于推荐模型的各离线样本获得基线评估指标，以及每次搜索的各初始参数组合下的离线评估指标，基于离线评估指标相对于基线评估指标的提升幅度，获得各初始参数组合的奖励值，直至多次搜索后，奖励值收敛，进而将奖励值最高的初始参数组合作为候选参数组合；在第二阶段迭代搜索中，基于候选参数组合获得推荐模型的各在线样本，基于各在线样本获得新的基线评估指标，以及每次搜索的各初始参数组合下的新的离线评估指标，基于新的离线评估指标相对于新的基线评估指标的提升幅度，获得各初始参数组合的奖励值，直至多次搜索后，奖励值收敛，将奖励值最高的初始参数组合作为候选参数组合。

在第二阶段迭代搜索中，如图8所示，基于新的基线评估指标相对于参考模型的参考评估指标之间的提升幅度，确定新的离线评估指标中的主优化子指标和约束子指标，进而基于主优化子指标和约束子指标，相对于新的基线评估指标中相应的基线评估子指标的提升幅度，计算奖励值。

在一些实施例中，对于上述第二阶段迭代搜索中的主优化子指标和约束子指标，可以赋予不同的权重系数，主优化子指标的权重系数较高，而约束子指标的权重系数较低，并且，为了防止迭代搜索中约束子指标相对于对应的基线评估子指标下降，还可以为约束子指标赋予惩罚系数，将上述权重系数、惩罚系数用于计算主优化子指标和约束子指标的子奖励值，进而获得奖励值。

可选的，上述基于离线评估指标中的主优化子指标和约束子指标，分别与新的基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值，可以包括以下步骤D1-D3：

D1：针对主优化子指标，基于主优化子指标的权重系数，以及主优化子指标与相对应的基线评估子指标之间的差异，确定主优化子指标的子奖励值。

其中，主优化子指标的权重系数可以根据需要设置。主优化子指标与相对应的基线评估子指标之间的差异可以是：提升幅度或者差值。

在一些实施例中，主优化子指标的数量可以为一个或多个，每个主优化子指标的权重系数可以为第一预设值，例如为5，对此不作限定。

在另一些实施例中，当主优化子指标的数量为多个时，考虑到上述主优化子指标的权重系数的具体取值，对于最终的搜索结果影响很大；不当的超参数设置将导致主优化子指标和约束子指标之间的跷跷板问题，比如，当主优化子指标相对于基线评估子指标得到提升时，约束子指标相对于基线评估子指标却下降。为了缓解上述问题，还可以在第二阶段迭代搜索过程中，动态更新每个主优化子指标的权重系数。

可选的，在第二阶段迭代搜索过程中，第一次搜索中的每个主优化子指标的权重系数为第二预设值，该第二预设值可以根据实际需要设置，例如为5，对此不做限定，在第一次搜索之后的每次搜索中，一个主优化子指标的权重系数通过以下方式获得：

基于本次搜索中的一个主优化子指标与上一次搜索中的该主优化子指标的差异、本次搜索中的所有主优化子指标各自与上一次搜索中的相应的主优化子指标的差异之和，以及上一次搜索中的该主优化子指标的权重系数，获得本次搜索中的该主优化子指标的权重系数。

其中，本次搜索中的一个主优化子指标与上一次搜索中的该主优化子指标的差异，可以是提升幅度或者差值。

示例性的，以上述差异为差值为例，假设存在2个主优化子指标，第T次搜索的第1个主优化子指标的权重系数可以根据以下式（5）计算：

其中，m₁表示第1个主优化子指标；m₂表示第2个主优化子指标；α’为本次搜索中的第1个主优化子指标的权重系数；α为上一次搜索中的第1个主优化子指标的权重系数；表示第T次搜索中的m₁相对于第（T-1）次搜索中的m₁的差值；表示第T次搜索中的m₂相对于第（T-1）次搜索中的m₂的差值；/>为设定系数，例如为1。

本申请实施例中，当存在多个主优化子指标时，每次搜索中的主优化子指标的权重系数不再是固定值，多个主优化子指标各自的重要性随迭代搜索动态变换，使得越容易提升的主优化子指标，其重要性衰减，从而更准确地搜索最终的目标参数组合。

可选的，在上述步骤D1中，主优化子指标的子奖励值可以为：主优化子指标的权重系数、主优化子指标与相对应的基线评估子指标之间的差异的乘积。

D2：针对约束子指标，基于约束子指标的权重系数、惩罚系数，以及约束子指标与相对应的基线评估子指标之间的差异，确定约束子指标的子奖励值。

其中，约束子指标的权重系数可以根据需要设置，例如为1，对此不做限定。约束子指标的惩罚系数根据预设方式确定，约束子指标与相对应的基线评估子指标之间的差异可以为：提升幅度或者差值。

可选的，约束子指标的数量为一个或多个，每个约束子指标的惩罚系数可以通过以下方式获得：

针对每个约束子指标，基于约束子指标与相对应的基线评估子指标之间的差异，与差异阈值之间的关系，获得约束子指标的惩罚系数。

其中，以约束子指标与相对应的基线评估子指标之间的差异是提升幅度为例，差异阈值（即幅度阈值）可以根据需要设置，例如为0.07，对此不做限定。

具体的，当约束子指标相对于基线评估子指标的提升幅度未达到差异阈值时，约束子指标的惩罚系数可以为第一值，例如为5，对此不做限定；当约束子指标相对于基线评估子指标的提升幅度达到差异阈值时，约束子指标的惩罚系数可以为第二值，例如为1，对此不做限定；其中，第一值大于第二值。

示例性的，还以约束子指标与基线评估子指标之间的差异是提升幅度为例，约束子指标的惩罚系数可以根据以下式（6）-式（8）计算：

其中，如果第i个离线评估子指标为约束子指标，则Penalty _i为第i个约束子指标的惩罚系数，m _i为第i个约束子指标，m’ _i为第i个约束子指标对应的基线评估子指标，RELImpr _i为第i个约束子指标相对于对应的基线评估子指标的提升幅度，T₁和T₂均为差异阈值，I为指标优化方向系数。

本申请实施例中，当约束子指标相对于基线评估子指标的提升幅度较小时，其惩罚系数较大，相反，当约束子指标相对于基线评估子指标的提升幅度较大时，其惩罚系数较小，从而保证各约束子指标在多次迭代中相对于相应的基线评估子指标保持提升或持平。

在上述步骤D2中，约束子指标的子奖励值可以为：约束子指标的权重系数、惩罚系数、约束子指标与相对应的基线评估子指标之间的差异的乘积。

D3：基于主优化子指标的子奖励值以及约束子指标的子奖励值，获得相应的奖励值。

其中，可以将主优化子指标的子奖励值与约束子指标的子奖励值求和，获得相应的奖励值。第二阶段迭代搜索中的奖励值的计算方式，在第一阶段搜索中的奖励值的计算方式的基础上，进行了改进。

示例性的，当主优化子指标的数量为多个时，在第二阶段迭代搜索的每次搜索中，一个初始参数组合的奖励值的计算方式如以下式（9）-式（13）所示：

其中，Reward(W)为奖励值；n为离线评估子指标的数量α’ _i为第T次搜索中的第i个离线评估子指标的权重系数；Penalty _i为约束子指标的惩罚系数； RELImpr _i为第i个离线评估子指标相对于对应的基线评估子指标的提升幅度，I为指标优化方向系数。

在式（10）中，α _i为第（T-1）次搜索中的第i个主优化子指标的权重系数；N表示主优化子指标的数量；表示第T次搜索中的第i个主优化子指标，相对于第（T-1）次搜索中的第i个主优化子指标的差值； />表示第T次搜索中的第j个主优化子指标，相对于第（T-1）次搜索中的第j个主优化子指标的差值，j=1...N，N为主优化子指标的数量；/>为设定系数，例如为1；式（10）中的数值5也可以替换为其它数值，例如替换为1，对此不做限定。

在式（12）中，T₁和T₂均为差异阈值（即幅度阈值），二者可以为相反数，例如T₁为0.07时，T₂可以为-0.07；

式（13）的说明参见本申请上述实施例中的式（6），在此不再赘述；式（13）中的m _i为第i个离线评估子指标，m’ _i为第i个离线评估子指标对应的基线评估子指标。

需要说明的是，当主优化子指标的数量为一个时，上述式（10）可以替换为以下式（14）：

本申请实施例中，在第二阶段迭代搜索的每次搜索中，将一个初始参数组合下的离线评估指标分为主优化子指标和约束子指标，将主优化子指标作为重点需要提升的指标，为主优化子指标赋予较高的权重系数，为约束子指标赋予较低的权重系数，并为约束子指标赋予相应的惩罚系数，基于权重系数和惩罚系数，根据预设方式计算主优化子指标的子奖励值以及约束子指标的子奖励值，最终获得相应的奖励值，可以提高奖励值的计算准确性。

在一些实施例中，考虑到上述主优化子指标的权重系数和约束子指标的惩罚系数的具体取值，对于最终的搜索结果影响很大；不当的超参数设置将导致主优化子指标和约束子指标之间的跷跷板问题。为了进一步缓解上述问题，在第二阶段迭代搜索过程中，当第一次收敛后，即本次搜索的中间参数组合与上一次搜索的中间参数组合收敛，从下一次搜索开始，将多次搜索中的主优化子指标和约束子指标进行切换，以进行交替搜索。

可选的，在第二阶段迭代搜索过程中，当第一次收敛后，继续执行迭代搜索，每次搜索执行以下步骤E1-E2，直至再次收敛：

E1：针对待搜索的各初始参数组合，分别执行以下步骤E11-E13：

E11：基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标。

其中，该步骤E11的具体实施过程参见本申请上述实施例中的步骤A1-A2的具体实施过程，步骤A1-A2中的各搜索样本为第一阶段迭代搜索的各离线样本，而步骤E11中的各搜索样本为第二阶段迭代搜索的各在线样本。

E12：将上一次搜索中的主优化子指标，作为本次搜索的离线评估指标中的约束子指标，以及将上一次搜索中的约束子指标，作为本次搜索的离线评估指标中的主优化子指标。

例如，假设上一次搜索中的主优化子指标为发布时效指标，约束子指标包括：总点击指标、同一类型样本的点击指标、总浏览时长指标、质量指标，本次搜索中将发布时效指标作为约束子指标，而总点击指标、同一类型样本的点击指标、总浏览时长指标、质量指标均作为主优化子指标。

E13：基于本次搜索中的主优化子指标和约束子指标，分别与新的基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值。

其中，该步骤E11的具体实施过程与本申请上述实施例中的步骤D1-D3的具体实施过程类似，包括：针对主优化子指标，基于主优化子指标的权重系数，以及主优化子指标与相对应的基线评估子指标之间的差异，确定主优化子指标的子奖励值；针对约束子指标，基于约束子指标的权重系数、惩罚系数，以及约束子指标与相对应的基线评估子指标之间的差异，确定约束子指标的子奖励值；基于主优化子指标的子奖励值以及约束子指标的子奖励值，获得相应的奖励值。

由本申请上述实施例可知，上述约束子指标的惩罚系数可以基于约束子指标与相对应的基线评估子指标之间的差异，与差异阈值之间的关系获得。

在一些实施例中，在将主优化子指标和约束子指标进行切换搜索时，上述差异阈值可以通过以下方式获得：

基于多次搜索中的主优化子指标与约束子指标的切换次数，获得差异阈值；其中，在多次搜索中，差异阈值的绝对值逐次递减。

示例性的，假设约束子指标与相对应的基线评估子指标之间的差异为提升幅度时，差异阈值为幅度阈值，可以基于以下式（15）或者式（16）计算差异阈值：

其中， T₁和T₂均为差异阈值，K为多次搜索中的主优化子指标与约束子指标的切换次数。

本申请实施例中，在第二阶段迭代搜索中，用于计算约束子指标的惩罚系数的差异阈值，一开始从较大的数值开始（对应较宽松的约束）；在交替主优化子指标和约束子指标后，差异阈值的绝对值逐次递减，即惩罚系数的约束越来越窄。

E2：将奖励值满足预设条件的初始参数组合作为中间参数组合，并选取新的各初始参数组合。

具体的，可以将奖励值最高的初始参数组合作为中间参数组合，然后，以中间参数组合为中心，采样新的各初始参数组合。

本申请实施例中，在第二阶段迭代搜索中，当前后两次搜索的奖励值收敛后，交替主优化子指标和约束子指标，即，将本次搜索的约束子指标变为下一次搜索的主优化子指标，本次搜索的主优化子指标变为下一次搜索的约束子指标。并且，用于计算约束子指标的惩罚系数的差异阈值（例如幅度阈值）的绝对值随迭代递减、收窄、严格；这样，约束子指标的松弛幅度阈值，一开始从较大的数值开始（对应较宽松的约束），可以进一步缓解上述实施例提到的主优化子指标和约束子指标之间的跷跷板问题。

下面对本申请实施例的推荐场景下的参数搜索流程进行示例性介绍。

本申请实施例可以基于进化搜索算法执行上述实施例中的两阶段参数搜索。下面对进化搜索算法的基本流程进行介绍。

一、进化搜索算法的基本流程

在进化搜索算法的每次搜索中，基于指定的搜索样本集D和给定的各初始参数组合W，作出评估和挑选，流程如下：

搜索样本集D，样本量：|D|=N；

待评估的各初始参数（权重）组合W，组合数：|W|=M；

输入：包含N个搜索样本的搜索样本集D，每个搜索样本包含多个预估维度的预估值score0,score1,score2,...和标签信息label0,label1,label2, ...； C个离线评估子指标m1,m2,m3,...的函数；

输出：最佳的初始参数组合w*∈W；

每次搜索过程包括以下步骤：

0. 初始化奖励值集合Reward={}；

1. 遍历每个初始参数组合For w in W；

2.初始化融合值集合preds=[]；

3.遍历每个搜索样本For n in D；

4.获得当前遍历的搜索样本的多个预估维度的预估值score0(n),score1(n),score2(n),...；

5.根据初始参数组合和融合公式，计算该搜索样本的融合值fusion(n)=F(score0(n), score1(n), score2(n),...,w)；

6.将fusion(n)添加到融合值集合中，preds=[fusion(n)]；

7.计算preds的离线评估子指标m1(preds, label1), m2(preds, label2), ...；

8.根据各离线评估子指标计算preds的奖励值Reward(w)=r(m1,m2,...)（关于各离线评估子指标的已知函数），将Reward(w)添加到奖励值集合中，Reward={Reward(w)=r}；

9. 挑选具有最高奖励值的初始参数组合，w*=argmax(Reward(w))，输出结果。

使用迭代式的进化搜索算法，也就是将第9步输出的最佳的初始参数组合（即本申请上述实施例中的中间参数组合）为中心，采样若干新的初始参数组合w，重新执行0~9步骤，直到最终的奖励值Reward或最佳的初始参数组合收敛不变。

二、基于各离线评估子指标综合提升的离线搜索

作为参数搜索算法的第一阶段，搜索的目的是全面提升各离线评估子指标的表现。离线搜索的各搜索样本为使用单个预估维度的预估值（如点击预估值）排序的各离线样本（真实曝光过的曝光样本）。离线搜索在不考虑主优化子指标和约束子指标的情况下、最大化整体的奖励值。如此，最终的候选参数组合对各离线评估子指标的取舍表现均衡。此时，奖励函数定义为以下式（17）-式（19）：

式（17）-式（19）的说明书参见本申请上述实施例中的式（2）-式（4），在此不再赘述。

其中，奖励值由各离线评估子指标相对于各基线评估子指标的提升幅度求和得到。其中，部分离线评估子指标是取值越低越好（如发布时效指标），以负数权重（即I=-1）添加到奖励值的计算公式中。

三、基于新的各基线评估子指标（在线指标）反馈纠正的奖励函数调整

第一阶段搜索到的候选参数组合于在线环境生效后，基于各在线样本获得各基线评估子指标，其中，可能存在部分基线评估子指标对比参考模型的参考评估子指标表现负向的情况。本申请实施例利用没有偏差的在线指标，反馈到离线搜索环节，相应地调整奖励函数的定义。此时，奖励函数定义为以下式（20）-式（24）：

其中，n为离线评估子指标的数量，α _i为第i个离线评估子指标的权重系数，I为指标优化方向标志，Penalty _i为约束子指标的惩罚系数，m _i为第i个离线评估子指标，m’ _i为第i个离线评估子指标对应的基线评估子指标，RELImpr _i为第i个离线评估子指标相对于对应的基线评估子指标的提升幅度。

具体地，假设第一阶段迭代搜索后，获得的候选参数组合的在线表现为：部分基线评估子指标（如总点击指标、同一类型样本的点击指标、总浏览时长指标、质量指标）都满足预期，即相对参考评估子指标提升或者持平，而发布时效指标表现负向，则选择各离线评估子指标中的发布时效指标为主优化子指标，此时，发布时效指标的权重系数为5，而其它离线评估子指标（总点击指标、同一类型样本的点击指标、总浏览时长指标、质量指标）均为约束子指标，约束子指标的权重系数为1。

对于约束子指标，当其中某一约束子指标相对于相应的基线评估子指标的负向幅度超过幅度阈值（即本申请上述实施例中的差异阈值）T时，给予较大的惩罚系数，以此来保证这些已经符合预期的约束子指标在第二阶段搜索中不会变得很差。

四、基于主优化子指标和约束子指标的动态离线搜索

作为参数搜索方法的第二阶段，搜索的目的是重点提升第一阶段搜索后不符合预期的基线评估子指标对应的离线评估子指标。离线搜索的各搜索样本为：使用第一阶段搜索到的候选参数组合获得的融合值进行排序的曝光样本（降低曝光偏差）。动态离线搜索使用第三步经过纠正的奖励函数作为搜索的指导。

在实践中发现，主优化子指标的权重系数和约束子指标的惩罚系数的具体取值对于最终搜索结果影响很大。不当的超参数设置将导致主优化子指标和约束子指标之间的跷跷板问题。比如，当被挑选为主优化子指标的发布时效指标得到提升，而第一阶段已经满足预期的质量指标却变得负向。

本申请实施例进一步提出主优化子指标的动态权重系数和差异阈值衰减的交替搜索策略来缓解上述跷跷板问题。具体如下：

1．当存在多个主优化子指标时，多个主优化子指标各自的重要性随迭代动态变换：越容易提升的、重要性衰减。

此时，α不再是固定的数值（如 α=5，α=1）。假设存在2个主目标，第1个主优化子指标的权重系数的更新算法如以下式（25）：

其中，α为第（T-1）次迭代中第1个主优化子指标的权重系数，分式中的分子表示第T次迭代后第1个主优化子指标的提升幅度的倒数，分母为归一化系数。

2．当奖励值收敛后，交替主优化子指标和约束子指标。

当前后两次迭代的奖励值收敛后，将本次迭代的约束子指标变为下一次迭代的主优化子指标，本次迭代的主优化子指标变为下一次迭代的约束子指标。

3．用于计算约束子指标的惩罚系数的差异阈值（幅度阈值）的绝对值：随迭代递减、收窄、严格；

差异阈值的绝对值，一开始从较大的数值开始（对应较宽松的约束）；在交替主优化子指标和约束子指标后，差异阈值的绝对值逐次递减。

综上，通过主优化子指标的权重系数的动态更新，以及主优化子指标和约束子指标的交替，螺旋向上地找到跷跷板问题较弱、综合最优的目标参数组合。最终的奖励函数的定义为以下式（26）-式（32）：

其中，上述式（26）-式（32）的说明参见本申请上述实施例中的式（9）-式（13）、以及式（15）-式（16）的说明，在此不再赘述。

本申请实施例的参数搜索方法为任意的推荐模型提供了中心化、通用化的搜索算法，将推荐场景中的推荐模型的迭代训练与参数组合的迭代搜索解耦开，提高开发效率。在将搜索到的目标参数组合应用于信息流推荐场景中时，显著提升了各项推荐指标，如推荐信息的人均点击数、有消费人数、信息时效性和优质信息占比等。

下面对本申请实施例的上述参数搜索方法的应用场景进行介绍。

基于本申请上述实施例，获得推荐模型的目标参数组合后，可以基于推荐模型进行信息推荐。

参阅图9所示，为本申请实施例还提供一种信息推荐方法，包括以下S91-S93：

S91：将待推荐信息输入推荐模型，获得待推荐信息关联的多个预估维度各自的预估值。

其中，多个预估维度的预估值例如包括：点击预估值、浏览时长预估值、质量预估值、时效预估值。

S92：基于目标参数组合，将待推荐信息关联的多个预估维度各自的预估值进行融合，获得待推荐信息对应的融合值。

该步骤中，将目标参数组合中的各参数值以及多个预估值，代入预设的融合公式，获得融合值。

S93：基于待推荐信息对应的融合值，对待推荐信息进行推荐。

在实际应用中，推荐模型获得各待推荐信息各自的融合值后，将各待推荐信息按照融合值从高到低进行排序，选择排在前面的N个待推荐信息进行推荐。

示例性的，如图10所示，将待推荐信息输入推荐模型，获得点击预估值、浏览时长预估值、质量预估值、时效预估值，将这些预估值以及目标参数组合中的各参数值w₁、w₂、w₃、w₄、w₅，代入预设的融合公式，获得融合值，进而基于融合值进行排序和推荐。

本申请实施例的搜索方法可以应用于任何信息流推荐场景。例如，资讯软件中的信息流推荐，视频软件中的视频推荐，社交软件中的公众号信息流推荐等等。

示例性的，如图11所示，为社交软件中的公众号“订阅号消息”的消息界面，该公众号推送的消息卡片包括用户自行订阅的以及社交软件平台主动推荐的，社交软件平台可以基于推荐模型及其对应的目标参数组合，获得各待推荐信息各自对应的多个预估维度的融合值，进行基于该融合值对各待推荐信息进行排序以及推荐。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种推荐场景下的参数搜索装置，该装置解决问题的原理与上述实施例的推荐场景下的参数搜索方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

参阅图12所示，为本申请实施例提供的一种推荐场景下的参数搜索装置1200，该装置包括：

获取单元1201，用于基于各离线样本各自关联的指定预估维度的预估值，获得推荐模型的基线评估指标；其中，每个离线样本关联有多个预估维度；

第一搜索单元1202，用于将各离线样本作为各搜索样本，结合基线评估指标，执行迭代搜索过程，将最新获得的中间参数组合作为候选参数组合，其中，每次搜索包括：

针对待搜索的各初始参数组合，分别执行以下操作：基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标，并结合基线评估指标，获得相应的奖励值；

第二搜索单元1203，用于基于由候选参数组合获得的，各在线样本各自的多个预估维度的融合值，获得新的基线评估指标，并结合各在线样本构成的新的各搜索样本，继续执行迭代搜索过程，获得目标参数组合；

可选的，基线评估指标包括多个基线评估子指标，离线评估指标包括多个离线评估子指标，且每个基线评估子指标与一个离线评估子指标相对应；

则在执行迭代搜索过程的每次搜索中，基于获得的离线评估指标，结合基线评估指标，获得相应的奖励值时，第一搜索单元具体用于：

针对离线评估指标中的多个离线评估子指标，分别执行以下操作：基于一个离线评估子指标，与基线评估指标中相对应的一个基线评估子指标的差异，确定相应的子奖励值；

基于多个离线评估子指标各自对应的子奖励值，获得相应的奖励值。

可选的，如图13所示，装置还包括指标分类单元1204，用于：

获得参考模型的参考评估指标；其中，参考模型为已线上使用的其它推荐模型，参考评估指标包括多个参考评估子指标，且每个参考评估子指标与新的基线评估指标中的一个基线评估子指标相对应；

基于新的基线评估指标中的多个基线评估子指标，分别与参考评估指标中相对应的参考评估子指标之间的差异，确定离线评估指标所包含的多个离线评估子指标中的主优化子指标以及约束子指标；

则在继续执行迭代搜索过程的每次搜索中，基于离线评估指标和基线评估指标，获得相应的奖励值时，第二搜索单元1203具体用于：

可选的，指标分类单元1204具体用于：

针对新的基线评估指标中的多个基线评估子指标，分别执行以下操作：获得一个基线评估子指标，与参考评估指标中相对应的参考评估子指标之间的差异；

将差异不满足差异条件的基线评估子指标所对应的离线评估子指标，作为主优化子指标，以及，将差异满足差异条件的基线评估子指标所对应的离线评估子指标，作为约束子指标。

可选的，基于离线评估指标中的主优化子指标和约束子指标，分别与新的基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值时，第二搜索单元1203具体用于：

针对主优化子指标，基于主优化子指标的权重系数，以及主优化子指标与相对应的基线评估子指标之间的差异，确定主优化子指标的子奖励值；

针对约束子指标，基于约束子指标的权重系数、惩罚系数，以及约束子指标与相对应的基线评估子指标之间的差异，确定约束子指标的子奖励值；

基于主优化子指标的子奖励值以及约束子指标的子奖励值，获得相应的奖励值。

可选的，主优化子指标的数量为一个或多个，在继续迭代搜索过程中，每次搜索中的每个主优化子指标的权重系数为第一预设值。

可选的，当主优化子指标的数量为多个时，在继续迭代搜索过程中，第一次搜索中的每个主优化子指标的权重系数为第二预设值，在第一次搜索之后的每次搜索中，一个主优化子指标的权重系数通过以下方式获得：

基于本次搜索中的一个主优化子指标与上一次搜索中的一个主优化子指标的差异、本次搜索中的所有主优化子指标各自与上一次搜索中的相应的主优化子指标的差异之和，以及上一次搜索中的一个主优化子指标的权重系数，获得本次搜索中的一个主优化子指标的权重系数。

可选的，约束子指标的数量为一个或多个，每个约束子指标的惩罚系数通过以下方式获得：

可选的，第二搜索单元1203，还用于在继续执行迭代搜索过程中，当本次搜索的中间参数组合与上一次搜索的中间参数组合收敛时，从下一次搜索开始，每次执行以下操作，直至再次收敛：

针对待搜索的各初始参数组合，分别执行以下操作：

基于本次搜索中的主优化子指标和约束子指标，分别与新的基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值；

可选的，在继续执行迭代搜索过程中，当本次搜索的中间参数组合与上一次搜索的中间参数组合收敛时，从下一次搜索开始，每次搜索中的差异阈值通过以下方式获得：

可选的，基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标时，第一搜索单元1202具体用于：

基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，将各搜索样本进行排序，并基于排序结果从各搜索样本中选择各推荐样本；

基于各推荐样本各自的多个预估维度的预估值以及标签信息，获得离线评估指标。

可选的，离线评估指标包括以下部分或全部：

各推荐样本的总点击指标；

各推荐样本中的同一类型样本的点击指标；

各推荐样本的总浏览时长指标；

各推荐样本的质量指标；

各推荐样本的发布时效指标。

可选的，装置还包括推荐单元1205，用于:

将待推荐信息输入推荐模型，获得待推荐信息关联的多个预估维度各自的预估值；

基于目标参数组合，将待推荐信息关联的多个预估维度各自的预估值进行融合，获得待推荐信息对应的融合值；

基于待推荐信息对应的融合值，对待推荐信息进行推荐。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的推荐场景下的参数搜索方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图1所示的服务器120。在该实施例中，电子设备的结构可以如图14所示，包括存储器1401，通讯模块1403以及一个或多个处理器1402。

存储器1401，用于存储处理器1402执行的计算机程序。存储器1401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1401可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1401也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器1401是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1401可以是上述存储器的组合。

处理器1402，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器1402，用于调用存储器1401中存储的计算机程序时实现上述推荐场景下的参数搜索方法。

通讯模块1403用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1401、通讯模块1403和处理器1402之间的具体连接介质。本申请实施例在图14中以存储器1401和处理器1402之间通过总线1404连接，总线1404在图14中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1404可以分为地址总线、数据总线、控制总线等。为便于描述，图14中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1401中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的推荐场景下的参数搜索方法。处理器1402用于执行上述的推荐场景下的参数搜索方法，如图2所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图1所示的终端设备110。在该实施例中，电子设备的结构可以如图15所示，包括：通信组件1510、存储器1520、显示单元1530、摄像头1540、传感器1550、音频电路1560、蓝牙模块1570、处理器1580等部件。

通信组件1510用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1520可用于存储软件程序及数据。处理器1580通过运行存储在存储器1520的软件程序或数据，从而执行终端设备110的各种功能以及数据处理。存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1520存储有使得终端设备110能运行的操作系统。本申请中存储器1520可以存储操作系统及各种应用程序，还可以存储执行本申请实施例推荐场景下的参数搜索方法的计算机程序。

显示单元1530还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元1530可以包括设置在终端设备110正面的显示屏1532。其中，显示屏1532可以采用液晶显示器、发光二极管等形式来配置。显示单元1530可以用于显示本申请实施例中的推荐信息等。

显示单元1530还可用于接收输入的数字或字符信息，产生与终端设备110的用户设置以及功能控制有关的信号输入，具体地，显示单元1530可以包括设置在终端设备110正面的触控屏1531，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触控屏1531可以覆盖在显示屏1532之上，也可以将触控屏1531与显示屏1532集成而实现终端设备110的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1530可以显示应用程序以及对应的操作步骤。

摄像头1540可用于捕获静态图像，用户可以将摄像头1540拍摄的图像通过应用发布。摄像头1540可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1580转换成数字图像信号。

终端设备还可以包括至少一种传感器1550，比如加速度传感器1551、距离传感器1552、指纹传感器1553、温度传感器1554。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1560、扬声器1561、传声器1562可提供用户与终端设备110之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出。终端设备110还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出至通信组件1510以发送给比如另一终端设备110，或者将音频数据输出至存储器1520以便进一步处理。

蓝牙模块1570用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1570与同样具备蓝牙模块的可穿戴电子设备（例如智能手表）建立蓝牙连接，从而进行数据交互。

处理器1580是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1520内的软件程序，以及调用存储在存储器1520内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1580可包括一个或多个处理单元；处理器1580还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1580中。本申请中处理器1580可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的推荐场景下的参数搜索方法。另外，处理器1580与显示单元1530耦接。

在一些可能的实施方式中，本申请提供的推荐场景下的参数搜索方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的推荐场景下的参数搜索方法中的步骤，例如，电子设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网（LAN）或广域网（WAN）连接到用户电子设备，或者，可以连接到外部电子设备（例如利用因特网服务提供商来通过因特网连接）。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序命令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种推荐场景下的参数搜索方法，其特征在于，所述方法包括：

基于由所述候选参数组合获得的，各在线样本各自的多个预估维度的融合值，获得新的基线评估指标；

结合各在线样本构成的新的各搜索样本，继续执行所述迭代搜索过程，获得目标参数组合；其中，在继续执行所述迭代搜索过程的每次搜索中，基于所述离线评估指标和所述基线评估指标，获得相应的奖励值，包括：

基于所述离线评估指标中的主优化子指标和约束子指标，分别与新的所述基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值；

2.根据权利要求1所述的方法，其特征在于，所述基线评估指标包括多个基线评估子指标，所述离线评估指标包括多个离线评估子指标，且每个基线评估子指标与一个离线评估子指标相对应；

则在执行迭代搜索过程的每次搜索中，基于获得的离线评估指标，结合所述基线评估指标，获得相应的奖励值，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于新的所述基线评估指标中的多个基线评估子指标，分别与所述参考评估指标中相对应的参考评估子指标之间的差异，确定所述离线评估指标所包含的多个离线评估子指标中的主优化子指标和约束子指标，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述离线评估指标中的主优化子指标和约束子指标，分别与新的所述基线评估指标中相对应的基线评估子指标之间的差异，获得相应的奖励值，包括：

5.根据权利要求4所述的方法，其特征在于，所述主优化子指标的数量为一个或多个，在继续所述迭代搜索过程中，每次搜索中的每个主优化子指标的权重系数为第一预设值。

6.根据权利要求4所述的方法，其特征在于，当所述主优化子指标的数量为多个时，在继续所述迭代搜索过程中，第一次搜索中的每个主优化子指标的权重系数为第二预设值，在第一次搜索之后的每次搜索中，一个主优化子指标的权重系数通过以下方式获得：

7.根据权利要求4~6任一项所述的方法，其特征在于，所述约束子指标的数量为一个或多个，每个约束子指标的惩罚系数通过以下方式获得：

8.根据权利要求7所述的方法，其特征在于，在继续执行所述迭代搜索过程中，当本次搜索的中间参数组合与上一次搜索的中间参数组合收敛时，从下一次搜索开始，每次执行以下操作，直至再次收敛：

针对待搜索的各初始参数组合，分别执行以下操作：

9.根据权利要求8所述的方法，其特征在于，在继续执行所述迭代搜索过程中，当本次搜索的中间参数组合与上一次搜索的中间参数组合收敛时，从下一次搜索开始，每次搜索中的所述差异阈值通过以下方式获得：

10.根据权利要求1~6任一项所述的方法，其特征在于，所述基于由一个初始参数组合获得的，各搜索样本各自的多个预估维度的融合值，获得离线评估指标，包括：

11.根据权利要求10所述的方法，其特征在于，所述离线评估指标包括以下离线评估子指标中的部分或全部：

所述各推荐样本的总点击指标；

所述各推荐样本中的同一类型样本的点击指标；

所述各推荐样本的总浏览时长指标；

所述各推荐样本的质量指标；

所述各推荐样本的发布时效指标。

12.根据权利要求1~6任一项所述的方法，其特征在于，所述方法还包括：

13.一种推荐场景下的参数搜索装置，其特征在于，所述装置包括：

所述装置还包括指标分类单元，用于：

14.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1~12中任一所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1~12中任一所述方法的步骤。

16.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行权利要求1~12中任一所述方法的步骤。