CN113744017B

CN113744017B - 电商搜索的推荐方法及装置、设备、存储介质

Info

Publication number: CN113744017B
Application number: CN202011270655.2A
Authority: CN
Inventors: 张晓敏
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2024-08-20
Anticipated expiration: 2040-11-13
Also published as: CN113744017A

Abstract

本申请实施例公开了一种电商搜索的推荐方法，包括：响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流；从所述客户端页面所呈现的至少两个商品中，确定出候选商品集；根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值；根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集；将所述目标商品集中满足预设条件的商品作为待推荐商品；将所述待推荐商品在特定的坑位区间进行展示。本申请实施例还同时提供了一种电商搜索的推荐装置、设备及存储介质。

Description

电商搜索的推荐方法及装置、设备、存储介质

技术领域

本申请涉及电子设备技术领域，涉及但不限定于电商搜索的推荐方法及装置、设备、存储介质。

背景技术

在电商搜索中，由于未曝光商品总是没有反馈，所以会存在很严重的马太效应，少数商品霸占的头部位置，商品间的流动性比较差，不仅有损商家的利益，也会伤害消费者的用户体验。探索利用(Exploration-Exploitation，EE)的主要思路是一部分流量给后面的商品曝光的机会，剩余流量利用曝光的反馈推荐。探索利用可以增强商品间的流动性，缓解马太效应，增加多样性，同时也有利用商品的冷启动，发掘用户的潜在需求，维持用户的长期兴趣。

发明内容

本申请实施例提供一种电商搜索的推荐方法及装置、设备、存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种电商搜索的推荐方法，包括：

响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流；

从所述客户端页面所呈现的至少两个商品中，确定出候选商品集；

根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值；

根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集；

将所述目标商品集中满足预设条件的商品作为待推荐商品；

将所述待推荐商品在特定的坑位区间进行展示。

第二方面，本申请实施例提供一种电商搜索的推荐装置，包括：

获取模块，用于响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流；

第一确定模块，用于从所述客户端页面所呈现的至少两个商品中，确定出候选商品集；

第二确定模块，用于根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值；

筛选模块，用于根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集；

第三确定模块，用于将所述目标商品集中满足预设条件的商品作为待推荐商品；

展示模块，用于将所述待推荐商品在特定的坑位区间进行展示。

第三方面，本申请实施例提供一种电商搜索的推荐设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述电商搜索的推荐方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述电商搜索的推荐方法中的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，通过获取客户端页面的实时日志流，并从客户端页面所呈现的商品中选出候选商品集，然后基于实时日志流确定候选商品集中商品的奖励值(Reward)，再基于奖励值，从候选商品集中选出目标商品集，对目标商品集中的满足预设条件的商品进行展示，这样对排序靠后的商品给予一定的流量进行曝光的机会，剩余商品则利用曝光的反馈进行排序，从而增强商品间的流动性和多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请实施例提供的一种电商搜索的推荐方法的流程示意图；

图2为本申请实施例提供的另一种电商搜索的推荐方法的流程示意图；

图3为本申请实施例提供的又一种电商搜索的推荐方法的流程示意图；

图4A为本申请实施例提供的电商搜索的推荐方法的整体框架示意图；

图4B为本申请实施例提供的电商搜索的推荐方法的逻辑流程图；

图4C为本申请实施例提供的推荐方法中利用贝塔分布产生的概率统计示意图；

图4D为本申请实施例提供的推荐方法中穿插策略的展示示意图；

图5为本申请实施例提供的一种电商搜索的推荐装置的组成结构示意图；

图6为本申请实施例提供的一种电商搜索的推荐设备的硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。以下实施例用于说明本申请，但不用来限制本申请的范围。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定推荐，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

电子商务，简称电商，是指在互联网(Internet)、内部网(Intranet)和增值网(VAN，Value Added Network)上以电子交易方式进行交易活动和相关服务活动，是传统商业活动各环节的电子化、网络化。电子商务包括电子货币交换、供应链管理、电子交易市场、网络营销、在线事务处理、电子数据交换(EDI)、存货管理和自动数据收集系统。在此过程中，利用到的信息技术包括：互联网、外联网、电子邮件、数据库、电子目录和移动电话。可视为电商在纵向上的发展。伴随软硬件技术的迅猛提高，电商网站规模不断增大与消费者需求日益个性化之间的矛盾可有望得到解决。

电商搜索引擎支持各种维度的推荐，包括支持好评、销量、评论、价格等属性的推荐。而且对数据的实时性的要求非常高。电商搜索对数据的实时性要求主要体现在价格和库存两个方面。电电商搜索面向的对象主要是商品，其目的是让用户更快的找到满意的商品。电商搜索引擎的效果不仅要考虑买家(信息消费方)要求的结果多样性，还得考虑卖家(信息提供方)要求的曝光率。

然而，在电商搜索中，由于未曝光商品总是没有反馈，所以会存在很严重的马太效应，少数商品霸占的头部位置，商品间的流动性比较差，不仅有损商家的利益，也会伤害消费者的用户体验。

探索利用可以增强商品间的流动性，缓解马太效应，增加多样性。同时也有利用商品的冷启动，发掘用户的潜在需求，维持用户的长期兴趣。商品冷启动旨在研究提高给用户推送广告的准确性。因此需要关注早期商品如何运营可以获取核心用户的问题。针对不同商品类型对应的冷启动策略也不同。

探索利用的方法有很多，贪心算法(ε-greedy)，汤普森采样(Thompson Sampling)算法，上限置信区间(Upper Confidence bound，UCB)算法，LinUCB算法，深度强化学习网络(Deep Reinforcement Learning Network，DRN)算法等等。

贪心算法：选一个0到1之间的数ε，每次以ε概率在所有商品中随机选择，以1-ε的概率选择当前收益最大的商品。ε是探索部分，1-ε是利用部分。

汤普森采样算法：是一种启发式的探索与利用算法，假设点击或下单的概率服从贝塔(beta)分布(为伯努利分布的先验分布，参数有α和β两个，分别表示正样本和负样本)，然后根据商品的反馈，更新beta分布。其中，每个商品的贝塔分布的参数都不一样，实现了用后验概率不断地更正先验概率的过程。

示例地，把贝塔分布的α参数看成是推荐后用户点击的次数，把β参数看成是推荐后用户未点击的次数，则汤普森采样过程如下：取出每一个候选商品对应的参数α和β；为每个候选商品用α和β作为参数，用贝塔分布产生一个随机数；按照随机数排序，输出最大值对应的候选商品；观察用户反馈，如果用户点击则将对应候选商品的α加1，否则β加1。

UCB算法：如公式(1)所示，将计算结果作为待推荐商品，其中加法的第一项为平均收益的期望，是利用部分；加法的第二项为置信区间上界，n为总的选择次数，n_j为当前商品被选择的次数，是探索部分。

LinUCB：相比UCB，加入个性化和语境(contextual)特征的线性模型，如公式(2)所示，其中和x_t,a是特征向量，是系数矩阵，α为权重系数，加法的第一项是利用部分，第二项是探索部分。

DRN算法：基于模型的探索利用方法，对应已经训练好的网络Q，通过对其模型参数W添加一个较小的随机扰动ΔW，得到新的模型参数W′，这里称W′对应的网络为探索网络Q′，在通过系统的实时效果反馈决定是保留探索网络Q′还是沿用当前的网络Q。

本申请实施例提供一种电商搜索的推荐方法，该方法所实现的功能可以通过设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该设备至少包括处理器和存储介质。处理器可以用于进行推荐方法的过程的处理，存储器可以用于存储进行推荐方法的过程中需要的数据以及产生的数据。

图1为本申请实施例提供的一种电商搜索的推荐方法的流程示意图，如图1所示，所述方法至少包括以下步骤：

步骤S110，响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流。

这里，所述访问行为可以为用户对客户端页面的浏览或搜索操作，也可以为对客户端页面所呈现商品的点击或下单操作，还可以为访问网站的过程中对浏览器和操作系统信息的获取操作等。在实施过程中，根据业务需要确定访问行为的实际内容，本申请实施例对此不作限定。

这里，所述实时日志流为用户在搜索前端进行相应操作时，后台服务器实时采集的日志数据。系统平台每天产生大量的日志(一般为流式数据)，通过特定的日志实时采集部件处理这些日志流。

步骤S120，从所述客户端页面所呈现的至少两个商品中，确定出候选商品集。

这里，所述候选商品集为客户端页面的展示列表中排位靠后的商品。这些商品通常不能得到充分的曝光机会，从而也很难得到用户的反馈。

示例地，为确保候选商品集中商品的质量，可以按照特定的算法计算所有商品的指标参数，并按照精排分对所有商品进行排序，从而筛选出特定区间内的商品作为候选商品集。

应注意，本申请实施例正是给予这些商品一小部分展示量作为探索过程，增加商品间的流动性，从而增加电商搜索结果的多样性。

步骤S130，根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值。

这里，每一所述商品的奖励值为用户的行为流存储的数据，表征每一所述商品对应的点击和/或下单情况。通常情况下，所述奖励值为历史累计的奖励值部分加上当前的奖励值部分。

在一些其他的实施例中，可以由远程服务来提供奖励值的计算服务，奖励值在一个请求(request)范围内采用高速缓存存储器(cache)的机制来提升性能。

在一些其他的实施例中，电商搜索中会涉及上亿常用的商品，为利用尽可能少的存储或计算资源做有效的探索利用，可以积累一段固定时间内的奖励反馈，例如以采用滑动的延迟奖励值的方式，保留最近固定时间段内的累计奖励值进行处理，而不断地丢弃掉该固定时间段之前的数据。从而可以减少电商搜索时的存储空间和性能损耗。

步骤S140，根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集。

这里，根据候选商品集中所有商品的奖励值，应用汤姆森采样算法计算所有商品的推荐值，从中选出分值最高的若干商品作为目标商品集，以便后续进行探索过程。

可以理解的是，通过奖励值给用户对候选商品集中的商品进行打分排序，筛选出有价值的商品。也就是目标商品集为有质量保证的商品，这样就避免了给用户曝光完全不感兴趣的商品。

步骤S150，将所述目标商品集中满足预设条件的商品作为待推荐商品。

这里，当目标商品集中商品的推荐值大于一定值或者该商品优于其他商品时才对该商品进行探索，这样最大限度地保证了待推荐商品的质量，避免了用户体验的下降。

步骤S160，将所述待推荐商品在特定的坑位区间进行展示。

这里，坑位(positon)指商品在推荐列表中展示的位置，越靠前的坑位，需要的展示量越大。所述特定的坑位区间表征所述待推荐商品在所述客户端页面的目标展示位置。通常选择在搜索列表中排位靠后的位置对待推荐商品进行展示。

需要说明的是，当待推荐商品进行展示后，客户端页面会产生新的实时日志流，这部分是探索的利用部分。

在本申请实施例中，通过获取客户端页面的实时日志流，并从客户端页面所呈现的商品中选出候选商品集，然后基于实时日志流确定候选商品集中商品的奖励值，再基于奖励值，从候选商品集中选出目标商品集，对目标商品集中的满足预设条件的商品进行展示，这样对排序靠后的商品给予一定的流量进行曝光的机会，剩余商品则利用曝光的反馈进行排序，从而增强商品间的流动性和多样性。

在一些可能的实施例中，所述特定的坑位区间内坑位的数目为K，且K为大于等于1的正整数，基于图1，图2为本申请实施例提供的另一种电商搜索的推荐方法的流程示意图，如图2所述，上述步骤S150可以通过以下步骤实现：

步骤S210，按照特定的反馈指标，根据每一所述商品的奖励值，确定每一所述商品对应的正反馈参数和负反馈参数。

这里，所述特定的反馈指标至少包括以下之一：点击率(Click Through Rate，CTR)、转化率(Conversion Rate，CVR)和点击转化率(Click Through&Conversion Rate，CTCVR)。其中，点击率指客户端页面展示的商品的实际点击次数(严格的来说，可以是到达目标页面的数量)除以商品广告的展示量(Show Content)，即点击率＝点击量/展示量。转化率则是一个衡量商品广告效果的指标，转化率＝转化量/点击)，其中转化量为下单量减去点击量的部分。点击转化率则是用户实际下单的次数除以商品广告的展示量，即点击转化率＝下单量/展示量。

在一些实施例中，当所述特定的反馈指标为点击率时，每一所述商品对应的正反馈参数为点击量，所述商品对应的负反馈参数为展示量减去点击量。举例来说，当对候选商品进行探索时，观察用户的反馈情况，如果用户点击则将对应候选商品的正反馈参数加1，否则将对应候选商品的负反馈参数加1。

在一些实施例中，当所述特定的反馈指标为转化率时，每一所述商品对应的正反馈参数为下单量，所述转化率的负反馈参数为点击量减去下单量。举例来说，当对候选商品进行探索时，观察用户的反馈情况，如果用户下单购买该候选商品，则将对应候选商品的正反馈参数加1；如果用户点击了但未进行下单操作，则将对应候选商品的负反馈参数加1。

在一些实施例中，当所述特定的反馈指标为点击转化率时，每一所述商品对应的正反馈参数为下单量，所述点击转化率的负反馈参数为展示量减去下单量。举例来说，当对候选商品进行探索时，观察用户的反馈情况，如果用户下单购买该候选商则将对应候选商品的正反馈参数加1，否则将对应候选商品的负反馈参数加1。

步骤S220，根据所述正反馈参数和所述负反馈参数，通过贝塔分布生成每一所述商品的推荐值。

这里，在电商搜索中，商品点击或下单的概率服从贝塔分布，有两个输入参数，分别表示正样本和负样本，即正反馈参数和所述负反馈参数。因此，可以根据商品的反馈确定这两个参数，从而更新贝塔分布，实现用后验概率不断地更正先验概率的过程。

在一些实施例中，计算候选商品集中每个商品的推荐值的过程中，为了防止当汤姆森采样算法的输入参数的初始化值过小的时候，产生过于随机分布的推荐值影响用户体验，所以会对正反馈参数和负反馈参数都加上初始化的值。因此，在所述步骤S220之前，还包括以下步骤：将所述正反馈参数加上第一初始值，得到第一目标参数；将所述负反馈参数加上第二初始值，得到第二目标参数；其中，所述第一初始值和所述第二初始值由贝叶斯平滑算法确定；相应地，步骤S220还可以根据所述第一目标参数和所述第二目标参数，通过贝塔分布生成每一所述商品的目标推荐值。

在一些实施例中，在所述特定的反馈指标包括点击率、转化率和点击转化率的情况下，步骤S220中生成每一所述商品的推荐值的过程可以通过以下方式实施：将每一所述商品的正反馈参数和负反馈参数作为输入，按照下面的公式(3)生成每一所述商品的推荐值：

T_{s_score}＝t₁*beta(α₁,β₁)_CTR+t₂*beta(α₂,β₂)_CVR+t₃*beta(α₃,β₃)_CTCVR (3)；

其中，T_{s_score}为每一所述商品的推荐值，beta(α₁,β₁)_CTR为按照点击率通过贝塔分布生成的每一所述商品的推荐分数，beta(α₂,β₂)_CVR为按照转化率通过贝塔分布生成的每一所述商品的推荐分数，beta(α₃,β₃)_CTCVR为按照点击转化率通过贝塔分布生成的每一所述商品的推荐分数，α₁、α₂和α₃为每一所述商品的正反馈参数，β₁、β₂和β₃为每一所述商品的负反馈参数，系数t₁、t₂和t₃为通过逻辑回归模型训练进行拟合得出的。

可以看出，每一所述商品的推荐值至少包括：点击率对应的推荐分数、转化率对应的推荐分数和所述点击转化率对应的推荐分数，综合了多个反馈指标下的商品质量考量，使得被推荐的商品质量得到保证，避免了给用户曝光完全不感兴趣的商品。

步骤S230，将所述候选商品集中每一所述商品的推荐值最大的前K个商品，作为所述目标商品集。

这里，通过筛选候选商品集中最大的前K个商品进行探索，这样最大限度地保证了待推荐商品的质量，解决了算法的探索部分带来的损失，避免了用户体验的下降。

在一些实施例中，为了防止将大量转化好但价格便宜的商品曝光给用户，影响独立访客(Unique Visitor，UV)价值的收益，同时为了防止价格加权过大导致曝光给质量低价高的商品，可以对候选商品集中商品的推荐值加入价格加权处理。例如，可以通过下面的公式(4)对每一所述商品的推荐值进行调整，得到每一所述商品的目标推荐值：

T'_{s_score}＝T_{s_score}*pow(max(min(price,price_avg*w₁),1),1/w₂)(4)；

其中，T′_{s_score}为每一所述商品的目标推荐值，T_{s_score}为每一所述商品的推荐值，pow为幂函数，max为最大值函数，min为最小值函数，price为每一所述商品的单品价格，price_avg为所述候选商品集中至少两个商品的平均价格，w₁和w₂为通过灰度实验迭代确定的超参数；这里，超参数表示通过做大量实验，不不断调整参数，通过观察实验结果筛选效果好时对应的参数。相应地，步骤S230还可以将所述候选商品集中每一所述商品的目标推荐值最大的前K个商品，作为所述目标商品集。

图3为本申请实施例提供的又一种电商搜索的推荐方法的流程示意图，如图3所示，所述方法至少包括以下步骤：

步骤S310，响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流。

步骤S320，从所述客户端页面所呈现的至少两个商品中，确定出候选商品集。

步骤S330，根据所述实时日志流，调用特定的远程服务确定所述候选商品集中每一所述商品的奖励值。

这里，所述特定的远程服务为要素服务(feature_service)，提供奖励值的计算服务，奖励值在一个请求范围内采用高速缓存存储器的机制来提升性能。同时通过远程服务设置奖励值只保留一段时间内的反馈，减少做探索利用时的存储或计算资源。

步骤S340，根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集。

步骤S350，确定所述客户端页面上每一坑位与展示量的映射关系。

这里，在电商搜索中坑位指的是某一商品在客户端页面推荐列表中排序的位置。通常情况下，越靠前的坑位，能够得到更多的用户反馈，因此，需要的展示量越大。可以在系统内部建立每一坑位与展示量的映射关系，也就是存储每个坑位对应的展示量。

步骤S360，根据特定的探索展示量，从所述映射关系中确定特定的坑位区间。

这里，所述探索展示量表征所述待推荐商品曝光的次数。在已知需要多少展示量用来探索的情况下，可以反推出需要探索的坑位区间。

步骤S370，确定在特定的坑位区间上每一原始商品的原始推荐值。

这里，针对特定的坑位区间上商品即原始商品，通过远程服务获取原始商品的奖励值，并利用汤姆森采样算法计算得到原始推荐值。

在一些实施例中，通过贝塔分布批量并行生成所述候选商品集中每一所述商品的推荐值和所述每一原始商品的原始推荐值。这样避免用贪心算法逐个计算每个商品的推荐值。实现了利用尽可能少的存储或计算资源做有效地探索利用。

步骤S380，在所述目标商品集中存在特定商品的推荐值大于所述原始推荐值的情况下，将所述特定商品作为所述待推荐商品。

这里，逐一比较目标商品集中商品的推荐值和坑位区间上的原始商品的原始推荐值，当待推荐商品的推荐值优于原始推荐值时，才对待推荐商品做探索。相应地，当待推荐商品的推荐值小于原始推荐值时，放弃在该坑位区间进行探索。

步骤S390，将所述待推荐商品在特定的坑位区间进行展示。

在一些实施例中，在所述目标商品集中不存在任一商品的推荐值大于所述原始推荐值的情况下，将所述特定的坑位空间顺位向后移动一位，得到新的坑位区间。相应地，步骤S390还可以为将所述待推荐商品在新的坑位区间进行展示。

在本申请实施例中，为了解决算法的探索部分带来的损失，采用穿插的方式，避免了对所有坑位上的商品做探索；同时会利用汤姆森采样算法批量计算所有商品的推荐值，当待推荐商品的推荐值优于坑位区间上的原始商品的推荐值时，才对待推荐商品做探索，优化了探索利用方法在电商搜索中应用时的存储或计算资源，解决了算法的探索部分带来的用户体验的损失。

下面结合一个具体实施例对上述电商搜索的推荐方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

图4A为本申请实施例提供的电商搜索的推荐方法的整体框架示意图，图4A所示，该框架包括搜索前端41、搜索引擎后台42和远程服务43，其中：

搜索前端41包括客户端模块411，用于接收用户对客户端页面的浏览、点击或下单等行为；

搜索引擎后台42中设置探索商品筛选模块421和展示模块422，用于实现该推荐方法的探索部分；探索商品筛选模块421，用于根据候选集中商品的奖励值计算贝塔分布的两个输入参数，进而根据商品的反馈，更新贝塔分布，计算出每一商品的推荐值，并根据推荐值从候选集中选出待推荐的商品；其中候选集是精排分(特定的算法算出的)排序后筛选后的一个区间，这样既保证了被探索商品的质量，又优化了计算资源；

展示模块422，用于通过穿插的方式，将探索商品筛选模块421选出的待推荐商品进行展示；

远程服务43可以是在第三方服务器、服务器集群、云平台等中设置的。远程服务中包括奖励值计算模块431，用于从客户端模块411获取客户端页面的实时日志流，计算候选商品集中商品的奖励值，以实现该推荐方法的利用部分。

图4B为本申请实施例提供的电商搜索的推荐方法的逻辑流程图。如图4B所示，所述方法至少包括以下步骤：

步骤S401，通过贪心算法产生随机数ε，并以ε概率触发商品的探索过程。

这里，通过贪心算法产生随机数来控制是否触发商品的探索过程，从而达到控制触发展示量比例的作用。

步骤S402，根据预设的展示量，确定需要探索的坑位区间。

这里，需要预先计算客户端页面上所展示的每个坑位和展示量的映射关系，在实施的过程中，再根据总体需要探索的展示量，反推出需要探索的坑位区间。

步骤S403，通过远程服务确定客户端页面所呈现商品的奖励值。

这里，奖励值没有使用累计奖励值+当前奖励值的方式，而是采用了滑动的延迟奖励值方式，其中延迟的含义是不是立刻反馈，而是积累一段时间比如24小时的反馈，滑动的含义是只保留最近24小时，会不断地丢弃最近24小时之前的奖励值，并由远程服务来提供奖励值，奖励值在一个请求范围内采用的高速缓存存储器的机制来提升性能。

步骤S404，根据奖励值，利用汤姆森采样算法，批量计算候选集商品中商品的推荐值和原始商品的原始推荐值。

这里，候选集商品不是客户端页面所呈现的所有商品，而是按照精排分排序后筛选后的一个区间，这样既保证了候选集的质量，又优化了计算资源。

这里，根据汤姆森采样算法，批量并行计算候选商品集和坑位区间上原始商品的推荐值，而不是用贪心算法逐个计算所有商品的推荐值。

步骤S405，根据候选集商品中商品的推荐值，从候选集商品中筛选出目标商品集。

步骤S406，将目标商品集中推荐值大于原始推荐值对应的商品，作为待推荐商品进行展示。

这里，对比步骤S404中计算的目标商品集中商品的推荐值和原始推荐值，当待推荐商品的推荐值优于坑位区间上的原始商品的原始推荐值时，才对待推荐商品做探索，如果小于则放弃该坑位区间上的穿插位置，同时将穿插位置顺位移动。如此，采用穿插的方式进行探索，避免了对所有坑位的商品做探索，解决了算法的探索部分带来的损失。

值得注意的是，对待推荐商品进行穿插展示的过程中，会产生实时日志流，然后由远程服务提供奖励值的计算服务，继续下一次的探索过程。

需要说明的是，本申请实施例对现有的汤姆森采用算法进行了以下改进：

1)在计算商品的推荐值的过程中，为防止汤姆森采样算法的输入参数初始化值过小的时候会产生过于随机分布的推荐值影响用户体验，所以会对两个输入参数都加上初始化的值，初始化的值由贝叶斯平滑计算得出。

2)综合了多目标的反馈指标，进行推荐值的计算：其中多目标的反馈指标包括点击率(α＝点击，β＝展示量-点击)，转化率(α＝下单，β＝点击-下单)，点击转化率(α＝下单，β＝展示量-下单)，通过以下公式(5)计算商品的推荐值：

T_{s_score}＝t₁*beta(α₁,β₁)_CTR+t₂*beta(α₂,β₂)_CVR+t₃*beta(α₃,β₃)_CTCVR (5)；

图4C为本申请实施例提供的推荐方法中利用贝塔分布产生的概率统计示意图。如图4C所示，横坐标为商品的平均奖励值，纵坐标为利用贝塔分布产生转化率的概率估值，并且假设贝塔分布的两个参数分别为下单数和点击数，可以看出，第一个行为action1(600,400)的下单数为600，点击数为400；第二个行为action2(400，600)的下单数为400，点击数为600；第三个行为action3(4，6)的下单数为4，点击数为6。也就是说，点击数越大，置信度越大，曲线越尖；转化率越大，商品的平均奖励值越大，即分布曲线的中心点会向右移动。

3)由于目标中没有考虑价格，所以汤姆森采样算法会将大量转化好但价格便宜的商品曝光给用户，影响UV价值的收益，因此对上一步算出的Ts_score值做了价格加权；为了防止价格加权过大导致曝光给质量低价格高的商品，又对价格做了上限的限制，如公式(6)所示：

T'_{s_score}＝T_{s_score}*pow(max(min(price,price_avg*w₁),1),1/w₂)(6)；

其中，T'_{s_score}为每一所述商品的目标推荐值，T_{s_score}为每一所述商品的推荐值，pow为幂函数，max为最大值函数，min为最小值函数，price为每一所述商品的单品价格，price_avg为所述候选商品集中至少两个商品的平均价格，w₁和w₂为通过灰度实验迭代确定的超参数；这里，超参数表示通过做大量实验，不不断调整参数，通过观察实验结果筛选效果好时对应的参数。

图4D为本申请实施例提供的推荐方法中穿插策略的展示示意图，第一列为客户端页面所呈现的多个商品的初始状态，第二列为经过一次探索请求过程后相应商品的展示状态，第二列为经过一次探索请求过程后相应商品的展示状态，第三列为经过两次探索请求过程后相应商品的展示状态。可以看出，黑色球表示的商品的原始推荐值为0.6，相对其他商品的推荐值高，经过一次探索请求过程后放置在第3个坑位上。经过用户的反馈，黑色球表示的商品的原始推荐值降低，所以又经过第二次探索请求过程调整至相对靠后的位置，同时白色花纹球表示的商品的推荐值较高，在第二次探索请求过程中被调整至第2个坑位上。也就是说，通过比较待推荐商品的推荐值和其他坑位区间上的商品的推荐值，通过穿插的方式将对待推荐商品进行探索。

为了使实验快速迭代，抽象出了一组超参数，可通过调整超参数来调整实验，实现灰度实验的“分钟级”更新。参数比如是否触发探索利用实验(is_ee)、候选集位置区间(candi_pos_begin～candi_pos_end)、曝光位置区间(pos_begin～pos_end)、一次请求探索的商品个数(best_k_num)、价格加权参数(is_price)、价格加权的限制(price_limit)、日志标记(is_tag)、触发流量(prob_trigger)、贝叶斯初始化参数(ee_alpha，ee_beta)、多目标每个表头的权重w_fb(w_s24h_ctr，w_s24h_cvr，w_a24h，w_s24h_rcvr)等。

通过运用本申请实施例提供的电商搜索的推荐方法，能够使商品的流动性和多样性指标显著提升：品牌多样性+1.26％，类目多样性+2.46％，店铺多样性+1.56％，展示流动性+1.01％。核心指标(如UV价值)基本持平，符合预期。其中多样性即用熵来衡量系统的混乱程度，如果多样性越好，则熵值越高。流动性则为在一定时间内，存在一定的曝光/点击/订单的商品数量，数量越多则流动性较好。

在本申请实施例中搭建一套应用汤姆森采样算法的框架和解决方案。为了解决算法的探索部分带来的损失，采用穿插的方式，避免了对所有坑位的商品做探索。然后会批量计算所有商品的汤姆森采样算法的推荐值，当待推荐商品的推荐值优于原始商品的推荐值时，才对待推荐商品做探索。这样能够利用尽可能少的存储或计算资源做有效的探索利用，最大限度地保证了探索商品的质量，避免了用户体验的下降。同时提供了可配置化的快捷灰度实验方案和评测指标。

基于前述的实施例，本申请实施例再提供一种电商搜索的推荐装置，所述推荐装置包括所包括的各模块、以及各模块所包括的各单元，可以通过电商搜索的推荐设备(例如计算机设备、服务器、服务器集群、云平台等)中的处理器来实现；当然也可通过逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processing Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图5为本申请实施例提供的一种电商搜索的推荐装置的组成结构示意图，如图5所示，所述推荐装置500包括获取模块510、第一确定模块520、第二确定模块530、筛选模块540、第三确定模块550和展示模块560，其中：

所述获取模块510，用于响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流；

所述第一确定模块520，用于从所述客户端页面所呈现的至少两个商品中，确定出候选商品集；

所述第二确定模块530，用于根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值；

所述筛选模块540，用于根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集；

所述第三确定模块550，用于将所述目标商品集中满足预设条件的商品作为待推荐商品；

所述展示模块560，用于将所述待推荐商品在特定的坑位区间进行展示。

在一些可能的实施例中，所述第二确定模块530，还用于根据所述实时日志流，调用特定的远程服务确定所述候选商品集中每一所述商品的奖励值。

在一些可能的实施例中，所述推荐装置500还包括第四确定模块，用于将当前时刻之前特定时间段内的每一所述商品的奖励值，作为延迟奖励值；相应地，所述筛选模块540，还用于根据所述延迟奖励值，从所述候选商品集中筛选出目标商品集。

在一些可能的实施例中，所述特定的坑位区间内坑位的数目为K，且K为大于等于1的正整数，所述筛选模块540包括第一确定单元、生成单元和第二确定单元，其中：所述第一确定单元，用于按照特定的反馈指标，根据每一所述商品的奖励值，确定每一所述商品对应的正反馈参数和负反馈参数；所述生成单元，用于根据所述正反馈参数和所述负反馈参数，通过贝塔分布生成每一所述商品的推荐值；所述第二确定单元，用于将所述候选商品集中每一所述商品的推荐值最大的前K个商品，作为所述目标商品集。

在一些可能的实施例中，所述推荐装置500还包括第一添加模块和第二添加模块，其中：所述第一添加模块，用于将所述正反馈参数加上第一初始值，得到第一目标参数；所述第二添加模块，用于将所述负反馈参数加上第二初始值，得到第二目标参数；其中，所述第一初始值和所述第二初始值由贝叶斯平滑算法确定；相应地，所述生成单元，还用于根据所述第一目标参数和所述第二目标参数，通过贝塔分布生成每一所述商品的目标推荐值。

在一些可能的实施例中，所述特定的反馈指标至少包括以下之一：点击率、转化率和点击转化率，相应地，所述生成单元，还用于根据所述正反馈参数和所述负反馈参数，按照下面公式生成每一所述商品的推荐值：T_{s_score}＝t₁*beta(α₁,β₁)_CTR+t₂*beta(α₂,β₂)_CVR+t₃*beta(α₃,β₃)_CTCVR，其中，T_{s_score}为每一所述商品的推荐值，beta(α₁,β₁)_CTR为按照点击率通过贝塔分布生成的每一所述商品的推荐分数，beta(α₂,β₂)_CVR为按照转化率通过贝塔分布生成的每一所述商品的推荐分数，beta(α₃,β₃)_CTCVR为按照点击转化率通过贝塔分布生成的每一所述商品的推荐分数，α₁、α₂和α₃为每一所述商品的正反馈参数，β₁、β₂和β₃为每一所述商品的负反馈参数，系数t₁、t₂和t₃为通过逻辑回归模型训练进行拟合得出的。

在一些可能的实施例中，所述推荐装置500还包括调整模块，用于通过下面的公式对每一所述商品的推荐值进行调整，得到每一所述商品的目标推荐值；T'_{s_score}＝T_{s_score}*pow(max(min(price,price_avg*w₁),1),1/w₂)其中，T'_{s_score}为每一所述商品的目标推荐值，T_{s_score}为每一所述商品的推荐值，pow为幂函数，max为最大值函数，min为最小值函数，price为每一所述商品的单品价格，price_avg为所述候选商品集中至少两个商品的平均价格，w₁和w₂为通过灰度实验迭代确定的超参数；相应地，所述第二确定单元，还用于将所述候选商品集中每一所述商品的目标推荐值最大的前K个商品，作为所述目标商品集。

在一些可能的实施例中，所述第三确定模块550包括第三确定单元和第四确定单元，其中：所述第三确定单元，用于确定在所述特定的坑位区间上每一原始商品的原始推荐值；所述第四确定单元，用于在所述目标商品集中存在特定商品的推荐值大于所述原始推荐值的情况下，将所述特定商品作为所述待推荐商品。

在一些可能的实施例中，所述第三确定模块550还包括移动单元，用于在所述目标商品集中不存在任一商品的推荐值大于所述原始推荐值的情况下，将所述特定的坑位空间顺位向后移动一位，得到新的坑位区间。

在一些可能的实施例中，所述生成单元还用于通过贝塔分布批量并行生成所述候选商品集中每一所述商品的推荐值和所述每一原始商品的原始推荐值。

在一些可能的实施例中，所述推荐装置500还包括第四确定模块和第五确定模块，其中：所述第四确定模块，用于确定所述客户端页面上每一坑位与展示量的映射关系；所述第五确定模块，根据特定的探索展示量，从所述映射关系中确定所述特定的坑位区间；其中，所述探索展示量表征所述待推荐商品曝光的次数。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述电商搜索的推荐方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电商搜索的推荐设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中任一所述电商搜索的推荐方法中的步骤。

对应地，本申请实施例中，还提供了一种计算机程序产品，当该计算机程序产品被设备的处理器执行时，其用于实现上述实施例中任一所述电商搜索的推荐方法中的步骤。

基于同一技术构思，本申请实施例提供一种电商搜索的推荐设备，用于实施上述方法实施例记载的电商搜索的推荐方法。图6为本申请实施例提供的一种电商搜索的推荐设备的硬件实体示意图，如图6所示，所述设备600包括存储器610和处理器620，所述存储器610存储有可在处理器620上运行的计算机程序，所述处理器620执行所述程序时实现本申请实施例任一所述电商搜索的推荐方法中的步骤。

存储器610配置为存储由处理器620可执行的指令和应用，还可以缓存待处理器620以及设备中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器620执行程序时实现上述任一项的电商搜索的推荐方法的步骤。处理器620通常控制设备600的总体操作。

上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种电商搜索的推荐方法，其特征在于，所述方法包括：

根据所述客户端页面所呈现的至少两个商品的指标参数，从所述至少两个商品中确定出排位后N的商品，得到候选商品集；

将所述目标商品集中满足预设条件的商品作为待推荐商品；

将所述待推荐商品在所述客户端页面的特定的坑位区间进行展示；

其中，所述根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集，包括：

根据每一所述商品的奖励值，采用汤姆森采样算法计算每一所述商品的推荐值，并根据所述推荐值从所述候选商品集中筛选出所述目标商品集。

2.如权利要求1所述的方法，其特征在于，所述根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值，包括：

根据所述实时日志流，调用确定所述候选商品集中每一所述商品的奖励值。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

将当前时刻之前特定时间段内的每一所述商品的奖励值，作为延迟奖励值；

相应地，根据所述延迟奖励值，从所述候选商品集中筛选出目标商品集。

4.如权利要求1所述的方法，其特征在于，所述特定的坑位区间内坑位的数目为K，且K为大于等于1的正整数，所述根据每一所述商品的奖励值，从所述候选商品集中筛选出目标商品集，包括：

按照特定的反馈指标，根据每一所述商品的奖励值，确定每一所述商品对应的正反馈参数和负反馈参数；

根据所述正反馈参数和所述负反馈参数，通过贝塔分布生成每一所述商品的推荐值；

将所述候选商品集中每一所述商品的推荐值最大的前K个商品，作为所述目标商品集。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

将所述正反馈参数加上第一初始值，得到第一目标参数；

将所述负反馈参数加上第二初始值，得到第二目标参数；其中，所述第一初始值和所述第二初始值由贝叶斯平滑算法确定；

相应地，根据所述第一目标参数和所述第二目标参数，通过贝塔分布生成每一所述商品的目标推荐值。

6.如权利要求4所述的方法，其特征在于，所述特定的反馈指标至少包括以下之一：点击率、转化率和点击转化率；

相应地，所述根据所述正反馈参数和所述负反馈参数，通过贝塔分布生成每一所述商品的推荐值，包括：

根据所述正反馈参数和所述负反馈参数，按照下面的公式生成每一所述商品的推荐值：

T_{s_score}＝t₁*beta(α₁,β₁)_CTR+t₂*beta(α₂,β₂)_CVR+t₃*beta(α₃,β₃)_CTCVR；

7.如权利要求4所述的方法，其特征在于，所述方法还包括：

通过下面的公式对每一所述商品的推荐值进行调整，得到每一所述商品的目标推荐值：

T'_{s_score}＝T_{s_score}*pow(max(min(price,price_avg*w₁),1),1/w₂)；

其中，T′_{s_score}为每一所述商品的目标推荐值，T_{s_score}为每一所述商品的推荐值，pow为幂函数，max为最大值函数，min为最小值函数，price为每一所述商品的单品价格，price_avg为所述候选商品集中至少两个商品的平均价格，w₁和w₂为通过灰度实验迭代确定的超参数；

相应地，将所述候选商品集中每一所述商品的目标推荐值最大的前K个商品，作为所述目标商品集。

8.如权利要求1至7任一项所述的方法，其特征在于，所述将所述目标商品集中满足预设条件的商品作为待推荐商品，包括：

确定在所述特定的坑位区间上每一原始商品的原始推荐值；

在所述目标商品集中存在特定商品的推荐值大于所述原始推荐值的情况下，将所述特定商品作为所述待推荐商品。

9.如权利要求8所述的方法，其特征在于，所述方法还包括：

在所述目标商品集中不存在任一商品的推荐值大于所述原始推荐值的情况下，将所述特定的坑位空间顺位向后移动一位，得到新的坑位区间。

10.如权利要求8或9所述的方法，其特征在于，所述方法还包括：

通过贝塔分布批量并行生成所述候选商品集中每一所述商品的推荐值和所述每一原始商品的原始推荐值。

11.如权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

确定所述客户端页面上每一坑位与展示量的映射关系；

根据特定的探索展示量，从所述映射关系中确定所述特定的坑位区间；其中，所述探索展示量表征所述待推荐商品曝光的次数。

12.一种电商搜索的推荐装置，其特征在于，所述推荐装置包括获取模块、第一确定模块、第二确定模块、筛选模块、第三确定模块和展示模块，其中：

所述获取模块，用于响应于在客户端页面的访问行为，获取所述客户端页面的实时日志流；

所述第一确定模块，用于根据所述客户端页面所呈现的至少两个商品的指标参数，从所述至少两个商品中确定出排位后N的商品，得到候选商品集；

所述第二确定模块，用于根据所述实时日志流，确定所述候选商品集中每一所述商品的奖励值；

所述筛选模块，用于根据每一所述商品的奖励值，采用汤姆森采样算法计算每一所述商品的推荐值，并根据所述推荐值从所述候选商品集中筛选出目标商品集；

所述第三确定模块，用于将所述目标商品集中满足预设条件的商品作为待推荐商品；

所述展示模块，用于将所述待推荐商品在所述客户端页面的特定的坑位区间进行展示。

13.一种电商搜索的推荐设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至11任一项所述方法中的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述方法中的步骤。