CN114676351A

CN114676351A - 一种推荐位置确定方法、装置、设备及存储介质

Info

Publication number: CN114676351A
Application number: CN202210285922.6A
Authority: CN
Inventors: 朱冰琪; 李雪建; 吴晓旭; 廖国钢; 王永康; 王兴星; 张冠宇
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-28

Abstract

本说明书公开了一种推荐位置确定方法、装置、设备及存储介质，将页面特征信息输入到确定出的推荐位置确定模型，得到目标页面中各待推荐信息的推荐位置。向用户返回根据推荐位置排序的各待推荐信息确定奖励，以奖励最大化调整各特征信息对应的参数，当再次响应于用户浏览页面的请求，重复上述调整参数的过程，直到目标页面对应的奖励最大。可见，本方法通过确定获取到的所有特征信息对应的参数的方式，增加了推荐权重的维度，体现了不同的页面特征信息以及用户特征信息对各待推荐信息推荐位置的影响，有效地提升了业务平台收益以及待推荐信息的收益。

Description

一种推荐位置确定方法、装置、设备及存储介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种推荐位置确定方法、装置、设备及存储介质。

背景技术

在实际应用中，用户可以通过终端浏览业务平台推荐的信息，例如，在外卖业务中，用户需要通过终端查看各外卖商家时，业务平台可以按照一定顺序将商家信息进行排序，并展示给用户。其中，业务平台对待推荐信息的排序影响着用户对待推荐信息下订单的意愿，进而影响了投放待推荐信息的投放方的订单收益。

现有技术中，通常采用交叉熵算法对待推荐信息排序模型的参数进行调整。采用交叉熵算法的具体调参过程为：获取多个不同的初始参数，其中，初始参数均来源于同一参数分布空间。针对每个参数，基于各待推荐信息的特征和按该参数调整后的排序模型，得到对各待推荐信息的排序，并计算出在该排序下业务平台以及投放方的收益评估值。从多个参数中选取对应的收益评估值较高的几个参数计算下次调参时所用的参数分布空间。多次迭代直到满足预设条件。

然而，这种方式参数的设置上维度较为单一，无法体现其他因素对待推荐信息排序的影响，进而无法有效地提升业务平台以及待推荐信息的收益。

发明内容

本说明书提供一种推荐位置确定方法、装置、设备及存储介质，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种推荐位置确定方法，包括：

响应于用户浏览页面的请求，将所述用户请求浏览的页面作为目标页面，获取所述目标页面的页面特征信息，并获取所述用户的用户特征信息；

根据所述页面特征信息、所述用户特征信息以及各特征信息对应的参数，确定推荐权重；

根据所述推荐权重确定推荐位置确定模型，并将所述页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的所述目标页面中各待推荐信息的推荐位置；

将包含按照所述推荐位置排序的各待推荐信息的目标页面返回给所述用户；

根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述目标页面对应的奖励；

以所述奖励的最大化为目标，调整各特征信息对应的参数，以便再次响应于用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

可选地，根据所述页面特征信息、所述用户特征信息以及各特征信息对应的参数，确定推荐权重，具体包括：

根据所述页面特征信息以及所述用户特征信息，确定各特征信息对应的参数；

针对每个特征信息，以该特征信息对应的参数为权重，对该特征信息加权；

根据各特征信息的加权结果，确定推荐权重。

可选地，根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述目标页面对应的奖励，具体包括：

根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述各待推荐信息对应的推荐效果表征值；所述推荐效果表征值用于表征所述各待推荐信息在所述目标页面按所述推荐位置排序的推荐效果；

将所述推荐效果表征值以及上一次按确定出的推荐位置排序的各待推荐信息对应的推荐效果表征值，输入到所述推荐位置确定函数对应的奖励函数，确定所述目标页面对应的奖励。

可选地，以所述奖励的最大化为目标，调整各特征信息对应的参数，具体包括：

根据所述目标页面对应的奖励以及上一次根据得到的推荐位置确定的目标页面对应的奖励，确定奖励变化量；

判断所述奖励变化量是否达到预设的调整目标；

若否，根据所述奖励变化量，确定所述各特征信息对应的参数的适应度；所述适应度用于表征所述目标页面对应的奖励对所述各特征信息的参数调整的影响；根据所述适应度，更新各特征信息对应的参数；所述更新后的参数用于响应于下一次用户浏览页面的请求确定推荐权重函数。

可选地，所述方法还包括：

若所述奖励变化量达到预设的调整目标，将所述各特征信息对应的参数作为所述推荐位置确定函数的目标参数。

可选地，确定所述各特征信息对应的参数的适应度，具体包括：

根据所述奖励变化量，确定所述各特征信息对应的参数的适应度系数；

根据所述适应度系数以及所述奖励变化量，确定所述各特征信息对应的参数的适应度。

可选地，根据所述奖励变化量，确定所述各特征信息对应的参数的适应度系数，具体包括：

若所述奖励变化量不小于预设的奖励阈值，确定所述适应度系数为第一系数；

若所述奖励变化量小于预设的奖励阈值，确定所述适应度系数为第二系数；其中，所述第一系数大于所述第二系数。

可选地，所述用户浏览页面的请求包括多个用户浏览页面的请求；

得到所述推荐位置确定模型输出的所述目标页面中各待推荐信息的推荐位置，具体包括：

响应于多个用户浏览页面的请求，针对每个用户，将该用户请求浏览的页面作为该用户对应的目标页面，获取该用户对应的目标页面的页面特征信息，并获取该用户的用户特征信息；

根据该用户对应的目标页面的页面特征信息、该用户的用户特征信息以及各特征信息对应的参数，确定推荐权重；

根据所述推荐权重确定推荐位置确定模型，并将该用户对应的目标页面的页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的该用户对应的目标页面中各待推荐信息的推荐位置；

以所述奖励的最大化为目标，调整各特征信息对应的参数，具体包括：

将各用户对应的目标页面返回给对应的用户，根据所有用户针对对应的目标页面中各待推荐信息的操作结果，确定所有用户对应的目标页面的奖励；所述用户对应的目标页面中包含根据确定出的推荐位置排序的各待推荐信息；

以所有用户对应的目标页面的奖励之和的最大化为目标，调整各特征信息对应的参数，以便再次响应于多个用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

本说明书提供了一种推荐位置确定装置，包括：

特征信息获取模块，用于响应于用户浏览页面的请求，将所述用户请求浏览的页面作为目标页面，获取所述目标页面的页面特征信息，并获取所述用户的用户特征信息；

推荐权重确定模块，用于根据所述页面特征信息、所述用户特征信息以及各特征信息对应的参数，确定推荐权重；

推荐位置确定模块，用于根据所述推荐权重确定推荐位置确定模型，并将所述页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的所述目标页面中各待推荐信息的推荐位置；

目标页面返回模块，用于将包含按照所述推荐位置排序的各待推荐信息的目标页面返回给所述用户；

奖励确定模块，用于根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述目标页面对应的奖励；

参数调整模块，用于以所述奖励的最大化为目标，调整各特征信息对应的参数，以便再次响应于用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述推荐位置确定方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述推荐位置确定方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的推荐位置确定方法中，通过确定各特征信息对应的参数，得到用于确定推荐位置确定模型的推荐权重，将页面特征信息输入到确定出的推荐位置确定模型，得到目标页面中各待推荐信息的推荐位置。向用户返回根据推荐位置排序的各待推荐信息确定奖励，以奖励最大化调整各特征信息对应的参数，当再次响应于用户浏览页面的请求，重复上述调整参数的过程，直到目标页面对应的奖励最大。可见，本方法通过确定获取到的所有特征信息对应的参数的方式，增加了推荐权重的维度，体现了不同的页面特征信息以及用户特征信息对各待推荐信息推荐位置的影响，同时有效地提升了业务平台收益以及待推荐信息的收益。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种推荐位置确定方法的流程示意图；

图2为本说明书中一种推荐位置确定方法的流程示意图；

图3为本说明书提供的一种推荐位置确定装置的示意图；

图4为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

另外，需要说明的是，本发明中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

随着新零售行业的蓬勃发展，越来越多的商家为了宣传商品，在线上业务平台上投放商品的广告。用户在通过终端浏览业务平台的页面时，也会浏览到页面上投放的广告。用户在浏览广告的同时会有一定的概率点击商品的广告，并针对商品产生消费，这就为线上业务平台本身以及在该线上业务平台上投放广告的商家均带来了收益。因此，在新零售广告投放过程中，需要对广告进行合理地排序以便使得商家和业务平台都获得更高的收益。

目前，在进行商品推荐时，一般是采用交叉熵算法，计算各广告的推荐分数的参数来源于同一参数分布集合，按照推荐分数的高低进行排序，最终通过向用户进行推荐。然而，上述方法在计算各广告的推荐分数时，在参数的选取上仅考虑了广告特征的影响，即，仅体现了广告自身对排序的影响。然而，事实上，还会有其他多种因素会影响用户针对广告的操作，进而影响商家以及平台的收益。例如，用户所在的城市可以作为影响用户针对广告操作的一个因素，若用户所在城市为一线城市，用户可能会偏向于消费品牌知名度较高的商品，则将品牌知名度较高的商品在用户浏览的商品页面中的排序提前，可能会促使用户更易成交该品牌知名度较高的商品。用户请求浏览页面的时段也可以作为影响用户针对广告操作的一个因素，若用户浏览页面的时段为用餐时间，则将餐饮广告在用户浏览的页面中的排序提前，可以促使用户更易成交餐饮商品。

基于此，用户本身的多种不同的特征信息也可以作为影响用户针对广告操作的多种因素。因此，在对广告的排序中引入用户的特征信息可以更针对性的提高用户对商品的消费概率，进而提高商家的订单收入以及平台的收益。为此，本方法将用户特征信息以及页面特征信息共同作为确定广告顺序的特征信息，增加推荐位置模型的参数维度，体现包括用户特征信息以及页面特征信息在内的多种因素对广告排序的影响，达到有效提升平台收益以及商家订单收入的目的。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种推荐位置确定方法的流程示意图，具体包括以下步骤：

S100：响应于用户浏览页面的请求，将所述用户请求浏览的页面作为目标页面，获取所述目标页面的页面特征信息，并获取所述用户的用户特征信息。

在本说明书实施例中，推荐位置确定方法的执行主体可以是业务平台的服务器等电子设备，也可以是用户浏览页面所用的终端设备中安装的客户端、浏览器等应用程序，本说明书仅以执行主体为服务器为例，对本说明书实施例进行具体说明。

在此步骤中，服务器首先响应于用户浏览页面的请求，将该用户请求浏览的页面作为该用户对应的目标页面。服务器可将目标页面中的各待推荐信息召回重新排序，目标页面中的各待推荐信息可包括广告信息和/或自然信息。其中，广告信息是由商家(广告主)投放在业务平台的信息。自然信息则可以是根据用户的搜索请求得到的搜索信息，也可以是根据用户的历史操作自动推荐的信息，本实施例对自然信息的获取方式不作限定。

为了更针对性地为用户推荐信息，各待推荐信息的推荐位置的确定需要结合目标页面的页面特征信息以及用户的用户特征信息确定。其中，页面特征信息包括待推荐信息的点击率(Click Through Rate，CTR)、转化率(Conversion Rate，CVR)、待推荐信息的数量、点击出价、成交价格等。用户特征信息包括用户所在城市、用户请求浏览页面的时段、用户的历史成交操作等。此处，可以利用目前现有的点击率确定方法、转化率确定方法来确定各待推荐信息的点击率和转化率。例如，可以采用各种预先训练的点击率预测模型、转化率预测模型进行点击率和转化率的预测。实践中，点击率预测模型、转化率预测模型可以是利用机器学习方法预先训练得到的。

S102：根据所述页面特征信息、所述用户特征信息以及各特征信息对应的参数，确定推荐权重。

通常情况下，对各待推荐信息进行排序所用的推荐位置确定模型可以是预先存储在服务器中的，该推荐位置确定模型可以通过表征页面特征信息以及用户特征信息与推荐权重之间的对应关系、推荐权重与推荐位置的对应关系来确定各待推荐信息的推荐位置。其中，页面特征信息以及用户特征信息与推荐权重之间的对应关系可以以下述公式表示：

gmvK＝θ₁x₁+θ₂x₂+θ₃x₃+…+θ_kx_k

其中，gmvK为本说明书所述推荐权重，θ_k为各特征信息对应的参数，x_k为获取到的页面特征信息或用户特征信息。

为了最终得到待推荐信息的推荐位置，需要首先确定推荐权重，推荐权重用于表征商家成单收入与投放成本对各待推荐信息排序得分的影响，通常情况下，在各待推荐系信息为平台带来的收益相同时，推荐权重越大，商家成单收入在待推荐信息排序得分中的比重也就越大，待推荐信息的排序得分也就越高，该待推荐信息在各待推荐信息组成的推荐队列中也就越靠前，用户浏览目标页面时就会更早看见该待推荐信息。

在此步骤中，将步骤S100中获取得到的页面特征信息以及用户特征信息作为特征信息，并针对每个特征信息，获取该特征信息对应的参数，进而确定各特征信息对应的参数。参数的获取方式可以是获取初始化参数或者是根据上一次参数调整后的结果获取。其中，若是第一次对用户请求浏览的页面中各待推荐信息进行推荐位置确定，可获取初始化参数，该初始化参数可以是本领域技术人员人工设定的初始化参数，也可以是将本方案现有技术中得到的参数作为初始化参数。若不是第一次对用户请求浏览的页面中各待推荐信息进行推荐位置确定，可获取上一次推荐位置确定时调整后的参数作为本次确定推荐权重时所采用的参数。

为了表征页面特征信息以及用户特征信息与推荐权重之间的对应关系，可选地，针对每个特征信息，以该特征信息对应的参数为权重，对该特征信息加权，然后，根据各特征信息的加权结果，确定推荐权重。也即，根据页面特征信息、用户特征信息、页面特征信息对应的参数、用户特征信息对应的参数，确定推荐权重。

S104：根据所述推荐权重确定推荐位置确定模型，并将所述页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的所述目标页面中各待推荐信息的推荐位置。

在实际应用中，推荐位置确定模型可以是公式、函数或者采用现有模型结构建立的能够计算推荐位置的模型，本说明书对此不做限定。将页面特征信息输入到根据推荐权重确定的推荐位置确定模型中，输出的即为目标页面中各待推荐信息的推荐位置。根据各待推荐信息的推荐位置对各待推荐信息进行排序，即可得到推荐权重对应的各待推荐信息组成的推荐队列。

以推荐位置确定模型是公式的形式表征为例，结合推荐权重与推荐位置的对应关系，推荐位置的确定可以如下述公式表示：

RankScore＝cpm+gmvK*gmv

其中，gmvK为上述步骤S102确定的推荐权重，cpm为预估得到的业务平台通过曝光待推荐信息所获得的平台收益，gmv为预估得到的投放待推荐信息的商家通过用户下单获得的订单收益。RankScore为排序得分，排序得分与推荐位置之间存在对应关系，待推荐信息的排序得分越高，该待推荐信息在推荐队列中的位置越靠前。

可选地，上述推荐位置的确定公式可进一步展开cpm以及gmv。其中，cpm是通过预估CTR以及商家的投放出价决定的，gmv是通过预估CTR、预估CVR以及预估成交价格确定的，因此，上述推荐位置的确定公式进一步展开后可如下述公式表示：

RankScore＝CTR*bid+gmvK*CTR*CVR*price

其中，CTR为待推荐信息的点击率，CVR为待推荐信息的转化率，bid商家为待推荐信息的点击出价，price为待推荐信息的成交价格。需要说明的是，上述公式中CTR以及CVR的预估可通过步骤S100所述的点击率预测模型以及转化率预测模型得到，此处不再赘述。

S106：将包含按照所述推荐位置排序的各待推荐信息的目标页面返回给所述用户，以便用户对目标页面进行浏览以及对目标页面中的各待推荐信息进行操作。

S108：根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述目标页面对应的奖励。

通常情况下，在用户请求浏览的页面中为用户展示各待推荐信息可以促使用户对各待推荐信息采取点击操作进而由点击操作转化为消费操作。通过用户针对目标页面中各待推荐信息的操作结果，可以实时获取用户对各待推荐信息的点击率和转化率。例如，在外卖场景中，用户请求浏览的页面为用户当前所在位置一定范围内所有的外卖商家，服务器通过对外卖商家进行召回重排后，重新确定了各外卖商家的推荐位置，在将重新确定推荐位置的各外卖商家的目标页面返回给用户后，用户会对各外卖商家进行点击等操作，最后选择某一外卖商家采取下单操作。可见，通过用户对返回的页面的操作结果，服务器可以获取用户针对重新排序后的各外卖商家的点击结果和转化结果。

在本说明书一个可选的实施例中，采用各待推荐信息对应的推荐效果表征值评价包含按照推荐位置排序的各待推荐信息的目标页面对应的奖励。其中，推荐效果表征值用于表征所述各待推荐信息在所述目标页面按所述推荐位置排序的推荐效果。具体的，推荐效果表征值可以表现为业务平台收益变化量Δcpm和订单收益Δgmv。推荐效果表征值越大，该待推荐信息的推荐效果越好，则平台以及商家的收益越大。而通过推荐效果表征值可以进一步的确定目标页面对应的奖励，将所述推荐效果表征值以及上一次按确定出的推荐位置排序的各待推荐信息对应的推荐效果表征值，输入到所述推荐位置确定函数对应的奖励函数，确定所述目标页面对应的奖励。具体的，所述推荐位置确定函数对应的奖励函数可以表现为下述公式：

reward＝Δcpm+Δgmv

其中，Δcpm为平台收益变化量，Δgmv为订单收益变化量。

S110：以所述奖励的最大化为目标，调整各特征信息对应的参数，以便再次响应于用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

在此步骤中，为了最大化目标页面对应的奖励，需要调整各特征信息对应的参数，进而调整推荐位置确定模型。具体的，调整的各特征信息对应的参数为步骤S102所示的θ₁至θ_k这k个参数。进一步地，通过调整θ₁至θ_k这k个参数，达到调整gmvK的目的，进而改变步骤S104中所示的位置确定模型。由步骤S108中所述，目标页面对应的奖励可以表现为平台收益变化量Δcpm和订单收益Δgmv之和，也即，参数调整的目标为平台收益以及订单收益之和的最大化，可见，本说明书实施例提供的方法实现的是平台收益以及订单收益这两个目标的最大化。

本说明书实施例中，如图1步骤S110所示的在得到目标页面对应的奖励后，可结合上一次根据得到的推荐位置确定目标页面对应的奖励，确定奖励变化量，进而根据奖励变化量判断是否还需要进行下一次参数调整。其中，所判断是否还需要进行下一次参数调整可通过以下步骤确定，如图2所示：

S200：判断奖励变化量是否小于变化量阈值。若是，执行步骤S202，否则，执行步骤S204。

若奖励变化量小于预设的变化量阈值，说明本次根据得到的推荐位置确定的目标页面对应的奖励与上一次根据得到的推荐位置确定目标页面对应的奖励相差不大，可见，即使推荐位置确定模型中的推荐权重或者推荐权重中的参数进行了调整，奖励也不会有很大的变化，此时奖励已经趋于收敛，将当前的参数作为推荐位置确定模型的目标参数应用在实际推荐位置确定中即可。

S202：所述奖励变化量达到预设的调整目标，将所述各特征信息对应的参数作为所述推荐位置确定函数的目标参数。

S204：根据所述奖励变化量，确定所述各特征信息对应的参数的适应度系数。判断所述奖励变化量是否不小于预设的奖励阈值，若是，执行步骤S206，否则执行步骤S208。

若奖励变化量不小于预设的奖励阈值，说明本次根据得到的推荐位置确定的奖励比上一次得到的奖励更大，这说明参数调整的方向是正确的，应当在下一次调整时沿着当前参数调整的方向进一步调整参数，以期得到更大的奖励。

若奖励变化量小于预设的奖励阈值，说明参数调整的方向是错误的，应当在下一次调整时，沿着当前参数调整的方向的反方向进一步调整参数。

S206：确定所述适应度系数为第一系数。执行步骤S210。

S208：确定所述适应度系数为第二系数。其中，第一系数大于第二系数。

S210：根据所述适应度系数以及所述奖励变化量，确定所述各特征信息对应的参数的适应度。所述适应度用于表征所述目标页面对应的奖励对所述各特征信息的参数调整的影响。其中，适应度的计算公式表示为所述奖励变化量与所述适应度系数的乘积，如下述公式所示：

F＝Δreward*F_k

其中，F为适应度，F_k为步骤S204至步骤S208确定出的适应度系数，Δreward为本次根据得到的推荐位置确定的目标页面对应的奖励与上一次根据得到的推荐位置确定目标页面对应的奖励之差，即奖励变化量。

S212：根据所述适应度，更新各特征信息对应的参数。所述更新后的参数用于响应于下一次用户浏览页面的请求时确定推荐权重函数。具体的参数更新公式如下所示：

θ_t+1＝θ_t+αF_t

其中，θ_t为本次确定推荐位置所用的参数，θ_t+1为下一次确定推荐位置所用的参数，α为人工设置的学习率，F_t为本次确定推荐位置后得到的适应度。在每次更新各特征信息对应的参数时，依据的是本次确定推荐位置所用的各特征信息对应的参数，以及本次确定推荐位置后得到的适应度，而适应度中又由奖励变化量体现，可见，在说明书实施例中，下一次确定推荐位置所用的各特征信息对应的参数的更新不仅是基于本次各特征信息对应的参数，还包含了奖励变化量的影响，区别于现有技术中，奖励仅用于筛选出一部分参数的作用，本说明书实施例中提供的适应度更能够体现奖励对参数更新的影响，使得参数优化的方向更正确，更具有针对性。

需要说明的是，在本说明书实施例中，步骤S200至步骤S212中计算的奖励变化量也可是本次根据得到的推荐位置确定的目标页面对应的奖励与上一次根据得到的推荐位置确定目标页面对应的奖励之差的绝对值，奖励变化量的具体计算方式本说明书不做限定。

可选的，在本说明书另一个实施例中，用户浏览页面的请求包括多个用户浏览页面的请求，具体通过以下步骤针对多个用户浏览页面的请求确定每个目标页面中各待推荐信息的推荐位置。

首先，响应于多个用户浏览页面的请求，针对每个用户，将该用户请求浏览的页面作为该用户对应的目标页面，获取该用户对应的目标页面的页面特征信息，并获取该用户的用户特征信息。

其次，根据该用户对应的目标页面的页面特征信息、该用户的用户特征信息以及各特征信息对应的参数，确定推荐权重；并根据所述推荐权重确定推荐位置确定模型，并将该用户对应的目标页面的页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的该用户对应的目标页面中各待推荐信息的推荐位置；

然后，将各用户对应的目标页面返回给对应的用户，根据所有用户针对对应的目标页面中各待推荐信息的操作结果，确定所有用户对应的目标页面的奖励；所述用户对应的目标页面中包含根据确定出的推荐位置排序的各待推荐信息；以所有用户对应的目标页面的奖励之和的最大化为目标，调整各特征信息对应的参数，以便再次响应于多个用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

可选地，在以所有用户对应的目标页面的奖励之和的最大化为目标，调整各特征信息对应的参数时，同样需要针对所有用户执行上述步骤S200至S212，其中，步骤S212所示的根据所述适应度，更新各特征信息对应的参数中，所使用的参数更新公式可以如下所示：

其中，θ_i,t为本次确定第i个用户的目标页面中各待推荐信息的推荐位置时所用的参数，θ_i,t+1为下一次确定第i个用户的目标页面中各待推荐信息的推荐位置时所用的参数，α为人工设置的学习率，F_i,t为本次第i个用户的目标页面中各待推荐信息的推荐位置后得到的适应度，n为用户的总数。

可选地，上述多个用户请求浏览页面可以被划分在实验组中，针对每个实验组中的多个不同用户请求浏览的页面，根据推荐位置确定模型确定各待推荐信息的推荐位置。其中划分实验组的方式可以是将多个用户请求浏览的页面划分在同一个实验组中，也可以划分在多个实验组中。划分的方式以及每个实验组中用户请求浏览页面的数量本说明书不做限定。

以上为本说明书的一个或多个实施例提供的推荐位置确定方法，基于同样的思路，本说明书还提供了相应的推荐位置确定装置，如图3所示。

图3为本说明书提供的一种推荐位置确定装置示意图，具体包括：

特征信息获取模块300，用于响应于用户浏览页面的请求，将所述用户请求浏览的页面作为目标页面，获取所述目标页面的页面特征信息，并获取所述用户的用户特征信息；

推荐权重确定模块302，用于根据所述页面特征信息、所述用户特征信息以及各特征信息对应的参数，确定推荐权重；

推荐位置确定模块304，用于根据所述推荐权重确定推荐位置确定模型，并将所述页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的所述目标页面中各待推荐信息的推荐位置；

目标页面返回模块306，用于将包含按照所述推荐位置排序的各待推荐信息的目标页面返回给所述用户；

奖励确定模块308，用于根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述目标页面对应的奖励；

参数调整模块310，用于以所述奖励的最大化为目标，调整各特征信息对应的参数，以便再次响应于用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

可选地，所述推荐权重确定模块302具体用于，根据所述页面特征信息以及所述用户特征信息，确定各特征信息对应的参数；针对每个特征信息，以该特征信息对应的参数为权重，对该特征信息加权；根据各特征信息的加权结果，确定推荐权重。

可选地，所述奖励确定模块308具体用于，根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述各待推荐信息对应的推荐效果表征值；所述推荐效果表征值用于表征所述各待推荐信息在所述目标页面按所述推荐位置排序的推荐效果；将所述推荐效果表征值以及上一次按确定出的推荐位置排序的各待推荐信息对应的推荐效果表征值，输入到所述推荐位置确定函数对应的奖励函数，确定所述目标页面对应的奖励。

可选地，所述参数调整模块310具体用于，根据所述目标页面对应的奖励以及上一次根据得到的推荐位置确定的目标页面对应的奖励，确定奖励变化量；判断所述奖励变化量是否达到预设的调整目标；若否，根据所述奖励变化量，确定所述各特征信息对应的参数的适应度；所述适应度用于表征所述目标页面对应的奖励对所述各特征信息的参数调整的影响；根据所述适应度，更新各特征信息对应的参数；所述更新后的参数用于响应于下一次用户浏览页面的请求确定推荐权重函数。

可选地，所述参数调整模块310还用于，若所述奖励变化量达到预设的调整目标，将所述各特征信息对应的参数作为所述推荐位置确定函数的目标参数。

可选地，所述参数调整模块310具体用于，根据所述奖励变化量，确定所述各特征信息对应的参数的适应度系数；根据所述适应度系数以及所述奖励变化量，确定所述各特征信息对应的参数的适应度。

可选地，所述参数调整模块310具体用于，若所述奖励变化量不小于预设的奖励阈值，确定所述适应度系数为第一系数；若所述奖励变化量小于预设的奖励阈值，确定所述适应度系数为第二系数；其中，所述第一系数大于所述第二系数。

可选地，所述奖励确定模块308具体用于，响应于多个用户浏览页面的请求，针对每个用户，将该用户请求浏览的页面作为该用户对应的目标页面，获取该用户对应的目标页面的页面特征信息，并获取该用户的用户特征信息；根据该用户对应的目标页面的页面特征信息、该用户的用户特征信息以及各特征信息对应的参数，确定推荐权重；根据所述推荐权重确定推荐位置确定模型，并将该用户对应的目标页面的页面特征信息输入所述推荐位置确定模型，得到所述推荐位置确定模型输出的该用户对应的目标页面中各待推荐信息的推荐位置；

可选地，所述参数调整模块310具体用于，将各用户对应的目标页面返回给对应的用户，根据所有用户针对对应的目标页面中各待推荐信息的操作结果，确定所有用户对应的目标页面的奖励；所述用户对应的目标页面中包含根据确定出的推荐位置排序的各待推荐信息；以所有用户对应的目标页面的奖励之和的最大化为目标，调整各特征信息对应的参数，以便再次响应于多个用户浏览页面的请求，根据调整后的各特征信息对应的参数，确定各待推荐信息的推荐位置。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的推荐位置确定方法。

本说明书还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的推荐位置确定方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种推荐位置确定方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据所述页面特征信息、所述用户特征信息以及各特征信息对应的参数，确定推荐权重，具体包括：

根据各特征信息的加权结果，确定推荐权重。

3.如权利要求1所述的方法，其特征在于，根据所述用户针对所述目标页面中各待推荐信息的操作结果，确定所述目标页面对应的奖励，具体包括：

4.如权利要求1所述的方法，其特征在于，以所述奖励的最大化为目标，调整各特征信息对应的参数，具体包括：

判断所述奖励变化量是否达到预设的调整目标；

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.如权利要求4所述的方法，其特征在于，确定所述各特征信息对应的参数的适应度，具体包括：

7.如权利要求6所述的方法，其特征在于，根据所述奖励变化量，确定所述各特征信息对应的参数的适应度系数，具体包括：

8.如权利要求1所述的方法，其特征在于，所述用户浏览页面的请求包括多个用户浏览页面的请求；

9.一种推荐位置确定装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～8任一项所述的方法。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～8任一项所述的方法。