CN114186050A

CN114186050A - 资源推荐方法、装置、电子设备及存储介质

Info

Publication number: CN114186050A
Application number: CN202111481723.4A
Authority: CN
Inventors: 杜佩佩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-15

Abstract

本公开关于一种资源推荐方法、装置、电子设备及存储介质。方法包括：确定候选资源的多个行为目标的初始评价结果；获取每个行为目标的历史评价结果的先验分布，根据先验分布确定与每个行为目标的初始评价结果对应的先验分布参数；根据候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果；根据资源评价结果从候选资源中确定出推荐的资源，推荐的资源用于进行资源推荐。根据本公开的方案，使得基于先验分布得到的资源评价结果能够更好的拟合用户帐户对候选资源的正反馈程度，有助于提升资源推荐的准确性。

Description

资源推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种资源推荐方法、装置、电子设备、计算机可读存储介质、计算机程序产品。

背景技术

资源推荐系统的优化目标可以是提升正反馈类行为目标。其中，正反馈类行为目标包括使用时长类目标(例如播放时长、播放进度)，以及互动类行为目标(例如点赞、关注)。相应地，负反馈类行为目标包括使用时长类目标(例如短播放、退出播放)，以及互动类行为目标(例如不感兴趣、投诉举报)。在资源推荐系统对多个候选资源的排序阶段，排序模型会输出各个候选资源的各个行为目标的预估值。然后，对各个候选资源的多个预估值进行融合得到综合分数。最后，根据综合分数对多个候选资源进行排序，确定可推荐的候选资源。

相关技术中，由于各个行为目标的预估值对应的数据分布不一致，且预估值的绝对值差异很大，因此，在融合排序阶段需要从同一个数据量纲维度上对各个预估值进行归一化处理。例如，可以使用线性函数将预估值映射到新的数值，并基于新的数值对多个候选资源进行排序。但是，相关技术中的归一化处理忽略了各个预估值之间的差异程度，容易导致资源推荐不够准确。

发明内容

本公开提供一种资源推荐方法、装置、电子设备、计算机可读存储介质、计算机程序产品，以至少解决相关技术中的归一化处理方式忽略了各个预估值之间的差异程度，容易导致资源推荐不够准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种资源推荐方法，包括：

确定候选资源的多个行为目标的初始评价结果；

获取每个所述行为目标的历史评价结果的先验分布，根据所述先验分布确定与每个所述行为目标的初始评价结果对应的先验分布参数；

根据所述候选资源的多个所述行为目标的先验分布参数，生成所述候选资源的资源评价结果；

根据所述资源评价结果从所述候选资源中确定出推荐的资源，所述推荐的资源用于进行资源推荐。

在其中一个实施例中，所述先验分布采用贝塔分布，每个所述行为目标的贝塔分布是根据每个所述行为目标的历史评价结果生成的，所述历史评价结果是根据用户帐户对多个已推荐资源的历史行为数据生成的。

在其中一个实施例中，每个所述行为目标的先验分布的生成方式，包括：

获取每个所述行为目标的多个历史评价结果，根据每个所述行为目标的多个历史评价结果生成期望和方差；

根据所述期望和所述方差，生成贝塔分布的阿尔法系数和贝塔系数；

根据所述阿尔法系数和所述贝塔系数，生成每个所述行为目标的贝塔分布的累计分布，作为每个所述行为目标的先验分布。

在其中一个实施例中，所述获取每个所述行为目标的多个历史评价结果，包括：

获取距离当前时刻之前的预设时间段内，每个所述行为目标的多个历史评价结果。

在其中一个实施例中，每个所述行为目标的先验分布是在确定所述候选资源之后生成的；

或者，每个所述行为目标的先验分布是在确定所述候选资源之前周期性地生成的。

在其中一个实施例中，所述根据所述候选资源的多个所述行为目标的先验分布参数，生成所述候选资源的资源评价结果，包括：

获取与每个所述行为目标对应的调节参数；

根据与每个所述行为目标对应的所述调节参数和所述先验分布参数，生成所述候选资源的资源评价结果。

在其中一个实施例中，所述根据与每个所述行为目标对应的所述调节参数和所述先验分布参数，生成所述候选资源的资源评价结果，包括：

通过以下方式中的任一种得到所述候选资源的资源评价结果：

获取多个所述行为目标的所述调节参数与所述先验分布参数的加权和，将所述加权和作为所述资源评价结果；

获取所述行为目标的所述先验分布参数的调节参数幂次方，根据所述先验分布参数的调节参数幂次方生成所述资源评价结果。

根据本公开实施例的第二方面，提供一种资源推荐装置，包括：

初始结果确定模块，被配置为执行确定候选资源的多个行为目标的初始评价结果；

先验参数确定模块，被配置为执行获取每个所述行为目标的历史评价结果的先验分布，根据所述先验分布确定与每个所述行为目标的初始评价结果对应的先验分布参数；

资源结果生成模块，被配置为执行根据所述候选资源的多个所述行为目标的先验分布参数，生成所述候选资源的资源评价结果；

推荐模块，被配置为执行根据所述资源评价结果从所述候选资源中确定出推荐的资源，所述推荐的资源用于进行资源推荐。

在其中一个实施例中，所述装置还包括：

历史结果获取模块，被配置为执行获取每个所述行为目标的多个历史评价结果；

期望和方差生成模块，被配置为执行根据每个所述行为目标的多个历史评价结果生成期望和方差；

系数生成模块，被配置为执行根据所述期望和所述方差，生成贝塔分布的阿尔法系数和贝塔系数；

贝塔分布生成模块，被配置为执行根据所述阿尔法系数和所述贝塔系数，生成每个所述行为目标的贝塔分布的累计分布，作为每个所述行为目标的先验分布。

在其中一个实施例中，所述历史结果获取模块，被配置为执行获取距离当前时刻之前的预设时间段内，每个所述行为目标的多个历史评价结果。

在其中一个实施例中，所述资源结果生成模块，被配置为执行，包括：

调节参数获取单元，被配置为执行获取与每个所述行为目标对应的调节参数；

资源结果生成单元，被配置为执行根据与每个所述行为目标对应的所述调节参数和所述先验分布参数，生成所述候选资源的资源评价结果。

在其中一个实施例中，所述资源结果生成单元，被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面任一项实施例所述的资源推荐方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面任一项实施例所述的资源推荐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面任一项实施例所述的资源推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在确定候选资源的多个行为目标的初始评价结果后，获取每个行为目标的历史评价结果的先验分布，根据先验分布确定与每个行为目标的初始评价结果对应的先验分布参数。通过将初始评价结果映射为先验分布参数，不仅可以将不同量纲的初始评价结果映射到统一的数据量纲维度，而且能够很好地体现不同行为目标的初始评价结果之间差异大小的区分度信息。接着，根据候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果，根据资源评价结果从候选资源中确定出推荐的资源，使得基于先验分布得到的资源评价结果能够更好的拟合用户帐户对候选资源的正反馈程度，有助于提升资源推荐的准确性，提升资源推荐系统的整体指标效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种资源推荐方法的应用环境图。

图2是根据一示例性实施例示出的一种资源推荐方法的流程图。

图3是根据一示例性实施例示出的一种生成贝塔分布的流程图。

图4是根据一示例性实施例示出的一种贝塔分布的曲线图。

图5是根据一示例性实施例示出的一种通过贝塔分布体现差异性的示意图。

图6是根据一示例性实施例示出的一种资源推荐方法的流程图。

图7是根据一示例性实施例示出的一种资源推荐装置的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本公开所提供的资源推荐方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。终端110中安装有应用程序，该应用程序可以是视频类、即时通信类、电商类等应用程序，终端110可以通过这些应用程序向用户展示资源。服务器120中配置有资源推荐系统。服务器120通过该资源推荐系统响应于用户帐户的资源推荐请求，从资源库中召回得到多个候选资源。对这些候选资源进行粗排和/或精排，得到每个候选资源的多个行为目标的初始评价结果。服务器120获取每个行为目标的历史评价结果的先验分布，根据先验分布确定与每个行为目标的初始评价结果对应的先验分布参数。融合每个候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果。根据资源评价结果对多个候选资源进行排序，从排序后的候选资源中确定出向用户帐户推荐的资源，并将推荐的资源发送至用户帐户所在的终端110。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种资源推荐方法的流程图，如图2所示，资源推荐方法用于服务器中，包括以下步骤。

在步骤S210中，确定候选资源的多个行为目标的初始评价结果。

其中，资源可以是视频、商品、新闻、文章、音乐等可数据传输的内容。候选资源可以是通过召回策略从全量对象或者指定的对象集合中筛选得到，并进入粗排阶段的待粗排资源；也可以是经过召回策略和粗排阶段的筛选后，进入精排阶段的待精排资源。其中，召回策略可以采取多路召回策略。在这种情况下，可以根据用户帐户的帐户相关信息进行兴趣标签匹配、兴趣实体匹配、协同过滤、地理位置匹配等操作，从全量资源或者指定的资源集合中筛选得到一批资源。其中，用户帐户的帐户相关信息不限于是与用户帐户对应的属性信息、历史行为数据等。

粗排和精排是一个相对的概念，粗排可以是指基于较少的用户帐户特征、资源特征等内容进行快速排序的过程；精排可以是指基于较多的用户帐户特征、资源特征等内容进行精确排序的过程。由于精排结果准确度虽高，但是精排模型的检测过程通常较为复杂、需要占用过多的资源，因此，在一些实施例中，可以先对召回得到的一批资源进行粗排，确定出一定数量(例如200个)的资源；再对一定数量的资源进行精排，基于精排阶段输出的排序结果向用户帐户推荐资源。

多个行为目标可以包括正反馈类行为目标和负反馈类行为目标。其中，正反馈类行为目标可以但不限于包括：正反馈时长类目标(例如资源的播放时长、播放进度、有效播放、长播放、完播)；正反馈互动类行为目标(例如点赞、关注、转发、分享、评论、收藏、下载、进入个人主页)。负反馈类行为目标可以但不限于包括：负反馈时长类目标(例如短播放、退出播放)；负反馈互动类行为目标(例如选择不感兴趣、投诉举报)。

初始评价结果用于量化行为目标的预测效果，可以使用概率表征。

一个实施例中，服务器接收用户帐户发送的资源推荐请求。资源推荐请求可以是在启动应用程序时、在用户点击指定控件时、打开指定页面时等任一种情况下触发。服务器响应于资源推荐请求，通过召回策略筛选得到一批待粗排资源，作为候选资源。服务器可以将每个候选资源输入至粗排模型，得到每个候选资源下与每个行为目标对应的初始评价结果。

另一个实施例中，服务器还可以基于粗排模型从召回得到的多个待粗排资源中确定出多个资源，作为候选资源。服务器可以将每个候选资源输入至精排模型，得到每个候选资源下与每个行为目标对应的初始评价结果。

另一个实施例中，候选资源的数量也可以一个。在这种情况下，服务器可以取消融合排序过程，直接将候选资源发送至用户帐户。

在步骤S220中，获取每个行为目标的历史评价结果的先验分布，根据先验分布确定与每个行为目标的初始评价结果对应的先验分布参数。

其中，历史评价结果可以是曾经通过粗排模型或者精排模型输出的评价结果；也可以是根据用户帐户对已推荐资源的反馈数据(例如，有效播放时长、点赞信息等)生成的评价结果。历史评价结果可以使用概率表征。

先验分布用于表示历史评价结果的概率分布情况，例如，可以为贝塔分布、伽马分布等。先验分布参数用于表示初始评价结果在先验分布中可能发生的概率。

具体地，服务器得到每个候选资源的多个行为目标的多个初始评价结果后，将每个行为目标的初始评价结果映射至与该行为目标对应的先验分布上，得到对应的先验分布参数，将该先验分布参数作为行为目标的最终评价结果。

在步骤S230中，根据候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果。

其中，资源评价结果用于表示用户帐户对候选资源的正反馈程度，候选资源的资源评价结果的值越高，说明用户帐户越有可能对该候选资源产生正反馈类行为。

具体地，服务器通过预先部署的融合策略对每个候选资源的多个行为目标的多个先验分布参数进行融合处理，得到每个候选资源的资源评价结果。例如，可以获取多个先验分布参数的平均值，将该平均值作为资源评价结果。

在步骤S240中，根据资源评价结果从候选资源中确定出推荐的资源。

具体地，服务器根据资源评价结果对候选资源进行降序或者升序排序，从排序后的候选资源中筛选得到资源评价结果最高的预设数量的资源。若候选资源为召回阶段输出的待粗排资源，则服务器可以将预设数量的资源输入至精排模型，重复步骤S210～步骤S240的过程，得到可推荐的资源。若候选资源为粗排阶段输出的待精排资源，则服务器可以将预设数量的资源作为可推荐的资源。服务器将可推荐的资源发送至用户帐户，以使用户帐户所在的客户端显示可推荐的资源。

上述资源推荐方法中，在确定候选资源的多个行为目标的初始评价结果后，获取每个行为目标的历史评价结果的先验分布，根据先验分布确定与每个行为目标的初始评价结果对应的先验分布参数。通过将初始评价结果映射为先验分布参数，不仅可以将不同量纲的初始评价结果映射到统一的数据量纲维度，而且能够很好地体现不同行为目标的初始评价结果之间差异大小的区分度信息。接着，根据候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果，根据资源评价结果从候选资源中确定出推荐的资源，使得基于先验分布得到的资源评价结果能够更好的拟合用户帐户对候选资源的正反馈程度，有助于提升资源推荐的准确性，提升资源推荐系统的整体指标效果。

在一示例性实施例中，先验分布采用贝塔分布，每个行为目标的贝塔分布是根据每个行为目标的历史评价结果生成的，历史评价结果是根据用户帐户对多个已推荐资源的历史行为数据生成的。

其中，贝塔分布是一个定义在[0,1]区间上的连续概率分布族，它有两个正值系数，分别称为阿尔法(α)系数和贝塔(β)系数。

历史行为数据用于反映用户帐户对已推荐资源产生的行为，例如，播放时长、是否点赞、是否播放等。

具体地，每当服务器将多个已推荐资源发送至客户端后，服务器获取各个客户端上报的用户帐户对每个已推荐资源的历史行为数据，并对多个已推荐资源的历史行为数据进行汇总，生成每个行为目标的历史评价结果。例如，已推荐资源A被推送至10个用户帐户。其中5个用户帐户对已推荐资源A具有点赞行为，那么行为目标“点赞率”对应的历史评价结果可以为0.5。服务器获取每个行为目标对应的多个历史评价结果，根据多个历史评价结果构建每个行为目标的贝塔分布。

本实施例中，通过根据用户帐户对已推荐资源的历史行为数据构建贝塔分布，使贝塔分布能够反映较为真实的用户帐户的行为倾向，进而有助于提升资源的资源评价结果预测准确性。

在一示例性实施例中，如图3所示，每个行为目标的先验分布的生成方式，包括：

在步骤S310中，获取每个行为目标的多个历史评价结果，根据每个行为目标的多个历史评价结果生成期望和方差。

在步骤S320中，根据期望和方差，生成贝塔分布的阿尔法系数和贝塔系数。

在步骤S330中，根据阿尔法系数和贝塔系数，生成每个行为目标的贝塔分布的累计分布，作为每个行为目标的先验分布。

具体地，对于每个行为目标，在获取与每个行为目标对应的多个历史评价结果后，可以生成多个历史评价结果的均值，将该均值作为贝塔分布的期望。根据多个历史评价结果的均值进一步生成多个历史评价结果的方差，将该方差作为贝塔分布的方差。进而，根据贝塔分布的期望公式和方差公式计算得到阿尔法系数和贝塔系数。根据阿尔法次数和贝塔系数构建得到贝塔分布的累计分布函数，将累计分布函数作为每个行为目标的先验分布。

一个示例中，获取某个行为目标对应的多个历史评价结果为(X₁,X₂,...,X_n)，其中n为大于1的正整数。那么可以得到：

贝塔分布的期望为：

贝塔分布的方差为：

根据上述期望公式和方差公式计算得到阿尔法系数α和贝塔系数β。

然后，根据到阿尔法系数α和贝塔系数β生成贝塔分布的概率密度函数f(x；α,β)：

最后，根据概率密度函数生成贝塔分布的累计分布函数F(x；α,β)：

在得到每个行为目标的贝塔分布的累计分布函数后，可以将每个行为目标的初始评价结果作为累计分布函数F(x；α,β)的自变量x，进而计算得到累计分布函数值，将该累计分布函数值作为每个行为目标的先验分布参数。

举例说明，假设行为目标包括有效播放率和短播率。根据上述公式分别计算得到有效播放率的贝塔分布为B(2,2)，短播率贝塔分布为B(2,5)。图4中(1)示例性示出了有效播放率的概率密度函数f(x；2,2)，以及短播率的概率密度函数f(x；2,5)，如图4中(1)所示，概率密度函数曲线与横轴之间的面积等于1，反映的是落在不同区间的概率大小。图4中(2)示例性示出了有效播放率和短播率的累积分布函数。图4中(2)示例性示出了有效播放率的累计分布函数F(x；2,2)，以及短播率的累计分布函数F(x；2,5)。如图4中(2)所示，累计分布函数是单调递增函数、函数取值范围为0-1，并且累计分布函数曲线具有头部和尾部函数取值区分度较大的特性。

图5示例性示出了根据累计分布函数得到先验分布参数的示意图。如图5所示，累积分布函数能够更好地体现不同的评价结果之间差异大小的区分度。以下以一个具体示例说明。假设有效播放率在粗排阶段的初始评价结果为0.5，在精排阶段的初始评价结果为0.51。短播率在粗排阶段的初始评价结果为0.27，在精排阶段的初始评价结果为0.28。有效播放率和短播率在两个阶段的差异大小都是0.01，但是由于短播率的初始评价结果数值较小，因此，短播率的差异大小的区分度更显著，相关技术中的融合排序方式无法准确识别这样的区分度。而本实施例中，通过将初始评价结果映射为贝塔分布的累计分布函数值，如图5所示，短播率的累积分布函数F(x；2,5)在自变量0.27的斜率1，大于有效播放率的累积分布函数F(x；2,2)在自变量0.5的斜率2，说明短播率在0.27的区分度大于有效播放率在0.5的区分度。

本实施例中，通过使用贝塔分布将初始评价结果映射为相应的贝塔分布参数，不仅可以将不同量纲的初始评价结果映射到统一的数据量纲维度，而且能够很好地体现不同行为目标的初始评价结果之间差异大小的区分度信息。

在一个示例性实施例中，对贝塔分布的另一种生成方式进行说明。在本实施例中，阿尔法系数和贝塔系数可以基于一阶距和二阶矩得到。一个示例中，获取行为目标对应的多个历史评价结果为(X₁,X₂,...,X_n)，其中n为大于1的正整数。那么可以得到：

贝塔分布的期望为：

其中，一阶距k＝1；二阶距k＝2。在根据上述公式计算得到阿尔法系数和贝塔系数后，可以参照上述实施例构建得到贝塔分布的累计分布函数，在此不做具体阐述。

本实施例中，通过提供多种贝塔分布的生成方式，使得行为目标的贝塔分布的构建更具灵活性，丰富了资源推荐系统的功能。

在一示例性实施例中，获取每个行为目标的多个历史评价结果，包括：获取距离当前时刻之前的预设时间段内，每个行为目标的多个历史评价结果。其中，距离当前时刻之前的预设时间段内可以为当前时刻之前的一小时、一天内、一个月内等，可以依实际需求配置获取历史评价结果的预设时间段。服务器根据该预设时间段内的历史评价结果生成每个行为目标的先验分布。采用这种方式能够减少数据输入量，进而减轻服务器的运算压力；另外，还可以确保数据的实时性和准确性，提升先验分布与用户帐户的关联程度，进而有助于提升资源推荐的准确性。

在一示例性实施例中，每个行为目标的先验分布是在确定候选资源之后实时生成的。即，每当服务器响应于资源推荐请求确定候选资源的初始评价结果后，再获取与每个行为目标对应的多个历史评价结果，根据多个历史评价结果生成每个行为目标的先验分布，采用这种方式构建的先验分布能够最大程度地反映用户帐户的当前兴趣。

或者，每个行为目标的先验分布是在确定候选资源之前周期性地生成的。周期可以依实际需求设置，例如，每隔一个小时、每隔一天、每隔一个月等。即，每当服务器确定当前时刻满足先验分布的生成时刻时，便获取与每个行为目标对应的多个历史评价结果，根据多个历史评价结果生成每个行为目标的先验分布。采用这种方式能够减轻服务器的实时数据处理压力，在服务器进行资源推荐时只需调用已生成的先验分布，还可以提升资源推荐效率。

在一示例性实施例中，步骤S230，根据候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果，包括：获取与每个行为目标对应的调节参数；根据与每个行为目标对应的调节参数和先验分布参数，生成候选资源的资源评价结果。

其中，调节参数可以用于反映行为目标的重要程度。行为目标越重要，可以配置越高的调节参数。调节参数可以是预先配置的常数；也可以根据当前的资源推荐需求实时在线或者定期离线更新，例如，通过深度学习模型根据历史推荐记录预测得到每种行为目标对应的调节参数。深度学习模型可以是任一种能够预测调节参数的模型，例如，线性模型、神经网络模型、支持向量机、逻辑回归模型等。

具体地，服务器在获取与每个行为目标对应的先验分布参数后，获取与每个行为目标对应的调节参数。可以通过以下方式中的任一种生成候选资源的资源评价结果：

(1)获取多个行为目标的调节参数与先验分布参数的加权和，将加权和作为资源评价结果。假设行为目标包括有效播放率、点赞率、……、短播率，则每个候选资源的资源评价结果为：

G(x)＝G((F(有效播放率),F(点赞率),...,F(短播率))

＝w₁×F(有效播放率)+w₂×F(点赞率)+...+w_n×F(短播率)

其中，G(x)代表资源评价结果；F(有效播放率),F(点赞率),...,F(短播率)代表先验分布参数；w_n代表调节参数。

(2)获取行为目标的先验分布参数的调节参数幂次方，根据先验分布参数的调节参数幂次方生成资源评价结果。假设行为目标包括有效播放率、点赞率、……、短播率，则每个候选资源的资源评价结果可以为：

G(x)＝G((F(有效播放率),F(点赞率),...,F(短播率))

＝F(有效播放率)^w₁×F(点赞率)^w₂×...×F(短播率)^w_n

或者，每个候选资源的资源评价结果可以为：

G(x)＝G((F(有效播放率),F(点赞率),...,F(短播率))

＝F(有效播放率)^w₁+F(点赞率)^w₂+...+F(短播率)^w_n

本实施例中，通过部署多种可选择的评价结果融合方式，可以提升资源推荐的灵活性。

图6是根据一示例性实施例示出的一种资源推荐方法的流程图，以资源为视频为例，如图6所示，资源推荐方法用于服务器中，包括以下步骤。

在步骤S602中，响应于用户帐户的视频推荐请求，通过召回策略召回多个待粗排视频。

在步骤S604中，将每个待粗排视频输入至粗排模型，得到每个待粗排视频的多个行为目标的粗排初始评价结果。

在步骤S606中，获取距离当前时刻之前的预设时间段内，每个行为目标的多个历史评价结果。其中，多个历史评价结果的获取方式可以参照上述实施例，在此不做具体阐述。

在步骤S608中，根据每个行为目标的多个历史评价结果，生成每个行为目标的贝塔分布。其中，贝塔分布的具体生成方式可以参照上述实施例，在此不做具体阐述。

在步骤S610中，将每个行为目标的粗排初始评价结果作为自变量代入至每个行为目标的累计分布函数，得到粗排累计分布函数值(即先验分布参数)。

在步骤S612中，根据每个待粗排视频对应的多个粗排累计分布函数值，以及与每个粗排累计分布函数值对应的粗排调节参数，生成每个待粗排视频对应的粗排视频评价结果。

在步骤S614中，根据粗排视频评价结果对多个待粗排视频进行降序排序，从排序后的多个待粗排视频中选择排序最高的一定数量的视频，作为待精排视频。

在步骤S616中，将每个待精排视频输入至精排模型，得到每个待精排视频的多个行为目标的精排初始评价结果。

在步骤S618中，将每个行为目标的精排初始评价结果作为自变量代入至每个行为目标的累计分布函数，得到精排累计分布函数值。

在步骤S620中，根据每个待精排视频对应的多个精排累计分布函数值，以及与每个精排累计分布函数值对应的精排调节参数，生成每个待精排视频对应的精排视频评价结果。

在步骤S622中，根据精排视频评价结果对多个待精排视频进行降序排序，从排序后的多个待精排视频中选择排序最高的一定数量的视频作为可推荐的视频，向用户帐户发送可推荐的视频。

在步骤S624中，将用户帐户对可推荐的视频的行为数据更新至在线推荐记录中，并根据在线推荐记录对每个行为目标的贝塔分布进行动态化更新。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图7是根据一示例性实施例示出的一种资源推荐装置700框图。参照图7，该装置包括初始结果确定模块702、先验参数确定模块704、资源结果生成模块706、推荐模块708。

初始结果确定模块702，被配置为执行确定候选资源的多个行为目标的初始评价结果；先验参数确定模块704，被配置为执行获取每个行为目标的历史评价结果的先验分布，根据先验分布确定与每个行为目标的初始评价结果对应的先验分布参数；资源结果生成模块706，被配置为执行根据候选资源的多个行为目标的先验分布参数，生成候选资源的资源评价结果；推荐模块708，被配置为执行根据资源评价结果从候选资源中确定出推荐的资源推荐的资源用于进行资源推荐。

在一示例性实施例中，装置700还包括：历史结果获取模块，被配置为执行获取每个行为目标的多个历史评价结果；期望和方差生成模块，被配置为执行根据每个行为目标的多个历史评价结果生成期望和方差；系数生成模块，被配置为执行根据期望和方差，生成贝塔分布的阿尔法系数和贝塔系数；贝塔分布生成模块，被配置为执行根据阿尔法系数和贝塔系数，生成每个行为目标的贝塔分布的累计分布，作为每个行为目标的先验分布。

在一示例性实施例中，历史结果获取模块，被配置为执行获取距离当前时刻之前的预设时间段内，每个行为目标的多个历史评价结果。

在一示例性实施例中，每个行为目标的先验分布是在确定候选资源之后生成的；或者，每个行为目标的先验分布是在确定候选资源之前周期性地生成的。

在一示例性实施例中，资源结果生成模块706，被配置为执行，包括：调节参数获取单元，被配置为执行获取与每个行为目标对应的调节参数；资源结果生成单元，被配置为执行根据与每个行为目标对应的调节参数和先验分布参数，生成候选资源的资源评价结果。

在一示例性实施例中，资源结果生成单元，被配置为执行：通过以下方式中的任一种得到候选资源的资源评价结果：获取多个行为目标的调节参数与先验分布参数的加权和，将加权和作为资源评价结果；获取行为目标的先验分布参数的调节参数幂次方，根据先验分布参数的调节参数幂次方生成资源评价结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于向终端推荐资源的电子设备S00的框图。例如，电子设备S00可以为服务器。参照图8，电子设备S00包括处理组件S20，其进一步包括一个或多个处理器，以及由存储器S22所代表的存储器资源，用于存储可由处理组件S20的执行的指令，例如应用程序。存储器S22中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件S20被配置为执行指令，以执行上述方法。

电子设备S00还可以包括：电源组件S24被配置为执行电子设备S00的电源管理，有线或无线网络接口S26被配置为将电子设备S00连接到网络，和输入输出(I/O)接口S28。电子设备S00可以操作基于存储在存储器S22的操作系统，例如Windows Server，Mac OSX，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器S22，上述指令可由电子设备S00的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备S00的处理器执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种资源推荐方法，其特征在于，包括：

确定候选资源的多个行为目标的初始评价结果；

2.根据权利要求1所述的方法，其特征在于，所述先验分布采用贝塔分布，每个所述行为目标的贝塔分布是根据每个所述行为目标的历史评价结果生成的，所述历史评价结果是根据用户帐户对多个已推荐资源的历史行为数据生成的。

3.根据权利要求1或2所述的方法，其特征在于，每个所述行为目标的先验分布的生成方式，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取每个所述行为目标的多个历史评价结果，包括：

5.根据权利要求1所述的方法，其特征在于，每个所述行为目标的先验分布是在确定所述候选资源之后生成的；

6.根据权利要求1所述的方法，其特征在于，所述根据所述候选资源的多个所述行为目标的先验分布参数，生成所述候选资源的资源评价结果，包括：

获取与每个所述行为目标对应的调节参数；

7.一种资源推荐装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的资源推荐方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的资源推荐方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6任一项所述的资源推荐方法。