CN110020176A

CN110020176A - 一种资源推荐方法、电子设备以及计算机可读存储介质

Info

Publication number: CN110020176A
Application number: CN201711482918.4A
Authority: CN
Inventors: 李小文; 李晟; 郭洪波; 王艳彬; 杨东; 雷敏; 邢荣荣
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-16

Abstract

本发明公开了一种资源推荐方法，包括：获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。本发明同时还公开了一种电子设备以及计算机可读存储介质。

Description

一种资源推荐方法、电子设备以及计算机可读存储介质

技术领域

本发明涉及互联网信息技术，尤其涉及一种资源推荐方法、电子设备以及计算机可读存储介质。

背景技术

随着信息技术和互联网技术的发展，使得存储和处理海量的信息资源成为可能；网络技术又使得这些信息资源的存储可分布到不同的信息系统中，从而大大提高了信息资源的存储数量和共享程度。

然而，由于信息系统中的信息资源量非常巨大，并且由于用户与信息资源在空间上是分离的，导致用户在大量的信息资源中很难找到所需要的信息资源；从而使用户经常迷失在信息资源的海洋里；在这种情况下，针对信息资源的推荐技术得到了极大的应用。该推荐技术能够按照用户的需求和偏好对信息资源进行过滤，并推荐给用户，引导用户在大量的信息资源的中找到自己感兴趣的信息资源，改善现有的在信息系统中查找信息资源的不足。

随着数据挖掘、知识发现和人工智能等科学的出现，推荐技术也取得了很大的进步。相关技术研究中，为了提高信息资源推荐的有效性和智能性，将关联规则技术应用到信息资源推荐中；然而，现有的推荐技术仅仅只是基于频繁项集的集合生成所推荐的信息资源，其推荐效果较差。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种资源推荐方法、电子设备以及计算机可读存储介质，能够预测待推荐资源数据中每一资源的操作概率，并根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后再推荐给用户，从而能够提高资源的推荐效果。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种资源推荐方法，所述方法包括：

获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；

计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；

根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；

根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；

根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

上述方案中，所述根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据，包括：

根据所述关联指标数据中的支持度、和/或相关因子、和/或不平衡因子，对所述第一资源数据进行过滤；所述支持度表征所述目标资源和所述第一资源数据中每一资源同时出现的概率，所述相关因子表征所述目标资源和所述第一资源数据中每一资源之间的相关性，所述不平衡因子表征所述目标资源和所述第一资源数据中每一资源之间相互关联的平衡程度；

基于所述关联指标数据中的置信度，从过滤后的第一资源数据中选取满足第一预设条件的第二资源数据，所述置信度表征在所述目标资源出现的条件下，所述第一资源数据中每一资源同时出现的概率；

基于所述第二资源数据确定所述待推荐资源数据。

上述方案中，所述基于所述第二资源数据确定所述待推荐资源数据，包括：

当所述第二资源数据中的资源数量不满足预设值时，获取第三资源数据，所述第三资源数据包括所述第一账户的当前操作行为对应的时刻上线的资源、和/或所述第一资源数据中除所述待推荐资源数据之外下线的资源、和/或未有过账户的历史操作行为所对应的资源、和/或第三账户的历史操作行为所对应的资源，所述第三账户为相应的历史操作行为所对应的资源数量小于两个的账户；

按照第二预设规则，将所述第三资源数据中的资源添加至所述第二资源数据中，直至所述第二资源数据中的资源数量满足预设值；

将资源数量满足所述预设值的第二资源数据确定为所述待推荐资源数据。

上述方案中，所述方法还包括：

针对每个账户，获取相应的账户描述信息、历史推荐资源样本和对所述历史推荐资源样本的历史行为数据；

对所述账户描述信息和历史推荐资源样本进行特征提取，获得所述历史推荐资源样本的资源特征和相应账号的属性特征；所述属性特征包括账户特征以及账户与资源的关联特征；

根据所述历史行为数据，标定相应账户对所述历史推荐资源样本中资源的操作记录；

根据各账户对应的历史推荐资源样本的资源特征、各账户的属性特征和操作记录，对预设模型进行训练，获得所述参考模型。

上述方案中，所述根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率，包括：

对所述第一账户的账户描述信息和待推荐资源数据进行特征提取，获得所述待推荐资源数据的资源特征和所述第一账户的属性特征；

根据所述待推荐资源数据的资源特征、第一账户的属性特征和参考模型，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率。

本发明实施例还提供了一种电子设备，所述电子设备包括：处理器、用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行：

上述方案中，所述处理器用于运行所述计算机程序时，执行：

基于所述第二资源数据确定所述待推荐资源数据。

本发明实施例还提供了一种电子设备，所述电子设备包括：获取模块、计算模块、资源选取处理模块、预测模块和推荐模块；其中，

所述获取模块，用于获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；

所述计算模块，用于计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；

所述资源选取处理模块，用于根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；

所述预测模块，用于根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；

所述推荐模块，用于根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令的计算机程序被处理器执行时实现上述资源推荐方法。

本发明实施例提供的资源推荐方法及电子设备，首先，获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；然后，计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；最后，根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

可见，本发明实施例中，由于在根据关联规则获得待推荐资源数据之后，还根据参考模块和所述待推荐资源数据，对所述第一账户对所述待推荐资源数据中每一资源的操作概率进行了预测，并根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后再推荐给所述第一账户，从而在基于目标资源给所述第一账户推荐资源时，充分考虑了第一账户对待推荐资源数据中资源的操作概率，进而能够使推荐的资源更加符合第一账户的需求和期望，提高资源的推荐效果。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为本发明资源推荐方法实施例一的实现流程示意图；

图2为图1所示实现流程中步骤103的具体实现流程示意图；

图3为本发明实施例电子设备组成结构示意图；

图4为图3所示电子设备中资源选取处理模块的具体组成结构示意图；

图5为本发明实施例电子设备硬件组成结构示意图。

具体实施方式

从背景技术的描述可以看出，相关技术中，仅仅只是基于频繁项集的集合生成所推荐的信息资源，其推荐效果较差。

比如，基于关联规则B2C图书销售网站个性化推荐系统，所涉及的推荐方法的具体过程如下：首先，基于Apriori算法挖掘布尔关联规则生成频繁项集；然后，组合频繁项集(候选事务)，排序并计算产品计数，并根据相关数据计算出可信度，进而产生关联规则；最后，得出物品之间的可信度进行物品的推荐。

又比如，基于关联规则的电子商务推荐系统，所涉及的推荐方法的具体过程如下：首先，从交易数据库中获得相关交易事务，并从交易数据库中获得事务集；然后，从事务集中得到候选项集，通过Apriori算法进行迭代，筛选出所有符合要求的频繁项集；最后，把推荐出的频繁项集写入Relation推荐表中。

然而，上述两个方案存在以下缺点：

缺点一：都是运用Apriori算法，而Apriori算法存在两个主要的问题：

第一个问题是：需要多次扫描数据库；

通常，Apriori算法每进行一次迭代的时候需要扫描一次数据库，如果挖掘出的最大频繁项集长度为N，则一般需要扫描N次数据库；然而在实际应用中经常需要挖掘很长的模式，这样多次扫描数据库会给系统带来巨大的开销。

第二个问题是：可能会产生大量的候选；

Apriori算法在迭代过程中要在内存中产生、处理和保存候选的频繁项集,然而，候选的频繁项集的数量有时候非常巨大，导致算法在广度和深度上的适应性很差。

缺点二：都仅仅只是基于频繁项集的集合生成所推荐的信息资源，其推荐效果较差。

又比如，基于关联规则和Mutil-Agent的个性化信息推荐系统，所涉及的推荐方法的具体过程如下：首先，通过多个Agent的相互协作和通信，对来自用户的输入进行判断和处理，对产生的挖掘结果进行推荐；然后，通过扫描事务数据库，对每个项出现的次数进行计数，以得知每个项的支持数，并产生一个候选项集，同时构造BFP-TREE进而创建一个频繁项集表，由频繁项集满足要求的强关联规则，找出满足最小可信度的物品；最后，按照降序排序得出一个频繁项集的集合，根据最后得出的这个频繁项集的集合生成所推荐的物品。

然而，基于关联规则和Mutil-Agent的个性化信息推荐系统的方案存在以下缺点：

缺点一：需要频繁的扫描数据库，这样会给系统带来巨大的开销。

缺点二：该推荐方法只是给出一个最小的可信度，取大于这个可信度的频繁项集，并没有一个很好的阈值来控制；因此，该方案的关联规则不明显，没有很好的一个延伸性和扩展性。

缺点三：仅仅只是基于频繁项集的集合生成所推荐的信息资源，其推荐效果较差。

此外，上述方案针对的大多都是电商领域，并没有针对信息资源进行推荐的技术方案。

基于此，在本发明实施例中：首先，获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；然后，计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；最后，根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

下面结合附图及实施例对本发明再作进一步详细的描述。

本发明实施例提供的资源推荐方法，应用于电子设备，如图1所示，包括以下步骤：

步骤101，获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；

本实施例的资源推荐方法应用于电子设备，该电子设备可以为服务器，用于根据第一账户的当前操作行为所对应的目标资源，向所述第一账户推荐与该目标资源相关的或者第一账户可能感兴趣的资源，使得第一账户可以根据目标资源，更快且更好的找到自己感兴趣或者所需要的资源，提高资源的推荐效果。

本发明实施例的资源所指的是信息资源，该信息资源可以是互联网教育资源平台上的教育资源，如书本和与教育有关的文档等；该信息资源也可以是多媒体平台上的信息资源，如视频、音乐、PPT以及电子书等。以下实施例将以互联网教育资源平台上的教育资源如书本为例进行详细说明。

这里，所述第一账户在终端设备的互联网教育资源平台上进行资源浏览时，对应的服务器可以通过所述终端设备实时获取所述第一账户的当前操作行为所对应的资源即目标资源。

具体地，所述终端设备会实时监控是否有用户针对资源的操作行为，所述操作行为可以为点击操作，当第一账户对应的用户对目标资源的相关链接进行了点击操作时，所述终端设备会接收到相应的操作指令，此时，终端设备已监控到第一账户对应的用户针对该目标资源的操作行为。相应地，终端设备可以将第一账户的行为数据上报给对应的服务器，该行为数据中可以包括点击操作对应的账户信息和点击操作对应的目标资源信息，服务器可以相应生成一条记录。

服务器在获取到目标资源之后，首先，根据各账户的历史行为数据，获取与所述目标资源相关的第二账户，即点击过该目标资源的账户；然后，根据第二账户的历史行为数据，获取第一资源数据。其中，所述第一资源数据中不包括目标资源。具体地，所述服务器从各账户的历史行为数据中获取点击过目标资源的记录，通过该记录查找点击过目标资源的第二账户；然后，获取第二账户的历史行为数据对应的所有记录，从所有记录中获取所述第一资源数据。

应当说明的是，所述历史行为数据可以指的是账户从第一账户的当前操作行为对应的时刻之前近六个月之内的历史操作行为对应的行为数据。当然，也可以指的是账户近三个月或近一年之内的行为数据，以下将不对其进行限定，只是以账户近六个月之内的行为数据为例进行说明。

步骤102，计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；

这里，可以将所述目标资源和所述第一资源数据中每一资源构成一个二项集，相应计算每一二项集的关联指标数据，该关联指标数据包括支持度、置信度、相关因子和不平衡因子，所述支持度表征所述目标资源和所述第一资源数据中每一资源同时出现的概率，所述置信度表征在所述目标资源出现的条件下，所述第一资源数据中每一资源同时出现的概率，所述相关因子表征所述目标资源和所述第一资源数据中每一资源之间的相关性，所述不平衡因子表征所述目标资源和所述第一资源数据中每一资源之间相互关联的平衡程度。

具体地，可以将单个账户近6个月之内的所有记录看成一个事务，计算所述目标资源和所述第一资源数据中每一资源的关联指标数据。举个例子来说，有与目标资源相关的四个账户，分别为X1、X2、X3和X4，这四个账户在近6个月之内的记录分别为X1：(A、B、C)；X2：(A、C、D)；X3：(A、C、E)；X3：(A、D、E)；其中，目标资源为A，第一资源数据包括B、C、D和E，相应可以构成四个二项集，分别为(A,B)、(A,C)、(A,D)、(A,E)。

所述目标资源A和资源C的支持度为Support(A＝>C)＝P(AC)＝3/4；所述目标资源A和资源C的置信度为Confidence(A＝>C)＝P(C/A)＝P(AC)/P(A)＝(3/4)/1＝3/4；所述目标资源A和资源C的相关因子为所述目标资源A和资源C的不平衡因子为IR(A,C)＝Confidence(A＝>C)/Confidence(C＝>A)＝(3/4)/1＝3/4。所述目标资源A与所述第一资源数据中其他的资源的关联指标数据的计算方式与所述目标资源A与资源C的关联指标数据的计算方式类似，这里将不在赘述。

步骤103，根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；

图2为图1所示实现流程中步骤103的具体实现流程示意图，参照图2所示，步骤103具体包括以下步骤:

步骤1031，根据所述关联指标数据中的支持度、和/或相关因子、和/或不平衡因子，对所述第一资源数据进行过滤；

这里，可以采用多级过滤的方式，对所述第一资源数据进行过滤，每一级根据所述关联指标数据中的某一参数，对所述第一资源数据中未滤除掉的资源进行过滤。其中，可以采用一级过滤的方式，也可以采用二级过滤的方式，还可以采用三级过滤的方式，亦或是采用更多级过滤的方式，对所述第一资源数据进行过滤；本实施例中，将以三级过滤的方式为例进行详细说明。

具体地，根据所述关联指标数据中的支持度、相关因子和不平衡因子，对所述第一资源数据进行三级过滤。

首先，可以根据关联指标数据中的支持度，对所述第一资源数据进行第一级过滤，以滤除所述第一资源数据中参考价值比较低的资源，获得频繁项集。具体地，可以为支持度设置一个阈值，将支持度小于该阈值的项集中的资源滤除掉。例如，设阈值为10％，若项集(A,B)的支持度小于10％，则将所述第一资源数据中资源B滤除掉，保留支持度大于该阈值的项集构成频繁项集，所述第一资源数据中频繁项集的资源未被滤除掉。

然后，可以根据关联指标数据中的相关因子，对所述第一资源数据进行第二级过滤，以滤除频繁项集中与目标资源为负相关关系的资源，保留与目标资源为正相关关系的资源。通常，当相关因子等于0.5时，说明两个资源没有任何关联，如果相关因子小于0.5，则说明资源A与资源B为负相关关系，资源A的出现与资源B的出现是相斥的，如果相关因子大于0.5，则说明资源A与资源B为正相关关系，资源A的出现对资源B的出现是有促进作用的。因此，可以为相关因子设置一个阈值，该阈值为0.5，将相关因子小于0.5的频繁项集中的资源滤除掉，从而可以从经过第一级过滤后剩余的第一资源数据中保留与目标资源为正相关关系的资源。

最后，可以根据关联指标数据中的不平衡因子，对所述第一资源数据进行第三级过滤，排除掉流行资源的影响；也就是说，基于目标资源，向第一账户推荐资源时，不建议给第一账户推荐比目标资源还流行的资源。通常，当不平衡因子等于1时，说明两个资源的流行程度相同，如果不平衡因子小于1，则说明资源A的流行程度小于资源B的流行程度，如果不平衡因子大于1，则说明资源A的流行程度大于资源B的流行程度。因此，可以为相关因子设置一个阈值，该阈值为1，将目标资源与第一资源数据经过前面两级过滤后剩余的资源中、不平衡因子小于1的资源滤除掉。

经过上述过滤后，最终获得过滤后的第一资源数据。

步骤1032，基于所述关联指标数据中的置信度，从过滤后的第一资源数据中选取满足第一预设条件的第二资源数据，所述置信度表征在所述目标资源出现的条件下，所述第一资源数据中每一资源同时出现的概率；

这里，满足第一预设条件的资源可以为置信度大于阈值对应的资源，也可以为置信度按照从大到小排序后的前N个置信度对应的资源，还可以为置信度按照从小到大排序后的后N个置信度对应的资源。其中，N为正整数，比如为10。以下实施例中，满足第一预设条件的资源将以置信度按照从大到小排序后的前N个置信度对应的资源为例进行详细说明。

通常，资源之间的关联规则是通过资源之间的置信度来判定的，也就是取决于资源之间的共现的次数。当其中一个资源发生账户的操作行为时，会给账户推荐这个资源的置信度最高的资源，然后依次按照置信度的降序推荐给相应账户；因此，可以将过滤后的第一资源数据，按照置信度从大到小进行排序，选择前N个置信度对应的资源，获得第二资源数据。

步骤1033，基于所述第二资源数据确定所述待推荐资源数据。

这里，所述服务器可以判断所述第二资源数据的资源数量是否满足预设值，比如10，当确定所述第二资源数据的资源数量满足预设值时，直接将所述第二资源数据确定为所述待推荐资源数据。

当确定所述第二资源数据中的资源数量不满足预设值时，获取第三资源数据，所述第三资源数据包括所述第一账户的当前操作行为对应的时刻上线的资源、和/或所述第一资源数据中除所述待推荐资源数据之外下线的资源、和/或未有过账户的历史操作行为所对应的资源、和/或第三账户的历史操作行为所对应的资源，所述第三账户为相应的历史操作行为所对应的资源数量小于两个的账户；按照第二预设规则，将所述第三资源数据中的资源添加至所述第二资源数据中，直至所述第二资源数据中的资源数量满足预设值；将资源数量满足所述预设值的第二资源数据确定为所述待推荐资源数据。

所述第三资源数据中资源可以为以下资源的至少一种：

没有过账户的操作行为或者没有与其它资源一起有过账号的操作行为对应的资源，即没有出现在关联关系中的资源；

出现在关联关系中，但是关联的资源都下线的资源；

所述第一账户的当前操作行为对应的时刻新增的资源。

按照第二预设规则，将所述第三资源数据中的资源添加至所述第二资源数据中可以包括：所述第三资源数据中各个资源分类下的资源按照出现的频次降序添加至第二资源数据中。例如，第三资源数据中包括三个资源，分别为资源A、资源B和资源C；其中，资源A为第一分类下出现频次最高的资源，资源B为第二分类下出现频次最高的资源，而资源C为第一分类下出现频次第二的资源；如果第二资源数据中的资源数量为8、且需要将第二资源数据中的资源数量补白至10，则可以将资源A和资源B添加至第二资源数据中，从而确定待推荐资源数据。

也就是说，当确定所述第二资源数据中的资源数量不满足预设值时，还可以对所述待推荐资源数据进行补白操作，以使所述待推荐资源数据中的资源数量满足预设值，同时，对其进行补白的资源可以是各个资源分类下的频次最高的资源，从而可以使资源推荐达到更好的效果。

步骤104，根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；

服务器通过上述三个步骤可以成功获得与所述目标资源对应的待推荐资源数据，然而，这些待推荐资源数据并没有考虑到账户的属性特征，也就是说，不管哪个账户点击了该目标资源，服务器将会给该账户推荐该待推荐资源数据，这样，推荐效果较差，该账户可能并不偏好服务器推荐的资源。基于此，本发明实施例中，服务器还会根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率。

在预测所述第一账户对所述待推荐资源数据中每一资源的操作概率之前，服务器还需要获取所述参考模型。首先，所述服务器可以设定一个预设模型；然后，根据获取的历史数据对所述预设模型进行训练，以获得该预设模型对应的参数，从而获得该参考模型。

具体地，针对每个账户，获取相应的账户描述信息、历史推荐资源样本和对所述历史推荐资源样本的历史行为数据；对所述账户描述信息和历史推荐资源样本进行特征提取，获得所述历史推荐资源样本的资源特征和相应账号的属性特征；所述属性特征包括账户特征以及账户与资源的关联特征；根据所述历史行为数据，标定相应账户对所述历史推荐资源样本中资源的操作记录；根据各账户对应的历史推荐资源样本的资源特征、各账户的属性特征和操作记录，对预设模型进行训练，获得所述参考模型。

这里，所述历史推荐资源样本可以包括账户在近期预设时间(如六个月)点击资源时，服务器给相应账户推荐的资源数据，相应账户如果对服务器推荐的资源感兴趣，可能会相应点击服务器推荐的资源。因此，服务器通过对各个账户针对历史推荐资源样本的历史行为数据和历史推荐资源样本进行特征提取，获得所述历史推荐资源样本的资源特征和相应账号的属性特征；并对各个账户针对历史推荐资源样本的操作行为进行分析统计，以标定各个账户对所述历史推荐资源样本中资源的操作记录。其中，所述资源特征包括资源本身特征如资源的分类特征以及源资源和关联资源的特征；所述账户的属性特征包括账户信息特征如年龄性别和账户与资源的交叉特征如账户对资源的偏好。

本实施例中，可以设置一个标志位来表示操作记录，该标志位包括1和-1两种状态；其中，1表示账户对资源进行了点击操作，可以作为正例对预设模型进行训练，-1表示账户未对该资源进行点击操作，可以作为反例对预设模型进行训练。

这里，可以根据各账户对应的历史推荐资源样本的资源特征、各账户的属性特征和操作记录，采用GBDT算法或者逻辑回归算法，对预设模型进行训练。

以下对模型训练的相关信息进行详细介绍。

可以使用Spark平台对预设模型进行训练。其中，Spark是UC Berkeley AMP lab所开源的类Hadoop Map Reduce的通用并行计算框架。Spark基于Map Reduce算法实现分布式计算，拥有Hadoop Map Reduce所具有的优点；同时，不同于Map Reduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS。因此，Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Gradient Boost Decision Tree算法(简称GBDT算法)是一种常用的非线性模型，它基于集成学习中的boosting思想，使用的是迭代+决策树的方法，每次迭代都在减少残差的梯度方向新建立一颗决策树，迭代多少次就会生成多少颗决策树，最终使得迭代N步后，梯度越小。

GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合，且在特征较少(如200以内)的时候，能够高效抽取样本和特征，训练多颗树。同时，通过gini系数等指标判断分割点，能够表达非常复杂的规则。此外，核心在于累加所有树的结果作为最终结果，每一棵树训练的是之前所有树结论和残差，这个残差就是一个加预测值后能得到真实值的累加量。

GBDT算法的输入为：训练数据集T＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}，x_i∈χ＝Rn，y_i∈γ＝{1,-1}，i＝1,2,...,m，其中，x_i为账户i的历史推荐资源样本的资源特征和对应的属性特征，y_i为账户i的操作记录；输出为：回归树f_T(x)。

具体过程如下：

首先，初始化

对迭代次数t＝1,2,...,T和i＝1,2,...,M，计算

对r_ti拟合一颗回归树，得到第t棵树的叶结点区域R_tj，j＝1,2,...,J，即一棵由J个叶子节点组成的树；

对j＝1,2,...,J，计算

然后，回归树递归在遍历所有切分变量j和切分点s找到最优j和s，在每个节点区域求最优的c；

更新

最终，得到回归树

可知，GBDT算法首先获得使损失函数最小的常数估计值，并获得只有一颗根节点的树；然后，计算损失函数的负梯度在预设模型的值，将它作为残差估计，并估计回归树的叶结点区域，来拟合残差的近似值；接着，利用线性搜索估计回归树叶结点区域的值，使损失函数最小化；最后，更新回归树，直至获得最终的参考模型。

在获得参考模型之后，根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率，包括：

这里，将所述待推荐资源数据的资源特征和第一账户的属性特征作为GBDT算法的输入，根据所述参考模型，采用GBDT算法预测所述第一账户对所述待推荐资源数据中每一资源的操作概率。

步骤105，根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

这里，对所述待推荐资源数据中资源按照预测到的操作概率从大到小进行排序，排序后再推荐给所述第一账户。

综上，本发明实施例中，获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；然后，计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；最后，根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

可见，本发明实施例基于目标资源实现了关联资源推荐的方案，在该方案中，通过相关因子和不平衡因子过滤剔除不合理或者对推荐效果影响较大的资源数据，使推荐效果更加智能合理。针对无关联度的资源给予了有效处理，且也对不在推荐列表内的资源也进行了相应的处理，使推荐更加完善，较为符合实际的情况。在资源平台初期，没有大量账户的行为数据时，因此，采用GBDT算法，使在资源平台初期关联推荐的效果也能表现出来，并且，运用GBDT算法，可以灵活处理各种类型的数据，包括连续值和离散值；在相对少的调参时间情况下，预测的准备率也相对较高；同时，使用一些健壮的损失函数，对异常值的鲁棒性非常强。

最关键的是，由于在根据关联规则获得待推荐资源数据之后，还根据参考模块和所述待推荐资源数据，对所述第一账户对所述待推荐资源数据中每一资源的操作概率进行了预测，并根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后再推荐给所述第一账户，从而在基于目标资源给所述第一账户推荐资源时，充分考虑了第一账户对待推荐资源数据中资源的操作概率，进而能够使推荐的资源更加符合第一账户的需求和期望，提高资源的推荐效果。

为实现本发明实施例的方法，本发明实施例还提供了一种电子设备，用于实现上述资源推荐方法的具体细节，达到相同的效果。

图3为本发明实施例电子设备组成结构示意图，参照图3所示，本实施例中的电子设备包括：第一获取模块21、计算模块22、资源选取处理模块23、预测模块24和推荐模块25；其中，

所述第一获取模块21，用于获取目标资源和第一资源数据；所述目标资源为第一账户的当前操作行为所对应的资源，所述第一资源数据包括第二账户的历史操作行为所对应的除所述目标资源之外的资源，所述第二账户为与所述目标资源相关的账户；

所述计算模块22，用于计算所述目标资源和所述第一资源数据中每一资源的关联指标数据；

所述资源选取处理模块23，用于根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据；

所述预测模块24，用于根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率；

所述推荐模块25，用于根据预测到的操作概率，对所述待推荐资源数据中资源进行排序后推荐给所述第一账户。

可选地，图4为图3所示电子设备中资源选取处理模块的具体组成结构示意图，参照图4所示，所述资源选取处理模块23包括：过滤单元231、选取单元232和确定单元233；其中，

所述过滤单元231，用于根据所述关联指标数据中的支持度、和/或相关因子、和/或不平衡因子，对所述第一资源数据进行过滤；所述支持度表征所述目标资源和所述第一资源数据中每一资源同时出现的概率，所述相关因子表征所述目标资源和所述第一资源数据中每一资源之间的相关性，所述不平衡因子表征所述目标资源和所述第一资源数据中每一资源之间相互关联的平衡程度；

所述选取单元232，用于基于所述关联指标数据中的置信度，从过滤后的第一资源数据中选取满足第一预设条件的第二资源数据，所述置信度表征在所述目标资源出现的条件下，所述第一资源数据中每一资源同时出现的概率；

所述确定单元233，用于基于所述第二资源数据确定所述待推荐资源数据。

可选地，所述确定单元233，具体用于当所述第二资源数据中的资源数量不满足预设值时，获取第三资源数据，所述第三资源数据包括所述第一账户的当前操作行为对应的时刻上线的资源、和/或所述第一资源数据中除所述待推荐资源数据之外下线的资源、和/或未有过账户的历史操作行为所对应的资源、和/或第三账户的历史操作行为所对应的资源，所述第三账户为相应的历史操作行为所对应的资源数量小于两个的账户；按照第二预设规则，将所述第三资源数据中的资源添加至所述第二资源数据中，直至所述第二资源数据中的资源数量满足预设值；将资源数量满足所述预设值的第二资源数据确定为所述待推荐资源数据。

可选地，本实施例的电子设备还包括：第二获取模块26、特征提取模块27、标定模块28和训练模块29；其中，

所述第二获取模块26，用于针对每个账户，获取相应的账户描述信息、历史推荐资源样本和对所述历史推荐资源样本的历史行为数据；

所述特征提取模块27，用于对所述账户描述信息和历史推荐资源样本进行特征提取，获得所述历史推荐资源样本的资源特征和相应账号的属性特征；所述属性特征包括账户特征以及账户与资源的关联特征；

所述标定模块28，用于根据所述历史行为数据，标定相应账户对所述历史推荐资源样本中资源的操作记录；

所述训练模块29，用于根据各账户对应的历史推荐资源样本的资源特征、各账户的属性特征和操作记录，对预设模型进行训练，获得所述参考模型。

可选地，所述预测模块24，具体用于对所述第一账户的账户描述信息和待推荐资源数据进行特征提取，获得所述待推荐资源数据的资源特征和所述第一账户的属性特征；根据所述待推荐资源数据的资源特征、第一账户的属性特征和参考模型，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率。

在实际应用中，所述第一获取模块21、计算模块22、资源选取处理模块23、预测模块24、推荐模块25、第二获取模块26、特征提取模块27、标定模块28和训练模块29、以及过滤单元231、选取单元232和确定单元233均可由位于电子设备中的处理器实现。

上述实施例提供的电子设备在进行资源推荐时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将电子设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的电子设备与资源推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5为本发明实施例电子设备硬件组成结构示意图，参照图5所示，本实施例中的电子设备包括：处理器31、用于存储能够在处理器31上运行的计算机程序的存储器32；其中，

所述处理器31，用于运行所述计算机程序时，执行：

可选地，所述处理器31用于运行所述计算机程序时，执行：

基于所述第二资源数据确定所述待推荐资源数据。

可选地，所述处理器31用于运行所述计算机程序时，执行：

当然，实际应用时，如图5所示，各个组件通过总线系统33耦合在一起。可理解，总线系统33用于实现这些组件之间的连接通信。总线系统33除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统33。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可执行程序，所述可执行程序被处理器31执行时，以实现以下步骤：

可选地，所述可执行程序被处理器31执行时，以具体实现根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据的步骤：

基于所述第二资源数据确定所述待推荐资源数据。

可选地，所述可执行程序被处理器31执行时，以具体实现基于所述第二资源数据确定所述待推荐资源数据的步骤：

可选地，所述可执行程序被处理器31执行时，以实现以下步骤：

可选地，所述可执行程序被处理器31执行时，以具体实现根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率的步骤：

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种资源推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述关联指标数据，对所述第一资源数据进行资源选取处理，获得待推荐资源数据，包括：

基于所述第二资源数据确定所述待推荐资源数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二资源数据确定所述待推荐资源数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据参考模型和所述待推荐资源数据，预测所述第一账户对所述待推荐资源数据中每一资源的操作概率，包括：

6.一种电子设备，其特征在于，所述电子设备包括：处理器、用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行：

7.根据权利要求6所述的电子设备，其特征在于，所述处理器用于运行所述计算机程序时，执行：

基于所述第二资源数据确定所述待推荐资源数据。

8.根据权利要求7所述的电子设备，其特征在于，所述处理器用于运行所述计算机程序时，执行：

9.根据权利要求6所述的电子设备，其特征在于，所述处理器用于运行所述计算机程序时，执行：

10.根据权利要求6所述的电子设备，其特征在于，所述处理器用于运行所述计算机程序时，执行：

11.一种电子设备，其特征在于，所述电子设备包括：获取模块、计算模块、资源选取处理模块、预测模块和推荐模块；其中，

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令的计算机程序被处理器执行时实现权利要求1至5任一项所述的资源推荐方法。