CN111310024A

CN111310024A - 面向群体用户的信息推荐方法及计算机可读存储介质

Info

Publication number: CN111310024A
Application number: CN202010049029.4A
Authority: CN
Inventors: 宋凯; 何铮; 陈志方; 陈友志
Original assignee: Shenzhen Guang Dao Hi Tech Ltd By Share Ltd
Current assignee: Shenzhen Guang Dao Hi Tech Ltd By Share Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-19

Abstract

本发明公开一种面向群体用户的信息推荐方法及计算机可读存储介质，方法包括：获取推荐物品的分类信息；对推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，提取出隐含的主题偏好特征矩阵；将物品和用户日志记录投射到主题偏好特征矩阵，计算出物品对用户群体的吸引度；根据物品对用户群体的吸引度获得物品排名并对用户进行推荐。本发明采用TF‑IDF来提取物品本身的主题信息，考虑了每个物品同时属于多种物品，而不是简单的归为其中一类，满足大部分场景需求；有效避免了恶意刷点击导致频繁推荐某一物品的问题，减少了用户对推荐模型的恶意干扰；推荐结果集中包含多种不同类别的信息，不会陷入过拟合。

Description

面向群体用户的信息推荐方法及计算机可读存储介质

技术领域

本发明涉及信息推荐技术领域，尤其涉及一种面向群体用户的信息推荐方法及计算机可读存储介质。

背景技术

推荐系统广泛应用于电子商务、广告营销等各大网络平台，可以根据用户行为，推荐热门商品或信息，如热门电影、热门游戏等推荐。目前对于精准用户的推荐，通常采用协同过滤、矩阵分解、回归模型等技术手段，但这些手段多是针对于特定用户或一类用户的推荐系统；而面向群体的推荐，不同于这些推荐系统的地方是，推荐服务的对象不同，群体推荐系统的服务对象不再是某个特定的用户或特定的某类用户，而是转变为整个具有多样性的用户群体。目前主流的手段通常是通过最近用户访问来排序或者加权平均，选取TopK进行推荐，热度的定义多基于频度，如点击量等。但是，这种通过用户最近访问热度来推荐的算法，有以下几点缺陷：

1、没有考虑物品的多种类别上分别有着不同的贡献；

2、没有考虑用户群体本身对于不同类别的偏好度；

3、没有区别频度数的增加在时间方向上的分布，也就区别不出近期热度与远期热度；

4、对用户恶意的点击收藏较敏感，推荐模型容易受到大量恶意点击量的影响；

5、没有考虑推荐类型的多样性，推荐较多获得的点击越多，越多的点击造成推荐度越高，容易陷入对某些类型过拟合的偏好度。

发明内容

本发明提出了一种面向群体用户的信息推荐方法及计算机可读存储介质，考虑推荐物品的多种类型以及用户群体本身对于不同类别的偏好度，提升物品推荐准确性，满足大部分场景的需求。

为实现上述目的，本发明提供一种面向群体用户的信息推荐方法，包括以下步骤：

获取推荐物品的分类信息；

对所述推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，提取出隐含的主题偏好特征矩阵；

将物品和用户日志记录投射到所述主题偏好特征矩阵，计算出物品对用户群体的吸引度；

根据物品对用户群体的吸引度获得物品排名并对用户进行推荐。

其中，所述对所述推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，提取出隐含的主题偏好特征矩阵的步骤包括：

对所述推荐物品的分类信息进行主题贡献提取，定义主题空间；

沿类别路径为每个物品分配主题权重，根据所述主题空间，并结合分布式的大数据分析用户的活动日志，创建物品主题矩阵；

基于所述物品主题矩阵计算得到每个物品使用TF-IDF覆盖主题的概率；

结合分布式的大数据分析用户的活动日志，将用户表示为主题权重的向量，提取出隐含的主题偏好特征矩阵。

其中，所述提取出隐含的主题偏好特征矩阵的步骤中包括：

采用多样化流行度指标算法提取出隐含的主题偏好特征矩阵。

其中，所述多样化流行度指标算法结合用户对物品类别的偏好。

其中，所述基于所述物品主题矩阵计算得到每个物品使用TF-IDF覆盖主题的概率采用如下公式：

这里，p_ji为每个物品D_j，1≤j≤m，使用TF-IDF覆盖主题T_i，1≤i≤k 的概率p_ji，n_ji是D_j中T_i出现的次数，m是物品的总数，|d：T_i∈D_d|是包含T_i的物品数。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如上所述的面向群体用户的信息推荐方法的步骤。

本发明的有益效果是：本发明提出一种面向群体用户的信息推荐方法及计算机可读存储介质，通过对推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，平台可以提取出隐含的主题偏好特征矩阵，通过将物品和用户日志记录投射到该矩阵，可以计算出物品对用户群体的吸引度，进而求出一个TopK的子集进行推荐。

相比现有技术，本发明具有如下优点：

1、采用TF-IDF来提取物品本身的主题信息，考虑了每个物品同时属于多种物品，而不是简单的归为其中一类，满足大部分场景(如文学作品，影视剧等)的需求；

2、通过对最近历史数据的分析，从中计算出最近的用户对于不同类别的兴趣偏好，既考虑了时效性，也考虑了在模型中考虑了用户的反馈信息；

3、由于模型中用户的贡献主要体现在了对类别的偏好上，有效避免了恶意刷点击导致频繁推荐某一物品的问题，减少了用户对推荐模型的恶意干扰；

4、效用值是不同类别的效用叠加，同一类型多次推荐并不会带来较好的效用值，所以推荐结果集中会充分包含多种不同类别的信息，而不会陷入过拟合。

附图说明

图1是本发明面向群体用户的信息推荐方法的流程示意图；

图2是本发明涉及的物品和类别对应关系矩阵示意图；

图3是本发明涉及的U矩阵构造算法图；

图4是本发明涉及的计算子集合的效用值。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出一个新的热度指标，并描述建立新指标的基本算法。这些指标旨在选择物品，以尽可能覆盖广泛的用户兴趣。简单地使用排序后的频度作为度量标准并不能带来深刻的洞察力，因为它缺乏多样性的概念。例如，所选物品可能从少数类别中来。但是，人的兴趣通常是多种多样的，即便选定的物品与用户的喜好不是最一致的，更好的指标也应反映这一事实。本发明会根据用户的兴趣对每个物品进行独立评估，然后选择前K个项目来构建热门列表。本发明提出一种度量算法，该算法在热度列表中考虑了用户兴趣的多样性。

本发明基本构思是通过对推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，平台可以提取出隐含的主题偏好特征矩阵，通过将物品和用户日志记录投射到该矩阵，可以计算出物品对用户群体的吸引度，进而求出一个TopK的子集进行推荐。

具体地，如图1所示，本发明提出一种面向群体用户的信息推荐方法，包括以下步骤：

S1，获取推荐物品的分类信息；

S2，对所述推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，提取出隐含的主题偏好特征矩阵；

S3，将物品和用户日志记录投射到所述主题偏好特征矩阵，计算出物品对用户群体的吸引度；

S4，根据物品对用户群体的吸引度获得物品排名并对用户进行推荐。

其中，所述提取出隐含的主题偏好特征矩阵的步骤中包括：

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如上实施例所述的面向群体用户的信息推荐方法的步骤。

以下对本发明实施例进行详细阐述：

本发明的基本想法是通过对推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，平台可以提取出隐含的主题偏好特征矩阵，通过将物品和用户日志记录投射到该矩阵，可以计算出物品对用户群体的吸引度，进而求出一个TopK的子集进行推荐。为此，首先定义描述算法的几个概念。

1)主题空间：物品和用户都映射到该空间。可以减少其尺寸以得到更好的系统性能和更高的通用性。通常，可以使用某些文本挖掘技术来提取空间中的主题集。但在某些特定的上下文中，可从日志文件导出主题空间 T₁，T₂，.。由于日志数据相当庞大，本系统由分布式的大数据框架实现，数据存储于HDFS中，程序使用Spark进行开发。

2)将物品表示为主题的权重向量：定义主题空间后，物品作者可以沿类别路径为每个物品分配主题权重。因此，可以为单个物品分配不同权重的多个主题。例如，物品250181具有主题669，其定义为定制/墙纸/瓷砖。然后，可以将物品250181描述为权重相等的向量<定制，墙纸，瓷砖>。这种考虑的基本原理是，如果用户对物品250181表现出兴趣，则他/她必须首先对定制，墙纸和瓷砖表现出兴趣。在本发明的算法中，假设每个物品的主题权重向量可以从Log文件中获得，从而按如下方式创建物品主题矩阵(D矩阵)，使用 D矩阵，我们可以进一步计算每个物品D_j，1≤j≤m，使用TF-IDF覆盖主题 T_i，1≤i≤k的概率p_ji，即

这里n_ji是D_j中T_i出现的次数(0或1)，m是物品的总数，|d：T_i∈D_d|是包含T_i的物品数。最后生成矩阵，即是每一个物品对于每一个类别都有一定的加权值。

如图2所示，图2是物品和类别对应关系矩阵。

一种等效的方法是得到物品主题的tf-idf值，将它们全部相加以获得总计，然后通过将主题的tf-idf除以计算出的总数并将其乘以100来计算每个值的概率。

3)将用户表示为主题的权重向量：另一方面，也根据用户与内容的交互 (例如查看，评论，偏爱……)将用户表示为主题权重的向量。这种交互可以产生积极影响还是消极影响取决于用户是否喜欢或不喜欢所关注的物品。如果用户喜欢该物品，则用户向量将通过乘以α(α>1)来增加与物品相关的相应主题权重。如果用户不喜欢该物品，则将相应的主题权重除以α。不幸的是，日志文件并非总能提供用户对评论内容的态度。因此，在我们的算法中，利用偏好Log信息来更新用户向量。每次更新后，用户向量将被标准化。

由于我们的指标旨要迎合所有用户的兴趣而不是针对每个用户的兴趣，因此我们将所有用户的兴趣爱好视为一个整体来模仿一个超级用户的偏好。在此指标中，我们利用在偏好Log中定义的用户收藏夹来定义用户的兴趣。 Algorithm1反映了创建归一化用户主题矩阵(U矩阵)的过程，其中U_i＝q_i是用户对主题T_i，1≤i≤κ的偏好。该算法的复杂性在很大程度上取决于偏好Log的大小，因为主题通常是预先定义的，并且它们的数量可以视为一个常数。U矩阵构造算法如图3所示。

4)多样化流行度指标：考虑到物品和用户以主题权重矢量的形式表示，本发明采用一种流行度指标的算法，该算法可以最大限度地提高内容的多样性，以满足用户的多样化兴趣。假设用户喜欢主题T₁，T₂，...，T_k，优先级为 q₁，q₂，...，q_k，物品Dj覆盖主题T₁，T₂，...，T_k，概率为p₁，p₂，...，pk，我们知道，涵盖特定主题Ti的一组物品D的概率为Φ_i(D)＝1-Π_j∈D(1-p_ji).。那么我们有D集所覆盖的用户偏好的期望值为

我们的目标是选择物品集D，以最大化预期的用户偏好

我们将其称为用户偏好的效用值 (utilityvalue)。注意，这种方式保证选出来的集合覆盖足够多的类别，因为都是同一个类别并不能带来很好的效用值。

为此，我们需要确定物品基准D，从中可以选择物品来构造D。实际上，物品全集通常很大，因此并不总是可行的，通常要采用启发式算法来近似最优解。我们的策略是使用用户曾经访问过/查询过的物品集作为基准D。这种考虑背后的主要动机是这样一个事实，即用户更有可能查看曾经被他人浏览过的项目。为了从D中挑选出D的最佳集合，我们可以直观地使用Algorithm2 中所示的贪心算法来逐个选择D的物品，因为它可以提高上一步中计算出的用户偏好的效用值。另一种策略是计算D中每个物品的偏好值，定义为

物品的偏爱值反映了物品在多大程度上满足用户偏爱。我们可以根据它们的首选项值以递减的顺序对浏览Log中的物品进行排序，然后选择前K个来构造D。计算子集合的效用值如图4所示。

通过上述步骤，本方案可以找出最近三个月的一个大小为K的物品推荐集合，在满足用户的偏好情况下选择了多种不同的类别，既考虑了用户热度，也考虑了系统中物品本身的特性。

5)原型实现：本发明的算法包括对D和U矩阵的预先计算，都可以基于大数据平台HadoopMapReduce实现。因此，我们的算法是可扩展的。由于存在多个单独的日志文件，因此我们需要协调它们以在映射或归约阶段中获取必要的信息。结果，需要在MapReduce环境中优化Multi-joins联接。为了解决这些问题，可以使用一些基于MapReduce构建的高级工具(例如Hive)。

采用TF-IDF来提取物品本身的主题信息，考虑了每个物品同时属于多种物品，而不是简单的归为其中一类，满足大部分场景(如文学作品，影视剧等)的需求；

通过对最近历史数据的分析，从中计算出最近的用户对于不同类别的兴趣偏好，既考虑了时效性，也考虑了在模型中考虑了用户的反馈信息；

由于模型中用户的贡献主要体现在了对类别的偏好上，有效避免了恶意刷点击导致频繁推荐某一物品的问题，减少了用户对推荐模型的恶意干扰；

效用值是不同类别的效用叠加，同一类型多次推荐并不会带来较好的效用值，所以推荐结果集中会充分包含多种不同类别的信息，而不会陷入过拟合。

如图3所示，Algorithm 1的说明：

k是总共的主题数目；

行2-5按每个主题i初始化用户主题矩阵Ui

行6-12首先对偏爱Log进行扫描，取出物品ID号j，

然后对每个主题Ui查询物品类别对应关系矩阵D得到Dji，

并将其累加到Ui，同时用sum记录Dji累加值。

当偏爱Log中每一个物品针对所有Ui阵处理完毕后，进行归一化。

行13-15，对k个中户主题阵中的每个Ui进行归一化。

最后得到归一化后的用户主题矩阵U。

如图4所示，Algorithm 2的说明：

这个算法最后形成推荐的K个物品。

行2-3初始化推荐集合D和偏好期望值存储变量mu；

行4-10while循环逐步扩大推荐集合D，即当D的大小小于K就循环；

从候选集D中取出物品放入d。如果D集合加入元素d后其用户偏好的期望值有所增加(即大于mu)的话，则d从D减去，加入到D中，同时更新mu值，否则，该物品d的偏好覆盖度不够，则将其舍去。这个循环不断以这种方式扩大 D，直到D的大小大于等于K，此时，D中的物品即为推荐的物品。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向群体用户的信息推荐方法，其特征在于，包括以下步骤：

获取推荐物品的分类信息；

2.根据权利要求1所述的面向群体用户的信息推荐方法，其特征在于，所述对所述推荐物品的分类信息进行主题贡献提取，结合分析用户的活动日志，提取出隐含的主题偏好特征矩阵的步骤包括：

3.根据权利要求1所述的面向群体用户的信息推荐方法，其特征在于，所述提取出隐含的主题偏好特征矩阵的步骤中包括：

4.根据权利要求3所述的面向群体用户的信息推荐方法，其特征在于，所述多样化流行度指标算法结合用户对物品类别的偏好。

5.根据权利要求2所述的面向群体用户的信息推荐方法，其特征在于，所述基于所述物品主题矩阵计算得到每个物品使用TF-IDF覆盖主题的概率采用如下公式：

这里，p_ji为每个物品D_j，1≤j≤m，使用TF-IDF覆盖主题T_i，1≤i≤k的概率p_ji，n_ji是D_j中T_i出现的次数，m是物品的总数，|d：T_i∈D_d|是包含T_i的物品数。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如权利要求1-5中任一项所述的面向群体用户的信息推荐方法的步骤。