CN104809243A

CN104809243A - 一种基于对用户行为复合因子进行挖掘的混合推荐方法

Info

Publication number: CN104809243A
Application number: CN201510249271.5A
Authority: CN
Inventors: 徐平平; 刘博宇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-07-29
Anticipated expiration: 2035-05-15
Also published as: CN104809243B

Abstract

本发明公开了一种基于对用户行为复合因子进行挖掘的混合推荐方法，从影响用户行为的影响因子(个性因子和共性因子)的角度出发，针对每一种影响因子，提出个性化的推荐算法以充分挖掘该影响因子对用户行为的影响，最终，依据用户的历史数据，动态地混合反映两类影响因子的推荐结果，为不同用户，提供个性化的推荐服务。

Description

一种基于对用户行为复合因子进行挖掘的混合推荐方法

技术领域

本发明涉及一种基于对用户行为复合因子进行挖掘的混合推荐方法。

背景技术

缩略语和关键术语定义

CF collaborative filtering 协同过滤

CBF content-based filtering 基于内容的过滤

ItemCF Item-based collaborative filtering 基于物品的协同过滤

UserCF User-based collaborative filtering 基于用户的协同过滤

SP-ItemCF Special Factor Item-based filtering 优先个性因子的改进基于物品的协同过滤算法

COM-UserCF Common Factor User-based filtering 优先共性因子的改进基于用户的协同过滤算法

推荐系统是为了解决信息过载问题而产生的一种信息过滤系统。推荐系统技术至今已有较长的发展历史，期间已经产生了大量的推荐算法，其中众多的推荐算法已经在工业界大量的使用。随之而来的是推荐算法的过载问题，即有太多的推荐算法，究竟如何选择。而且大量的实践与研究表明，对多种推荐算法的混合使用，往往可以起到弥补单个推荐算法的不足，达到更好的推荐效果。所以就出现了混合推荐系统。目前混合推荐系统主要有预处理混合和推荐算法混合两大类。预处理混合指的是首先对数据进行一个预处理步骤，对数据进行一定的优化与整理，便于作为后续推荐算法的输入。常见的预处理步骤有标准化处理与聚类处理。推荐算法混合是更加常见的一类，指的是让多个推荐算法独立运行，协同工作，最后按照一定的策略对各个推荐算法的结果进行混合，形成最终的推荐结果。常见的混合策略有混合切换策略与加权混合策略等。

推荐系统通过对用户行为的预测，为用户提供服务。所以一些研究引进了针对用户行为模式的研究。如利用在信息过滤领域中对用户兴趣建模的研究，对用户兴趣进行建模，然后根据用户兴趣模型，为用户提供推荐。

一些混合推荐系统，内部合并了多个经典推荐算法，如对CF与CBF合并^[1]，由于算法内部融合了单个算法的内部机制，所以此类混合系统相对难以进行扩展。一些混合推荐系统将每一个独立的算法当做黑盒，使其独立运行，最后将运算结果进行加权组合。如文献[2]，系统融合了107种独立推荐算法，最终针对全局的RMSE进行优化，各个算法的权重对每一个用户都是相同的^[3]。这些都属于静态混合推荐系统。

切换混合策略的混合推荐系统，如文献[4]，采用一种切换策略，针对不同的用户，会选择不同的推荐算法进行推荐。文献[5]提出一种动态生成混合权重的混合算法，该算法通过对信息检索领域中对查询性能技术的迁移，构造了一种对推荐系统推荐性能的预测模块，根据该预测结果动态的调整各推荐算法的权重。还有一些基于结合用户兴趣建模的推荐算法。

静态混合推荐系统对所有用户使用同一种混合策略进行推荐，弱化的对用户个性化的捕捉能力。每一个用户都可以从为其定制化的推荐系统中获得更好的服务。所以一个可以自适应用户特征的混合推荐算法是十分有价值的。但是许多自适应混合推荐系统，通常基于对用户兴趣的建模，而对用户兴趣的建模通常需要许多用户信息以及物品信息，如大量的文本数据，通过这些文本数据，提取用户与物品的特征，以对用户兴趣进行建模。而在推荐系统应用的一个重要的场景就是针对一些难以提取特征的物品的推荐，如电影、音乐等媒体物品。特征信息的减少可能导致用户兴趣模型质量的下降。

参考文献(如专利/论文/标准)

[1]Chris Cornelis,Xuetao Guo,Jie Lu,and Guanquang Zhang.A fuzzy relational approach to eventrecommendation.In Proc.Indian Int.Conf.Artificial Intelligence,2005.

[2]Robert M Bell,Yehuda Koren,and Chris Volinsky.The bellkor solution to the netflix prize.KorBell Team？sReport to Netflix,2007.

[3]Dooms S.Dynamic generation of personalized hybrid recommender systems[C].In:Proceedings of the 7thACM conference on Recommender systems.2013.RecSys’13.

[4]Fatih Aksel and Aysenur Birtürk.An adaptive hybrid recommender system that learns domain dynamics.In Int.Workshop on Handling Concept Drift in Adaptive Information Systems:Importance,Challenges and Solutions(HaCDAIS-2010)at the European Conference on Machine Learning and Principles and Practice of KnowledgeDiscovery in Databases,page 49,2010.

[5]Alejandro Bellog′in.Performance prediction and evaluation in Recommender Systems:An InformationRetrieval perspective.PhD thesis,Universidad Autonoma de Madrid,November 2012.

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于对用户行为复合因子进行挖掘的混合推荐方法，从影响用户行为的影响因子(个性因子和共性因子)的角度出发，针对每一种影响因子，提出个性化的推荐算法以充分挖掘该影响因子对用户行为的影响，最终，依据用户的历史数据，动态地混合反映两类影响因子的推荐结果，为不同用户，提供个性化的推荐服务。

技术方案：为实现上述目的，本发明采用的技术方案为：

由于每一个用户都具有不同的特征，为了为每一个用户提供个性化的推荐服务，需要动态产生混合因子，即使得混合推荐系统可以自适应不同用户的特征。在某些特定的场景下，缺乏足够的文本信息对用户兴趣模型进行良好的分析，本发明从对用户行为的影响因子的角度出发，并针对每一种影响因子，提出个性化的推荐算法以充分挖掘该因子对用户行为的影响，最终，依据用户的历史数据，动态的混合反映两类影响因子的推荐结果，为不同用户，提供个性化的推荐服务。

通过对用户评分行为进行分析，本发明认为用户行为是由个性因子与共性因子共同作用而成。其中个性因子主要表现用户本身的固有兴趣偏好等特征，而共性因子主要表现为用户所在群体对群体中每一个用户影响。对于不同的用户，这两种影响因子的组合比例不尽相同。例如，通常活跃用户的行为中个性因子与共性因子都占有一定比例，而非活跃用户的行为中，共性因子的比例占主导。而对于同一个用户，在不同时间段内，这两种影响因子的组成比例也会随着时间的变化而变化。基于以上的假设，本发明提出了两种改进推荐算法，针对两类影响因子进行推荐。最后，通过将两种推荐算法的结果针对每一个用户的特征，以不同的权重进行混合，以达到对目标用户行为的最佳适配。

一种基于对用户行为复合因子进行挖掘的混合推荐方法，包括针对用户个性因子的推荐方法、针对用户共性因子的推荐方法和自适应混合计算三个部分，具体实施过程如下。设总共有U个用户、M个物品和个N物品属性，用户u对其中的Q个物品给出过评价，形成物品集合Q(u)。

(1)针对用户个性因子的推荐方法：

基于物品的协同过滤算法为用户推荐与其以前评价过的物品相似的物品，具体为：对于物品i，在用户u对应的物品集合Q(u)中选取与物品i最相似的K个物品形成集合S(i,K)，以集合S(i,K)中的物品k与物品i的相似度ω_ik为权重，对物品i进行评分预测，公式如下：

{\hat{r}}_{ui (1)} = \underset{k &Element; S (i, K)}{Σ} ω_{ik} r_{uk} - - - (1)

其中，表示用户u对物品i的预测评分，r_uk表示用户u对物品k的实际评分；式(1)是基于用户的历史评分数据进行的计算，本身强调对用户历史行为的跟踪，其推荐结果与用户历史行为有较强的一致性。

相似度ω_ik以余弦相似度表示，公式如下：

ω_{ik} = \frac{| {\overset{&RightArrow;}{x}}_{i} \cdot {\overset{&RightArrow;}{x}}_{k} |}{| {\overset{&RightArrow;}{x}}_{i} | \cdot | {\overset{&RightArrow;}{x}}_{k} |} - - - (2)

其中，表示用户1,2,…,u,…,U对物品i的实际评分，表示用户1,2,…,u,…,U对物品j的实际评分；基于上式可发现，若物品k越流行，物品k与物品i的相似度ω_ik就会越大，考虑物品k的流行性反映的是一种共性因子，理论上不应该为针对用户个性因子的推荐作出贡献，因此引入一个惩罚因子ρ，公式如下：

ρ = e {(1 - \frac{U_{k}}{U})}^{\frac{U}{U_{k}}} - - - (3)

其中，e为自然底数，U表示用户集合，U_k表示对物品j进行过评价的用户集合；当物品k被越多的用户评价过，则惩罚因子ρ越小，若物品k被所有人都评价过，则该惩罚因子ρ将会为0，表示物品k为全局流形的物品，无法对用户个性因子做出贡献。

使用惩罚因子ρ对式(1)进行改进，得到：

{\hat{r}}_{ui (1)} = \underset{k &Element; S (i, K)}{Σ} ρ ω_{ik} r_{uk} - - - (4)

式(4)重点惩罚了共性因子在对用户个性因子的推荐方法中所作贡献，起到弱化共性因子的作用，将式(4)记为SP-ItemCF算法，将通过式(4)计算出的使用r′_ui表示。

(2)针对用户共性因子的推荐方法：

最能代表用户共性因子的推荐结果应该是流行物品的榜单，流行物品榜单中所有的物品都具有较高的全局共性。然而正是这种全局的共性降低了其对单个用户的适用度，因为对于单个用户，其兴趣点通常主要集中在少数几个领域，其他领域的共性物品对该用户很可能没有什么吸引力。所以本发明认为相对于这种全局的共性，用户之间的局部共性会更有效。

为挖掘适当粒度的共性因子的影响，首先，需要为目标用户找到大小最合适的共性用户群组，而在聚类算法中，这样的用户簇合适出现难以把握，无法通过定制分簇数目的方式找到合适大小的簇。其次，之所以要选择大小合适的共性用户群组，而非在全局范围考察共性因子，是为了对用户大体关注领域或兴趣范围有限且较为固定这一假设作出的考虑。因此可以认为，这样的共性用户簇对目标用户而言应该是较为稳定的。

所以本专利采用一种给定聚类相似度阈值的层次聚类模式。通过实验决定确定阈值T，则聚类在满足阈值条件后就会终止，而此时目标用户所在的簇，即可以视为目标用户的共性用户群组。

为了降低数据维度，保证聚类质量利用物品-物品属性矩阵M，将用户-物品评分矩阵R转化为用户-物品属性评分矩阵L；

物品i的属性集合表示为A_i，结合所有M个物品的属性集合，整理得到物品-物品属性矩阵M表示如下：

m_{ij} = \{\begin{matrix} 1, j &Element; A_{i} \\ 0, j &NotElement; A_{i} \end{matrix} - - - (6)

其中，物品-物品属性矩阵M为M×N矩阵，m_ij利用1值与0值表示第i个物品是否具有物品属性j；

用户-物品评分矩阵R表示如下：

其中，用户-物品评分矩阵R为U×M矩阵，r_ij表示第i个用户对第j个物品的实际评分；

利用下式将物品-物品属性矩阵M和用户-物品评分矩阵R转化为用户-物品属性评分矩阵L：

L = \frac{R \times M}{\underset{i &Element; Q (u)}{Σ} r_{ui}} - - - (8)

基于式(8)，根据下式计算用户u和用户v之间的相似度

其中，表示用户u对所有N个物品属性的兴趣度，表示用户v对所有N个物品属性的兴趣度；

根据用户-物品属性评分矩阵L对用户进行簇相似度阈值为T的层次聚类，将用户分到各个簇内，将用户u所属簇记为N(u)，以N(u)作为用户邻域，运行基于用户的协同过滤算法为用户推荐与其相近用户喜欢的物品，计算公式如下：

其中，表示针对用户个性因子的用户u对物品i的预测评分，r_vi表示用户v对物品i的实际评分；将式(10)记为COM-UserCF算法，将通过式(10)计算出的使用r″_ui表示；

(3)自适应混合计算

集合针对用户个性因子的预测评分r′_ui和针对用户共性因子的预测评分r″_ui，加权得到最终的预测评分计算公式如下：

{\hat{r}}_{ui} = α_{u} r_{ui}^{'} + β_{u} r_{ui}^{''} - - - (11)

其中，表示用户u对物品i的预测评分，根据的值为用户u推荐物品，值越大表示越建议向用户u推荐物品i；α_u和β_u为权重因子；针对推荐算法的准确率进行优化，以平均绝对误差(MAE)作为准确率衡量标准，则可以设定目标函数为：

f ({\overset{&RightArrow;}{r}}_{u}) = \underset{i &Element; I}{Σ} {(r_{ui} - {\hat{r}}_{ui})}^{2} - - - (12)

其中，I表示有预测评分的物品集合，表示权重向量；利用梯度下降法，求使得目标函数最小的最优α_u和β_u值。

有益效果：本发明提供的基于对用户行为复合因子进行挖掘的混合推荐方法，通过对两种算法混合权重的控制，可以为每一个用户提供更加个性化的服务；相比基于用户兴趣模型的混合推荐系统，本专利的算法对用户和物品相关的文本信息有较少的要求，简化了用户建模过程。

附图说明

图1为本发明的系统框图；

图2为用户共性因子推荐算法流程图；

图3为SP-ItemCF算法与ItemCF算法在不同用户评分数分段上效果对比图；

图4为不同聚类阈值下COM-UserCF算法结果；

图5为COM-UserCF与UserCF算法在不同用户评分数据段上效果对比；

图6为本发明与基线混合推荐算法在不同用户评分数据段上效果对比。

具体实施方式

下面结合附图对本发明作更进一步的说明。

一种基于对用户行为复合因子进行挖掘的混合推荐方法，包括针对用户个性因子的推荐方法、针对用户共性因子的推荐方法和自适应混合计算三个部分，设总共有U个用户、M个物品和个N物品属性，用户u对其中的Q个物品给出过评价，形成物品集合Q(u)；具体实施过程如下：

(1)针对用户个性因子的推荐方法：

{\hat{r}}_{ui (1)} = \underset{k &Element; S (i, K)}{Σ} ω_{ik} r_{uk} - - - (1)

其中，表示用户u对物品i的预测评分，r_uk表示用户u对物品k的实际评分；式(1)是基于用户的历史评分数据进行的计算，本身强调对用户历史行为的跟踪，其推荐结果与用户历史行为有较强的一致性；

相似度ω_ik以余弦相似度表示，公式如下：

ω_{ik} = \frac{| {\overset{&RightArrow;}{x}}_{i} \cdot {\overset{&RightArrow;}{x}}_{k} |}{| {\overset{&RightArrow;}{x}}_{i} | \cdot | {\overset{&RightArrow;}{x}}_{k} |} - - - (2)

ρ = e {(1 - \frac{U_{k}}{U})}^{\frac{U}{U_{k}}} - - - (3)

其中，e为自然底数，U表示用户集合，U_k表示对物品j进行过评价的用户集合；当物品k被越多的用户评价过，则惩罚因子ρ越小；

使用惩罚因子ρ对式(1)进行改进，得到：

{\hat{r}}_{ui (1)} = \underset{k &Element; S (i, K)}{Σ} ρ ω_{ik} r_{uk} - - - (4)

式(4)重点惩罚了共性因子在对用户个性因子的推荐方法中所作贡献，起到弱化共性因子的作用，将式(4)记为SP-ItemCF算法，将通过式(4)计算出的使用r′_ui表示；

(2)针对用户共性因子的推荐方法：

利用物品-物品属性矩阵M，将用户-物品评分矩阵R转化为用户-物品属性评分矩阵L；

m_{ij} = \{\begin{matrix} 1, j &Element; A_{i} \\ 0, j &NotElement; A_{i} \end{matrix} - - - (6)

用户-物品评分矩阵R表示如下：

L = \frac{R \times M}{\underset{i &Element; Q (u)}{Σ} r_{ui}} - - - (8)

基于式(8)，根据下式计算用户u和用户v之间的相似度

(3)自适应混合计算

{\hat{r}}_{ui} = α_{u} r_{ui}^{'} + β_{u} r_{ui}^{''} - - - (11)

f ({\overset{&RightArrow;}{r}}_{u}) = \underset{i &Element; I}{Σ} {(r_{ui} - {\hat{r}}_{ui})}^{2} - - - (12)

下面以GroupLens研究组的开源数据及MovieLens 100K数据集为实验数据，阐述本发明实施步骤：

(1)利用用户物品评分数据，通过SP-ItemCF算法计算用户评分数据值。对不同活跃度的用户分别利用SP-ItemCF算法与ItemCF算法进行实验。附图3为SP-ItemCF算法与ItemCF算法实验效果对比图，可见SP-ItemCF随着用户评分数据的丰富，将逐渐优于ItemCF算法。

(2)利用用户-物品评分矩阵R与物品-物品属性矩阵M计算用户-物品属性评分矩阵L。

(3)利用用户-物品属性评分矩阵L构造用户向量。

(4)基于用户向量进行制定相似度阈值的层次聚类。附图4为在不同相似度阈值下COM-UserCF算法结果，可以看到阈值在0.5左右算法效果较优。

(5)对于制定用户，查找其所在簇，并以该簇为邻域，运行基于用户的协同过滤算法，获得预测评分。附图5为COM-UserCF算法与UserCF算法在不同活跃度用户的情况下的效果对比，可以发现COM-UserCF算法优于UserCF算法

(6)基于第一步与第五步的结果，以其绝对平均误差为目标函数，进行梯度下降求解混合权重因子α_u与β_u

(7)以α_u与β_u为混合权重，混合两部分预测评分，获得最终评分结果。附图6为混合算法最终结果与基线混合推荐算法(基于切换混合策略的混合推荐)在不同用户评分数分段上的效果对比。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于对用户行为复合因子进行挖掘的混合推荐方法，其特征在于：包括针对用户个性因子的推荐方法、针对用户共性因子的推荐方法和自适应混合计算三个部分，具体实施过程如下：

设总共有U个用户、M个物品和个N物品属性，用户u对其中的Q个物品给出过评价，形成物品集合Q(u)；

(1)针对用户个性因子的推荐方法：

{\hat{r}}_{ui (1)} = \underset{k &Element; S (i, K)}{Σ} ω_{ik} r_{uk} - - - (1)

相似度ω_ik以余弦相似度表示，公式如下：

ω_{ik} = \frac{| {\overset{&RightArrow;}{x}}_{i} \cdot {\overset{&RightArrow;}{x}}_{k} |}{| {\overset{&RightArrow;}{x}}_{i} | \cdot | {\overset{&RightArrow;}{x}}_{k} |} - - - (2)

ρ = e {(1 - \frac{U_{k}}{U})}^{\frac{U}{U_{k}}} - - - (3)

使用惩罚因子ρ对式(1)进行改进，得到：

{\hat{r}}_{ui (1)} = \underset{k &Element; S (i, K)}{Σ} ρ ω_{ik} r_{uk} - - - (4)

(2)针对用户共性因子的推荐方法：

m_{ij} = \{\begin{matrix} 1, j &Element; A_{i} \\ 0, j &NotElement; A_{i} \end{matrix} - - - (6)

用户-物品评分矩阵R表示如下：

L = \frac{R \times M}{\underset{i &Element; Q (u)}{Σ} r_{ui}} - - - (8)

基于式(8)，根据下式计算用户u和用户v之间的相似度

(3)自适应混合计算

{\hat{r}}_{ui} = α_{u} r_{ui}^{'} + β_{u} r_{ui}^{''} - - - (11)

其中，表示用户u对物品i的预测评分，根据的值为用户u推荐物品，值越大表示越建议向用户u推荐物品i；α_u和β_u为权重因子；针对推荐算法的准确率进行优化，以平均绝对误差为准确率衡量标准，则可以设定目标函数为：

f ({\overset{&RightArrow;}{r}}_{u}) = \underset{i &Element; I}{Σ} {(r_{ui} - {\hat{r}}_{ui})}^{2} - - - (12)