CN109902231A

CN109902231A - 基于cbow模型的学习资源推荐方法

Info

Publication number: CN109902231A
Application number: CN201910132973.3A
Authority: CN
Inventors: 秦继伟; 蒋云鹏; 汪烈军
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2019-06-18

Abstract

本发明涉及线上学习资源推荐领域，尤其涉及一种基于CBOW模型的学习资源推荐方法。步骤1、收集学习者的历史学习行为，将所有学习行为添加进空白词典来建立学习行为词典；步骤2、由学习行为词典训练CBOW模型得到学习行为间的相似度；步骤3、由训练完成的结果预测学习者未来的行为，得出候选列表一；步骤4、基于学习者对学习资源的评分，采用传统推荐算法中的协同过滤算法进行预测，得出候选列表二；步骤5、根据相同学习者合并两个候选列表，得出最终的项目推荐列表。本发明使用CBOW来表示学习历史行为中学习内容的知识序列，并使用这些特征来计算项目之间的相似性，克服了传统推荐系统中资源序列关系被忽视的问题。

Description

基于CBOW模型的学习资源推荐方法

技术领域

本发明涉及线上学习资源推荐领域，尤其涉及一种基于CBOW模型的学习资源推荐方法。

背景技术

线上学习系统一直致力于学习者兴趣预测及学习资源推荐的研究，旨在准确掌握学习者的学习意图，预测并为其推荐准确的学习资源。在推荐算法方面，已经有非常丰富的研究。按照推荐策略的不同，推荐算法一般分为基于内容的过滤算法、协同过滤算法和混合推荐算法。

基于内容的推荐算法通过分析项目描述识别用户特别感兴趣的项目，从而向给定用户推荐其喜欢的类似项目。目前关于基于内容的推荐算法的研究重点是隐式语义的分析。基本思想可由文章《Indexing by latent semantic analysis》来描述，通过矩阵分解将原始向量空间转换为低维正交矩阵，从而转化为潜在的语义空间，这个想法最初是通过奇异值分解(SVD)实现的。受SVD的启发，Salakhutdinov等人在文章《ProbabilisticMatrix Factorization》中提出了PMF(概率矩阵分解)算法，其基本思想与隐语义分析类似，使用的特定技术是概率矩阵分解。作者为解决PMF中过拟合的问题，又在文章《Bayesianprobabilistic matrix factorization using Markov chain Monte Carlo》中提出了BPMF(贝叶斯概率矩阵分解)算法。在文中，作者提出了概率矩阵分解(PMF)模型的完全贝叶斯处理，其中通过对所有模型参数进行积分来自动控制模型容量和超参数，展示了贝叶斯PMF模型可以使用马尔可夫链蒙特卡罗方法进行有效训练。

协同过滤(CF)推荐算法是基于类似用户的兴趣向用户推荐项目，从而帮助用户做出更好的决策。基于协同过滤推荐算法的研究很多，大致可分为基于存储器的协同过滤算法和基于模型的协同过滤算法。Su等人在文章《A survey of collaborative filteringtechniques》中提出基于存储器的协同过滤算法使用所有或一些用户项数据库来生成预测。每个用户都是具有相似兴趣的一群人的一部分。可以通过识别所谓的活动用户的邻居来生成对新条目的偏好预测。为了提高相似度的准确性，Lu等人在文章《Recommendersystem application developments》中提出了一种基于增强项目的协调过滤方法，通过加权将调整后的余弦方法与类似Jaked的相似系数相结合。在基于模型的协调过滤算法中，推荐被视为分类或预测。机器学习和数据挖掘算法可用于允许系统通过训练历史数据来识别复杂模型，然后基于学习模型智能地预测测试数据或实际数据。常用的模型包括贝叶斯分类、聚类、线性回归、马尔可夫决策过程等。Shinde等人在文章《Hybrid personalizedrecommender system using centering-bunching based cluste》中使用聚类技术中的分组项来解决推荐系统中的冷启动问题。第一步，以用户项目评级矩阵的形式收集用户的意见。它们使用中心聚类算法离线群集到预定数量的群集中并存储在数据库中以供将来推荐。在第二阶段，通过选择具有良好质量等级的集群，使用相似性度量在线为活动用户在线生成推荐。这有助于为当前用户提供进一步的有效性的质量推荐。Shani等人在文章《AnMDP-Based Recommender System》中将推荐视为持续优化问题，并将马尔可夫决策过程(MDP)模型用于推荐系统。引入MDP有两个好处：首先考虑了每项推荐的长期影响，并考虑了每项推荐的预期价值。文中建议使用n-gram预测模型来生成初始MDP。文中提出的n-gram模型引发了用户行为的马尔可夫模型，其预测精度大于现有预测模型的预测精度。

混合推荐算法是将多种推荐算法组合推荐项目。关于推荐算法还有其他一些研究热点，如基于网络结构的推荐算法，Zhou等人在文章《Bipartite network projection andpersonal recommendation》中利用二分图模型将物理理论和网络理论应用于推荐算法，提出了不同的推荐策略。同时还有基于深度学习的推荐算法，很多公司都采用了深度学习的方法来进一步提高他们的推荐质量。但上述算法均没有考虑知识学习中的上下序关系，并且存在数据稀疏问题。

发明内容

为解决上述问题，本发明提出了一种基于CBOW模型的学习资源推荐方法，考虑了学习资源中的知识序列，降低了对用户评分的依赖性，还在一定程度上缓解了数据稀疏问题。

本发明采用的技术方案为：

一种基于CBOW模型的学习资源推荐方法，包括以下步骤：

步骤1、收集学习者的历史学习行为，将所有学习行为添加进空白词典来建立学习行为词典；

步骤2、由学习行为词典训练CBOW模型得到学习行为间的相似度；

步骤3、由训练完成的结果预测学习者未来的行为，应用Top-N推荐算法得出候选列表一；

步骤4、基于学习者对学习资源的评分，采用传统推荐算法中的协同过滤算法进行预测，应用Top-N推荐算法得出候选列表二；

步骤5、根据相同学习者合并两个候选列表，得出最终的项目推荐列表。

步骤2中计算学习行为相似度的过程如下：首先，利用CBOW模型将学习行为词典中的文本映射到向量空间，将其转换为向量；其次，计算向量之间的欧几里德距离，向量之间的欧几里德距离即为项目之间的相似度。

步骤4中所述的传统推荐算法包括SVD、NMF、BaselineOnly、CoClustering、NormalPredictor、SlopeOne、KNNBasic、KNNWithMeans。

进一步，CBOW模型的优化框架有两种，分别为hierarchical softmax以及negative sampling。根据实验和相关理论分析，本发明选用效果更好的negativesampling优化框架。

本发明通过学习评分和学习行为来分别获得活跃学习者的学习知识序列和学习模式。然后建立学习资源推荐库，推荐候选学习资源是从所有学习者的学习历史的集合中给出的，其用于表示CBOW的顺序知识。最后以学习行为间的相似度为衡量标准进行top-n推荐。在Movielens，Filmtrust和Online Retail数据集上进行了一系列实验，实验结果表明，所提出的推荐方法有助于为在线学习中的学习者找到个人学习资源。

本发明的有益效果：

1、使用CBOW来表示学习历史行为中学习内容的知识序列，并使用这些特征来计算项目之间的相似性，克服了传统推荐系统中资源序列关系被忽视的问题。

2、基于序列关系建立推荐模型，并结合用户评分，对推荐模型进行优化，相比传统推荐算法，本发明方法推荐的准确性更高。

附图说明

图1是本发明方法的流程图；

图2是CBOW模型图；

图3是基于CBOW模型的推荐效果表；

图4是基于评分的不同推荐算法的准确率表；

图5是基于评分的不同推荐算法的运行时间表；

图6是基于不同推荐算法对CBOW模型优化后的推荐准确率表；

图7是基于不同推荐算法对CBOW模型优化后的运行时间表。

具体实施方式

下面结合附图对本发明的应用进行详细说明。

一种基于CBOW模型的学习资源推荐方法，包括以下过程：

首先，建立CBOW学习资源推荐模型。参见图1。

本发明将学习内容的知识序列和学习者的学习意图融合到CBOW模型中，意图在电子学习的背景下建立新的学习资源推荐模型。该模型的建立过程分为训练过程和推荐过程，其中训练过程是将已知的学习资源按学习者的学习顺序排列，并将排列好的学习资源序列作为CBOW模型的输入，CBOW模型的输出是学习资源之间的相似性，通过学习资源之间的相似性找到学习者的学习偏好；推荐过程是首先进入学习者的历史学习记录，然后按学习顺序排序，进入CBOW模型，CBOW模型将从训练的资源库中选择并推荐与学习者具有最高相似性的资源。

之后，利用CBOW模型预测学习者的学习意图。

学习者的学习过程具有很强的连续性。一般来说，它是从基础知识到强化内容。这种学习过程在顶部和底部之间有很强的关联性。例如当学习者学习推荐系统的相关概念时，不能跳过推荐算法直接学习推荐模型的建立。这种强关联的学习内容很难用计算机识别，但是学习相同内容的学习者之间的学习顺序是相似的。因此，本发明从学习者之间的共现信息入手，提取学习者之间相同的学习顺序、记录和共现信息，并预测目标学习者的学习意图。参见图1，分为以下步骤：

步骤1、收集学习者的历史学习行为，将所有学习行为添加进空白词典来建立学习行为词典。

步骤2、由学习行为词典训练CBOW模型得到学习行为间的相似度；其中，CBOW模型的功能为由目标词的上下文来预测目标词，所以能有效提取学习资源中上下序关系。CBOW模型选用效果较好的negative sampling优化框架。该步骤的具体过程为：利用CBOW模型将学习行为词典中的文本映射到向量空间，将其转换为向量；计算向量之间的欧几里德距离，向量之间的欧几里德距离即为项目之间的相似度。

步骤3、由训练完成的结果预测学习者未来的行为，应用Top-N推荐算法得出候选列表一。

同时，基于学习者对学习资源的评分，采用传统推荐算法中的协同过滤算法进行预测，应用Top-N推荐算法得出候选列表二。所述的传统推荐算法包括SVD、NMF、BaselineOnly、CoClustering、NormalPredictor、SlopeOne、KNNBasic、KNNWithMeans。

步骤4、根据相同学习者合并两个候选列表，得出最终的项目推荐列表。

图2所示为所采用的CBOW模型，在该模型中，v^c-m＝VX^(c-m)，v’＝v^(c-m)+v^(c-m+1)+…+v^(c+m)/2m，z＝Uv’，y_j＝sofmax(z)。

下面通过实验证明本发明方法的有效性。

使用推荐系统中常用的准确率与运行时间来衡量算法的推荐效果。对比算法我们采用SVD、NMF、SlopeOne等八种传统推荐算法。数据集采用推荐系统中常用的MovieLens数据集，为验证本发明对缓解数据稀疏问题的有效性，我们又采用了无评分信息的OnlineRetail数据集。

具体实验步骤如下：

1、按本发明步骤1得到的CBOW模型进行推荐。推荐效果参照图3。

2、在MovieLens和FilmTrust数据集中基于评分和传统推荐算法进行推荐，推荐效果参照图4和图5。

3、按步骤3对CBOW模型优化后再进行推荐，推荐效果参照图6和图7。

经对比，采用优化后的CBOW模型进行学习资源的推荐，推荐效果最佳。

Claims

1.一种基于CBOW模型的学习资源推荐方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于CBOW模型的学习资源推荐方法，其特征在于：步骤2中计算学习行为相似度的过程如下：首先，利用CBOW模型将学习行为词典中的文本映射到向量空间，将其转换为向量；其次，计算向量之间的欧几里德距离，向量之间的欧几里德距离即为项目之间的相似度。

3.根据权利要求1所述的基于CBOW模型的学习资源推荐方法，其特征在于：所述的传统推荐算法包括SVD、NMF、BaselineOnly、CoClustering、NormalPredictor、SlopeOne、KNNBasic、KNNWithMeans。

4.根据权利要求1-3任一项所述的基于CBOW模型的学习资源推荐方法，其特征在于：CBOW模型选用negative sampling优化框架。