CN113435685A

CN113435685A - 一种分层Attention深度学习模型的课程推荐方法

Info

Publication number: CN113435685A
Application number: CN202110467407.5A
Authority: CN
Inventors: 刘铁园; 吴琼; 王畅; 陈威
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-09-24

Abstract

本发明涉及机器学习、深度学习及数据挖掘等技术领域，具体是涉及一种分层Attention深度学习模型课程推荐方法。通过利用用户顺序行为数据，使用LSTM建模用户兴趣的动态变化，通过构建分层的Attention结构，得到用户的长期和短期偏好，从而生成用户的高级混合表示，以此提高推荐结果的用户个性化和准确度。具体为：利用原始在线学习相关行为数据进行筛选和预处理，将用户的顺序行为划分为会话，然后使用embedding层和全连接层对细粒度(信息用户ID和课程ID)与粗粒度信息(课程类型)三种数据进行处理，得到用户向量表示；应用LSTM来捕捉用户不同历史会话兴趣的交互和演化，得到序列化的兴趣向量，将兴趣向量输入到Attention网络中，得到用户的长期兴趣表示；然后将用户最近行为数据和长期兴趣表示输入到第二层Attention网络中，得到用户的混合兴趣表示；最后将用户的混合兴趣表示和课程向量表示做内积，将得到的值作为该候选项目的得分，将候选项目得分排序得到推荐列表以为学生进行个性化推荐。

Description

一种分层Attention深度学习模型的课程推荐方法

(一)技术领域

本发明涉及机器学习、深度学习及数据挖掘等技术领域，具体是涉及一种分层Attention深度学习模型课程推荐方法。

(二)背景技术

近年来，随着云计算，大数据，人工智能等技术的迅速发展，教育领域发生了巨大的变革。众所周知的大规模公开在线课程(Massive Open Online Course，简称MOOCs)它是一种开放课程，旨在通过在线平台向大量参与者提供教育内容，并提供免费的访问权限。MOOC这个词是在2008年发明的，自2012年以来越来越流行，创造了一种新的教育模式。美国顶尖大学及其教授建立了几个 MOOC平台，例如Udacity，Course和edX，并成为该领域的领导者。近年来，中国涌现出大量的MOOC平台，例如网易云教室、xuetangX、IMOOC等。MOOC 收录了全球优秀开放式的在线课程，目前MOOC的注册用户数量已经超过了1 亿，它包括了1.14万的课程数量。与传统的学习方式相比，E-learning提供了一种不受空间差异限制的在线教育平台，大量的线下课程被高质量且方便的线上课程取而代之，为世界范围内的学生提供了更好的教育条件。但是，人们在享受互联网带来便利的同时，一些问题也随之产生。网络信息爆炸式的增长，使用户难以进行高效的选择，课程推荐系统成为解决信息超载问题的有效解决方案。

目前已公布的发明专利“基于图卷积神经网络的动态权重的课程推荐方法和系统”，公开号为CN110580314A，通过获取用户对每一课程的评分值进行预处理，得到用户-课程矩阵，在此基础上构建图卷积神经网络，预测用户-课程评分矩阵，对其进行序列模式挖掘得到每个用户的推荐课程序列。该发明没有考虑用户兴趣会随着时间的推移而不断演变，同时也忽略了在线平台的文本信息中蕴含的课程特征。本发明描述的“一种基于混合Attention深度学习模型课程推荐方法”利用用户顺序行为数据，使用LSTM建模用户兴趣的动态变化，通过构建分层的Attention结构，得到用户的长期和短期偏好，从而生成用户的高级混合表示，以此提高推荐结果的用户个性化和准确度。

(三)发明内容

本发明要解决的是目前基于课程推荐方法中仅仅用一个静态且低秩的向量来模拟用户的兴趣，从而忽略了用户兴趣是动态变化的问题；同时在课程特征的构建过程中，没有考虑到课程文本信息中蕴含的课程特征和知识点等信息，从而导致生成的推荐模型无法为用户推荐给个性化的课程等问题，提供了一种基于分层Attention深度学习模型课程推荐方法。

本发明的目的是这样实现的：

步骤一、对已下载的好的MOOCCube数据集的原始在线学习相关行为数据进行筛选和预处理；

步骤二、将用户的顺序行为划分为会话，然后将用户ID，课程ID和课程类型这3类数据的稀疏特征嵌入到全连接层，得到用户向量表示；对于课程特征表示，将每一在线平台的课程简介作为输入，利用卷积神经网络提取课程中蕴含的知识点作为课程特征向量；

步骤三、应用LSTM来捕捉用户不同历史会话兴趣的交互和演化，得到序列化的兴趣向量；

步骤四、为了刻画不同的用户，相同的项目对下一个项目预测的影响可能不同，将步骤三学习到的序列化兴趣向量输入到Attention网络中，得到用户的长期兴趣表示；

步骤五、将用户最近行为数据和步骤四得到的长期兴趣表示输入到第二层Attention网络中，得到用户的混合兴趣表示；

步骤六、将用户的混合兴趣表示和课程向量表示做内积，将得到的值作为该候选项目的得分，将候选项目得分排序得到推荐列表以为学生进行个性化推荐。

与现有的技术相比，本发明具有如下优势：

(1)在用户和课程向量表示方面，本发明考虑到学生的学习是一个连续的行为，将用户顺序行为数据进行了细粒度的划分为会话，并使用embedding层和全连接层对细粒度(信息用户ID和课程ID)与粗粒度信息(课程类型)三种数据进行处理，得到用户向量表示，提高了模型的表示能力，有助于提高推荐的准确性。

(2)课程知识点提取方面，本发明通过使用CNN模型对课程简介文本进行处理，提取课程中包含的知识点，从而提高学生个性化体验。

(3)由于学生的学习是一个连续的行为，前面的学习行为能够对后面的学习行为产生影响，且用户的长期兴趣通常随着时间而变化，仅仅学习每个用户静态的长期偏好是远远不够的，本发明使用LSTM捕捉用户历史会话之间的顺序关系，来建模用户长期兴趣的交互和演化。

(4)考虑到相同的项目对下一个项目预测的影响可能不同，且不同的用户，相同的项目对下一个项目预测的影响可能不同，本发明引入Attention层，通过分配不同权重来决定那些课程对于课程推荐有决定性作用。通过两层Attention层的构建，结合用户的长期偏好和短期偏好，得到用户的混合偏好，从而提高模型的性能。

(四)附图说明

图1为本发明的模型的框架图。

图2为基于分层Attention深度学习模型的学生课程推荐的整体的流程图。

图3为模型输入数据生成的流程图。

图4为用户特征向量生成的示意图。

图5为课程特征向量生成的流程图。

图6为历史会话兴趣交互的流程图。

图7为用户混合偏好生成的流程图。

图8为课程推荐产生的过程的示意图。

(五)具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合具体实例，并参照附图，对本发明进一步详细阐述。

本发明以基于分层Attention深度学习模型的课程推荐为实例描述本发明方法的具体实施过程。

本发明的模型框架如图1所示，基于分层Attention深度学习模型的课程推荐的整体流程如图2所示。结合示意图说明具体步骤：

步骤1、在MOOCData官网下载MOOCCube数据集，对数据进行筛选，以及预处理。

步骤2、因为步骤1只是对数据进行初步选择，为了符合本模型的输入要求，需要继续对数据进行再次处理，因此对步骤1清理后的学习行为日志，将学生的行为记录按时间顺序排列，以一天为单位划分会话。

步骤3、将步骤2得到的学生课程记录，嵌入到embedding层和全连接层，得到用户特征向量矩阵，如图4所示，将课程简介文本输入到卷积神经网络中提取课程特征，如图5所示。

步骤4、然后使用LSTM捕捉历史会话之间的顺序关系，模拟用户不同历史会话兴趣的交互和演化，从而得到序列化的兴趣向量。

步骤5、考虑到相同的项目对下一个项目预测的影响可能不同，且不同的用户，相同的项目对下一个项目预测的影响可能不同，利用Attention层为用户不同的行为赋予不同的权重，通过结合长期和短期偏好的两层结构来学习每个用户的混合偏好表示。

步骤6、将步骤5得到的混合偏好表示与候选课程向量做内积，得到课程的得分，使用候选课程得分前10的项目推荐给用户，以实现课程推荐。

图3显示的是本实例输入数据生成的流程图，具体的步骤包括：

步骤1、发表于ACL2020的论文公开了一个面向大规模在线教育有关的开放数据仓库，此数据集包含706门真实在线课程、38181个教学视频、114563个概念、 199999名MOOC用户的数十万选课、视频观看记录等课程概念有关的资源库。课程数据和学生行为数据来自学堂在线的真实使用环境。对此数据集进行初步处理，清洗掉无用的数据，在已选的数据集中user.csv文件，包含了学生学习行为的记录。course.csv包含了课程信息，包括课程名称、课程类型、课程简介等相关信息。学生的学习行为记录由不同的属性组成，这些属性有不同的意义。例如，在user.csv数据集中，id表示学生编号，name表示学生姓名，course_order表示学生观看过的课程，enroll_time表示学生观看相应课程发生的时间。在course.csv 中，id表示课程的course_id，name表示课程的信息，course_type表示相应课程所属于的类型，course_info表示课程简介，video_order表示此课程中包含的视频的顺序。

步骤2、对上述两个数据集进行进一步处理，首先将user.csv数据集中的学生行为记录按照时间顺序排列，并筛选出观看课程数量大于10的用户，然后以一天为单位，为学生行为划分会话，再次筛选出会话个数大于4的用户，并删除 enroll_time这一列数据。对于course.csv数据集，只保留 course_id,course_type,course_info这三类数据，丢弃其他类型的数据。最终，经过数据预处理，符合要求的学生行为数据14580条，其中包括994位学生，707 门课程，共23类课程。

步骤3、经过步骤2处理后的原始数据记录是文本格式，不能直接用作模型的输入，为了符合模型输入要求，需要将上述经过筛选的数据进行编码，转换为能由深度网络处理的格式。在学生行为记录中，由于每个学生观看课程的数量不同，需要统一用户观看课程的数量为50，不足的用<pad>填充，多余的则剪切。对于每一个学生的历史课程记录生成一个50维的行为向量，作为模型的输入。

经过上述的处理，得到了用户在相应时间戳的会话，用户的会话兴趣与上下文的兴趣之间存在顺序关系，而LSTM擅长捕捉顺序关系，所以我们利用 LSTM捕获用户不同历史会话兴趣的交互和演化，图6显示的是历史会话兴趣交互的流程图，具体的步骤包括：

步骤1、对于每一个用户，他的顺序行为表示为

其中T表示时间步长的总数,

表示相应的用户u在时间戳为t时会话(项目集)。对于一个固定的时间t，项目集

能够反映用户u在时间t时的短期偏好，另外，

表示在时间步t之前，用户交互过的项目集，能够反映用户的长期偏好。为了方便下面的描述，

表示在时间t时的长期项目集，

表示用户的短期项目集。本发明使用一个卷积神经网络来将课程简介嵌入到神经网络中，得到课程特征向量

其中K是向量的维数，|V|是项目的总数量。

步骤2、将步骤1生成的课程特征向量矩阵输入LSTM神经网络中，得到各个时刻隐层状态表示向量矩阵，其中对于每一个时刻t,LSTM神经网络中输入门i_t、遗忘门f_t、输出门O_t和单元状态C_t，计算公式如下：

i_t＝σ(W_xiv_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfv_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcv_t+W_hch_t-1+b_c)

o_t＝σ(W_xov_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)

v_t为输入LSTM神经网络的课程特征向量矩阵，σ是激活函数，h_t是LSTM在t 时刻的隐藏状态，W_xi，W_hi，W_ci，W_xf，W_hf，W_cf，W_xc，W_hc，W_xo，W_ho，W_co， b_i，b_f，b_c，b_o是LSTM神经网络的参数，h_t是LSTM的隐藏状态。

步骤3、LSTM层通过多个逻辑单元完成历史会话兴趣演化过程，并获得序列化的兴趣向量矩阵。通过上述步骤，一般都会直接使用最终状态的兴趣向量矩阵经过全连接层后，直接用于课程推荐，但是由于相同的项目对下一个项目的预测可能不同，且不同的用户，相同的项目对下一个项目预测的影响也不同，本发明使用Attention网络来建模不同会话对用户偏好构建的影响程度。

通过注意力网络计算学生不同会话的权重，得到学生偏好特征的长期和短期共同组成的混合表示以进行课程推荐。

图7显示的是用户混合偏好生成的流程图，具体的步骤包括：

步骤1、将LSTM模型中，得到的多个会话中的兴趣向量序列H_i，且i＝{1,2,…,n}作为Attention层的输入。

步骤2、首先计算给定的长期项目集中每个会话的重要性，然后聚合这些项目的嵌入得到长期用户偏好表示，具体地说，首先将兴趣向量h_j输入到多层感知机中得到隐层表示l_1j，函数

是激活函数RELU，利用激活增强模型的非线性能力，第j个会话的隐层状态l_1j对于长期偏好表示的影响权重α_j，计算公式如下：

W₁、b₁是模型的参数，其中W₁是一个K×K维的矩阵，b₁是K×1维的向量，h_j代表第j个会话的兴趣表示。得到每个会话的影响权重后，将LSTM层提取到的各个会话的兴趣向量加权求和，得到基于注意力分布的学生长期偏好表示向量

计算公式如下：

步骤3、与建模用户的长期偏好相似，利用注意力网络，为长期偏好表示和短期项目集

中的项目嵌入分配权重，从而获得用户u的混合偏好表示，计算公式如下：

W₂、b₂是模型的参数，其中W₂是一个K×K维的矩阵，b₂是K×1维的向量；当 j>0时，x_j代表项目

的向量表示，但当j＝0时，

类似于步骤二，得到每个短期项目集中每个项目的影响权重后，将用户长期项目表示

和项目嵌入加权求和，得到基于注意力分布的学生混合偏好表示向量

计算公式如下：

其中，β₀是长期用户偏好的权重。

经过上述步骤后，得到了学生的混合偏好表示

然后利用传统的潜在因子模型计算用户对候选项目v_j的偏好得分，计算公式如下：

训练模型的损失函数遵循BPR优化准则，模型利用成对排序目标函数。假设用户更喜欢下一个购买的物品，而不是其他未被观察到的物品。由此，假设 j是学生在时间步t将要学习的下一个课程，k是未被观察到的课程。对于每一个候选项目

模型会产生一组成对的偏好顺序

最后，通过最大化后验来训练模型，计算公式如下：

其中，Θ＝{U，V，W₁，W₂，b₁,b₂}是模型的参数，σ是逻辑函数，Θ_uv＝{U，V} 是用户和项目的嵌入向量，Θ_a＝{W₁，W₂}是注意力网络权重的集合，λ＝ {λ_uv,λ_a}是模型的正则化参数。

根据得到的损失值，采用梯度下降的方法优化模型，进行参数调整，得到经过优化的深度网络，经过多次操作，得到多个损失值，当损失值趋于收敛时结束操作，将此模型作为最终的预测模型。卷积层，LSTM层中的所有参数都是通过反向传播的算法进行训练并更新，损失函数的优化运用随机梯度下降法。

需要说明的是，以上所述实例仅是本发明的较优实施例，本发明并非局限于上述实施例和实施例方法。相关技术领域的从业者可在本发明的技术思路许可的范围内进行不同的细节调整和实施，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请。

Claims

1.本发明涉及机器学习、深度学习及数据挖掘等技术领域，具体是涉及一种分层Attention深度学习模型课程推荐方法。其特征是：利用用户顺序行为数据，使用LSTM建模用户兴趣的动态变化，通过构建分层的Attention结构，得到用户的长期和短期偏好，从而生成用户的高级混合表示，以此提高推荐结果的用户个性化和准确度。具体为：将用户原始在线学习相关行为数据进行筛选和预处理，将用户的顺序行为划分为会话，然后将用户数据的稀疏特征嵌入到全连接层，得到用户向量表示；应用LSTM来捕捉用户不同历史会话兴趣的交互和演化，得到序列化的兴趣向量，将兴趣向量输入到Attention网络中，得到用户的长期兴趣表示；然后将用户最近行为数据和长期兴趣表示输入到第二层Attention网络中，得到用户的混合兴趣表示；最后将用户的混合兴趣表示和课程向量表示做内积，将得到的值作为该候选项目的得分，将候选项目得分排序得到推荐列表以为学生进行个性化推荐。

2.根据权利要求1所述的一种分层Attention深度学习模型课程推荐方法，其特征是：在用户和课程向量表示方面，本发明考虑到学生的学习是一个连续的行为，将用户顺序行为数据进行了细粒度的划分为会话，并使用embedding层和全连接层对细粒度(信息用户ID和课程ID)与粗粒度信息(课程类型)三种数据进行处理，得到用户向量表示，提高了模型的表示能力，有助于提高推荐的准确性。

3.根据权利要求1所述的一种分层Attention深度学习模型课程推荐方法，其特征是：课程知识点提取方面，本发明通过使用CNN模型对课程简介文本进行处理，提取课程中包含的知识点，从而提高学生个性化体验。

4.根据权利要求1所述的一种分层Attention深度学习模型课程推荐方法，其特征是：由于学生的学习是一个连续的行为，前面的学习行为能够对后面的学习行为产生影响，且用户的长期兴趣通常随着时间而变化，仅仅学习每个用户静态的长期偏好是远远不够的，本发明使用LSTM捕捉用户历史会话之间的顺序关系，来建模用户长期兴趣的交互和演化。

5.根据权利要求1所述的一种分层Attention深度学习模型课程推荐方法，其特征是：考虑到相同的项目对下一个项目预测的影响可能不同，且不同的用户，相同的项目对下一个项目预测的影响可能不同，本发明引入Attention层，通过分配不同权重来决定那些课程对于课程推荐有决定性作用。通过两层Attention层的构建，结合用户的长期偏好和短期偏好，得到用户的混合偏好，从而提高模型的性能。