CN114358135B

CN114358135B - 一种利用数据增强和特征加权实现的mooc辍学预测方法

Info

Publication number: CN114358135B
Application number: CN202111503367.1A
Authority: CN
Inventors: 袁新瑞; 高彦太
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2024-02-09
Anticipated expiration: 2041-12-10
Also published as: CN114358135A

Abstract

一种利用数据增强和特征加权实现的MOOC辍学预测方法，基于数据增强和特征加权的CNN_GRU辍学预测模型以视频为单位，通过从在线教育平台中抽取学习者的学习行为数据作为模型输入，经过数据增强、信息提取、特征加权三个步骤计算发生辍学行为的概率。模型能更加准确地预测学习者发生辍学的概率且鲁棒性良好，在指标AUC和F1上模型均取得了最佳表现，分别为86.82%和90.35%。同时通过对比实验的方式，验证了特征加权能够有效提升模型性能。

Description

一种利用数据增强和特征加权实现的MOOC辍学预测方法

技术领域

本发明涉及一种神经网络模型的应用，具体涉及一种利用数据增强和特征加权实现的MOOC辍学预测方法。

背景技术

在线教育作为应对疫情等重大突发事件、保障学生受教育权、促进终身学习的有效方式，已经成为了传统教育的有益补充。但是，由于在线学习监管和学习成果认证的缺失导致在线教育极高的高辍学率，“空壳慕课”现象严重。若能提前地发现潜在的辍学者，并实施干预措施来提高学习者的学习兴趣，降低MOOC辍学率，对于引导学习者持续学习具有重要意义。

针对高辍学率问题，一部分学者致力于研究导致在线辍学的原因，目前的研究显示辍学主要与学习者和课程相关，而首要因素是学习者自身的因素。另一部分学者则是通过分析在线学习平台中的数据去预测学习者是否会发生辍学，目前使用的预测方法主要是统计机器学习方法、深度学习方法以及少量的自然语言处理方法。早期的辍学预测主要集中于传统分类方法，如使用逻辑回归LR(Logistic Regression)、决策树DT(DecisionTree)和支持向量机SVM(Support Vector Machine)等方法。机器学习方法的预测效果在普遍情况下效果良好，但由于进行训练时往往需要足够多的特征数据，否则难以达到更好地效果。近年来，越来越多的深度学习方法被应用于辍学预测。通过特征工程从原始记录中提取了186个特征，进而将CNN和RNN结合在一起进行辍学预测。将学习者和课程信息与4类学习行为记录数据组合到一起，通过DNN进行辍学概率预测。通过自动抽取学习者学习活动日志中一段时间内43个连续特征的统计数据，以学习者行为特征为变量，使用基于卷积神经网络的长短期记忆CNN_LSTM来预测学生下周辍学的可能性。一种基于多模型堆叠集成学习的辍学预测模型。为了提高神经网络模型对MOOC辍学预测的准确性，研究了每个学生初始权重的计算和实现算法，区别于通常的随机选择初始值的方法，训练样本加权后预测性能显著提高。通过采用静态注意力获得每个维度上的注意力权重，实现了模型性能的提高。

通过研究上述文献可以发现：(1)现有的模型使用的数据集是以周为单位的等长周期内学习者的各类活动的点击流信息，而实际MOOCs中的各个课程的周期和课时长度并不一致。(2)训练数据中点击流信息主要是学生一个周期内在课程学习中的视频学习活动、论坛活动、作业活动、网页活动等方面的数量统计，而不是真正的具有时序特征的学习过程行为数据。因此，提出了利用以视频学习为单位的具有时序特征的学习行为数据进行辍学预测的深度网络模型,通过数据增强和特征加权的方式有效提高模型的预测能力，进而及时发现潜在的辍学者。

发明内容

本发明的目的是提供一种利用数据增强和特征加权实现的MOOC辍学预测方法，不仅可以准确发现存在辍学可能性的学习者并及时进行干预，还有助于在线教育持续健康发展。

为了实现上述目的，本发明采用的技术方案是：

一种利用数据增强和特征加权实现的MOOC辍学预测方法，其特征在于，包括以下步骤：

步骤1、定义MOOCs的辍学预测：

定义1.学习者和课程的属性信息，U和C分别表示学习者和课程集合，则(u,c)表示用户u选修课程c；

定义2.学习行为数据：在线学习平台会记录学习者c在课程u的视频学习过程中包括开始学习、快进、倍速、暂停、结束播放等行为数据，将学习行为数据分为第t节视频学习行为数据与前t-1节视频学习的行为数据，分别记为x_t(u,c),x_h(u,c),则与/>(1≤i≤m_x且i为整数，m_x为学习行为数据的特征个数)表示学习者c在课程u中的第i个与学习相关的值为连续值的行为特征；

步骤2、辍学者初筛选：

给定学习者u在课程c前t-1节视频学习行为x_h(u,c)和第t节视频学习行为x_t(u,c)以及学习者信息u和课程信息c，则辍学预测的目标是预测学习者是否会继续第t+1视频课程的学习，用y(u,c)∈{0,1}表示第t节视频学习后是否发生辍学的基本事实，当且仅当y(u,c)为“1”表示该学习者在第t节视频学习后发生了辍学，可用函数表示为：

f:(u,c,x_h(u,c),x_t(u,c))→y(u,c) (1)

步骤3、构建模型：

为了能够及时准确地发现潜在的辍学者，构建基于数据增强和特征加权的ACG模型来预测和分析辍学，模型由卷积神经网络、门控循环单元、自注意力机制等部分组成；卷积层用于筛选学习行为中的有效特征，GRU层用于提取学习行为中的时序信息，模型使用上下文信息对学习行为特征进行增强并嵌入为向量，随后，将使用卷积神经网络和门控循环单元提取到的特征信息和使用自注意力机制学习到的特征权重融合用于辍学预测，提高模型的预测能力；

步骤4、数据增强：

由于学习者的学习行为对学习者信息、课程信息、历史学习活动高度敏感，模型利用上下文信息对学习行为数据增强，即针对第t节视频的学习活动中的第i个学习活动特征，将学习者信息u、课程信息c、以及第i个特征的历史学习活动扩展到第t节视频学习活动中进行数据增强：

公式(2)中1≤i≤m_x，而学习者的第i个特征的历史活动可以由映射函数G得到:/> 因此，/>

随后，将每一个特征通过嵌入层将每个x转换为密集向量。作为连续变量，通过将/>乘以参数向量/>来获得相应的嵌入向量：

公式(3)用表示/>的嵌入矩阵，到这里，/>可以看作是对学习过程行为数据的数据增强表示；

步骤5、信息提取：

模型使用卷积神经网络和门控循环单元进行学习行为中有效信息的提取，CNN自动提取输入数据的重要特征，并且在辍学预测问题中，CNN分类模型进行辍学预测，使用一维卷积神经网络对每一个Eⁱ(1≤i≤m_x)进行卷积操作：

Sⁱ＝σ(W_convδ(Eⁱ)+b_conv) (4)

公式(4)中σ为激活函数，δ是用于将Eⁱ铺平为一维向量的函数，因此，/>分别表示Eⁱ、E卷积后的向量，然后，使用门控循环神经网络进行时序信息提取：

公式(5)到公式(8)中分别表示更新门和重置门；更新门的作用是控制前一时刻/>的状态信息被带入当前状态中的程度；重置门是用于控制前一状态/>有多少信息被写入到当前的候选集上，其中，均是上述公式中的可导变量参数；

步骤6、特征加权

采用自注意力机制对CNN_GRU提取的信息进行特征加权，将经过上一步提取的有效信息h_t作为输入，可以得到加权特征h_Atten：

公式(9)中是参数。而/>可以直接用于交给分类器进行分类；

先使用函数δ将h_Atten转换为一维向量，然后使用sigmoid()函数进行辍学发生的概率计算：

公式(10)中w_s是参数，表示模型预测学习者u在课程c中发生辍学行为的情况，“1”表示模型预测结果为“辍学”；

步骤7、使用随机梯度下降(SGD)训练的分类器训练优化网络参数’，ACG模型使用随机梯度下降作为优化器来构建最小化交叉熵损失函数：

公式(11)中Φ表示模型的参数集合，B是所有选修(u,c)的集合，y(u,u)表示在实际情况中学习者u是否在课程c中发生辍学。

步骤8、根据上述步骤7得到模型每次迭代后的局部最优参数集合Φ。

所述的ACG模型为CNN_GRU模型。

本发明的有益效果是：

基于数据增强和特征加权的CNN_GRU辍学预测模型能够有效利用在线教育平台中记录的学习者学习行为数据，实现在更细粒度的时间内准确预测发生辍学的概率。学习者细粒度阶段辍学率不仅可以用于分析学习者当前的学习状态，进而对学习者的异常学习状态进行干预，还可以作为教学评价中形成性评价的指标之一。未来会将如何借助多媒体设备采集多源数据识别学习过程中学习者的状态作为研究重点，从而在学习过程中进行学习监督和异常学习状态提醒。

附图说明

图1为本发明MOOCs的辍学预测定义图。

图2为本发明ACG模型。

图3为本发明实施例中不同阶段辍学率变化。

具体实施方式

以下结合附图及实施例对本发明进一步叙述，但本发明不局限于以下实施例。

如图1所示，实验中使用的两个数据集MOOCCube和XuetangX均来自于“学堂在线”学习平台的真实使用环境。

MOOCCube数据集如表1训练集特征描述所示，MOOCube数据集提供了14个与课程相关的特征信息、7个与用户相关的特征信息以及11个学习过程的时间序列特征，构成了共计4874298条的训练数据和标签。学习者对一个视频学习过程中的全部学习行为对应一个标签，表示学习者在该视频学习后是否发生辍学，并且按照在线课程包含的视频序号，若学习者学完第t节视频后对第t+1节视频进行了学习，则辍学标签为“0”；若第t节视频学习后不存在对第t+1节视频的学习记录，则辍学标签为“1”。

表1

XuetangX数据集提供了更多方面的在线学习数据，包含了课程信息、学习者信息以及视频学习活动、论坛交流活动、作业也活动、网页活动4类数据。与MOOCCube不同的是，XuetangX仅包含了多种类型活动的统计数据，缺乏以课程视频为单位的存在时间先后的学习行为。实验部分用XuetangX数据集进行测试ACG模型的鲁棒性和泛化能力的验证。

如图3所示，将MOOCCube数据集的各个课程课时分成16个阶段，可以发现学习者在前3个阶段发生辍学的人数占比竟然高达65％,课程结束时累积的辍学人数占比高达95％。其中，有超过36％的学习者在课程开始不久的第一阶段就辍学了，在接下来的2—12阶段，各个阶段的新增辍学人数占比逐渐下降，然后在靠近课程结束的13—16阶段新增人数占比又有所上升，并且最后两个阶段的新增比率上涨了2％-3％。

进一步法将16个阶段分为三个时期：前期为1-3阶段、中期为4-14阶段、后期为15-16阶段，分析产生以上现象的原因有：

前期高辍学率的原因：①学习者选修的课程较多，导致学习者没有足够的时间和精力完成课程；②学习者对课程要求的前序知识掌握不足；③学习者对课程的适应性低。

中期辍学发生的原因：学习者的学习习惯、必备基础知识、时间安排等众多因素导致学习者在中期各阶段保持一定的辍学比例，这些原因同样贯穿整个课程学习过程。

后期辍学比率占比上涨的原因：课程结束时往往会有课程考试，学习者中存在一定比例的学习者因畏惧考试或者无视考试而选择放弃继续学习。

实验设置

实验使用Tensorflow神经网络框架实现，实验进行了12次迭代，更新梯度时的样本批量大小设置为32，使用Adam优化器进行模型优化，学习率为0.0001。模型的输入为每个学习者对第t节视频的学习行为特征矩阵，矩阵的维度大小为11×12，所有的输入特征进行标准化后输入到ACG模型中。嵌入层的隐藏状态向量维度为32，卷积层使用512个一维滤波器，GRU层的隐藏状态向量大小为128。自注意力层的隐含状态向量大小为8。模型最后输出(0,1)的概率数值，表示学习者发生辍学的概率。参数汇总如表2ACG模型参数设置所示。

表2

对比方法：与所提出的基于数据增强和特征加权的CNN_GRU模型做对比的方法有3种传统机器学习模型和2种神经网络模型：

LR：逻辑回归模型；

DT：决策树模型；

SVM：支持向量机模型；

CNN_RNN：卷积神经网络+循环神经网络；

CNN_LSTM：卷积神经网络+长短期记忆网络；

对于上述3种机器学习的模型，将所有特征(包括第t节视频学习行为x_t(u,c)、历史学习行为x_h(u,c)、上下文信息(u,c)用于模型输入。2种神经网络模型在模型结构上和本文模型相比，只是没有添加自注意力机制，所以他们的模型输入和本文模型使用的输入一致。在模型训练时，使用grid search(网格搜索)的方式进行5折交叉验证来调整参数。评价指标包括ROC曲线下的面积AUC值和F1分值。

综上所述：

六类对比方法在MOOCCube和XuetangX两个数据集上预测辍学问题的性能如表3六类方法在两个数据集的效果所示。与3类机器学习方法相比，ACG模型在MOOCCube和XuetangX的得分分别提高了2.88％-3.46％和2.38％-3.31％；与两类神经网络模型相比，ACG模型在MOOCCube和XuetangX的得分分别提高了0.95％-2.26％和0.63％-1.99％。整体而言，ACG模型在两个数据集上均表现最佳，在MOOCCube数据集上的拥有90.93％的最佳AUC得分。此外，在同一方法中，MOOCCube数据集上的AUC得分比XuetangX数据集上的得分高0.15％-1.55％，证明了具有时序特征的学习行为数据能够更好地预测辍学问题。

表3

为了进一步验证特征加权能够有效提高辍学预测模型的性能，在MOOCCube数据集上做了进一步的对比实验。实验设计了三个模型，分别是CNN+GRU、CNN+GRU+注意力机制以及本文提出的ACG模型。CNN+GRU模型由ACG模型去掉自注意力层得到。将ACG中的自注意力机制换为注意力机制便得到CNN+GRU+注意力机制模型，使用注意力机制的模型用(u,c,x_h(u,c))为(u,c,x_h(u,c),x_t(u,c))进行注意力建模。结果如表4特征加权有效性验证结果所示，自注意力机制的使用比未使用注意力机制在MOOCCube数据集上的AUC得分提高了2.60％，比注意力机制提高了1.76％。因此，注意力机制的使用对辍学预测结果有一定的提升，而使用自注意力机制进行特征加权的ACG模型能够显著提高模型的性能。

表4

综上所述，与其他模型相比，ACG预测模型能够更好地利用在线教育平台中学习者的学习行为数据预测出某次学习后发生辍学的概率，并且具有良好的鲁棒性和泛化能力，能够及时准确地定位学习者的辍学时机。

Claims

1.一种利用数据增强和特征加权实现的MOOC辍学预测方法，其特征在于，包括以下步骤：

步骤1、定义MOOCs的辍学预测：

定义1.学习者和课程的属性信息，U和C分别表示学习者和课程集合，则(u，c)表示用户u选修课程信息c；

定义2.学习行为数据：在线学习平台会记录学习者c在课程u的视频学习过程中包括开始学习、快进、倍速、暂停、结束播放行为数据，将学习行为数据分为第t节视频学习行为数据与前t-1节视频学习的行为数据，分别记为x_t(u，c)，x_h(u，c)，则与且i为整数，m_x为学习行为数据的特征个数表示学习者c在课程u中的第i个与学习相关的值为连续值的行为特征；

步骤2、辍学者初筛选：

给定学习者信息u在课程c前t-1节视频学习行为x_h(u，c)和第t节视频学习行为x_t(u，c)以及学习者信息u和课程信息c，则辍学预测的目标是预测学习者是否会继续第t+1视频课程的学习，用y(u，c)∈{0，1}表示第t节视频学习后是否发生辍学的基本事实，当且仅当y(u，c)为“1”表示该学习者在第t节视频学习后发生了辍学，可用函数表示为：

f：(u，c，x_h(u，c)，x_t(u，c))→y(u，c) (1)

步骤3、构建模型：

为了能够及时准确地发现潜在的辍学者，构建基于数据增强和特征加权的ACG模型来预测和分析辍学，模型由卷积神经网络、门控循环单元、自注意力机制部分组成；卷积层用于筛选学习行为中的有效特征，GRU层用于提取学习行为中的时序信息，模型使用上下文信息对学习行为特征进行增强并嵌入为向量，随后，将使用卷积神经网络和门控循环单元提取到的特征信息和使用自注意力机制学习到的特征权重融合用于辍学预测，提高模型的预测能力；

步骤4、数据增强：

公式(2)中1≤i≤m_x，而学习者的第i个特征的历史活动可以由映射函数G得到：/> 因此，/>

随后，将每一个特征通过嵌入层将每个x转换为密集向量；作为连续变量，通过将/>乘以参数向量/>来获得相应的嵌入向量：

步骤5、信息提取：

模型使用卷积神经网络和门控循环单元进行学习行为中有效信息的提取，CNN自动提取输入数据的重要特征，并且在辍学预测问题中，CNN分类模型进行辍学预测，使用一维卷积神经网络对每一个Eⁱ1≤i≤m_x进行卷积操作：

Sⁱ＝σ(W_convδ(Eⁱ)+b_conv) (4)

公式(5)到公式(8)中分别表示更新门和重置门；更新门的作用是控制前一时刻/>的状态信息被带入当前状态中的程度；重置门是用于控制前一状态/>有多少信息被写入到当前的候选集上，其中，/> 均是上述公式中的可导变量参数；

步骤6、特征加权

公式(9)中是参数；而/>可以直接用于交给分类器进行分类；

先使用函数δ将h_Atten转换为一维向量，然后使用sigmoid( )函数进行辍学发生的概率计算：

步骤7、使用随机梯度下降SGD训练的分类器训练优化网络参数，ACG模型使用随机梯度下降作为优化器来构建最小化交叉熵损失函数：

公式(11)中Φ表示模型的参数集合，B是所有选修(u，c)的集合，y(u，c)表示在实际情况中学习者u是否在课程c中发生辍学；

2.根据权利要求1所述的一种利用数据增强和特征加权实现的MOOC辍学预测方法，其特征在于，所述的ACG模型为CNN_GRU模型。