CN111754097A

CN111754097A - 基于多视图编码器-解码器架构的学生成绩预测系统

Info

Publication number: CN111754097A
Application number: CN202010557859.8A
Authority: CN
Inventors: 刘皓冰; 朱燕民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-09

Abstract

一种基于多视图编码器‑解码器架构的学生成绩预测系统，包括：第一编码器、第二编码器、第三编码器和解码器，其中：第一编码器处理学生成绩信息，捕获学生总的成绩趋势；第二编码器处理门禁数据，捕获学生近期的努力程度，第三编码器处理学生基本情况数据，捕获学生的学习基础；解码器与三个编码器相连接，建模编码器学得的高层特征之间复杂的非线性依赖关系。本系统通过利用学生在大学校园内产生的门禁刷卡记录作为辅助信息，形成对学生全方位、多视角的分析评价以实现对学生成绩的智能预测。

Description

基于多视图编码器-解码器架构的学生成绩预测系统

技术领域

本发明涉及的是一种人工智能应用领域的技术，具体是一种基于多视图编码器-解码器架构的学生成绩预测系统。

背景技术

根据研究、工作所涉及的数据来分，前人大部分是在MOOC或者ITS上进行。在传统教学情境下，相当一部分研究是限制在单门课程上。很少有研究是在专业层次上。

至于影响学生成绩的因子，学生以前的成绩、学生所提交的作业等等被广泛应用。除此之外，额外信息如学生的基本信息、学生在使用在线学习系统所被记录的各种学习行为、学生出席次数等被证明对提升预测准确度有很大帮助。但是学生在使用在线学习系统所被记录的各种学习行为、学生出席次数不易被收集因为种种原因，如缺乏相关记录设施、课堂上学生人数太多。

至于预测模型，前人工作大部分是基于传统的分类/回归方法，比如说线性回归、逻辑回归、决策树、支持向量机等。此外，一些人提出使用矩阵分解相关技术；一些人提出使用人工神经网络；一些人提出使用集成学习的思想。

发明内容

本发明提出一种基于多视图编码器-解码器架构的学生成绩预测系统，本系统通过利用学生在大学校园内产生的门禁刷卡记录作为辅助信息，形成对学生全方位、多视角的分析评价以实现对学生成绩的智能预测。总的来说，采集校园中易得的和成绩最为相关的三种数据：学生各科成绩数据、门禁数据(包括寝室门禁和图书馆门禁)以及学生基本情况数据(如年级、专业等)。其中，学生成绩信息可以反映学生的总的成绩趋势；门禁数据可以反映学生的学习努力程度；学生基本情况数据可以反映学生的学习基础。针对这三种数据，发明三种对应的编码器去处理。此外，还发明可以有效建模高层特征间复杂的非线性依赖关系的解码器。

本发明是通过以下技术方案实现的：

本发明包括：第一编码器、第二编码器、第三编码器和解码器，其中：第一编码器处理学生成绩信息，捕获学生总的成绩趋势；第二编码器处理门禁数据，捕获学生近期的努力程度，第三编码器处理学生基本情况数据，捕获学生的学习基础；解码器与三个编码器相连接，建模编码器学得的高层特征之间复杂的非线性依赖关系。

技术效果

与现有技术相比，本发明根据学生图书馆进馆刷卡记录、学生基本信息等额外的信息为成绩预测提供额外有效的依据。本发明使用这些辅助信息，结合学生成绩数据，所有的数据分成三个视图：一个数据视图(学生每学期的加权平均成绩序列)蕴含学生的总的成绩趋势；一个数据视图(学生最近图书馆进馆刷卡和宿舍进门刷卡序列)反映学生近期的努力程度，直观来讲，去图书馆次数越多、越早，回寝室越晚，学生越努力；一个数据视图(学生的基本信息)隐含着学生的学习基础情况，例如，东部沿海地区教育资源较为发达，来自沿海省份的学生学习基础较雄厚。本发明利用多视图编码器-解码器架构来整合这三个视图。本发明是端到端的架构，不需要人工定义、抽取特别多的特征；架构也具有良好的可扩展性。

附图说明

图1为多视图编码器-解码器结构示意图；

图2为第二编码器所使用到的注意力机制示意图；

图3为解码器使用到的残差单元示意图。

具体实施方式

本实施例为每个学生计算其历史各学期加权平均成绩，学生s在学期t的课程集合若为Θ，则t学期的加权平均成绩为

这样，学生s的历史成绩序列为

T是指学生s参与的学期总数为T个，即第一部分输入。真正输入模型前需要做预处理，这里把数值点使用标准的最小最大正则缩放到-1到1之间。

本实施例统计学生每天每个小时段内刷卡进图书馆的次数。具体来讲，若是第x天，记录[00:00，01:00)时间段内学生s去图书馆的次数c₀，一整天则会产生24个计数c₀——c₂₃，这24个值就构成一个向量，反映学生s进图书馆的情况，蕴含时间信息和次数信息。类似的，本实施例统计学生每天每个小时段内刷卡进宿舍的次数得到另外24个计数c′₀——c′₂₃。再把这 48个值拼接成48维的向量

其中，T+1指要预测的第T+1学期。一般每学期有18周，这里为提早做出预测，本实施例选取前9周，即63天，过完第63天本实施例就可以给出成绩预测结果。

第二部分输入为学生行为序列：{V_T+1,1，V_T+1,2，…，V_T+1,x，…，V_T+1,63}。这里对序列采用的预处理是把数值点使用标准的最小最大正则缩放到到0到1之间。

第三部分输入为学生基本信息B。这里对学生基本信息采用的预处理是连续值等宽离散化和独热编码。

如图1所示，本实施例包括：第一编码器、第二编码器、第三编码器和解码器，其中：第一编码器处理第一部分输入，即学生成绩信息，捕获学生总的成绩趋势；第二编码器处理第二部分输入，即学生日常行为数据，捕获学生近期的努力程度，第三编码器处理第三部分输入，即学生基本情况信息，捕获学生的学习基础；解码器与三个编码器相连接，建模编码器学得的高层特征之间复杂的非线性依赖关系。

所述的第一编码器使用变长LSTM进行建模因为学生的加权平均成绩序列是不等长的，例如，有的学生在大学只呆一学期，其产生的序列长度便为1。

所述的第二编码器使用加入注意力机制的LSTM进行建模。加入注意力机制是为区分不同天的重要程度。不同天对不同学生成绩影响不同，如因学生学习习惯不同、是否为假期等因素影响。

所述的第三编码器使用密集嵌入学得一个紧凑的学生基础表示。

所述的第一编码器、第二编码器的LSTM满足：i_t＝σ(W_ixx_t+W_ihh_h-1+W_icc_t-1+ b_i)，f_t＝σ(W_fxx_t+W_fhh_h-1+W_fcc_t-1+b_f)，c_t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_h-1+ b_c)，o_t＝σ(W_oxx_t+W_ohh_h-1+W_occ_t+b_o)，h_t＝o_t⊙tanh(c_t)，其中：x_t和h_t是LSTM的输入和相应的输出，W是权重，b是偏置，σ是sigmoid函数，⊙是点积。对于第一编码器来讲，取LSTM最后一个输出作为学生成绩趋势表示h^L＝LSTM(g₁,…,g_T)。对于第二编码器来讲， LSTM和注意力机制相结合，LSTM部分为：

如图2所示，所述的第二编码器的注意力机制满足：

其中：

是LSTM的输出，W是权重，b是偏置，α_x为注意力得分，u_w可以看成是提问“哪天信息更丰富更重要”的抽象表达，其和W、b一样，也是在训练过程中学得的。这样得到学生近期努力程度的表示h^s。

所述的第三编码器即密集嵌入满足：e＝[W₁B₁,W₂B₂,…,W_NB_N]，其中：W是权重，N 表示有N个类别信息，如性别、专业。形式化来讲，B＝[B₁,B₂,…,B_N]。这样得到学生基础的表示e。

所述的解码器选用残差网络，其中残差单元设计如图3所示，满足：

其中：l指的是第l个残差单元，

是残差方程，即2组“Dense+PRelu+Dropout”，Dense 即为全连接，PRelu是激活函数，Dropout层为防止过拟合。根据式子，不难发现X^(l)和

要求维度一致，若不一致，可以对实验中X(^l)施以线性变换。我们的残差网络使用2组残差单元，效果达到最佳。残差网络的第0层即为残差网络的输入，为[h^L,h^S,e]。最后的输出为

其中：W是权重，b是偏置，X^(L+1)为残差网络的输出，

即为本实施例的预测结果。

为防止模型在训练集上过拟合，本实施例使用Dropout技术。

实验数据从真实的大学校园采集，数据都经过匿名化处理，涉及8005名学生，有两个连续学期的行为数据，图书馆门禁条数共为830781，宿舍门禁条数共为1584927。前一个学期的数据用作训练，后一个学期的数据用作测试。超参数设置为：第一编码器变长LSTM的隐状态长度为5，第二编码器LSTM的隐状态长度为24，第三编码器共有30个神经元，残差单元的Dense有100个神经元，Dropout率为0.4，选用2个残差单元。实验结果与相关工作做对比，我们的效果最佳，有着明显的提升。

方法	均方误差
		历史成绩均值	30.03
贝叶斯岭回归	23.10
		支持向量回归	22.43
随机森林	17.55
		梯度提升树	17.67
前馈神经网络	17.28
		本实施例	14.57

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于多视图编码器-解码器架构的学生成绩预测系统，其特征在于，包括：第一编码器、第二编码器、第三编码器和解码器，其中：第一编码器处理学生成绩信息，捕获学生总的成绩趋势；第二编码器处理门禁数据，捕获学生近期的努力程度，第三编码器处理学生基本情况数据，捕获学生的学习基础；解码器与三个编码器相连接，建模编码器学得的高层特征之间复杂的非线性依赖关系。

2.根据权利要求1所述的学生成绩预测系统，其特征是，所述的学生成绩信息是指：学生s的历史成绩序列为

T是指学生s参与的学期总数为T个。

3.根据权利要求1所述的学生成绩预测系统，其特征是，所述的学生近期的努力程度，即学生行为序列：{V_T+1,1，V_T+1,2，…，V_T+1,x，…，V_T+1,63}，该序列采用的预处理是把数值点使用标准的最小最大正则缩放到到0到1之间。

4.根据权利要求1所述的学生成绩预测系统，其特征是，所述的学生基本情况数据，即学生基本信息B，这里对学生基本信息采用的预处理是连续值等宽离散化和独热编码。

5.根据权利要求1所述的学生成绩预测系统，其特征是，所述的第一编码器使用变长LSTM进行建模。

6.根据权利要求1所述的学生成绩预测系统，其特征是，所述的第二编码器使用加入注意力机制的LSTM进行建模。

7.根据权利要求1所述的学生成绩预测系统，其特征是，所述的第三编码器使用密集嵌入学得一个紧凑的学生基础表示。

8.根据权利要求5或6所述的学生成绩预测系统，其特征是，所述的第一编码器、第二编码器的LSTM满足：i_t＝σ(W_ixx_t+W_ihh_h-1+W_icc_t-1+b_i)，f_t＝σ(W_fxx_t+W_fhh_h-1+W_fcc_t-1+b_f)，c_t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_h-1+b_c)，o_t＝σ(W_oxx_t+W_ohh_h-1+W_occ_t+b_o)，h_t＝o_t⊙tanh(c_t)，其中：x_t和h_t是LSTM的输入和相应的输出，W是权重，b是偏置，σ是sigmoid函数，⊙是点积；对于第一编码器来讲，取LSTM最后一个输出作为学生成绩趋势表示h^L＝LSTM(g₁,…,g_T)；对于第二编码器来讲，LSTM和注意力机制相结合，LSTM部分为：

9.根据权利要求8所述的学生成绩预测系统，其特征是，所述的第二编码器的注意力机制满足：

其中：

是LSTM的输出，W是权重，b是偏置，α_x为注意力得分，u_w可以看成是提问“哪天信息更丰富更重要”的抽象表达，其和W、b一样，也是在训练过程中学得的，这样得到学生近期努力程度的表示h^S。

10.根据权利要求8所述的学生成绩预测系统，其特征是，所述的解码器选用残差网络，其中残差单元满足：

其中：l指的是第l个残差单元，

是残差方程，即2组全连接、激活函数和防止过拟合层；

所述的残差网络包括2组残差单元，残差网络的第0层即为残差网络的输入，为[h^L,h^S,e]，最后的输出为

其中：W是权重，b是偏置，X^(L+1)为残差网络的输出，

即为预测结果。