CN116306785A

CN116306785A - 一种基于注意力机制的卷积长短期网络的学生成绩预测方法

Info

Publication number: CN116306785A
Application number: CN202310299723.5A
Authority: CN
Inventors: 张晓丽; 孔琛; 朱贵富; 许诺; 闻俊; 聂佳磊; 杨璨
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-03-25
Filing date: 2023-03-25
Publication date: 2023-06-23

Abstract

本发明涉及一种基于注意力机制的卷积长短期网络的学生成绩预测方法，利用学生的先修课程成绩来预测专业课成绩，能应用于在专业课程开始前进行预警。本发明将获取的先修课程成绩数据输入到卷积长短期记忆网络层进行特征学习；将学习到的序列特征输入到注意力机制层，对不同的先修课程成绩特征分配不同的权重；将学习到的序列特征与注意力机制生成的权重送入到合并层进行特征合并；将合并的特征送入两个全连接网络层，进行分类，最后的输出即为预测结果；本发明的长短期记忆网络是能处理时间序列数据的预测网络，同时新加入的卷积层能更好的提取先修课程的特征，最后的注意力机制能够给不同的先修课程分配不同的权重来影响最终的预测结果。

Description

一种基于注意力机制的卷积长短期网络的学生成绩预测方法

技术领域

本发明涉及机器学习、深度学习、教育数据挖掘等技术领域。具体涉及一种基于注意力机制的卷积长短期网络的学生成绩预测方法。

背景技术

教育数据挖掘是一种将数据挖掘技术应用于教育领域的方法，旨在探索学生学习和教育中的模式、关系和规律，并为教育管理和教学改进提供科学依据，包含了预测技术、聚类技术、关联挖掘等技术。其中预测技术常用来预测学生的成绩，比如通过学生的历史成绩或行为信息等数据来预测学生是否能够通过课程考试。因此，成绩预测研究是当下教育数据挖掘的一个热点。

在学生成绩预测领域，已有的研究中已经取得了巨大的成果，但是大部分模型对学生成绩预测仍然存在一些局限性问题，主要体现在：(1)预测模型的滞后性，现有的成绩预测模型大都基于学生在课程学习中产生的学习数据，往往在课程中后期才能提供预测，所以无法在教学初期提供帮助。(2)多数采用了长短期记忆网络LSTM，该模型虽然能处理长时间序列数据，但是标准LSTM仅使用最后一个时间点的学习特征进行回归，并没有将其他时间点的特征对结果预测的影响纳入考虑。

发明内容

本发明提供一种基于注意力机制的卷积长短期网络的学生成绩预测方法，本发明的方法不依赖待预测课程开展过程中的信息，利用长短期记忆网络来处理时间序列数据，通过新加入的卷积层来更好的提取先修课程的特征，再利用注意力机制给不同的先修课程分配不同的权重来影响最终的预测结果，最后将学习到的特征通过全连接网络进行分类，实现对专业课成绩的分类预测，本发明预测效果好。

本发明的技术方案是：一种基于注意力机制的卷积长短期网络的学生成绩预测方法，包括如下步骤：

Step1、将获取的先修课程成绩数据输入到卷积长短期记忆网络层CLSTM网络进行特征学习，提取相应课程的序列特征；

Step2、考虑到不同先修课程成绩对专业课程成绩会产生不同的影响，将学习到的序列特征输入到注意力机制层，对不同的先修课程成绩特征分配不同的权重来对预测结果产生影响；

所述Step2中，引入了注意力机制Attention层对不同先修课程所学习到的不同特征分配不同的权重，对预测结果产生影响。

Step3、将卷积长短期记忆层CLSTM学习到的序列特征与注意力机制Attention生成的权重送入到合并层进行特征合并，以便送入全连接网络层进行最终的预测；

Step4、将合并的特征送入两个全连接网络层，通过第一层激活函数为relu的全连接网络层用于能够更好的表示学习特征，最后将第一个全连接网络层的输出作为第二个激活函数为softmax的全连接网络层的输入，进行分类，最后的输出即为预测结果。

作为本发明的进一步方案，所述Step1中，获取先修课程成绩数据具体包括如下步骤：

步骤1、获取学生成绩数据，并对学生成绩数据进行预处理；

步骤2、筛选出将要预测的专业课成绩数据，根据专业课成绩将其分为有挂科风险的学生和安全学生两类，作为分类标签；根据专业课筛选出对应的先修课程成绩数据，作为输入特征；并划分训练集和测试集。

作为本发明的进一步方案，所述步骤1中，学生成绩数据包括了学生的基本信息、所学课程的基本信息、课程成绩信息；具体字段包括：学号、学年、学期、课程代码、课程名称、课程类别、修读性质、考试成绩、特殊情况；其中，修读性质分为初修和重修，特殊情况有缺考和无两种；因为所学课程与其学年和学期一一对应，所以学生的先修课程成绩与专业课成绩为一条时间序列数据，学生在这条时间线上的不同学年的不同学期会产生相对应的成绩数据；为了有效研究学生的先修课程成绩和专业课程成绩之间的关系，所以在修读性质字段中只保留了学生的初修成绩。

作为本发明的进一步方案，所述步骤2的具体步骤如下：

(1)、专业课程选取：基于学生数量对数据集中的专业课成绩数据进行统计；

(2)、先修课程选取：专业课的先修课程包含了必修课、通识教育课、学科基础课三类；将学生的先修课程成绩数据导出，通过字段XH，也就是学生学号进行两表关联，再计算该先修课程的学生数量占专业课程学生数量的比重，占比低的先修课程不作为模型输入；将占比高于80％的先修课程筛选出来，作为输入先修课程特征X_i，i表示为不同的先修课程；

(3)、将专业课程根据成绩分布特征划分为两类，一类为有挂科风险学生，一类为安全学生；此分类则作为标签Y_j；

(4)、根据标签分布，随机选取其中80％的数据和相应的输入特征作为训练集，剩下的20％则作为测试集。

作为本发明的进一步方案，所述Step1中，进行特征学习，提取相应课程的序列特征的具体步骤如下：

a1、首先输入的先修课程特征X_i经过输入门input gates，输入门决定了多少比例的信息会被存入当前细胞态；

a2、再进入遗忘门forget gates，将细胞态中的信息选择性遗忘；

a3、再进入单元门，单元门表示归纳出的待存入细胞态的新知识，是当前时刻的输入的先修课程特征X_i和上个时刻的短期记忆H_t-1的函数；

a4、再通过输出门将细胞态中的信息选择性的进行输出；

a5、再通过单元输出门表示将单元门的新知识和输出门进行合并；

当用于进行预测时，在单元输出上添加逻辑层；

假设时间t的实际成绩为r_t，CLSTM的损失函数定义为：

其中θ表示模型的参数，

为实际预测成绩；

目标函数是一个具有大量输入数据的非凸问题；因此，使用随机梯度下降SGD来解决优化问题；在优化过程中，与标准LSTM一样，通过时间的反向传播来计算相对于成本的梯度，以优化参数。

作为本发明的进一步方案，所述Step1中，在考虑学生学习大学课程的过程中，存在时序性，使用加入卷积计算的长短期记忆网络CLSTM对先修课程的特征序列进行建模，相较于标准LSTM仅使用最后一个时间点的学习特征进行回归，其他时间点的习得特征对于模型预测也有贡献，所以加入了卷积计算，卷积运算能在给定时域特征的情况下自动学习有意义的特征。

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1、利用注意力机制来学习特征和时间步骤的重要性；在Step1中，得到CLSTM网络对一个样本的学习特征表示为H＝{h₁，h₂，…，h_n}^T，T是转置运算；这里，h_i∈R_n，其中n是特征的连续步数；基于注意力机制，第i个输入h_i的不同顺序步骤的重要性表示为：

S_i＝Φ(W^Th_i+b)

其中W和b分别是权重矩阵和偏置向量，Φ(·)是得分函数；

Step2.2、在获得第i个特征向量的分数后，使用softmax函数对其进行归一化：

Step2.3、注意力机制的最终输出特征O表示为：

其中Y＝{y₁，y₂，…，y_n}，并且

是定义为元素乘法的新运算，新运算为若给定向量b＝[b₁,b₂,…,b_n]^T和c＝[c₁,c₂,…,c_n]^T，/>

本发明的有益效果是：

(1)相较于传统的LSTM成绩预测模型，本发明在LSTM的门到门的转换中加入了卷积计算，卷积运算可以在给定时域特征的情况下自动学习有意义的特征，可以提取到更多的有效特征；

(2)引入了注意力机制Attention，注意力机制能够为不同的先修课程特征分配不同的权重，对预测结果产生影响，提高了预测模型的性能；最后将学习到的特征通过全连接网络进行分类，实现对专业课成绩的分类预测；

(3)本发明的方法不依赖待预测课程开展过程中的信息，利用长短期记忆网络来处理时间序列数据，本发明利用学生先修课程成绩来预测专业课成绩，能应用在专业课程开始前进行预警；

(4)与传统的机器学习成绩预测模型SVM、DT、NB、KNN、RF和深度学习成绩预测模型RNN、DNN、SRN相比，提出的方法在准确率Accuracy、精确率Precision、召回率Recall、F1-Score四个评价指标上均取得了较好的预测效果，优于所有这些先进的方法。

附图说明

图1是所提出的基于注意力机制的卷积长短期记忆神经网络CLSTM-Attention的模型框架图；

图2是基于注意力机制的卷积长短期记忆神经网络的专业课成绩预测的整体流程图；

图3是卷积长短期记忆网络CLSTM结构示意图；

图4是注意力机制Attention结构示意图；

图5是预测课程为《计算机网络技术》成绩的预测结果；

图6是预测课程为《数据结构》成绩的预测结果；

图7是预测课程为《自动控制原理》成绩的预测结果。

具体实施方式

实施例1、如图1-图7所示，本发明提供一种基于注意力机制的卷积长短期网络的学生成绩预测方法，本发明以预测某高校的学生专业课程成绩为实例描述本方法的具体实施过程：

本发明的模型图如图1所示；

本发明的整体流程图如图2所示，结合示意图说明本发明的具体步骤如下：

所述Step1中，获取先修课程成绩数据具体包括如下步骤：

步骤1、经过与相关部门和教师协商获得某高校某院的学生成绩数据，并对学生成绩数据进行预处理；

通过与某高校相关部门以及教师协商获得了某高校某院从2014年到2021年的本科学生学生成绩数据，这些学生成绩数据包括了学生的基本信息、所学课程的基本信息、课程成绩信息等；具体字段包括：学号、学年、学期、课程代码、课程名称、课程类别、修读性质、考试成绩、特殊情况；其中，修读性质分为初修和重修，特殊情况有缺考和无两种；因为所学课程与其学年和学期一一对应，所以学生的先修课程成绩与专业课成绩为一条时间序列数据，学生在这条时间线上的不同学年的不同学期会产生相对应的成绩数据；为了有效研究学生的先修课程成绩和专业课程成绩之间的关系，所以在修读性质字段中只保留了学生的初修成绩，而学生初修成绩中包含了0分数据，这类学生都属于特殊情况，对研究无用，所以将成绩为0的学生成绩数据剔除。

所述步骤2的具体步骤如下：

(1)、专业课程选取：基于学生数量对数据集中的专业课成绩数据进行统计；为了满足实验需求，专业课考试成绩数据的学生需要足够多，所以将学生数量超过2000的专业课程选出，在本发明的数据集中满足要求的课程有3门，即《自动控制原理》、《计算机网络技术》、《数据结构》；

(2)、先修课程选取：专业课的先修课程包含了必修课、通识教育课、学科基础课三类；分别将拥有《计算机网络技术》、《数据结构》、《自动控制原理》成绩的学生的先修课程成绩数据导出，通过字段XH，也就是学生学号进行两表关联，再计算该先修课程的学生数量占专业课程学生数量的比重，因为修读同一门专业课程的学生所学的先修课程不一定相同；占比低的先修课程因为修读学生过少而导致缺失值过多，不作为模型输入；将占比高于80％的先修课程筛选出来，最终先修课程确定为《高等数学A1》、《高等数学A2》、《线性代数》、《物理实验1》、《物理实验2》……《C语言程序设计》、《大学英语1》、《大学英语2》、《测绘技术》。这些先修课程成绩作为输入先修课程特征X_i，i表示为不同的先修课程；

(3)、将专业课程根据成绩分布特征划分为两类，一类为不及格学生，分数为60分以下，不包含60分。一类为及格学生，分数为60分以上包含60分；此分类则作为标签Y_j；

本发明的卷积长短期记忆层CLSTM结构图如图3所示，所述Step1中，进行特征学习，提取相应课程的序列特征的具体步骤如下：

a1、首先输入的先修课程特征X_i经过输入门input gates，输入门决定了多少比例的信息会被存入当前细胞态；计算公式如下：

a2、再进入遗忘门forget gates，将细胞态中的信息选择性遗忘；计算公式如下：

a3、再进入单元门，单元门表示归纳出的待存入细胞态的新知识，是当前时刻的输入的先修课程特征X_i和上个时刻的短期记忆H_t-1的函数：

a4、再通过输出门将细胞态中的信息选择性的进行输出，公式如下：

a5、再通过单元输出门表示将单元门的新知识和输出门进行合并，计算公式如下：

其中*表示卷积运算，W和B项表示学习所需的权重和偏差。Hto表示将矩阵展平为向量。σ(x)用于将输入压缩到[0，1]范围，φ(x)用于将输入压缩到[-1，1]范围，如下所示：

当用于进行预测时，在单元输出上添加逻辑层，如下所示：

假设时间t的实际成绩为r_t，CLSTM的损失函数定义为：

其中θ表示模型的参数，

为实际预测成绩；

θ＝{W_si，W_hi，W_ci，W_sf，W_hf，W_cf，W_sc，W_hc，W_so，W_ho，W_co，W_hr，B_i，B_f，B_c，B_o，B_r，}

目标函数是一个具有大量输入数据的非凸问题；因此，使用随机梯度下降(SGD)来解决优化问题；在优化过程中，与标准LSTM一样，通过时间的反向传播来计算相对于成本的梯度，以优化参数。对于预测的顶部逻辑层，损失函数相对于权重和偏差的梯度可以计算为：

其他参数梯度的计算类似于LSTM中的BPTT，因为CLSTM仅包含卷积运算。不同的是内核权重和偏差的梯度，这需要添加：

其中(p)_uv是在卷积期间按元素乘以W_co以计算输出卷积图中(u，v)处的元素的面片。在用反向传播计算梯度之后，可以用SGD优化参数。参数的更新过程可以写成：

其中α是学习率。CLSTM的输入、单元输出和隐藏状态可以看作是二维传统LSTM的扩展。CLSTM的过渡核可以捕获动态特征。通过在维度中填充，卷积输出的大小保持不变。在边界点上实现隐藏状态的零填充操作，使得获得的输出具有与原始输入相同的维度。

本发明的注意力机制层Attention结构图如图4所示，所述Step2的具体步骤为：

*_i＝Φ(W^Th_i+b)

其中W和b分别是权重矩阵和偏置向量，Φ(·)是得分函数；

Step2.3、注意力机制的最终输出特征O表示为：

其中Y＝{y₁，y₂，…，y_n}，并且

是定义为元素乘法的新运算，新运算为若给定向量b＝[b₁,b₂,…,b_n]^T和c＝[c₁,c₂，…，c_n]^T，/>

本发明的训练参数说明如下：

对于所提出的基于注意力机制的卷积长短期网络深度学习方法，应该基于给定的训练数据来调整一些结构参数，即隐藏节点的数量。以预测学生《计算机网络技术》课程的挂科风险为例，本发明在tensorflow2.1环境下进行，使用训练数据进行交叉验证，以确定所提出方法的参数，CLSTM网络的隐藏单元的数量是50，卷积核为3x3，用于成绩预测两层全连接层网络单元数量为(25，5)，采用softmax分类函数，l2正则化，Adam的优化算法的学习率设置为0.0001，损失函数为CategoricalCrossentropy，准确率计算为Categorical_accuracy，batch size为32，epoch为1000，freq为1。对每个数据集运行十次，准确率预测平均结果如图5-图7所示，图5-图7中，纵坐标是准确率，横坐标是迭代次数epoch，从图中可以可看出本发明准确率高。

为了评估所提出的注意力机制和加入卷积计算提取时序特征的有效性，对所提出的方法进行了消融研究。具体来说，消融实现了原始的长短期记忆网络LSTM、基于注意力机制的长短期记忆网络LSTM-Attention，基于卷积的长短期记忆网络CLSTM，将这三种消融模型于所提出的预测模型进行对比，实验结果如表1-表3所示；

表1预测课程为《计算机网络技术》的模型消融实验结果

模型	Accuracy	Precision	Recall	F1-Score
					LSTM	0.894	0.873	0.940	0.910
LSTM-Attention	0.915	0.894	0.953	0.918
					CLSTM	0.912	0.907	0.962	0.922
CLSTM-Attention(本发明)	0.947	0.906	0.965	0.935

表2预测课程为《数据结构》的模型消融实验结果

模型	Accuracy	Precision	Recall	F1-Score
					LSTM	0.872	0.867	0.918	0.898
LSTM-Attention	0.897	0.882	0.933	0.907
					CLSTM	0.892	0.887	0.942	0.902
CLSTM-Attention(本发明)	0.905	0.895	0.945	0.915

表3预测课程为《自动控制原理》的模型消融实验结果

模型	Accuracy	Precision	Recall	F1-Score
					LSTM	0.844	0.837	0.896	0.866
LSTM-Attention	0.875	0.854	0.912	0.877
					CLSTM	0.882	0.869	0.924	0.871
CLSTM-Attention(本发明)	0.878	0.886	0.927	0.895

根据表1-表3的结果表明，通过实验，基于注意力机制的长短期网络LSTM-Attention和基于卷积的长短期记忆网络CLSTM优于原始长短期网络LSTM，这表明了两种方案的有效性。此外，可以发现，在预测正确率方面，卷积长短期记忆网络CLSTM比基于注意机制的LSTM具有更好的性能。这意味着在提升长短期记忆网络LSTM的成绩预测模型中，所提出的卷积计算提取时序特征比所提出的注意力机制更有效，换句话说，卷积计算更好地补偿了成绩预测任务的自动学习特征。采用这两种有效方案的所提出的也就是本发明的方法在四个评价指标下在三个数据集上实现了最佳性能。

表4不同模型在预测课程为《计算机网络技术》时的性能比较

方法	Accuracy	Precision	Recall	F1-Score
					SVM	0.909	0.894	0.918	0.908
DT	0.823	0.818	0.834	0.815
					KNN	0.747	0.727	0.729	0.712
NB	0.783	0.906	0.671	0.771
					RF	0.869	0.914	0.837	0.874
DNN	0.903	0.898	0.927	0.912
					RNN	0.911	0.891	0.956	0.922
SRN	0.915	0.897	0.957	0.926
					CLSTM-A	0.925	0.906	0.965	0.935

表5不同模型在预测课程为《数据结构》时的性能比较

方法	Accuracy	Precision	Recall	F1-Score
					SVM	0.861	0.831	0.939	0.869
DT	0.843	0.858	0.834	0.808
					KNN	0.819	0.863	0.785	0.821
NB	0.743	0.865	0.713	0.751
					RF	0.877	0.894	0.873	0.884
DNN	0.893	0.909	0.887	0.898
					RNN	0.886	0.903	0.894	0.907
SRN	0.906	0.901	0.897	0.908
					CLSTM-A	0.912	0.895	0.945	0.915

表6不同模型在预测课程为《自动控制原理》时的性能比较

方法	Accuracy	Precision	Recall	F1-Score
					SVM	0.881	0.852	0.921	0.891
DT	0.858	0.872	0.846	0.814
					KNN	0.867	0.856	0.835	0.876
NB	0.787	0.864	0.833	0.847
					RF	0.895	0.868	0.899	0.893
DNN	0.875	0.862	0.887	0.879
					RNN	0.883	0.871	0.894	0.891
SRN	0.897	0.883	0.898	0.871
					CLSTM-A	0.893	0.886	0.927	0.895

比较了不同算法下的模型性能，为了评价本发明的预测模型的准确性，本发明使用成绩预测中常用的机器学习算法和深度学习算法来评估该预测模型在学生成绩预测任务中的预测性能。机器学习算法包括SVM、C5 Decision Tree、KNN、NB、RF。深度学习算法包括DNN、SRN、RNN，同时在实验过程中，均使用tensorflow2.1工具包来对这些算法进行实现。考虑到一些算法参数初始化的随机性，这些算法对每个数据集运行十次，并报告平均结果。如表4-表6所示，本发明在四个评价指标中均优于已有算法。

本发明的方法不依赖待预测课程开展过程中的信息，利用长短期记忆网络来处理时间序列数据，通过新加入的卷积层来更好的提取先修课程的特征，再利用注意力机制给不同的先修课程分配不同的权重来影响最终的预测结果，最后将学习到的特征通过全连接网络进行分类，实现对专业课成绩的分类预测，分类效果好，本发明利用学生先修课程成绩来预测专业课成绩，能应用在专业课程开始前进行预警。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：包括如下步骤：

Step2、将学习到的序列特征输入到注意力机制层，对不同的先修课程成绩特征分配不同的权重；

Step3、将学习到的序列特征与注意力机制生成的权重送入到合并层进行特征合并；

2.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：所述Step1中，获取先修课程成绩数据具体包括如下步骤：

步骤1、获取学生成绩数据，并对学生成绩数据进行预处理；

3.根据权利要求2所述的基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：所述步骤1中，学生成绩数据包括了学生的基本信息、所学课程的基本信息、课程成绩信息；具体字段包括：学号、学年、学期、课程代码、课程名称、课程类别、修读性质、考试成绩、特殊情况；其中，修读性质分为初修和重修，特殊情况有缺考和无两种；因为所学课程与其学年和学期一一对应，所以学生的先修课程成绩与专业课成绩为一条时间序列数据，学生在这条时间线上的不同学年的不同学期会产生相对应的成绩数据；为了有效研究学生的先修课程成绩和专业课程成绩之间的关系，所以在修读性质字段中只保留了学生的初修成绩。

4.根据权利要求2所述的基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：所述步骤2的具体步骤如下：

5.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：所述Step1中，进行特征学习，提取相应课程的序列特征的具体步骤如下：

a4、再通过输出门将细胞态中的信息选择性的进行输出；

当用于进行预测时，在单元输出上添加逻辑层；

假设时间t的实际成绩为r_t，CLSTM的损失函数定义为：

其中θ表示模型的参数，

为实际预测成绩；

6.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：所述Step1中，在考虑学生学习大学课程的过程中，存在时序性，使用加入卷积计算的长短期记忆网络CLSTM对先修课程的特征序列进行建模，相较于标准LSTM仅使用最后一个时间点的学习特征进行回归，其他时间点的习得特征对于模型预测也有贡献，所以加入了卷积计算，卷积运算能在给定时域特征的情况下自动学习有意义的特征。

7.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法，其特征在于：所述Step2的具体步骤为：

S_i＝Φ(W^Th_i+b)

其中W和b分别是权重矩阵和偏置向量，Φ(·)是得分函数；

Step2.3、注意力机制的最终输出特征O表示为：

其中Y＝{y₁，y₂，…，y_n}，并且

是定义为元素乘法的新运算，新运算为若给定向量b＝[b₁,b₂,…，b_n]^T和c＝[c₁,c₂，…,c_n]^T，/>