CN116306785A - 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 - Google Patents
一种基于注意力机制的卷积长短期网络的学生成绩预测方法 Download PDFInfo
- Publication number
- CN116306785A CN116306785A CN202310299723.5A CN202310299723A CN116306785A CN 116306785 A CN116306785 A CN 116306785A CN 202310299723 A CN202310299723 A CN 202310299723A CN 116306785 A CN116306785 A CN 116306785A
- Authority
- CN
- China
- Prior art keywords
- course
- repair
- score
- attention mechanism
- students
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 230000007787 long-term memory Effects 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims abstract description 8
- 230000006403 short-term memory Effects 0.000 claims abstract description 7
- 230000008439 repair process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000002679 ablation Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于注意力机制的卷积长短期网络的学生成绩预测方法,利用学生的先修课程成绩来预测专业课成绩,能应用于在专业课程开始前进行预警。本发明将获取的先修课程成绩数据输入到卷积长短期记忆网络层进行特征学习;将学习到的序列特征输入到注意力机制层,对不同的先修课程成绩特征分配不同的权重;将学习到的序列特征与注意力机制生成的权重送入到合并层进行特征合并;将合并的特征送入两个全连接网络层,进行分类,最后的输出即为预测结果;本发明的长短期记忆网络是能处理时间序列数据的预测网络,同时新加入的卷积层能更好的提取先修课程的特征,最后的注意力机制能够给不同的先修课程分配不同的权重来影响最终的预测结果。
Description
技术领域
本发明涉及机器学习、深度学习、教育数据挖掘等技术领域。具体涉及一种基于注意力机制的卷积长短期网络的学生成绩预测方法。
背景技术
教育数据挖掘是一种将数据挖掘技术应用于教育领域的方法,旨在探索学生学习和教育中的模式、关系和规律,并为教育管理和教学改进提供科学依据,包含了预测技术、聚类技术、关联挖掘等技术。其中预测技术常用来预测学生的成绩,比如通过学生的历史成绩或行为信息等数据来预测学生是否能够通过课程考试。因此,成绩预测研究是当下教育数据挖掘的一个热点。
在学生成绩预测领域,已有的研究中已经取得了巨大的成果,但是大部分模型对学生成绩预测仍然存在一些局限性问题,主要体现在:(1)预测模型的滞后性,现有的成绩预测模型大都基于学生在课程学习中产生的学习数据,往往在课程中后期才能提供预测,所以无法在教学初期提供帮助。(2)多数采用了长短期记忆网络LSTM,该模型虽然能处理长时间序列数据,但是标准LSTM仅使用最后一个时间点的学习特征进行回归,并没有将其他时间点的特征对结果预测的影响纳入考虑。
发明内容
本发明提供一种基于注意力机制的卷积长短期网络的学生成绩预测方法,本发明的方法不依赖待预测课程开展过程中的信息,利用长短期记忆网络来处理时间序列数据,通过新加入的卷积层来更好的提取先修课程的特征,再利用注意力机制给不同的先修课程分配不同的权重来影响最终的预测结果,最后将学习到的特征通过全连接网络进行分类,实现对专业课成绩的分类预测,本发明预测效果好。
本发明的技术方案是:一种基于注意力机制的卷积长短期网络的学生成绩预测方法,包括如下步骤:
Step1、将获取的先修课程成绩数据输入到卷积长短期记忆网络层CLSTM网络进行特征学习,提取相应课程的序列特征;
Step2、考虑到不同先修课程成绩对专业课程成绩会产生不同的影响,将学习到的序列特征输入到注意力机制层,对不同的先修课程成绩特征分配不同的权重来对预测结果产生影响;
所述Step2中,引入了注意力机制Attention层对不同先修课程所学习到的不同特征分配不同的权重,对预测结果产生影响。
Step3、将卷积长短期记忆层CLSTM学习到的序列特征与注意力机制Attention生成的权重送入到合并层进行特征合并,以便送入全连接网络层进行最终的预测;
Step4、将合并的特征送入两个全连接网络层,通过第一层激活函数为relu的全连接网络层用于能够更好的表示学习特征,最后将第一个全连接网络层的输出作为第二个激活函数为softmax的全连接网络层的输入,进行分类,最后的输出即为预测结果。
作为本发明的进一步方案,所述Step1中,获取先修课程成绩数据具体包括如下步骤:
步骤1、获取学生成绩数据,并对学生成绩数据进行预处理;
步骤2、筛选出将要预测的专业课成绩数据,根据专业课成绩将其分为有挂科风险的学生和安全学生两类,作为分类标签;根据专业课筛选出对应的先修课程成绩数据,作为输入特征;并划分训练集和测试集。
作为本发明的进一步方案,所述步骤1中,学生成绩数据包括了学生的基本信息、所学课程的基本信息、课程成绩信息;具体字段包括:学号、学年、学期、课程代码、课程名称、课程类别、修读性质、考试成绩、特殊情况;其中,修读性质分为初修和重修,特殊情况有缺考和无两种;因为所学课程与其学年和学期一一对应,所以学生的先修课程成绩与专业课成绩为一条时间序列数据,学生在这条时间线上的不同学年的不同学期会产生相对应的成绩数据;为了有效研究学生的先修课程成绩和专业课程成绩之间的关系,所以在修读性质字段中只保留了学生的初修成绩。
作为本发明的进一步方案,所述步骤2的具体步骤如下:
(1)、专业课程选取:基于学生数量对数据集中的专业课成绩数据进行统计;
(2)、先修课程选取:专业课的先修课程包含了必修课、通识教育课、学科基础课三类;将学生的先修课程成绩数据导出,通过字段XH,也就是学生学号进行两表关联,再计算该先修课程的学生数量占专业课程学生数量的比重,占比低的先修课程不作为模型输入;将占比高于80%的先修课程筛选出来,作为输入先修课程特征Xi,i表示为不同的先修课程;
(3)、将专业课程根据成绩分布特征划分为两类,一类为有挂科风险学生,一类为安全学生;此分类则作为标签Yj;
(4)、根据标签分布,随机选取其中80%的数据和相应的输入特征作为训练集,剩下的20%则作为测试集。
作为本发明的进一步方案,所述Step1中,进行特征学习,提取相应课程的序列特征的具体步骤如下:
a1、首先输入的先修课程特征Xi经过输入门input gates,输入门决定了多少比例的信息会被存入当前细胞态;
a2、再进入遗忘门forget gates,将细胞态中的信息选择性遗忘;
a3、再进入单元门,单元门表示归纳出的待存入细胞态的新知识,是当前时刻的输入的先修课程特征Xi和上个时刻的短期记忆Ht-1的函数;
a4、再通过输出门将细胞态中的信息选择性的进行输出;
a5、再通过单元输出门表示将单元门的新知识和输出门进行合并;
当用于进行预测时,在单元输出上添加逻辑层;
假设时间t的实际成绩为rt,CLSTM的损失函数定义为:
目标函数是一个具有大量输入数据的非凸问题;因此,使用随机梯度下降SGD来解决优化问题;在优化过程中,与标准LSTM一样,通过时间的反向传播来计算相对于成本的梯度,以优化参数。
作为本发明的进一步方案,所述Step1中,在考虑学生学习大学课程的过程中,存在时序性,使用加入卷积计算的长短期记忆网络CLSTM对先修课程的特征序列进行建模,相较于标准LSTM仅使用最后一个时间点的学习特征进行回归,其他时间点的习得特征对于模型预测也有贡献,所以加入了卷积计算,卷积运算能在给定时域特征的情况下自动学习有意义的特征。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、利用注意力机制来学习特征和时间步骤的重要性;在Step1中,得到CLSTM网络对一个样本的学习特征表示为H={h1,h2,…,hn}T,T是转置运算;这里,hi∈Rn,其中n是特征的连续步数;基于注意力机制,第i个输入hi的不同顺序步骤的重要性表示为:
Si=Φ(WThi+b)
其中W和b分别是权重矩阵和偏置向量,Φ(·)是得分函数;
Step2.2、在获得第i个特征向量的分数后,使用softmax函数对其进行归一化:
Step2.3、注意力机制的最终输出特征O表示为:
本发明的有益效果是:
(1)相较于传统的LSTM成绩预测模型,本发明在LSTM的门到门的转换中加入了卷积计算,卷积运算可以在给定时域特征的情况下自动学习有意义的特征,可以提取到更多的有效特征;
(2)引入了注意力机制Attention,注意力机制能够为不同的先修课程特征分配不同的权重,对预测结果产生影响,提高了预测模型的性能;最后将学习到的特征通过全连接网络进行分类,实现对专业课成绩的分类预测;
(3)本发明的方法不依赖待预测课程开展过程中的信息,利用长短期记忆网络来处理时间序列数据,本发明利用学生先修课程成绩来预测专业课成绩,能应用在专业课程开始前进行预警;
(4)与传统的机器学习成绩预测模型SVM、DT、NB、KNN、RF和深度学习成绩预测模型RNN、DNN、SRN相比,提出的方法在准确率Accuracy、精确率Precision、召回率Recall、F1-Score四个评价指标上均取得了较好的预测效果,优于所有这些先进的方法。
附图说明
图1是所提出的基于注意力机制的卷积长短期记忆神经网络CLSTM-Attention的模型框架图;
图2是基于注意力机制的卷积长短期记忆神经网络的专业课成绩预测的整体流程图;
图3是卷积长短期记忆网络CLSTM结构示意图;
图4是注意力机制Attention结构示意图;
图5是预测课程为《计算机网络技术》成绩的预测结果;
图6是预测课程为《数据结构》成绩的预测结果;
图7是预测课程为《自动控制原理》成绩的预测结果。
具体实施方式
实施例1、如图1-图7所示,本发明提供一种基于注意力机制的卷积长短期网络的学生成绩预测方法,本发明以预测某高校的学生专业课程成绩为实例描述本方法的具体实施过程:
本发明的模型图如图1所示;
本发明的整体流程图如图2所示,结合示意图说明本发明的具体步骤如下:
Step1、将获取的先修课程成绩数据输入到卷积长短期记忆网络层CLSTM网络进行特征学习,提取相应课程的序列特征;
所述Step1中,获取先修课程成绩数据具体包括如下步骤:
步骤1、经过与相关部门和教师协商获得某高校某院的学生成绩数据,并对学生成绩数据进行预处理;
通过与某高校相关部门以及教师协商获得了某高校某院从2014年到2021年的本科学生学生成绩数据,这些学生成绩数据包括了学生的基本信息、所学课程的基本信息、课程成绩信息等;具体字段包括:学号、学年、学期、课程代码、课程名称、课程类别、修读性质、考试成绩、特殊情况;其中,修读性质分为初修和重修,特殊情况有缺考和无两种;因为所学课程与其学年和学期一一对应,所以学生的先修课程成绩与专业课成绩为一条时间序列数据,学生在这条时间线上的不同学年的不同学期会产生相对应的成绩数据;为了有效研究学生的先修课程成绩和专业课程成绩之间的关系,所以在修读性质字段中只保留了学生的初修成绩,而学生初修成绩中包含了0分数据,这类学生都属于特殊情况,对研究无用,所以将成绩为0的学生成绩数据剔除。
步骤2、筛选出将要预测的专业课成绩数据,根据专业课成绩将其分为有挂科风险的学生和安全学生两类,作为分类标签;根据专业课筛选出对应的先修课程成绩数据,作为输入特征;并划分训练集和测试集。
所述步骤2的具体步骤如下:
(1)、专业课程选取:基于学生数量对数据集中的专业课成绩数据进行统计;为了满足实验需求,专业课考试成绩数据的学生需要足够多,所以将学生数量超过2000的专业课程选出,在本发明的数据集中满足要求的课程有3门,即《自动控制原理》、《计算机网络技术》、《数据结构》;
(2)、先修课程选取:专业课的先修课程包含了必修课、通识教育课、学科基础课三类;分别将拥有《计算机网络技术》、《数据结构》、《自动控制原理》成绩的学生的先修课程成绩数据导出,通过字段XH,也就是学生学号进行两表关联,再计算该先修课程的学生数量占专业课程学生数量的比重,因为修读同一门专业课程的学生所学的先修课程不一定相同;占比低的先修课程因为修读学生过少而导致缺失值过多,不作为模型输入;将占比高于80%的先修课程筛选出来,最终先修课程确定为《高等数学A1》、《高等数学A2》、《线性代数》、《物理实验1》、《物理实验2》……《C语言程序设计》、《大学英语1》、《大学英语2》、《测绘技术》。这些先修课程成绩作为输入先修课程特征Xi,i表示为不同的先修课程;
(3)、将专业课程根据成绩分布特征划分为两类,一类为不及格学生,分数为60分以下,不包含60分。一类为及格学生,分数为60分以上包含60分;此分类则作为标签Yj;
(4)、根据标签分布,随机选取其中80%的数据和相应的输入特征作为训练集,剩下的20%则作为测试集。
本发明的卷积长短期记忆层CLSTM结构图如图3所示,所述Step1中,进行特征学习,提取相应课程的序列特征的具体步骤如下:
a1、首先输入的先修课程特征Xi经过输入门input gates,输入门决定了多少比例的信息会被存入当前细胞态;计算公式如下:
a2、再进入遗忘门forget gates,将细胞态中的信息选择性遗忘;计算公式如下:
a3、再进入单元门,单元门表示归纳出的待存入细胞态的新知识,是当前时刻的输入的先修课程特征Xi和上个时刻的短期记忆Ht-1的函数:
a4、再通过输出门将细胞态中的信息选择性的进行输出,公式如下:
a5、再通过单元输出门表示将单元门的新知识和输出门进行合并,计算公式如下:
其中*表示卷积运算,W和B项表示学习所需的权重和偏差。Hto表示将矩阵展平为向量。σ(x)用于将输入压缩到[0,1]范围,φ(x)用于将输入压缩到[-1,1]范围,如下所示:
当用于进行预测时,在单元输出上添加逻辑层,如下所示:
假设时间t的实际成绩为rt,CLSTM的损失函数定义为:
θ={Wsi,Whi,Wci,Wsf,Whf,Wcf,Wsc,Whc,Wso,Who,Wco,Whr,Bi,Bf,Bc,Bo,Br,}
目标函数是一个具有大量输入数据的非凸问题;因此,使用随机梯度下降(SGD)来解决优化问题;在优化过程中,与标准LSTM一样,通过时间的反向传播来计算相对于成本的梯度,以优化参数。对于预测的顶部逻辑层,损失函数相对于权重和偏差的梯度可以计算为:
其他参数梯度的计算类似于LSTM中的BPTT,因为CLSTM仅包含卷积运算。不同的是内核权重和偏差的梯度,这需要添加:
其中(p)uv是在卷积期间按元素乘以Wco以计算输出卷积图中(u,v)处的元素的面片。在用反向传播计算梯度之后,可以用SGD优化参数。参数的更新过程可以写成:
其中α是学习率。CLSTM的输入、单元输出和隐藏状态可以看作是二维传统LSTM的扩展。CLSTM的过渡核可以捕获动态特征。通过在维度中填充,卷积输出的大小保持不变。在边界点上实现隐藏状态的零填充操作,使得获得的输出具有与原始输入相同的维度。
作为本发明的进一步方案,所述Step1中,在考虑学生学习大学课程的过程中,存在时序性,使用加入卷积计算的长短期记忆网络CLSTM对先修课程的特征序列进行建模,相较于标准LSTM仅使用最后一个时间点的学习特征进行回归,其他时间点的习得特征对于模型预测也有贡献,所以加入了卷积计算,卷积运算能在给定时域特征的情况下自动学习有意义的特征。
Step2、考虑到不同先修课程成绩对专业课程成绩会产生不同的影响,将学习到的序列特征输入到注意力机制层,对不同的先修课程成绩特征分配不同的权重来对预测结果产生影响;
所述Step2中,引入了注意力机制Attention层对不同先修课程所学习到的不同特征分配不同的权重,对预测结果产生影响。
本发明的注意力机制层Attention结构图如图4所示,所述Step2的具体步骤为:
Step2.1、利用注意力机制来学习特征和时间步骤的重要性;在Step1中,得到CLSTM网络对一个样本的学习特征表示为H={h1,h2,…,hn}T,T是转置运算;这里,hi∈Rn,其中n是特征的连续步数;基于注意力机制,第i个输入hi的不同顺序步骤的重要性表示为:
*i=Φ(WThi+b)
其中W和b分别是权重矩阵和偏置向量,Φ(·)是得分函数;
Step2.2、在获得第i个特征向量的分数后,使用softmax函数对其进行归一化:
Step2.3、注意力机制的最终输出特征O表示为:
Step3、将卷积长短期记忆层CLSTM学习到的序列特征与注意力机制Attention生成的权重送入到合并层进行特征合并,以便送入全连接网络层进行最终的预测;
Step4、将合并的特征送入两个全连接网络层,通过第一层激活函数为relu的全连接网络层用于能够更好的表示学习特征,最后将第一个全连接网络层的输出作为第二个激活函数为softmax的全连接网络层的输入,进行分类,最后的输出即为预测结果。
本发明的训练参数说明如下:
对于所提出的基于注意力机制的卷积长短期网络深度学习方法,应该基于给定的训练数据来调整一些结构参数,即隐藏节点的数量。以预测学生《计算机网络技术》课程的挂科风险为例,本发明在tensorflow2.1环境下进行,使用训练数据进行交叉验证,以确定所提出方法的参数,CLSTM网络的隐藏单元的数量是50,卷积核为3x3,用于成绩预测两层全连接层网络单元数量为(25,5),采用softmax分类函数,l2正则化,Adam的优化算法的学习率设置为0.0001,损失函数为CategoricalCrossentropy,准确率计算为Categorical_accuracy,batch size为32,epoch为1000,freq为1。对每个数据集运行十次,准确率预测平均结果如图5-图7所示,图5-图7中,纵坐标是准确率,横坐标是迭代次数epoch,从图中可以可看出本发明准确率高。
为了评估所提出的注意力机制和加入卷积计算提取时序特征的有效性,对所提出的方法进行了消融研究。具体来说,消融实现了原始的长短期记忆网络LSTM、基于注意力机制的长短期记忆网络LSTM-Attention,基于卷积的长短期记忆网络CLSTM,将这三种消融模型于所提出的预测模型进行对比,实验结果如表1-表3所示;
表1预测课程为《计算机网络技术》的模型消融实验结果
模型 | Accuracy | Precision | Recall | F1-Score |
LSTM | 0.894 | 0.873 | 0.940 | 0.910 |
LSTM-Attention | 0.915 | 0.894 | 0.953 | 0.918 |
CLSTM | 0.912 | 0.907 | 0.962 | 0.922 |
CLSTM-Attention(本发明) | 0.947 | 0.906 | 0.965 | 0.935 |
表2预测课程为《数据结构》的模型消融实验结果
模型 | Accuracy | Precision | Recall | F1-Score |
LSTM | 0.872 | 0.867 | 0.918 | 0.898 |
LSTM-Attention | 0.897 | 0.882 | 0.933 | 0.907 |
CLSTM | 0.892 | 0.887 | 0.942 | 0.902 |
CLSTM-Attention(本发明) | 0.905 | 0.895 | 0.945 | 0.915 |
表3预测课程为《自动控制原理》的模型消融实验结果
模型 | Accuracy | Precision | Recall | F1-Score |
LSTM | 0.844 | 0.837 | 0.896 | 0.866 |
LSTM-Attention | 0.875 | 0.854 | 0.912 | 0.877 |
CLSTM | 0.882 | 0.869 | 0.924 | 0.871 |
CLSTM-Attention(本发明) | 0.878 | 0.886 | 0.927 | 0.895 |
根据表1-表3的结果表明,通过实验,基于注意力机制的长短期网络LSTM-Attention和基于卷积的长短期记忆网络CLSTM优于原始长短期网络LSTM,这表明了两种方案的有效性。此外,可以发现,在预测正确率方面,卷积长短期记忆网络CLSTM比基于注意机制的LSTM具有更好的性能。这意味着在提升长短期记忆网络LSTM的成绩预测模型中,所提出的卷积计算提取时序特征比所提出的注意力机制更有效,换句话说,卷积计算更好地补偿了成绩预测任务的自动学习特征。采用这两种有效方案的所提出的也就是本发明的方法在四个评价指标下在三个数据集上实现了最佳性能。
表4不同模型在预测课程为《计算机网络技术》时的性能比较
方法 | Accuracy | Precision | Recall | F1-Score |
SVM | 0.909 | 0.894 | 0.918 | 0.908 |
DT | 0.823 | 0.818 | 0.834 | 0.815 |
KNN | 0.747 | 0.727 | 0.729 | 0.712 |
NB | 0.783 | 0.906 | 0.671 | 0.771 |
RF | 0.869 | 0.914 | 0.837 | 0.874 |
DNN | 0.903 | 0.898 | 0.927 | 0.912 |
RNN | 0.911 | 0.891 | 0.956 | 0.922 |
SRN | 0.915 | 0.897 | 0.957 | 0.926 |
CLSTM-A | 0.925 | 0.906 | 0.965 | 0.935 |
表5不同模型在预测课程为《数据结构》时的性能比较
方法 | Accuracy | Precision | Recall | F1-Score |
SVM | 0.861 | 0.831 | 0.939 | 0.869 |
DT | 0.843 | 0.858 | 0.834 | 0.808 |
KNN | 0.819 | 0.863 | 0.785 | 0.821 |
NB | 0.743 | 0.865 | 0.713 | 0.751 |
RF | 0.877 | 0.894 | 0.873 | 0.884 |
DNN | 0.893 | 0.909 | 0.887 | 0.898 |
RNN | 0.886 | 0.903 | 0.894 | 0.907 |
SRN | 0.906 | 0.901 | 0.897 | 0.908 |
CLSTM-A | 0.912 | 0.895 | 0.945 | 0.915 |
表6不同模型在预测课程为《自动控制原理》时的性能比较
方法 | Accuracy | Precision | Recall | F1-Score |
SVM | 0.881 | 0.852 | 0.921 | 0.891 |
DT | 0.858 | 0.872 | 0.846 | 0.814 |
KNN | 0.867 | 0.856 | 0.835 | 0.876 |
NB | 0.787 | 0.864 | 0.833 | 0.847 |
RF | 0.895 | 0.868 | 0.899 | 0.893 |
DNN | 0.875 | 0.862 | 0.887 | 0.879 |
RNN | 0.883 | 0.871 | 0.894 | 0.891 |
SRN | 0.897 | 0.883 | 0.898 | 0.871 |
CLSTM-A | 0.893 | 0.886 | 0.927 | 0.895 |
比较了不同算法下的模型性能,为了评价本发明的预测模型的准确性,本发明使用成绩预测中常用的机器学习算法和深度学习算法来评估该预测模型在学生成绩预测任务中的预测性能。机器学习算法包括SVM、C5 Decision Tree、KNN、NB、RF。深度学习算法包括DNN、SRN、RNN,同时在实验过程中,均使用tensorflow2.1工具包来对这些算法进行实现。考虑到一些算法参数初始化的随机性,这些算法对每个数据集运行十次,并报告平均结果。如表4-表6所示,本发明在四个评价指标中均优于已有算法。
本发明的方法不依赖待预测课程开展过程中的信息,利用长短期记忆网络来处理时间序列数据,通过新加入的卷积层来更好的提取先修课程的特征,再利用注意力机制给不同的先修课程分配不同的权重来影响最终的预测结果,最后将学习到的特征通过全连接网络进行分类,实现对专业课成绩的分类预测,分类效果好,本发明利用学生先修课程成绩来预测专业课成绩,能应用在专业课程开始前进行预警。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:包括如下步骤:
Step1、将获取的先修课程成绩数据输入到卷积长短期记忆网络层CLSTM网络进行特征学习,提取相应课程的序列特征;
Step2、将学习到的序列特征输入到注意力机制层,对不同的先修课程成绩特征分配不同的权重;
Step3、将学习到的序列特征与注意力机制生成的权重送入到合并层进行特征合并;
Step4、将合并的特征送入两个全连接网络层,通过第一层激活函数为relu的全连接网络层用于能够更好的表示学习特征,最后将第一个全连接网络层的输出作为第二个激活函数为softmax的全连接网络层的输入,进行分类,最后的输出即为预测结果。
2.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:所述Step1中,获取先修课程成绩数据具体包括如下步骤:
步骤1、获取学生成绩数据,并对学生成绩数据进行预处理;
步骤2、筛选出将要预测的专业课成绩数据,根据专业课成绩将其分为有挂科风险的学生和安全学生两类,作为分类标签;根据专业课筛选出对应的先修课程成绩数据,作为输入特征;并划分训练集和测试集。
3.根据权利要求2所述的基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:所述步骤1中,学生成绩数据包括了学生的基本信息、所学课程的基本信息、课程成绩信息;具体字段包括:学号、学年、学期、课程代码、课程名称、课程类别、修读性质、考试成绩、特殊情况;其中,修读性质分为初修和重修,特殊情况有缺考和无两种;因为所学课程与其学年和学期一一对应,所以学生的先修课程成绩与专业课成绩为一条时间序列数据,学生在这条时间线上的不同学年的不同学期会产生相对应的成绩数据;为了有效研究学生的先修课程成绩和专业课程成绩之间的关系,所以在修读性质字段中只保留了学生的初修成绩。
4.根据权利要求2所述的基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:所述步骤2的具体步骤如下:
(1)、专业课程选取:基于学生数量对数据集中的专业课成绩数据进行统计;
(2)、先修课程选取:专业课的先修课程包含了必修课、通识教育课、学科基础课三类;将学生的先修课程成绩数据导出,通过字段XH,也就是学生学号进行两表关联,再计算该先修课程的学生数量占专业课程学生数量的比重,占比低的先修课程不作为模型输入;将占比高于80%的先修课程筛选出来,作为输入先修课程特征Xi,i表示为不同的先修课程;
(3)、将专业课程根据成绩分布特征划分为两类,一类为有挂科风险学生,一类为安全学生;此分类则作为标签Yj;
(4)、根据标签分布,随机选取其中80%的数据和相应的输入特征作为训练集,剩下的20%则作为测试集。
5.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:所述Step1中,进行特征学习,提取相应课程的序列特征的具体步骤如下:
a1、首先输入的先修课程特征Xi经过输入门input gates,输入门决定了多少比例的信息会被存入当前细胞态;
a2、再进入遗忘门forget gates,将细胞态中的信息选择性遗忘;
a3、再进入单元门,单元门表示归纳出的待存入细胞态的新知识,是当前时刻的输入的先修课程特征Xi和上个时刻的短期记忆Ht-1的函数;
a4、再通过输出门将细胞态中的信息选择性的进行输出;
a5、再通过单元输出门表示将单元门的新知识和输出门进行合并;
当用于进行预测时,在单元输出上添加逻辑层;
假设时间t的实际成绩为rt,CLSTM的损失函数定义为:
目标函数是一个具有大量输入数据的非凸问题;因此,使用随机梯度下降SGD来解决优化问题;在优化过程中,与标准LSTM一样,通过时间的反向传播来计算相对于成本的梯度,以优化参数。
6.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:所述Step1中,在考虑学生学习大学课程的过程中,存在时序性,使用加入卷积计算的长短期记忆网络CLSTM对先修课程的特征序列进行建模,相较于标准LSTM仅使用最后一个时间点的学习特征进行回归,其他时间点的习得特征对于模型预测也有贡献,所以加入了卷积计算,卷积运算能在给定时域特征的情况下自动学习有意义的特征。
7.根据权利要求1所述的基于注意力机制的卷积长短期网络的学生成绩预测方法,其特征在于:所述Step2的具体步骤为:
Step2.1、利用注意力机制来学习特征和时间步骤的重要性;在Step1中,得到CLSTM网络对一个样本的学习特征表示为H={h1,h2,…,hn}T,T是转置运算;这里,hi∈Rn,其中n是特征的连续步数;基于注意力机制,第i个输入hi的不同顺序步骤的重要性表示为:
Si=Φ(WThi+b)
其中W和b分别是权重矩阵和偏置向量,Φ(·)是得分函数;
Step2.2、在获得第i个特征向量的分数后,使用softmax函数对其进行归一化:
Step2.3、注意力机制的最终输出特征O表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310299723.5A CN116306785A (zh) | 2023-03-25 | 2023-03-25 | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310299723.5A CN116306785A (zh) | 2023-03-25 | 2023-03-25 | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306785A true CN116306785A (zh) | 2023-06-23 |
Family
ID=86799446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310299723.5A Pending CN116306785A (zh) | 2023-03-25 | 2023-03-25 | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306785A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493566A (zh) * | 2023-11-02 | 2024-02-02 | 浙江尚云物联科技有限公司 | 用于智慧校园的数据处理系统及方法 |
-
2023
- 2023-03-25 CN CN202310299723.5A patent/CN116306785A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493566A (zh) * | 2023-11-02 | 2024-02-02 | 浙江尚云物联科技有限公司 | 用于智慧校园的数据处理系统及方法 |
CN117493566B (zh) * | 2023-11-02 | 2024-05-24 | 浙江尚云物联科技有限公司 | 用于智慧校园的数据处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022062193A1 (zh) | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 | |
CN108875809A (zh) | 联合attention机制与神经网络的生物医学实体关系分类方法 | |
Hariri-Ardebili et al. | A series of forecasting models for seismic evaluation of dams based on ground motion meta-features | |
Athani et al. | Student academic performance and social behavior predictor using data mining techniques | |
Lagman et al. | Classification algorithm accuracy improvement for student graduation prediction using ensemble model | |
CN110555459A (zh) | 基于模糊聚类和支持向量回归的成绩预测方法 | |
Sugiharti et al. | Predictive evaluation of performance of computer science students of unnes using data mining based on naÏve bayes classifier (NBC) algorithm | |
CN104966106A (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
Yan et al. | Trustworthiness evaluation and retrieval-based revision method for case-based reasoning classifiers | |
CN111985207A (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN116306785A (zh) | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 | |
Hssayni et al. | Localization and reduction of redundancy in CNN using L 1-sparsity induction | |
Sarkar et al. | Robust classification of financial risk | |
Zadmirzaei et al. | A novel integrated fuzzy DEA–artificial intelligence approach for assessing environmental efficiency and predicting CO2 emissions | |
Fadhil et al. | Multiple efficient data mining algorithms with genetic selection for prediction of SARS-CoV2 | |
CN117609731A (zh) | 一种基于因果推断的本科生毕业去向预测方法与可视分析系统 | |
Lenin et al. | Learning from Imbalanced Educational Data Using Ensemble Machine Learning Algorithms. | |
Gafarov et al. | Analysis of students’ academic performance by using machine learning tools | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
Saeed et al. | A decision support system approach for accreditation & quality assurance council at higher education institutions in Yemen | |
Shen et al. | Stock trends prediction by hypergraph modeling | |
Galimyanov et al. | Research and forecasting of educational process parameters by using artificial intelligence | |
Anwar et al. | Predicting student graduation using artificial neural network: A preliminary study of diploma in accountancy program at uitm sabah | |
Ndou et al. | A case study to enhance student support initiatives through forecasting student success in higher-education | |
Salamanis et al. | A generic sparse regression imputation method for time series and tabular data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |