CN115271271A

CN115271271A - 基于Stacking的学生成绩预测方法

Info

Publication number: CN115271271A
Application number: CN202211194342.2A
Authority: CN
Inventors: 于复兴; 刘欣然; 宁学斌; 吴亚峰; 索依娜
Original assignee: North China University of Science and Technology
Current assignee: North China University of Science and Technology
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-11-01

Abstract

本发明公开一种基于Stacking的学生成绩预测方法，将训练集数据划分为五等份，Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型，对于每个基模型采用5折交叉验证方式，分别得到以train1~train5作为验证集的5个预测输出结果，并将上述预测输出结果纵项拼接；对于第一层的4个基模型，得到train1~train5的模型预测的结果，将他们组成一列新的特征A1~A4；将特征A1~A4作为新的特征列加入到原始训练集A5上，作为第二层模型的输入。Stacking融合方法的预测准确率为84%，相对于单一模型预测有较大的精度提高。

Description

基于Stacking的学生成绩预测方法

技术领域

本发明涉及数据预测系统技术领域，具体涉及一种基于Stacking的学生成绩预测方法。

背景技术

通过数据挖掘的方法，利用在线学习平台学生的学习行为数据预测出学生的课程成绩，对提高教育教学质量起到关键性作用，因此引起了国内外研究者的广泛关注。Puarungro j 等人利用决策树(C4.5)算法构建了学生英语毕业考试成绩预测的分类模型；高慧构建XGBoost、随机森林和线性回归模型对学生的考试成绩进行预测；Zhang等人利用基于规则的遗传规划算法对在线学习行为进行分析，对学生成绩进行预测；黎龙珍基于贵州财经大学在线学习学生的行为数据，构建LightGBM模型对《财务管理》课程的学习成绩进行预测。但采用单一的算法来构建模型，会导致模型的预测精度提升有限。大量的研究成果表明，模型融合提升技术可以增强整体模型的效果，综合各个模型的优势来降低预测误差，与单一模型相比拥有更好的预测性能。综上所述，现有学生成绩预测方法有待提高。

发明内容

本发明的目的是为了克服以上现有单一预测技术存在的不足，提供了一种基于Stacking的学生成绩预测方法。

本发明的目的通过以下技术方案实现：

一种基于Stacking的学生成绩预测方法，其中，包括以下步骤：

步骤一：将训练集数据划分为五等份： train1、train2、train3、train4和train5；

步骤二：Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型，对于每个基模型采用5折交叉验证方式，分别得到以train1~train5作为验证集的5个预测输出结果，并将上述预测输出结果纵项拼接；对于第一层的4个基模型，得到train1~train5的模型预测的结果，将他们组成一列新的特征A1~A4；

步骤三：将特征A1~A4作为新的特征列加入到原始训练集A5上，作为第二层模型的输入；第二层模型选用LightGBM模型，利用新的训练集训练LightGBM分类模型，得到最终的成绩预测Stacking融合模型；

步骤四：使用测试集对上述Stacking融合模型进行测试，将预测集在第一层的四个基模型上经过软投票得到的预测结果作为特征值B1~B4加入到原始测试集B5上，再用第二层模型LightGBM进行测试得到最终的结果。

本发明相对于现有技术具有如下优点： Stacking融合方法的预测准确率为84%，相对于单一模型预测有较大的精度提高。

附图说明

图1： Stacking融合分类模型混淆矩阵输出图。

具体实施方式

下面结合实施例对本发明作进一步说明。

实施例1：

本案选用Kalboard360学生成绩数据集，由480个学生基本信息及在线学习行为数据的相关记录组成，与在线学习行为相关的数据特征具体有：每个学生的缺勤天数、学生课堂举手次数、学生访问在线课程次数、学生查看新公告的次数以及学生参加讨论组的次数，本案选取这些数据属性进行在线学习行为的成绩预测研究。

构建融合模型前，利用上述数据集分别对XGBoost、LightGBM、随机森林、和决策树分类模型进行了建构，并利用上述数据集分别对四个分类模型进行训练和测试，将数据集按照4:1的比例进行划分，4份作为训练集，1份作为测试集，模型以学生缺勤天数、学生课堂举手次数、学生访问在线课程次数、学生查看新公告的次数和学生参加讨论组的次数这五个特征作为输入，即特征属性K的值为5，以学生成绩等级作为目标输出。具体参数及准确率如表1所示。

表1 单模型参数设置及预测准确率

Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型。对其中一个基模型进行详解，例如：XGBoost作为基础模型1，将Kalboard360学生成绩数据集480条数据分为原始训练集和原始测试集,原始训练集包含384条数据，原始测试集包含96条数据。首先对原始训练集进行五折交叉验证，也就是将数据平均分成五份（为方便交叉验证，增加一组重复数据到原始训练集中，即原始训练集包含385条数据），拿出四份308条数据作为训练子集，剩余一份77条数据作为测试子集。

每一次交叉验证包含两个步骤：第一步是基于训练子集训练模型，第二步是基于训练子集生成的模型对测试子集进行预测。在这一次的交叉验证完成后将得到当前测试子集的预测值，这是一个包含77个预测结果的数据，记为a1。之后对原始测试集进行预测，生成96个预测值，记为b1。以上过程重复五次后完成五折交叉验证，最终生成基础模型1对原始测试集的预测结果：a1,a2,a3,a4,a5，将他们纵向叠加起来得到一个包含385个预测结果的矩阵A1。而对于b1,b2,b3,b4,b5，采用软投票的方式形成包含96个投票分类结果的矩阵B1。

对于模型2LightGBM，模型3随机森林，模型4决策树重复以上的步骤，可以得到矩阵A2,A3,A4,B2,B3,B4。令原始训练集为A5，原始测试集为B5，则将A1,A2,A3,A4,A5并列合并为一个矩阵作为第二层模型的输入，将B1,B2,B3,B4,B5并列合并得到为一个矩阵作为第二层模型的测试集，第二层LightGBM模型由此得到最终的预测结果。

通过对图1中四种单一模型Stacking融合模型输出的混淆矩阵的分析可发现：学生成绩等级中低等级（0-69分）被正确预测的数据有27条，低等级被错误预测的数据有1条,其他等级被错误预测为低等级的数据有2条；学生成绩等级中，中等级（70-89分）被正确预测的数据有32条，中等级被错误预测的数据有2+1=3条, 其他等级被错误预测为中等级的数据有1+11=12条；学生成绩等级中高等级（90-100分）被正确预测的数据有22条，高等级被错误预测的数据有11条，其他等级被错误预测为高等级的数据有1条，四种单一模型Stacking融合模型的准确率为(27+32+22)/96*100%=84%。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于Stacking的学生成绩预测方法，其特征在于，包括以下步骤：