CN115271271A - 基于Stacking的学生成绩预测方法 - Google Patents
基于Stacking的学生成绩预测方法 Download PDFInfo
- Publication number
- CN115271271A CN115271271A CN202211194342.2A CN202211194342A CN115271271A CN 115271271 A CN115271271 A CN 115271271A CN 202211194342 A CN202211194342 A CN 202211194342A CN 115271271 A CN115271271 A CN 115271271A
- Authority
- CN
- China
- Prior art keywords
- model
- prediction
- layer
- stacking
- train
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000002790 cross-validation Methods 0.000 claims abstract description 8
- 238000003066 decision tree Methods 0.000 claims abstract description 7
- 238000007637 random forest analysis Methods 0.000 claims abstract description 7
- 238000010200 validation analysis Methods 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于Stacking的学生成绩预测方法,将训练集数据划分为五等份,Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型,对于每个基模型采用5折交叉验证方式,分别得到以train1~train5作为验证集的5个预测输出结果,并将上述预测输出结果纵项拼接;对于第一层的4个基模型,得到train1~train5的模型预测的结果,将他们组成一列新的特征A1~A4;将特征A1~A4作为新的特征列加入到原始训练集A5上,作为第二层模型的输入。Stacking融合方法的预测准确率为84%,相对于单一模型预测有较大的精度提高。
Description
技术领域
本发明涉及数据预测系统技术领域,具体涉及一种基于Stacking的学生成绩预测方法。
背景技术
通过数据挖掘的方法,利用在线学习平台学生的学习行为数据预测出学生的课程成绩,对提高教育教学质量起到关键性作用,因此引起了国内外研究者的广泛关注。Puarungro j 等人利用决策树(C4.5)算法构建了学生英语毕业考试成绩预测的分类模型;高慧构建XGBoost、随机森林和线性回归模型对学生的考试成绩进行预测;Zhang等人利用基于规则的遗传规划算法对在线学习行为进行分析,对学生成绩进行预测;黎龙珍基于贵州财经大学在线学习学生的行为数据,构建LightGBM模型对《财务管理》课程的学习成绩进行预测。但采用单一的算法来构建模型,会导致模型的预测精度提升有限。大量的研究成果表明,模型融合提升技术可以增强整体模型的效果,综合各个模型的优势来降低预测误差,与单一模型相比拥有更好的预测性能。综上所述,现有学生成绩预测方法有待提高。
发明内容
本发明的目的是为了克服以上现有单一预测技术存在的不足,提供了一种基于Stacking的学生成绩预测方法。
本发明的目的通过以下技术方案实现:
一种基于Stacking的学生成绩预测方法,其中,包括以下步骤:
步骤一:将训练集数据划分为五等份: train1、train2、train3、train4和train5;
步骤二:Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型,对于每个基模型采用5折交叉验证方式,分别得到以train1~train5作为验证集的5个预测输出结果,并将上述预测输出结果纵项拼接;对于第一层的4个基模型,得到train1~train5的模型预测的结果,将他们组成一列新的特征A1~A4;
步骤三:将特征A1~A4作为新的特征列加入到原始训练集A5上,作为第二层模型的输入;第二层模型选用LightGBM模型,利用新的训练集训练LightGBM分类模型,得到最终的成绩预测Stacking融合模型;
步骤四:使用测试集对上述Stacking融合模型进行测试,将预测集在第一层的四个基模型上经过软投票得到的预测结果作为特征值B1~B4加入到原始测试集B5上,再用第二层模型LightGBM进行测试得到最终的结果。
本发明相对于现有技术具有如下优点: Stacking融合方法的预测准确率为84%,相对于单一模型预测有较大的精度提高。
附图说明
图1: Stacking融合分类模型混淆矩阵输出图。
具体实施方式
下面结合实施例对本发明作进一步说明。
实施例1:
本案选用Kalboard360学生成绩数据集,由480个学生基本信息及在线学习行为数据的相关记录组成,与在线学习行为相关的数据特征具体有:每个学生的缺勤天数、学生课堂举手次数、学生访问在线课程次数、学生查看新公告的次数以及学生参加讨论组的次数,本案选取这些数据属性进行在线学习行为的成绩预测研究。
构建融合模型前,利用上述数据集分别对XGBoost、LightGBM、随机森林、和决策树分类模型进行了建构,并利用上述数据集分别对四个分类模型进行训练和测试,将数据集按照4:1的比例进行划分,4份作为训练集,1份作为测试集,模型以学生缺勤天数、学生课堂举手次数、学生访问在线课程次数、学生查看新公告的次数和学生参加讨论组的次数这五个特征作为输入,即特征属性K的值为5,以学生成绩等级作为目标输出。具体参数及准确率如表1所示。
表1 单模型参数设置及预测准确率
Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型。对其中一个基模型进行详解,例如:XGBoost作为基础模型1,将Kalboard360学生成绩数据集480条数据分为原始训练集和原始测试集,原始训练集包含384条数据,原始测试集包含96条数据。首先对原始训练集进行五折交叉验证,也就是将数据平均分成五份(为方便交叉验证,增加一组重复数据到原始训练集中,即原始训练集包含385条数据),拿出四份308条数据作为训练子集,剩余一份77条数据作为测试子集。
每一次交叉验证包含两个步骤:第一步是基于训练子集训练模型,第二步是基于训练子集生成的模型对测试子集进行预测。在这一次的交叉验证完成后将得到当前测试子集的预测值,这是一个包含77个预测结果的数据,记为a1。之后对原始测试集进行预测,生成96个预测值,记为b1。以上过程重复五次后完成五折交叉验证,最终生成基础模型1对原始测试集的预测结果:a1,a2,a3,a4,a5,将他们纵向叠加起来得到一个包含385个预测结果的矩阵A1。而对于b1,b2,b3,b4,b5,采用软投票的方式形成包含96个投票分类结果的矩阵B1。
对于模型2LightGBM,模型3随机森林,模型4决策树重复以上的步骤,可以得到矩阵A2,A3,A4,B2,B3,B4。令原始训练集为A5,原始测试集为B5,则将A1,A2,A3,A4,A5并列合并为一个矩阵作为第二层模型的输入,将B1,B2,B3,B4,B5并列合并得到为一个矩阵作为第二层模型的测试集,第二层LightGBM模型由此得到最终的预测结果。
通过对图1中四种单一模型Stacking融合模型输出的混淆矩阵的分析可发现:学生成绩等级中低等级(0-69分)被正确预测的数据有27条,低等级被错误预测的数据有1条,其他等级被错误预测为低等级的数据有2条;学生成绩等级中,中等级(70-89分)被正确预测的数据有32条,中等级被错误预测的数据有2+1=3条, 其他等级被错误预测为中等级的数据有1+11=12条;学生成绩等级中高等级(90-100分)被正确预测的数据有22条,高等级被错误预测的数据有11条,其他等级被错误预测为高等级的数据有1条,四种单一模型Stacking融合模型的准确率为(27+32+22)/96*100%=84%。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种基于Stacking的学生成绩预测方法,其特征在于,包括以下步骤:
步骤一:将训练集数据划分为五等份: train1、train2、train3、train4和train5;
步骤二:Stacking方法第一层选用XGBoost、LightGBM、随机森林、决策树作为基模型,对于每个基模型采用5折交叉验证方式,分别得到以train1~train5作为验证集的5个预测输出结果,并将上述预测输出结果纵项拼接;对于第一层的4个基模型,得到train1~train5的模型预测的结果,将他们组成一列新的特征A1~A4;
步骤三:将特征A1~A4作为新的特征列加入到原始训练集A5上,作为第二层模型的输入;第二层模型选用LightGBM模型,利用新的训练集训练LightGBM分类模型,得到最终的成绩预测Stacking融合模型;
步骤四:使用测试集对上述Stacking融合模型进行测试,将预测集在第一层的四个基模型上经过软投票得到的预测结果作为特征值B1~B4加入到原始测试集B5上,再用第二层模型LightGBM进行测试得到最终的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211194342.2A CN115271271A (zh) | 2022-09-29 | 2022-09-29 | 基于Stacking的学生成绩预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211194342.2A CN115271271A (zh) | 2022-09-29 | 2022-09-29 | 基于Stacking的学生成绩预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115271271A true CN115271271A (zh) | 2022-11-01 |
Family
ID=83756545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211194342.2A Pending CN115271271A (zh) | 2022-09-29 | 2022-09-29 | 基于Stacking的学生成绩预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115271271A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114647684A (zh) * | 2022-05-19 | 2022-06-21 | 深圳市万物云科技有限公司 | 基于stacking算法的流量预测方法、装置及相关设备 |
CN114820050A (zh) * | 2022-04-12 | 2022-07-29 | 海南大学 | 一种多模型融合的用户属性预测方法 |
-
2022
- 2022-09-29 CN CN202211194342.2A patent/CN115271271A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820050A (zh) * | 2022-04-12 | 2022-07-29 | 海南大学 | 一种多模型融合的用户属性预测方法 |
CN114647684A (zh) * | 2022-05-19 | 2022-06-21 | 深圳市万物云科技有限公司 | 基于stacking算法的流量预测方法、装置及相关设备 |
Non-Patent Citations (1)
Title |
---|
范红星: ""基于特征选择和Stacking框架的学生学业水平预测研究"", 《硕士电子期刊》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378818B (zh) | 基于难度的个性化习题推荐方法、系统及介质 | |
Ashenafi et al. | Predicting students' final exam scores from their course activities | |
Kabakchieva et al. | Analyzing university data for determining student profiles and predicting performance | |
CN107657559A (zh) | 一种中文阅读能力测评方法及系统 | |
CN111143750B (zh) | 基于碎片化学习的大学计算机类课程管理平台 | |
CN109615264A (zh) | 一种面向在线学习的学生积极度确定系统 | |
Huang et al. | High School Graduation Rates across English Learner Student Subgroups in Arizona. REL 2017-205. | |
Swamy et al. | Predicting academic success from student enrolment data using decision tree technique | |
KR20110018109A (ko) | 능력 평가에 따른 개인별 학습 방법 및 시스템 | |
Li et al. | Early prediction of course grades: models and feature selection | |
CN111369063B (zh) | 组卷模型训练方法、组卷方法及相关装置 | |
Commeford et al. | Characterizing active learning environments in physics using latent profile analysis | |
CN111104455B (zh) | 多源多维的学校教学横向信息差异比对分析方法 | |
Mi | Student performance early warning based on data mining | |
CN115271271A (zh) | 基于Stacking的学生成绩预测方法 | |
CN116227992A (zh) | 一种考核试卷生成方法、装置及终端设备 | |
Khan et al. | Utilizing machine learning models to predict student performance from LMS activity logs | |
CN110046667B (zh) | 一种基于深度神经网络学习评分数据对的教学评价方法 | |
CN115204537A (zh) | 基于Bagging的学生成绩预测方法 | |
Bertović et al. | Using Moodle Test Scores to Predict Success in an Online Course | |
Irfiani et al. | Predicting grade promotion using decision tree and Naïve Bayes classification algorithms | |
CN114238613B (zh) | 一种确定知识点掌握程度的方法、装置及电子设备 | |
Hung et al. | Applying Deep Knowledge Tracing Model for University Students’ Programming Learning | |
Jiménez-Macías et al. | Recreation of different educational exercise scenarios for exercise modeling | |
Permanasari et al. | A Multi Criteria Decision Making to Support Major Selection of Senior High School |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221101 |
|
RJ01 | Rejection of invention patent application after publication |