CN109242149B - 一种基于教育数据挖掘的学生成绩早期预警方法及系统 - Google Patents
一种基于教育数据挖掘的学生成绩早期预警方法及系统 Download PDFInfo
- Publication number
- CN109242149B CN109242149B CN201810917660.4A CN201810917660A CN109242149B CN 109242149 B CN109242149 B CN 109242149B CN 201810917660 A CN201810917660 A CN 201810917660A CN 109242149 B CN109242149 B CN 109242149B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- stage
- prediction
- fail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000007418 data mining Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 238000003066 decision tree Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 17
- 238000007726 management method Methods 0.000 claims description 12
- 238000005192 partition Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000004445 quantitative analysis Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000010835 comparative analysis Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000013058 risk prediction model Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于教育教学技术领域,公开了一种基于教育数据挖掘的学生成绩早期预警方法及系统,数据获取;数据预处理;数据集的划分;第一阶段的预测模型;第二阶段的预测模型;结果预测。本发明通过获取一段时间内的学生的学习行为数据,再构建两阶段的三个预测模型,实现对学生的早期地、准确地预测,从而教师可以根据预测结果进行有针对性地教学,第一阶段利用多层感知机算法以构建预测考试通过的学生的success模型和考试不通过的学生的fail模型;第二阶段是根据第一阶段的两种模型预测结果以及其衍生变量,再利用决策树算法来生成最终的在线学生成绩早期预警,对学生的学习结果进行早期预测。
Description
技术领域
本发明属于教育技术领域,尤其涉及一种基于教育数据挖掘的学生成绩早期预警方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
随着互联网技术的不断发展,在线学习平台的不断增多,学习者的学习方式也由传统的线下学习向线上学习转移。在线学习平台的优势之一是可以将学习者在平台上的学习行为踪迹以日志形式记录下来,为教师和管理者深入了解学生的学习过程及学习结果提供了数据基础;同时,随着教育数据挖掘技术的不断演进,为教师和管理者深入剖析学习过程及学习结果提供了技术支撑。
目前大多数学校对于学生的学习评价方式和状态反馈都是依赖于学生在课堂上的出勤率和老师人为接触、主观感知的方式来反馈和评价学生的学习状态以及推测学生的最终学习表现。传统的基于教师主观评价和推测方式具有较低的准确性,且随着在线学习的学生数量的急剧增加,传统的评价方式会显得越来越力不从心,而基于教育数据挖掘技术对在线学习行为数据进行深入分析,可以对学生的学习过程及学习结果进行量化评估,从而可以使得教师和管理者提前实施一些有针对性的干预方案到特定的学生群体,以期帮助学生改善学习过程,提高学习效率及效果。
综上所述,现有技术存在的问题是:
目前大多数学校对于学生的学习评价方式和状态反馈都是依赖于学生在课堂上的出勤率和老师人为接触、主观感知的方式来反馈和评价学生的学习状态以及推测学生的最终学习表现。传统的基于教师主观评价和推测方式具有较低的准确性,且随着在线学习的学生数量的急剧增加,传统的评价方式会显得越来越力不从心。
随着大数据技术的发展,有少量的教学机构已经开始基于教育大数据的挖掘和分析去进行科学的学习预警。但是,目前的早期预警模型都是基于单边的at-risk预测模型去进行教育预警的,在准确度方面有一定的局限性。
解决上述技术问题的意义:
本发明提出的两阶段的预测算法,同时考虑了success预测模型和at-risk预测模型的预测结果,从而进行综合评判,对考试可能会表现不好的学生的预测准确度有一定的提升,具有重要的教学指导和实践意义。
本发明是基于教育数据挖掘算法提出的两阶段预测算法,要求应用该发明技术的相关人员有一定的大数据分析背景。
发明内容
针对现有技术存在的问题,本发明提供了一种基于教育数据挖掘的学生成绩早期预警方法及系统。
本发明是这样实现的,一种基于教育数据挖掘的学生成绩早期预警方法,利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据和成绩数据;
再基于多层感知机multilayer perceptron(MLP)算法和C4.5决策树算法,构建两阶段的预测模型;
再形成最终的学习成绩的早期预警模型;
其中第一阶段分别构建一个success预测模型和一个fail预测模型;第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,均用于第二阶段预测模型的构建。
进一步,所述基于教育数据挖掘的学生成绩早期预警方法具体包括:
步骤一:数据获取:
在数据获取的阶段,需要根据特定的在线学习平台对学习行为数据的记录特性,选取某一范围内学生的学习行为数据,并从教务管理系统中获取相应的这些学生的基本统计数据和成绩数据;
步骤二:数据预处理:
进行数据清洗、类别型变量的处理、数值型变量的处理及成绩信息的处理;
步骤三:数据集的划分:
根据交叉验证的思想(大数据分析领域的现有思想和技术)对预处理后的数据集进行划分,同时在划分时基于成绩字段的少数类别取值进行分层抽样,形成训练集和验证集,分别用于各个阶段的预测模型的训练和预测效果验证;
步骤四:第一阶段的预测模型:
基于多层感知机算法构建success预测模型和fail预测模型,根据训练好的两个模型相应得到样本集中所有学生考试会通过的概率和会失败的概率,分别得到success模型对学生考试通过的预测概率值,记为Ps;以及fail模型对学生考试失败的预测概率值,记为Pr;
步骤五:第二阶段的预测模型:
基于前一阶段的success预测模型和fail预测模型的各自输出预测概率值Ps和Pr,以及Psum作为每一个样本新的输入特征,真实的期末考试成绩所得的fail标记信息为输出特征,再基于C4.5决策树构建第二阶段的学生成绩预测模型;
步骤六:结果预测:
通过两阶段的预测模型的构建以及各自在验证集上的评估结果的定量分析。
进一步,步骤一中,所述第一阶段的success模型和fail模型是根据不同的在线学习平台所能够收集的较全面的学习行为特征作为输入特征,模型的输出是所收集的该门课程的期末考试成绩,模型在训练过程中,利用神经网络的前向传播过程所得的预测值,得到预测值和真实值的损失值,并利用随机梯度下降算法,将参数的梯度更新量迅速地反向传播用于更新参数,多次迭代直至目标优化函数达到最优,进行预测模型的参数训练;
预测模型都训练完成后,分别得到success模型对学生考试通过的预测概率值,记为Ps;以及fail模型对学生考试失败的预测概率值,记为Pr,Ps和Pr。
进一步,步骤二数据预处理中,
数据清洗:删除原始数据集中的无关数据或重复数据,并处理缺失数据;
类别型变量的处理:先对取值较多的类别型变量进行一定规则的类别压缩,再进行独热编码;
数值型变量的处理:使用以下两种常用的数据规范化处理机制:1)最大-最小规范化处理,将数据映射到[0,1]之间;2)零均值规范化处理,使处理后的数据满足均值为0,标准差为1的分布;
成绩信息的处理:根据真实的成绩信息,再按照特定教育情境下考试是否通过的规则定义,将成绩映射为通过类别和失败类别。
进一步,第一阶段的预测模型的构建具体包括:
a)构建预测学生考试通过的success模型和预测学生考试不通过的fail模型;
b)模型训练的输入和输出:假定训练集为D={(x1,y1),(x2,y2),....,(xm,ym)},其中每一个样本的输入xi表征为每一个样本的输出yi的取值为0或1;且m表示训练集中样本数,n表示每一个样本的输入特征维度;则基于多层感知机算法构建的success模型和fail模型,输入都是完全一致;success模型对每一个样本属于类别1的预测概率记为Ps,fail模型对每一个样本属于类别1的预测概率记为Pr;
c)模型训练:模型的输入维度n根据不同的数据采集情况进行确定,不同的教育情境下收集的数据会存在一定的差异;fail模型中输出为0类别,表示考试通过;fail模型中输出为1类别,表示考试不通过;success模型中对输出类别的定义与fail模型相反;根据采集的不同的数据集,进行损失函数的最优化调整,确定对应的最优模型;
d)训练目标优化函数:假定多层感知机的激活函数为H,其参数为θ={(W1,B1),...,(Wk,Bk)},其中k表示success模型或fail模型为k层的全连接神经网络;对于样本(xi,yi)得到的模型输出为Hθ(xi);训练的目标优化函数为:
e)模型参数的优化:success模型和fail模型各自的参数θ均通过反向传播算法和随机梯度下降算法进行参数的调整;前向的计算过程得真实值与预测值的误差,再将目标优化函数的负梯度方向更新量进行反向传播,进行参数更新,多次迭代轮回,当目标优化函数达到最优解时,则获得最优模型参数;同时使用随机梯度下降算法,在每一轮迭代中,随机选取当前批次的一个点进行参数的更新。
f)模型的验证:训练好的success模型和fail模型在事先划分好的验证集上进行预测结果的验证,分别输出两个模型在验证集上预测结果的confusion matrix,分别计算两个模型的准确率和召回率。
早期预警模型构建方法基于前一阶段的两个模型分别对类别1的预测概率值,以及C4.5决策树算法,进行第二阶段的成绩预测模型的构建;具体包括:
ii)成绩预测模型的训练:在第二阶段的模型训练中采用基于信息增益率的C4.5决策树算法,从当前的输入属性中计算每一个属性的信息增益率,并选择最大信息增益率作为当前的最优划分属性,从根节点开始的每一次分裂均为最佳划分方式;直到达到决策树停止生长的条件,决策树的训练过程结束。
iii)模型的验证和对比分析:第二阶段的决策树模型训练完成后,预测效果需在验证集上进行验证,计算成绩预测模型在验证集上的准确率和召回率;然后将第二阶段的验证结果与第一阶段的fail模型的验证结果进行比较;
IV)进行新的成功或失败学生的判决规则:第二阶段的预测模型通过计算训练样本中Ps,Pr和Psum这三个属性各自的信息增益率,并选择具有最大信息增益率的属性作为当前的最佳划分属性;自顶向下不断地计算并进行样本集的分裂;将第二阶段的决策树的分裂过程进行可视化分析,清晰地呈现出新的成功或失败学生的判决规则;
V)新数据的预测分析:
对新样本进行和训练/验证数据一样的预处理操作,成为学习成绩早期预警模型可识别和高效处理的数据类型;然后将预处理后的数据送到已训练好的两阶段的成绩预警模型中,最终得到对该样本的预测结果。
本发明另一目的在于提供一种实现所述基于教育数据挖掘的学生成绩早期预警方法的计算机程序。
本发明另一目的在于提供一种实现所述基于教育数据挖掘的学生成绩早期预警方法的信息数据处理终端。
本发明另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于教育数据挖掘的学生成绩早期预警方法。
本发明另一目的在于提供一种实现所述基于教育数据挖掘的学生成绩早期预警方法的基于教育数据挖掘的学生成绩早期预警系统,所述基于教育数据挖掘的学生成绩早期预警系统包括:
基本统计数据和成绩数据采集模块,利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据和成绩数据;
两阶段的预测模型构建模块,再基于多层感知机multilayer perceptron(MLP)算法和C4.5决策树算法,构建两阶段的预测模型;其中第一阶段分别构建一个success预测模型和一个fail预测模型;第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,均用于第二阶段预测模型的构建;
早期预警模型构建模块,再形成最终的学习成绩的早期预警模型。
本发明另一目的在于提供一种搭载所述基于教育数据挖掘的学生成绩早期预警系统的用于教育领域的学生成绩早期预警平台。
综上所述,本发明的优点及积极效果为:
本发明提供的这种基于教育数据挖掘的在线学生成绩早期预警方法,通过获取一段时间内的学生的学习行为数据以及对应学生的基本统计数据和成绩信息,再依次构建两阶段的三个预测模型,实现对考试会失败学生的早期地、准确地预测,从而教师可以根据预测结果进行有针对性地教学干预,实现最终的学习效果的提升。第一阶段利用多层感知机算法以构建预测考试通过的学生的success模型和考试不通过的学生的fail模型;第二阶段是根据第一阶段的两种模型预测结果以及其衍生变量,再利用决策树算法来生成最终的在线学生成绩早期预警,对学生的学习结果进行早期预测。该发明提出的两阶段预测算法,相比于传统的依赖教育评估或单边的at-risk预测模型,在预测算法上更科学,在预测的识别准确度方面表现更好。
本发明利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据和成绩数据,再基于多层感知机multilayer perceptron(MLP)算法和C4.5决策树算法,构建两阶段的预测模型,再形成最终的学习成绩的早期预警模型。
其中第一阶段分别构建一个success预测模型(该模型的预测目标是考试会通过的学生)和一个fail预测模型(该模型的预测目标是考试会失败的学生);则第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,都用于第二阶段预测模型的构建。
通过定量分析和比较,发现整合了success模型和fail模型的预测结果信息,所得的学习成绩的早期预警模型比仅基于单边的fail模型的预测准确度更高,可以识别更多的学习结果不好的学生,从而可以引导教师和管理者对这些学生进行早期的学习干预。
该发明提出的两阶段预测算法,相比于传统的依赖教育评估或单边的at-risk预测模型,在预测算法上更科学,在预测的识别准确度方面表现更好。
附图说明
图1是本发明实施例提供的基于教育数据挖掘的学生成绩早期预警方法流程图;
图2是本发明实施例提供的学生成绩早期预警模型示例图;
图3是本发明实施例提供的基于MLP的success和fail预测模型的结构图。
图4是本发明实施例提供的基于教育数据挖掘的学生成绩早期预警系统示意图。
图中:1、基本统计数据和成绩数据采集模块;2、两阶段的预测模型构建模块;3、早期预警模型构建模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据和成绩数据,再基于多层感知机multilayer perceptron(MLP)算法和C4.5决策树算法,构建两阶段的预测模型,再形成最终的学习成绩的早期预警模型。
其中第一阶段分别构建一个success预测模型(该模型的预测目标是考试会通过的学生)和一个fail预测模型(该模型的预测目标是考试会失败的学生);则第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,都用于第二阶段预测模型的构建。
通过定量分析和比较,发现整合了success模型和fail模型的预测结果信息,所得的学习成绩的早期预警模型比仅基于单边的fail模型的预测准确度更高,可以识别更多的学习结果不好的学生,从而可以引导教师和管理者对这些学生进行早期的学习干预。
如图1所示,本发明实施例提供的基于教育数据挖掘的学生成绩早期预警方法的步骤为:
S101:数据获取:
在数据获取的阶段,需要根据特定的在线学习平台对学习行为数据的记录特性,选取某一范围内学生的学习行为数据,并从教务管理系统中获取相应的这些学生的基本统计数据和成绩数据;
S102:数据预处理:
本发明预处理机制包括以下四个步骤:数据清洗、类别型变量的处理、数值型变量的处理及成绩信息的处理。
S103:数据集的划分:
为了保证两阶段模型训练的数据一致性和预测结果的可比性,需要根据交叉验证的思想对预处理后的数据集进行划分,同时在划分时应基于成绩字段的少数类别取值进行分层抽样,从而形成训练集和验证集,分别用于各个阶段的预测模型的训练和预测效果验证;
S104:第一阶段的预测模型:
第一阶段的目标是基于多层感知机算法构建success预测模型和fail预测模型,根据训练好的两个模型就可相应得到样本集中所有学生考试会通过的概率和会失败的概率,分别得到success模型对学生考试通过的预测概率值,记为Ps;以及fail模型对学生考试失败的预测概率值,记为Pr;
S105:第二阶段的预测模型:
基于前一阶段的success预测模型和fail预测模型的各自输出预测概率值Ps和Pr,以及Psum作为每一个样本新的输入特征,真实的期末考试成绩所得的fail标记信息为输出特征,再基于C4.5决策树构建第二阶段的学生成绩预测模型;
S106:结果预测:
通过两阶段的预测模型的构建以及各自在验证集上的评估结果的定量分析,并对比发现:第二阶段的学生成绩的早期预警模型比单边的fail预测模型在验证集上的表现更好,预测准确度有着较大幅度的提升,可以识别更多的需要进行学习干预的学生。
下面结合具体实施例分析对本发明作进一步描述。
本发明实施例提供的第一阶段的success模型和fail模型是根据不同的在线学习平台所能够收集的较全面的学习行为特征作为输入特征,模型的输出是所收集的该门课程的期末考试成绩,即success模型和fail模型的输入特征是完全一致的,而两个模型的输出是根据不同预测目标进行期末考试成绩的不同映射处理,模型在训练过程中,利用神经网络的前向传播过程所得的预测值,进而可得到预测值和真实值的损失值,并利用随机梯度下降算法,可将参数的梯度更新量迅速地反向传播用于更新参数,多次迭代直至目标优化函数达到最优,则完成了预测模型的参数训练,预测模型都训练完成后,可以分别得到success模型对学生考试通过的预测概率值,记为Ps;以及fail模型对学生考试失败的预测概率值,记为Pr,理想情况下,Ps和Pr的概率和应为1,但是多层感知机是一种多层的全连接的前馈神经网络,对于不同的预测目标有着不同的优化目标,则所得的最佳模型参数会有所不同,因此此时所得的两个概率之和不是恒为1。
本发明实施例提供的C4.5决策树通过计算训练样本中这三个属性各自的信息增益率,并选择具有最大信息增益率的属性作为当前的最佳划分属性;自顶向下不断地计算并选择当前的最佳划分属性,将所有样本进行分类,直至达到决策树停止划分的条件,传统的单边的fail预测模型,即模型的输入特征为学生的学生行为信息等,所得到的预测概率值,再基于默认的类别判决阈值0.5,进行最终预测结果的类别输出。而本发明中基于第一阶段两个模型的输出预测概率值及相应的衍生变量所构建的第二阶段的学生成绩预测模型,因为其输入特征是每个样本的考试通过概率、失败概率以及两者之和,那么C4.5决策树在根据最优属性划分的过程中必然会产生新的考试失败或成功的判决规则。
下面结合具体实施例对本发明作进一步描述。
1.数据获取
本发明提出的预测模型的建立需要两部分数据,其一为存储于教务管理系统中的学生的基本信息和最终的该门课程的考试成绩;第二为学生在在线学习平台的学习行为数据。因为本发明是对学生的学习成绩进行早期预警,则只需要采集学生在被研究的课程的前半阶段的学习行为数据,基于前半阶段的学习行为数据去预测可能的学习结果,再由教师进行教学干预,那么学生还有足够的时间进行学习调整。再者,因为不同的在线教育平台记录不同类型的学习行为数据,因此,建议根据应用时的情境收集相对完整且重要的学习行为数据。
2.数据预处理
因为从在线学习管理系统和教务管理系统中采集的原始数据可能存在数据缺失、重复和稀疏性的问题,而数据类型方面也分为类别型变量和数值型变量,这些都严重影响到数据挖掘算法的执行效率和挖掘结果的准确性,所以数据预处理机制就显得尤为关键。本发明提出的数据处理机制主要包含以下几个维度:
(1).数据清洗:旨在删除原始数据集中的无关数据或重复数据,并恰当地处理缺失数据。无关数据定义为和挖掘目标没有直接或间接关系的数据而重复数据定义为对同一个学生样本存在两条或两条以上的相同记录,因此对于无关数据或重复数据都应该进行适当的删除。而对于缺失数据的处理主要从以下两种情况进行定义:A.某字段的大部分样本都存在缺失值,则该字段数据无法被合理的填充,则该字段应该被丢弃;B.某字段的大部分样本都有明确的取值,只有少部分样本在该字段上存在缺失值,则此时可以通过一些插补方法进行缺失值的合理推测和填充。
(2).类别型变量的处理机制:从教务管理系统中采集的学生的基本信息,如:专业名称、生源地等都属于典型的类别型变量,其取值常多达几十个甚至更多。按照传统的类别型变量的独热编码算法,直接处理会带来输入特征维数的暴涨,且同时导致严重的数据稀疏性问题。因此,本发明提出先对取值较多的类别型变量进行一定规则的类别压缩,再进行独热编码,从而即可以解决数据维度暴增的问题,也可以解决数据稀疏性问题,同时处理后的数据成为数据挖掘算法可高效处理的数据。
(3).数值型变量的处理机制:针对数值型变量主要进行规范化处理,即将数据转换成适当的形式,以利于数据挖掘算法的快速收敛。本发明建议使用以下两种常用的数据规范化处理机制:A.最大-最小规范化处理,将数据映射到[0,1]之间;B.零均值规范化处理,使得处理后的数据满足均值为0,标准差为1的分布。
因为实际采集的学生成绩可能为数值型的,也可能为类别型的,且成绩信息是预测模型的预测目标,因此本发明单独对成绩信息的处理机制进行说明。
(4).成绩信息的处理机制:因为本发明的目的是准确地识别考试会不通过的学生,因此,本发明中将成绩定义为两类,即:考试通过类别和考试失败类别。则根据真实的成绩信息,再按照特定教育情境下考试是否通过的规则定义,将成绩映射为通过类别和失败类别。如:生成一个fail字段,该字段下1表示考试不通过,0表示考试通过。
3.数据集的划分
基于交叉验证和分层抽样的原则,将预处理后的数据集划分为两个子集,一个用于模型的训练和另一个用于模型的验证。如:基于考试成绩标记为不通过的样本进行分层抽样,划分70%的数据为训练集,30%为验证集。后续两阶段的模型建立和验证都是基于本阶段划分好的数据集,从而保证不同阶段模型预测结果的可比性。
4.第一阶段的预测模型的构建和验证
第一阶段需要构建两个模型,分别为预测学生考试通过的success模型和预测学生考试不通过的fail模型。
模型训练的输入和输出:假定训练集为D={(x1,y1),(x2,y2),....,(xm,ym)},其中每一个样本的输入xi可表征为每一个样本的输出yi的取值为0或1;且m表示训练集中样本数,n表示每一个样本的输入特征维度。则基于多层感知机算法构建的success模型和fail模型,其输入都是完全一致的,唯一区别在输出的定义(标记)不同。则success模型对每一个样本属于类别1的预测概率记为Ps,fail模型对每一个样本属于类别1的预测概率记为Pr。
模型训练的架构:如图3所示,其模型的输入维度n根据不同的数据采集情况进行确定,因为不同的教育情境下收集的数据会存在一定的差异;而隐藏层的层数和对应的节点数都是需要根据所采集的样本量的大小进行一定程度上的最优结构选择;但无论是success模型还是fail模型,它们的输出一定是2维的。其中,fail模型中输出为0类别,表示考试通过;fail模型中输出为1类别,表示考试不通过。success模型中对输出类别的定义于fail模型相反。因此,本发明不对模型的架构进行数值上的明确规定,仅规定模型的输出维度和取值,建议根据采集的不同的数据集,进行损失函数的最优化调整从而确定对应的最优模型架构。
模型训练的目标优化函数:假定多层感知机的激活函数为H,其参数为θ={(W1,B1),...,(Wk,Bk)},其中k表示success模型或fail模型为k层的全连接神经网络。对于样本(xi,yi)可得到的模型输出为Hθ(xi)。则训练的目标优化函数为:
模型参数的优化:多层感知机是一种典型的前馈神经网络,因此本发明规定success模型和fail模型各自的参数θ都是需要通过反向传播算法和随机梯度下降算法进行参数的调整。即前向的计算过程可得真实值与预测值的误差,再将目标优化函数的负梯度方向更新量进行反向传播,实现参数更新,多次迭代轮回,当目标优化函数达到最优解时,则获得最优模型参数。为了加快训练效率,本发明规定使用随机梯度下降算法,即在每一轮迭代中,随机选取当前批次的一个点进行参数的更新。
模型的验证:训练好的success模型和fail模型需要在事先划分好的验证集上进行预测结果的验证,分别输出两个模型在验证集上预测结果的confusion matrix,从而分别计算两个模型的准确率和召回率。
5.学生成绩的早期预警模型
基于前一阶段的两个模型分别对类别1的预测概率值,以及C4.5决策树算法,可进行第二阶段的成绩预测模型的构建。
模型的训练过程:因为决策树算法具有决策过程的可理解性强的优势,因此常被用于教育数据分析和挖掘中。本发明规定在第二阶段的模型训练中采用C4.5决策树算法,该算法是基于最大信息增益率来选择当前的最优划分属性,因此从根节点开始的每一次分裂都是最佳划分方式。直到达到决策树停止生长的条件,则决策树的训练过程结束。
模型的验证和对比分析:第二阶段的决策树模型训练完成后,其预测效果也需要在验证集上进行验证,即计算该模型在验证集上的准确率和召回率。然后将第二阶段的验证结果与第一阶段的fail模型的验证结果进行比较,发现第二阶段预测模型在验证集上表现更好,可以获得更高的准确率和召回率。因此,本发明提出的通过两阶段的模型构建,相比于传统的单边fail模型可以识别更多的考试不通过的学生。
新的成功或失败学生的判决规则:因为第二阶段的预测模型是通过计算训练样本中Ps,Pr和Psum这三个属性各自的信息增益率,并选择具有最大信息增益率的属性作为当前的最佳划分属性;自顶向下不断地计算并进行样本集的分裂。则将该阶段的决策树的分裂过程进行可视化分析,可以清晰地呈现出新的成功或失败学生的判决规则。这个规则不再基于传统的0.5作为判决规则,而是有着更准确的新的判决规则。
6.新数据的预测分析
针对新的样本数据,需要对新样本进行和训练/验证数据一样的预处理操作,使其成为学习成绩早期预警模型可识别和高效处理的数据类型。然后将预处理后的数据送到已训练好的两阶段的成绩预警模型中,可最终得到对该样本的预测结果。若预测结果为1,则表明该学生在期末考试中很可能会不通过,则需要教师对预测结果为1的学生进行有针对性的学习干预,争取在该门课程的后半阶段的学习过程中提高学习效率,最终改善学习结果。
如图4,本发明实施例提供的基于教育数据挖掘的学生成绩早期预警系统,包括:
基本统计数据和成绩数据采集模块1,利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据、学习行为数据和成绩数据;
数据预处理模块2,主要对采集的数据进行一定的预处理,使其成为教育数据挖掘算法可识别且高效运算的数据格式或类型;
学生成绩的早期预警构建模块3,其基于多层感知机multilayer perceptron(MLP)算法和C4.5决策树算法,构建两阶段的预测模型;其中第一阶段分别构建一个success预测模型和一个fail预测模型;第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,均用于第二阶段预测模型的构建;从而形成最终的、完整的学习成绩的早期预警模块。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于教育数据挖掘的学生成绩早期预警方法,其特征在于,所述基于教育数据挖掘的学生成绩早期预警方法利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据和成绩数据;
再基于多层感知机multilayer perceptron算法和基于信息增益率的C4.5决策树算法,构建两阶段的预测模型;
再形成最终的学习成绩的早期预警模型;
其中第一阶段分别构建success预测模型和fail预测模型;第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,均用于第二阶段预测模型的构建;
所述基于教育数据挖掘的学生成绩早期预警方法具体包括:
步骤一:数据获取:
在数据获取的阶段,需要根据特定的在线学习平台对学习行为数据的记录特性,选取某一范围内学生的学习行为数据,并从教务管理系统中获取相应的这些学生的基本统计数据和成绩数据;
第一阶段的success模型和fail模型是根据不同的在线学习平台所能够收集的学习行为特征作为输入特征,收集某一门课程的学习者在多个在线学习平台上的学习行为特征作为模型输入,该门课程的期末考试成绩为模型的输出,模型在训练过程中,利用神经网络的前向传播过程所得的预测值,得到预测值和真实值的损失值,并利用随机梯度下降算法,将参数的梯度更新量迅速地反向传播用于更新参数,多次迭代直至目标优化函数达到最优,进行预测模型的参数训练;
第一阶段预测模型都训练完成后,分别得到success模型对学生考试通过的预测概率值,记为Ps;以及fail模型对学生考试失败的预测概率值,记为Pr;
步骤二:数据预处理:
进行数据清洗、类别型变量的处理、数值型变量的处理及成绩信息的处理;
所述数据清洗:删除原始数据集中的无关数据或重复数据,并处理缺失数据;
所述类别型变量的处理:先对取值较多的类别型变量进行一定规则的类别压缩,再进行独热编码;
所述数值型变量的处理:采用最大-最小规范化处理,将数据映射到[0,1]之间;
或采用零均值规范化处理,使处理后的数据满足均值为0,标准差为1的分布;
所述成绩信息的处理:根据真实的成绩信息,再按照特定教育情境下考试是否通过的规则定义,将成绩映射为通过类别和失败类别;
步骤三:数据集的划分:
根据交叉验证的思想对预处理后的数据集进行划分,同时在划分时基于成绩字段的少数类别取值进行分层抽样,形成训练集和验证集,分别用于各个阶段的预测模型的训练和预测效果验证;
步骤四:第一阶段的预测模型:
基于多层感知机算法构建success预测模型和fail预测模型,根据训练好的两个模型相应得到样本集中所有学生考试会通过的概率和会失败的概率,分别得到success模型对学生考试通过的预测概率值,记为Ps;以及fail模型对学生考试失败的预测概率值,记为Pr;
步骤五:第二阶段的预测模型:
基于前一阶段的success预测模型和fail预测模型的各自输出预测概率值Ps和Pr,以及Psum作为每一个样本新的输入特征,真实的期末考试成绩所得的fail标记信息为输出特征,再基于C4.5决策树分别计算这3个输入属性的信息增益率,选择信息增益率最高的属性作为最佳的决策树划分属性,从而构建第二阶段的学生成绩预测模型;
步骤六:结果预测:
通过两阶段的预测模型的构建以及各自在验证集上的评估结果的定量分析;对新样本进行和训练/验证数据一样的预处理操作;然后将预处理后的数据送到已训练好的两阶段的成绩预警模型中,最终得到对该样本的预测结果。
2.如权利要求1所述基于教育数据挖掘的学生成绩早期预警方法,其特征在于,
第一阶段的预测模型的构建具体包括:
a)构建预测学生考试通过的success模型和预测学生考试不通过的fail模型;
b)模型训练的输入和输出:假定训练集为D={(x1,y1),(x2,y2),....,(xm,ym)},其中每一个样本的输入xi表征为每一个样本的输出yi的取值为0或1;且m表示训练集中样本数,n表示每一个样本的输入特征维度;则基于多层感知机算法构建的success模型和fail模型,输入都是完全一致;success模型对每一个样本属于类别1的预测概率记为Ps,fail模型对每一个样本属于类别1的预测概率记为Pr;
c)模型训练:模型的输入维度n根据不同的数据采集情况进行确定;fail模型中输出为0类别,表示考试通过;fail模型中输出为1类别,表示考试不通过;success模型中对输出类别的定义与fail模型相反;根据采集的不同的数据集,进行损失函数的最优化调整,确定对应的最优模型;
d)训练目标优化函数:假定多层感知机的激活函数为H,其参数为θ={( W1,B1),...,(Wk,Bk)},其中k表示success模型或fail模型为k层的全连接神经网络;对于样本(xi,yi)得到的模型输出为Hθ(xi);训练的目标优化函数为:
e)模型参数的优化:success模型和fail模型各自的参数θ均通过反向传播算法和随机梯度下降算法进行参数的调整;前向的计算过程得真实值与预测值的误差,再将目标优化函数的负梯度方向更新量进行反向传播,进行参数更新,多次迭代轮回,当目标优化函数达到最优解时,则获得最优模型参数;同时使用随机梯度下降算法,在每一轮迭代中,随机选取当前批次的一个点进行参数的更新;
f)模型的验证:训练好的success模型和fail模型在事先划分好的验证集上进行预测结果的验证,分别输出两个模型在验证集上预测结果的confusion matrix,分别计算两个模型的准确率和召回率;
早期预警模型构建方法基于前一阶段的两个模型分别对类别1的预测概率值,以及C4.5决策树算法,进行第二阶段的成绩预测模型的构建;具体包括:
ii)成绩预测模型的训练:在第二阶段的模型训练中采用C4.5决策树算法,该算法基于最大信息增益率从三个输入属性(Pr,Ps和Psum=Pr+Ps)中选择当前的最优划分属性,从根节点开始的每一次分裂均为最佳划分方式;直到达到决策树停止生长的条件,决策树的训练过程结束;
iii)模型的验证和对比分析:第二阶段的决策树模型训练完成后,预测效果需在验证集上进行验证,计算成绩预测模型在验证集上的准确率和召回率;然后将第二阶段的验证结果与第一阶段的fail模型的验证结果进行比较;
IV)进行新的成功或失败学生的判决规则:第二阶段的预测模型通过计算训练样本中Ps,Pr和Psum这三个属性各自的信息增益率,并选择具有最大信息增益率的属性作为当前的最佳划分属性;自顶向下不断地计算并进行样本集的分裂;将第二阶段的决策树的分裂过程进行可视化分析,清晰地呈现出新的成功或失败学生的判决规则;
V)新数据的预测分析:
对新样本进行和训练/验证数据一样的预处理操作;然后将预处理后的数据送到已训练好的两阶段的成绩预警模型中,最终得到对该样本的预测结果。
3.一种实现权利要求1~2任意一项所述基于教育数据挖掘的学生成绩早期预警方法的信息数据处理终端。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-2任意一项所述的基于教育数据挖掘的学生成绩早期预警方法。
5.一种实现权利要求1所述基于教育数据挖掘的学生成绩早期预警方法的基于教育数据挖掘的学生成绩早期预警系统,其特征在于,所述基于教育数据挖掘的学生成绩早期预警系统包括:
基本统计数据和成绩数据采集模块,利用从在线学习平台采集的学习行为数据以及从教务管理系统采集的学生的基本统计数据和成绩数据;
两阶段的预测模型构建模块,再基于多层感知机multilayer perceptron(MLP)算法和C4.5决策树算法,构建两阶段的预测模型;其中第一阶段分别构建一个success预测模型和一个fail预测模型;第一阶段的success模型输出的学生考试通过概率、fail模型输出的学生考试失败概率以及根据两者的和生成的衍生变量,均用于第二阶段预测模型的构建;
早期预警模型构建模块,再形成最终的学习成绩的早期预警模型。
6.一种搭载权利要求5所述基于教育数据挖掘的学生成绩早期预警系统的用于教育领域的学生成绩早期预警平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810917660.4A CN109242149B (zh) | 2018-08-13 | 2018-08-13 | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810917660.4A CN109242149B (zh) | 2018-08-13 | 2018-08-13 | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109242149A CN109242149A (zh) | 2019-01-18 |
CN109242149B true CN109242149B (zh) | 2021-08-13 |
Family
ID=65070561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810917660.4A Active CN109242149B (zh) | 2018-08-13 | 2018-08-13 | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109242149B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110391013B (zh) * | 2019-07-17 | 2020-08-14 | 北京智能工场科技有限公司 | 一种基于语义向量构建神经网络预测心理健康的系统和装置 |
CN110570339B (zh) * | 2019-09-16 | 2022-04-29 | 四川长虹电器股份有限公司 | 一种在线教育教学干预方法 |
US20210103856A1 (en) * | 2019-10-02 | 2021-04-08 | Northwestern University | System and method to predict success based on analysis of failure |
CN111860857B (zh) * | 2020-04-15 | 2024-08-13 | 北京简单科技有限公司 | 基于智能学习环境的学生学习情感判别方法及装置 |
CN111724050A (zh) * | 2020-06-10 | 2020-09-29 | 安徽卓智教育科技有限责任公司 | 一种基于教学过程数据的教学风险预警方法 |
CN111523738B (zh) * | 2020-06-22 | 2023-07-21 | 之江实验室 | 基于用户在线学习行为模式预测学习效果的系统及预测方法 |
CN111752995A (zh) * | 2020-06-30 | 2020-10-09 | 成都信息工程大学 | 一种学生数据挖掘系统及方法 |
CN111898441B (zh) * | 2020-06-30 | 2021-03-30 | 华中师范大学 | 一种在线课程视频资源内容识别与评估方法及智能系统 |
CN112257435B (zh) * | 2020-09-11 | 2024-05-14 | 安徽中科新辰技术有限公司 | 一种基于人工智能分词技术的警情数据治理方法 |
CN112116142A (zh) * | 2020-09-14 | 2020-12-22 | 桂林电子科技大学 | 一种基于深度学习的学生成绩预测系统及其方法 |
CN112417002B (zh) * | 2020-11-19 | 2023-04-07 | 华中师范大学 | 应用于教育信息化的信息素养数据挖掘方法及系统 |
CN113962424B (zh) * | 2021-07-15 | 2024-11-01 | 南京邮电大学 | 基于PCANet-BiGRU的成绩预测方法、处理器、可读存储介质及计算机设备 |
CN114912027A (zh) * | 2022-05-31 | 2022-08-16 | 济南大学 | 一种基于学习成效预测的学习方案推荐方法及系统 |
CN116693163B (zh) * | 2023-07-21 | 2023-12-05 | 耀昶嵘相变材料科技(广东)有限公司 | 污泥干化系统的控制方法、终端及系统 |
CN117038074B (zh) * | 2023-08-01 | 2024-10-01 | 中国工业互联网研究院 | 基于大数据的用户管理方法、装置、设备及存储介质 |
CN117474353A (zh) * | 2023-10-27 | 2024-01-30 | 国家开放大学 | 一种基于在线教育的决策自动生成方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200532524A (en) * | 2005-05-09 | 2005-10-01 | Ting-Cheng Chang | Method for constructing investment system |
CN106530082A (zh) * | 2016-10-25 | 2017-03-22 | 清华大学 | 基于多机器学习的股票预测方法及系统 |
CN107609084A (zh) * | 2017-09-06 | 2018-01-19 | 华中师范大学 | 一种基于群智汇聚收敛的资源关联方法 |
CN108132989A (zh) * | 2017-12-15 | 2018-06-08 | 华中师范大学 | 一种基于教育大数据的分布式系统 |
CN108171278A (zh) * | 2018-01-25 | 2018-06-15 | 武汉中体智美科技有限公司 | 一种基于运动训练数据的运动模式识别方法和系统 |
CN108197657A (zh) * | 2018-01-04 | 2018-06-22 | 成都寻道科技有限公司 | 一种基于校园数据的学生经济状况预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11144825B2 (en) * | 2016-12-01 | 2021-10-12 | University Of Southern California | Interpretable deep learning framework for mining and predictive modeling of health care data |
-
2018
- 2018-08-13 CN CN201810917660.4A patent/CN109242149B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200532524A (en) * | 2005-05-09 | 2005-10-01 | Ting-Cheng Chang | Method for constructing investment system |
CN106530082A (zh) * | 2016-10-25 | 2017-03-22 | 清华大学 | 基于多机器学习的股票预测方法及系统 |
CN107609084A (zh) * | 2017-09-06 | 2018-01-19 | 华中师范大学 | 一种基于群智汇聚收敛的资源关联方法 |
CN108132989A (zh) * | 2017-12-15 | 2018-06-08 | 华中师范大学 | 一种基于教育大数据的分布式系统 |
CN108197657A (zh) * | 2018-01-04 | 2018-06-22 | 成都寻道科技有限公司 | 一种基于校园数据的学生经济状况预测方法 |
CN108171278A (zh) * | 2018-01-25 | 2018-06-15 | 武汉中体智美科技有限公司 | 一种基于运动训练数据的运动模式识别方法和系统 |
Non-Patent Citations (5)
Title |
---|
Applying a hybrid model of neural network and decision tree classifier for predicting university admission;Simon Fong 等;《ICICS2009》;20091210;第1-5页 * |
Early dropout prediction using data mining:a case study with high school students;Carlos Márquez‐Vera等;《Expert Systems: The Journal of Knowledge Engineering》;20160229;第33卷(第1期);第107-124页 * |
Improving Early Warning Systems with Categorized Course Resource Usage;Waddington 等;《Journal of Learning Analytics》;20161231;第3卷(第3期);第263-290页 * |
Predicting student academic performance using multi-model heterogeneous ensemble approach;OW Adejo等;《Journal of Applied Research in Higher Education》;20171231;第10卷(第1期);第82-93页 * |
基于决策树-LMBP神经网络的学生成绩分析及预测模型的研究;吴强 等;《成都信息工程大学学报》;20180615;第33卷(第3期);第274-280页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109242149A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242149B (zh) | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 | |
Nagy et al. | Predicting dropout in higher education based on secondary school performance | |
CN110188331B (zh) | 模型训练方法、对话系统评价方法、装置、设备及存储介质 | |
CN111124840A (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
US11137322B2 (en) | Diagnosing method of engine condition and diagnostic modeling method thereof | |
WO2021056914A1 (zh) | 一种目标检测模型的自动建模方法及装置 | |
JP6807909B2 (ja) | データ評価方法、装置、機器及び読み取り可能な記憶媒体 | |
US20210312288A1 (en) | Method for training classification model, classification method, apparatus and device | |
JP2022508091A (ja) | 動的再構成訓練コンピュータアーキテクチャ | |
CN112508334A (zh) | 融合认知特性及试题文本信息的个性化组卷方法及系统 | |
CN108256022A (zh) | 人才评价模型构建方法及人才评价方法及系统 | |
CN114925238B (zh) | 一种基于联邦学习的视频片段检索方法及系统 | |
CN113283488B (zh) | 一种基于学习行为的认知诊断方法及系统 | |
CN116910274B (zh) | 基于知识图谱和预测模型的试题生成方法及系统 | |
CN111552796A (zh) | 组卷方法、电子设备及计算机可读介质 | |
CN114970926A (zh) | 一种模型训练方法、企业经营风险预测方法和装置 | |
CN112580807A (zh) | 一种基于效能评估的神经网络改进需求自动生成方法及装置 | |
CN117668360A (zh) | 一种基于学习者在线学习行为分析的个性化习题推荐方法 | |
CN113936804B (zh) | 一种肺癌切除术后持续漏气风险预测模型构建系统 | |
Karimi-Haghighi et al. | Predicting early dropout: Calibration and algorithmic fairness considerations | |
CN116503026B (zh) | 科技项目的运维风险评估方法、系统及存储介质 | |
CN117474353A (zh) | 一种基于在线教育的决策自动生成方法和装置 | |
Sghir et al. | Using learning analytics to improve students' enrollments in higher education | |
Madeira et al. | Prediction of student performance using rough set theory and backpropagation neural networks | |
KR102347151B1 (ko) | 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |