CN114912027A - 一种基于学习成效预测的学习方案推荐方法及系统 - Google Patents
一种基于学习成效预测的学习方案推荐方法及系统 Download PDFInfo
- Publication number
- CN114912027A CN114912027A CN202210608349.8A CN202210608349A CN114912027A CN 114912027 A CN114912027 A CN 114912027A CN 202210608349 A CN202210608349 A CN 202210608349A CN 114912027 A CN114912027 A CN 114912027A
- Authority
- CN
- China
- Prior art keywords
- learning
- user
- predicted
- feature
- course
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000000694 effects Effects 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 42
- 230000006399 behavior Effects 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及学习方案推荐技术领域,提供了一种基于学习成效预测的学习方案推荐方法及系统,包括:获取待预测用户的基本数据以及对某个课程的学习行为数据,并进行预处理后,构建并筛选出分类特征,得到待预测用户的特征向量,输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效,当学习成效为未通过考核时,发送预警信息给待预测用户,并获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户;并通过集成多个机器学习模型提高了模型对不同样本的泛化能力,实现了对有失败风险的学生做到准确预警和对预警学生进行最优、最适合的学习方案推荐。
Description
技术领域
本发明属于学习方案推荐技术领域,尤其涉及一种基于学习成效预测的学习方案推荐方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
虚拟学习环境将远程交互和面对面的交互结合起来提供一种虚拟的学习环境,学习的氛围和现场感更加接近线下传统教学。虚拟学习环境产生大量的学生学习行为数据,可用于学生学习成效预测,实时跟踪学生学习效果,预测学生能否通过课程考核,也可用于学习方案的推荐。
但是,现有的学习成效预测与学习方案的推荐是独立进行的,现有的学习方案推荐方法是针对虚拟学习环境中所有的学生,缺乏针对性,而且是采用历史用户的学习方案,由于政策等的改变,并不适用于目标用户。现有学生学习成效预测方法从分类方法角度划分为以下几类:
(1)基于时间序列数据的分类方法。该方法将学生学习行为的日志数据转换为时间序列数据,挖掘数据之间的时间规律进行预测。
(2)基于机器学习的分类方法。该方法采集学生学习行为数据,用支持向量机、K近邻、朴素贝叶斯、随机森林、人工神经网络等模型或者基于上述模型的集成学习模型预测学习成效。
(3)基于深度学习的分类方法。该方法使用评估流和点击流采集学生虚拟学习环境学习行为数据,采用数据补全机制来填充缺失的流数据,采用卷积神经网络、循环神经网络等深度学习模型预测学习成效,可同时处理静态数据和序列数据。
上述学习成效预测方法无法在众多的影响因素中识别出关键因素,无法适用于不均衡数据集,无法使用于不用样本,不能准确的识别有失败风险的学生,无法做到准确预警,也就无法用于学习方案的准确推荐。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于学习成效预测的学习方案推荐方法及系统,集成多个机器学习模型,基分类器具有高多样性的特点,提高了模型对不同样本的泛化能力,实现了对有失败风险的学生做到准确预警和对预警学生进行最优、最适合的学习方案推荐。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于学习成效预测的学习方案推荐方法,其包括:
获取待预测用户的基本数据以及对某个课程的学习行为数据,并进行预处理;
基于预处理后的数据,构建并筛选出分类特征,得到待预测用户的特征向量;
将待预测用户的特征向量输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效;
当学习成效为未通过考核时,发送预警信息给待预测用户,并将预测得到的对该课程的学习成效为通过考核的用户作为参考用户,获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户;
其中,学生学习成效预测模型包括预训练层、并行处理层和元学习层;所述预训练层用于生成特征向量的权重,并将权重增至特征向量;所述并行处理层分别采用多个并行的基学习器基于特征向量得到输出结果,并将所有基学习器的输出结果合并后输入所述元学习层。
进一步地,所述分类特征筛选的方法为:
将训练集的特征矩阵中任意两个不相同的特征组合作为一个特征对,并计算每个特征对的皮尔逊相关系数;
基于每个特征对的皮尔逊相关系数,进行特征的删除后,将特征矩阵输入随机森林模型中,学习得到所有特征的相关系数排序,将所有特征按相关系数从大到小排序。
进一步地,所述学生学习成效预测模型训练用的训练集在特征筛选后,通过均值法扩增数据量,平衡正负样本比例。
进一步地,还包括:使用标准分数对分类特征进行归一化处理,基于归一化处理后的分类特征进行特征筛选。
进一步地,所述预训练层的训练器的目标函数包括两部分:损失函数和正则化项。
进一步地,构建出的分类特征包括:平均点击量、课外平均点击量、每日点击量的标准差、总注册时间、过程化考核成绩的平均值和过程化考核成绩的标准差。
本发明的第二个方面提供一种基于学习成效预测的学习方案推荐系统,其包括:
数据预处理模块,其被配置为:获取待预测用户的基本数据以及对某个课程的学习行为数据,并进行预处理;
特征强化模块,其被配置为:基于预处理后的数据,构建并筛选出分类特征,得到待预测用户的特征向量;
成效评价模块,其被配置为:将待预测用户的特征向量输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效;
学习方案推荐模块,其被配置为:当学习成效为未通过考核时,发送预警信息给待预测用户,并将预测得到的对该课程的学习成效为通过考核的用户作为参考用户,获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户;
其中,学生学习成效预测模型包括预训练层、并行处理层和元学习层;所述预训练层用于生成特征向量的权重,并将权重增至特征向量;所述并行处理层分别采用多个并行的基学习器基于特征向量得到输出结果,并将所有基学习器的输出结果合并后输入所述元学习层。
进一步地,构建出的分类特征包括:平均点击量、课外平均点击量、每日点击量的标准差、总注册时间、过程化考核成绩的平均值和过程化考核成绩的标准差。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于学习成效预测的学习方案推荐方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于学习成效预测的学习方案推荐方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于学习成效预测的学习方案推荐方法,其采用集成学习模型聚合传统机器学习模型,其集成多个机器学习模型,基分类器具有高多样性的特点,提高模型对不同样本的泛化能力,可以更准确的学习在线课程学生行为,能够有效识别有失败风险的学生,来对学生进行提醒,并对有失败风险的学生进行学习方案的推荐,且该方案是与其处于同一学习阶段的学生的学习方案,不会受到政策等环境因素的影响,实现了对预警学生进行最优、最适合的学习方案的推荐,以提高学生的表现,加强学生的学习能力。
本发明提供了一种基于学习成效预测的学习方案推荐方法,其使用均值法平衡正负样本数量,提高模型对不均衡数据集的学习能力。
本发明提供了一种基于学习成效预测的学习方案推荐方法,其根据学生在虚拟学习环境中的跟踪数据提取特征、构建特征,提高模型对数据集关键特征的学习能力。
本发明提供了一种基于学习成效预测的学习方案推荐方法,其在传统stacking模型中增加了一层,使用基分类器对数据集进行预训练,并将预测结果作为新特征输入模型中,提高了模型对样本的复用能力。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的基于学习成效预测的学习方案推荐方法流程图;
图2是本发明实施例一的正负样本均值化流程图;
图3是本发明实施例一的学习成效预测模型结构图;
图4是本发明实施例二的系统模块图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于学习成效预测的学习方案推荐方法,如图1所示,具体包括以下步骤:
步骤1、获取训练集,训练集包括若干个学生的基本特征、以及每个学生对某个课程的学习行为特征和学习成效标签。
步骤101、对于虚拟学习环境中,学生已经完成并得到准确学习成效的课程,采集每个学生的分类数据(包括基本数据、以及对某个课程的学习行为数据)和学习成效标签。
步骤102、对分类数据进行预处理。为了增强模型特征学习效果,在学生特征向量fi输入到模型前对其进行数据预处理。数据预处理包括缺失值处理和格式转换。具体包括:
(1)填补学生分类数据中的缺失值;若点击量、成绩属性为空值,则用0填补;若日期属性为空值,则用学习成效评价日期补充;由于存在学生未提交、未参与学习等原因,训练集中存在数据缺失等问题;此类样本会影响模型对特征的学习;通过分析特征定义,对空缺值进行填充;
(2)将学生虚拟学习环境学习行为的文本数据转换为数字数据,即,将varchar型数据转换为数字型,包括使用0、1替代二值特征;枚举类数据转换为自然数;例如,健康状况(较差:0,良好:1),最终评价结果(未通过:0,通过:1)。
其中,学生的基本数据包括性别、健康状况;学习行为数据为学生在虚拟学习环境的学习行为数据,包括此前学习该课程的次数、课程时长、成绩权重、作业迟交比率、失败率、通过率、过程化考核成绩、日点击量、注册时间和注销时间等。
学习成效标签为通过考核和未通过考核。
步骤103、基于学生的基本数据,构建出分类特征:平均点击量、课外平均点击量、每日点击量的标准差、总注册时间、过程化考核成绩的平均值和过程化考核成绩的标准差。
其中,特征avgClick(平均点击量)的构建方法为:学生在虚拟学习环境学习某一门课程,学习该门课的频率用点击量表示。用日平均点击量跟踪学生每日学习成效。计算日平均点击量为其中sumclicki表示学生i在学习期间的每日总点击量,modulePresentationLength是学习课程的时长。
特征ac_avgclicks(课外平均点击量)的构建方法为:课外平均点击量反映了学生在课外学习中的努力程度和活跃度。课外平均点击量越高,通过该门课的考核的概率越高。课外平均点击量的计算方法为:date>modulePresentationLength OR date<0,其中ac_avgclicksi表示学生i的课外平均点击量,clicki表示学生在虚拟学习环境中的每日点击量,ac_daysi表示课外学习天数,date表示产生该点击量的日期。
特征sdevClicks(每日点击量的标准差)的构建方法为:每日点击量的标准差反映了学生每日点击量间的离散程度。每日点击量的标准差越大,学生每日活跃度差异越大。课内每日点击量的标准差的计算方法为: 其中clickid表示学生i在第d天的点击量,avgClicki表示学生i的平均点击量,D为课程总天数。
特征totalreg(总注册时间)的构建方法为:总注册时间在一定程度上反映学生虚拟学习环境学习的积极性。总注册时间的计算方法如下:
其中,totalregi表示学生i的总注册时间,date_registrationi代表学生i注册该课程的日期,date_unregistrationi代表学生i注销该课程的日期,modulePresentationLength是学习课程的时长。
特征score_avg(过程化考核成绩的平均值)的构建方法为:平均成绩是学生在该门课程的过程化考核的平均成绩,反映学生在学习该门课程期间的平均表现。平均成绩越高,通过该门课的考核的概率越高。平均成绩计算方法为其中score_avgi代表学生i的平均成绩,scoreij代表学生i虚拟学习环境学习该门课中第j次过程化考核的成绩,n代表考核次数。
特征score_sdev(过程化考核成绩的标准差)的构建方法为:过程化考核成绩的标准差反映学生在学习该门课程期间的成绩的波动情况。score_sdev越大,说明过程化考核成绩波动越大,学生学习状态越不稳定。过程化考核成绩的标准差计算方法为其中score_sdevi代表学生i过程化考核成绩的标准差,scoreij代表学生i虚拟学习环境学习该门课中第j次过程化考核的成绩,n代表考核次数,score_avgi代表学生i的平均成绩。
将基本数据与构建出的分类特征(平均点击量、课外平均点击量、每日点击量的标准差、总注册时间、过程化考核成绩的平均值和过程化考核成绩的标准差)组合后,得到每个学生的分类特征(包括基本特征、以及对某个课程的学习行为特征)和学习成效标签,即得到训练集{(ti,si),yi|i=1,…,n},其中ti为学生i的所有人口统计特征(基本特征),si为学生i在虚拟学习环境的所有学习行为特征,yi为学生i的课程考核情况(学习成效标签),n为训练集中学生的个数。定义特征矩阵F=[f1,f2,……,fn]T,其中fi是第i个学生的特征向量,且fi=[ti1,ti2,…,tis,sis+1,sis+2,……,sik],其中,s为人口统计特征个数,k-s为学习行为特征个数,tia代表第i个学生的特征向量中第a个人口统计特征,sia代表第i个学生的特征向量中第a个学习行为特征。虚拟学习环境中在开课期间外的时间称为课外。
步骤104、归一化。使用标准分数(z-score)对学生分类特征进行归一化处理,基于归一化处理后的分类特征进行特征筛选。对学生分类特征进行归一化处理,将不同量级的数据转换成统一量级,以保证数据之间的可比性。归一化使用计算公式为或其中,μ为数据均值,δ为数据的标准差。经过归一化后的特征矩阵F*=[f1 *,f2 *,……,fn *]T,其中fi *=[xi1 *,xi2 *,……,xik *],xia *代表第i个特征向量中的第a个特征经归一化处理后的值。
步骤105、特征筛选。训练集的特征矩阵中任意两个不相同的特征组合作为一个特征对。计算一个特征对的皮尔逊相关系数,作为两个特征的相关度。皮尔逊相关系数大于0表明特征之间是正相关的;皮尔逊相关系数小于0表明特征之间是负相关的;皮尔逊相关系数等于0表明特征之间不存在线性关系。按照特征间的相关系数,删除相关度高的特征对其中之一。通过将特征矩阵输入随机森林模型中,学习得到相关系数排序。按相关系数从大到小将特征输入至模型中,直到准确率不再提升。
基于每个特征对的皮尔逊相关系数,进行特征的删除后,将特征矩阵输入随机森林模型中,学习得到所有特征的相关系数排序,将所有特征按相关系数从大到小排序,具体的:在相关度为1和-1的特征对中随机删除一个特征;用随机森林模型训练学生虚拟学习环境学习行为特征,生成每一个特征与学生学习成效评价结果的相关系数,按相关系数从大到小排序,将特征输入到随机森林模型进行学习,直到准确率不再提升,得到筛选后特征向量fi *=[xi1 *,xi2 *,……,xim *],其中,m表示筛选后特征的个数。
步骤106、数量少的一方,使得训练集中正样本和负样本数量相同。如图2所示,以特征筛选后的训练集作为输入,通过随机抽取负样本5条,将每列特征求均值得到新样本。最后将新的负样本集并入原样本集中。
抽取数据集部分数据形成样本总体,其中每条数据为一个样本。标签是指该条数据所对应的样本分类,通常为0或1。将期望得到的积极的结果称作正样本(用“1”代表),相反的结果称作负样本(用“0”代表)。选择正样本或负本两个数据集合数据量少的一个集合,通过均值法扩增其数据量,平衡正负样本比例。
定义标签为0的样本的特征矩阵为F0=[f01,f02,……,f0g]T,其中,g为标签为0的样本的个数,f0i是第i个标签为0的样本的特征向量,f0i=[xi1,xi2,…,xim],xia代表第i个标签为0的样本中的第a个特征。随机在标签为0或1的样本总体中有放回抽取5条样本,计算得到这五条样本对应每一列样本特征值的均值 令新样本并加入训练集;判断训练集中标签为0和1的样本数相同是否相同,若不同继续进行样本扩增,直到标签为0和1的样本数相同。扩增前样本数为n,扩增后样本数为u,即F*=[f1 *,f2 *,……,fu *]T,fi *=[xi1 *,xi2 *,……,xim *],xia *代表第i个特征向量中第a个特征。
步骤2、采用训练集对在线课程学生学习成效预测模型进行训练。获取待预测用户的分类数据(包括基本数据以及对某个课程的学习行为数据),进行预处理和归一化;基于归一化后的数据,构建并筛选出分类特征(直接根据步骤106基于训练集筛选出的特征选取即可),得到待预测用户的特征向量fi *=[xi1 *,xi2 *,……,xim *],并输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效,当学习成效为未通过考核时,发送预警信息给待预测用户(学生终端),并发送每个学生的学习成效至教师终端进行显示。
如图3所示,学生学习成效预测模型的第一层为预训练层,中间层为并行处理层,第三层为元学习层。预训练层用于生成特征向量的权重,并将权重增至特征向量;并行处理层分别采用多个并行的基学习器基于特征向量得到输出结果,并将所有基学习器的输出结果合并后输入元学习层。
步骤201:预训练。预训练包括调用XGBoost训练器及设置代价矩阵。
预训练层的训练器的目标函数包括两部分:损失函数和正则化项。XGBoost训练器的目标函数为其中是正则化项,fk为第k棵树的函数,K为树的个数,对于一棵树的函数f,其正则化项为衡量真实标签和预测标签的差距,l为损失函数,yi为真实标签,为预测标签。在正则化项中,T表示叶子结点的个数,表示叶子节点的分数,γ控制叶子节点个数,λ控制叶子节点分数,防止过拟合。
代价矩阵的设置包括构建代价矩阵和计算错误概率。
令将分类结果为通过考核(或未通过考核)的样本误分类为未通过考核(或通过考核)的错误代价记为e10(或e01),共有两种分类类型,形成2*2的代价矩阵:记分类错误e10(或e01)的个数分别为n10(或n01)。代价敏感错误率的计算方式为:其中II(*)是指示函数,若训练正确则为1,否则为0。F*为数据集,F*+为正样本数据集,F*-为负样本数据集。指第i个学生的特征在模型中所得的预测值。
建立混淆矩阵,呈现算法性能的可视化效果。计算分类结果为通过考核(或未通过考核)的样本误分类为未通过考核(或通过考核)的概率为P10(或P01)。具体的,建立混淆矩阵:则可以根据混淆矩阵计算分类结果为通过考核(或未通过考核)的样本误分类为未通过考核(或通过考核)的概率(错误概率)为
初始化每个特征向量的权重D=(w1,w2,…,wu),权重均分,均为经XGBoost训练后筛选出分类错误的样本,并放大其权重。每次训练均计算此时的代价敏感错误率,当代价敏感错误率最低时,此时的权重即为最终权重。将分类结果与权重合并作为新的特征新增至原特征向量fi *=[xi1 *,xi2 *,……,xim *]中形成fi′=wi×fi *=[wi×xi1 *,wi×xi2 *,……,wi×xim *],得特征矩阵为F’=[f1’,f2’,……,fu’]T。
步骤202:并行处理。在并行处理层选用4个基学习器,且基学习器需满足特性:性能强、相关性小和性能差距不能太大。本层选用的4个基学习器分别为:极度梯度决策树(Extreme Gradient BoostingXGBoost)、CatBoost(Category Boosting)、二元随机森林(Binary Random Forest,BRF)及极端随机树(Extremely randomized trees,ET)。四个基学习器并排分布,同时接收特征矩阵F’。其中,ET在决策树的基础上使用随机的特征和随机的阈值划分结点,导致决策树结果差异更大更随机。BRF通过随机森林提取特征信息,即取t棵树,每棵树有f个叶子,每个叶子对应一个一位的二进制数。记第k个学习器的训练误差为其中fi’为F’中的一个特征向量,u为F’中特征向量的数量,C(fi’)为学习器训练fi’后的输出,y为fi’的标签。当C(fi′)≠y时,[|C(fi′)≠y|]=1。如步骤201中方法计算第k个基学习器的错误概率Pk。第k个基学习器的训练结果记为Rk=[Ck(f1′),Ck(f2′),…,Ck(fu′)]T。为四个基学习器的训练结果分配权重,权重分配公式为并构建新特征矩阵F1=[weight1×R1,weight2×R2,weight3×R3,weight4×R4]。
步骤203:元学习层。元学习层使用CatBoost作为元学习器,通过训练特征矩阵F1得到对验证集的输出结果0或1。
步骤3、对于该课程,在某时间点,通过步骤2预测得到所有用户的学习成效后,当待预测用户的学习成效为未通过考核时,将预测得到的对该课程的学习成效为通过考核的用户作为参考用户,获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户。
其中,学习效率为参考用户对该课程的过程化考核成绩的平均值与日点击量的比值。学习方案的构建方法可以采用申请号为201911034859.3的专利一种学习方案推荐方法及装置中公开的方法。
本实施例采用集成学习模型聚合传统机器学习模型,其集成多个机器学习模型,基分类器具有高多样性的特点,提高模型对不同样本的泛化能力,可以更准确的学习在线课程学生行为,能够有效识别有失败风险的学生,来对学生进行提醒,并对有失败风险的学生进行学习方案的推荐,且该方案是与其处于同一学习阶段的学生的学习方案,不会受到政策等环境因素的影响,实现了对预警学生进行最优、最适合的学习方案的推荐,以提高学生的表现,加强学生的学习能力。
实施例二
本实施例提供了一种基于学习成效预测的学习方案推荐系统,如图4所示,其具体包括如下模块:
数据预处理模块,其被配置为:获取待预测用户的基本数据以及对某个课程的学习行为数据,并进行预处理;
特征强化模块,其被配置为:基于预处理后的数据,构建并筛选出分类特征,得到待预测用户的特征向量;
成效评价模块,其被配置为:将待预测用户的特征向量输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效;
学习方案推荐模块,其被配置为:当学习成效为未通过考核时,发送预警信息给待预测用户的终端,并将预测得到的对该课程的学习成效为通过考核的用户作为参考用户,获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户的终端;
预测显示模块,其被配置为:发送每个学生的学习成效至教师终端进行显示。
其中,学生学习成效预测模型包括预训练层、并行处理层和元学习层;所述预训练层用于生成特征向量的权重,并将权重增至特征向量;所述并行处理层分别采用多个并行的基学习器基于特征向量得到输出结果,并将所有基学习器的输出结果合并后输入所述元学习层。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于学习成效预测的学习方案推荐方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于学习成效预测的学习方案推荐方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于学习成效预测的学习方案推荐方法,其特征在于,包括:
获取待预测用户的基本数据以及对某个课程的学习行为数据,并进行预处理;
基于预处理后的数据,构建并筛选出分类特征,得到待预测用户的特征向量;
将待预测用户的特征向量输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效;
当学习成效为未通过考核时,发送预警信息给待预测用户,并将预测得到的对该课程的学习成效为通过考核的用户作为参考用户,获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户;
其中,学生学习成效预测模型包括预训练层、并行处理层和元学习层;所述预训练层用于生成特征向量的权重,并将权重增至特征向量;所述并行处理层分别采用多个并行的基学习器基于特征向量得到输出结果,并将所有基学习器的输出结果合并后输入所述元学习层。
2.如权利要求1所述的一种基于学习成效预测的学习方案推荐方法,其特征在于,所述分类特征筛选的方法为:
将训练集的特征矩阵中任意两个不相同的特征组合作为一个特征对,并计算每个特征对的皮尔逊相关系数;
基于每个特征对的皮尔逊相关系数,进行特征的删除后,将特征矩阵输入随机森林模型中,学习得到所有特征的相关系数排序,将所有特征按相关系数从大到小排序。
3.如权利要求1所述的一种基于学习成效预测的学习方案推荐方法,其特征在于,所述学生学习成效预测模型训练用的训练集在特征筛选后,通过均值法扩增数据量,平衡正负样本比例。
4.如权利要求1所述的一种基于学习成效预测的学习方案推荐方法,其特征在于,还包括:使用标准分数对分类特征进行归一化处理,基于归一化处理后的分类特征进行特征筛选。
5.如权利要求1所述的一种基于学习成效预测的学习方案推荐方法,其特征在于,所述预训练层的训练器的目标函数包括两部分:损失函数和正则化项。
6.如权利要求1所述的一种基于学习成效预测的学习方案推荐方法,其特征在于,构建出的分类特征包括:平均点击量、课外平均点击量、每日点击量的标准差、总注册时间、过程化考核成绩的平均值和过程化考核成绩的标准差。
7.一种基于学习成效预测的学习方案推荐系统,其特征在于,包括:
数据预处理模块,其被配置为:获取待预测用户的基本数据以及对某个课程的学习行为数据,并进行预处理;
特征强化模块,其被配置为:基于预处理后的数据,构建并筛选出分类特征,得到待预测用户的特征向量;
成效评价模块,其被配置为:将待预测用户的特征向量输入训练好的在线课程学生学习成效预测模型,预测得到待预测用户对该课程的学习成效;
学习方案推荐模块,其被配置为:当学习成效为未通过考核时,发送预警信息给待预测用户,并将预测得到的对该课程的学习成效为通过考核的用户作为参考用户,获取参考用户的学习效率和学习方案,将学习效率最高的参考用户的学习方案发送给待预测用户;
其中,学生学习成效预测模型包括预训练层、并行处理层和元学习层;所述预训练层用于生成特征向量的权重,并将权重增至特征向量;所述并行处理层分别采用多个并行的基学习器基于特征向量得到输出结果,并将所有基学习器的输出结果合并后输入所述元学习层。
8.如权利要求7所述的一种基于学习成效预测的学习方案推荐系统,其特征在于,构建出的分类特征包括:平均点击量、课外平均点击量、每日点击量的标准差、总注册时间、过程化考核成绩的平均值和过程化考核成绩的标准差。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的一种基于学习成效预测的学习方案推荐方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的一种基于学习成效预测的学习方案推荐方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210608349.8A CN114912027A (zh) | 2022-05-31 | 2022-05-31 | 一种基于学习成效预测的学习方案推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210608349.8A CN114912027A (zh) | 2022-05-31 | 2022-05-31 | 一种基于学习成效预测的学习方案推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912027A true CN114912027A (zh) | 2022-08-16 |
Family
ID=82770120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210608349.8A Pending CN114912027A (zh) | 2022-05-31 | 2022-05-31 | 一种基于学习成效预测的学习方案推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912027A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361785A (zh) * | 2023-03-31 | 2023-06-30 | 济南大学 | 基于深度学习的推荐系统恶意攻击检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274020A (zh) * | 2017-06-15 | 2017-10-20 | 北京师范大学 | 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法 |
CN108182489A (zh) * | 2017-12-25 | 2018-06-19 | 浙江工业大学 | 一种基于在线学习行为分析的个性化学习推荐方法 |
CN109242149A (zh) * | 2018-08-13 | 2019-01-18 | 华中师范大学 | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 |
CN110414554A (zh) * | 2019-06-18 | 2019-11-05 | 浙江大学 | 一种基于多模型改进的Stacking集成学习鱼类识别方法 |
CN111353098A (zh) * | 2020-02-21 | 2020-06-30 | 北京市天元网络技术股份有限公司 | 基于物联网的课程推送方法及装置 |
CN112700325A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于Stacking集成学习的网贷回头客预测的方法 |
CN112818196A (zh) * | 2019-11-18 | 2021-05-18 | 香港科技大学 | 基于电子学习平台的数据处理方法、设备、电子装置及存储介质 |
CN113935869A (zh) * | 2021-09-08 | 2022-01-14 | 杭州电子科技大学 | 一种学生主客观因素结合的成绩预测方法及系统 |
-
2022
- 2022-05-31 CN CN202210608349.8A patent/CN114912027A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274020A (zh) * | 2017-06-15 | 2017-10-20 | 北京师范大学 | 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法 |
CN108182489A (zh) * | 2017-12-25 | 2018-06-19 | 浙江工业大学 | 一种基于在线学习行为分析的个性化学习推荐方法 |
CN109242149A (zh) * | 2018-08-13 | 2019-01-18 | 华中师范大学 | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 |
CN110414554A (zh) * | 2019-06-18 | 2019-11-05 | 浙江大学 | 一种基于多模型改进的Stacking集成学习鱼类识别方法 |
CN112818196A (zh) * | 2019-11-18 | 2021-05-18 | 香港科技大学 | 基于电子学习平台的数据处理方法、设备、电子装置及存储介质 |
CN111353098A (zh) * | 2020-02-21 | 2020-06-30 | 北京市天元网络技术股份有限公司 | 基于物联网的课程推送方法及装置 |
CN112700325A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于Stacking集成学习的网贷回头客预测的方法 |
CN113935869A (zh) * | 2021-09-08 | 2022-01-14 | 杭州电子科技大学 | 一种学生主客观因素结合的成绩预测方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361785A (zh) * | 2023-03-31 | 2023-06-30 | 济南大学 | 基于深度学习的推荐系统恶意攻击检测方法及系统 |
CN116361785B (zh) * | 2023-03-31 | 2024-04-05 | 济南大学 | 基于深度学习的推荐系统恶意攻击检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475273B1 (en) | Deep convolutional neural networks for automated scoring of constructed responses | |
US11257041B2 (en) | Detecting disability and ensuring fairness in automated scoring of video interviews | |
Thai-Nghe et al. | Factorization Models for Forecasting Student Performance. | |
CN112508334B (zh) | 融合认知特性及试题文本信息的个性化组卷方法及系统 | |
Thai-Nghe et al. | Multi-relational factorization models for predicting student performance | |
CN108257052B (zh) | 一种在线学生知识评估方法及其系统 | |
Chai et al. | Predicting the Risk of Attrition for Undergraduate Students with Time Based Modelling. | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
Rashid et al. | Lecturer performance system using neural network with Particle Swarm Optimization | |
CN112581265A (zh) | 一种基于AdaBoost的互联网金融客户申请欺诈检测方法 | |
CN109582974A (zh) | 一种基于深度学习的在校大学生信用评估方法及装置 | |
CN112149884A (zh) | 一种面向大规模学员的学业预警监测方法 | |
Masangu et al. | Predicting student academic performance using data mining techniques | |
Isljamovic et al. | Predicting students’ academic performance using artificial neural network: a case study from faculty of organizational sciences | |
CN114912027A (zh) | 一种基于学习成效预测的学习方案推荐方法及系统 | |
Arcinas | Design of machine learning based model to predict students academic performance | |
Ekong et al. | A Machine Learning Approach for Prediction of Students’ Admissibility for Post-Secondary Education using Artificial Neural Network | |
Rana et al. | Slow learner prediction using multi-variate naïve Bayes classification algorithm | |
Verma et al. | ICT and Mobile Technology features predicting the university of Indian and Hungarian student for the real-time | |
Xiong et al. | Online calibration of polytomous items under the graded response model | |
CN113392958B (zh) | 一种模糊神经网络fnn的参数优化及应用方法与系统 | |
CN115795015A (zh) | 一种试题难度增强的综合知识追踪方法 | |
YURTKAN et al. | Student Success Prediction Using Feedforward Neural Networks | |
US20210150595A1 (en) | Experience Sensing Engine | |
WO2021214936A1 (ja) | 予測装置、予測方法、及び、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |