CN107180284A - 一种基于学习行为特征的spoc学生每周表现预测方法及装置 - Google Patents
一种基于学习行为特征的spoc学生每周表现预测方法及装置 Download PDFInfo
- Publication number
- CN107180284A CN107180284A CN201710551541.7A CN201710551541A CN107180284A CN 107180284 A CN107180284 A CN 107180284A CN 201710551541 A CN201710551541 A CN 201710551541A CN 107180284 A CN107180284 A CN 107180284A
- Authority
- CN
- China
- Prior art keywords
- student
- data
- performance
- weekly
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003442 weekly effect Effects 0.000 title claims abstract description 68
- 230000006399 behavior Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 88
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims description 22
- 238000003066 decision tree Methods 0.000 claims description 14
- 230000003542 behavioural effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Educational Technology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于学习行为特征的SPOC学生每周表现预测方法及装置,属于在线学习领域。本发明通过收集学生在线课程中的日志数据,并从中提取学生的学习行为特征训练多个数据挖掘模型,然后使用在训练集上表现最优的数据挖掘模型对学生每周的表现进行预测。对应地,本发明的预测装置包括数据采集模块、特征提取模块、训练数据生成模块和预测模块。本发明基于学生学习习惯设计的学习行为特征与普通学习行为特征相比,融入了教师的教学经验,能够反映学生在线课程中的学习习惯,有助于提高预测模型的预测准确度;并让教师及时了解发现学习出现问题的学生,以调整课程难度,给予针对性辅导。
Description
技术领域
本发明属于在线学习领域,具体的说,是一种基于学习行为特征的SPOC学生每周表现预测方法及装置。
背景技术
SPOC(Small Private Online Course)是一种新型教学模式,它将传统的课堂教育与在线教育结合,借助传统课程的优势来弥补MOOC(massive open online courses)课程的教与学方式、高辍学率和学习管理等方面不足,同时利用MOOC教育资源提高校园教学质量。然而将在线课程引入传统教学中不可避免的一个问题就是教师如何能够及时获取学生的教学反馈,因为混合教学将一部分的课程转移到线上进行,脱离了课堂和教师的监管,很难保证学生能够按照预期的计划进行学习。SPOC的教学模式能够方便地管理学生的评测成绩,并记录学生的在线学习浏览记录,但是关于SPOC学生成绩预测分析的研究工作仍不够充分,尤其对学生每周表现进行预测的研究仍非常少见,亦未见到广泛的实施。
而开发基于学习行为的SPOC学生每周表现预测方法和系统具有重要价值,包括:
(1)对学生表现进行预测,帮助教师了解学生在线学习情况和课程难度,帮助教师对课程内容进行适当的调节;
(2)每周对学生进行测试前,都对学生当前周的测试表现进行预测,使教师了解当前周哪些学生存在测试表现不佳的危险,从而给予对这部分学生针对性的教学指导和帮助。
所设计的预测方法和系统需要基于学生学习习惯的学习行为特征,并将教师的教学经验融入到训练模型中,帮助提高数据挖掘模型的预测准确度。可对多个经典数据挖掘模型在训练集上的预测表现进行评估,挑选最适合的数据挖掘模型。
发明内容
本发明旨在提供一种基于学习行为特征的SPOC学生每周表现预测方法及装置,通过收集学生在线课程中的日志数据,并从中提取学生的学习行为特征训练多个数据挖掘模型,然后使用在训练集上表现最优的数据挖掘模型对学生每周的表现进行预测,让教师及时了解学生在线学习情况,发现学习出现问题的学生,以调整课程难度,给予针对性辅导等。
本发明的基于学习行为特征的SPOC学生每周表现预测方法,包括:
步骤1,数据收集,获取课程日志数据、学生成绩数据和学生每周表现数据;
课程日志数据包括本学期已产生的前m周课程日志数据和往届前m周课程日志数据;学生成绩数据包括本学期学生已取得的GPA数据和往届学生的GPA数据;学生每周表现数据包括本学期学生的前m周表现数据和往届学生的前m周表现数据;m为正整数,GPA为平均成绩点数。
步骤2,特征提取,对每位学生每一周提取一个特征向量,特征向量包括简单学习行为特征、复合学习行为特征和基于学习习惯的学习行为特征。
步骤3,准备训练集数据;
对作为训练集的每位学生,将其每周的特征向量按照时间进行拼接,设m周的特征向量拼接为K*m的向量;将学生的GPA数据作为一个特征加入拼接向量中;将第m+1周学生表现数据作为标签加入拼接向量中;生成训练集Dm+1;以此类推,依次将第m+2、、m+3、…,M周学生的表现作为标签,加入拼接向量中,得到训练集Dm+2,Dm+3,…DM;M为正整数。
步骤4,利用训练集数据训练模型;在训练时,模型的输入特征是每位学生每周的特征向量,分类标签是学生在预测周的表现数据;
使用K折交叉验证的方法,将训练集数据输入到K近邻,支持向量机,朴素贝叶斯,随机森林,迭代决策树,Logistic模型,决策树七种机器学习模型进行模型训练,根据ROCAUC指标挑选出最优模型C;使用全部训练集数据训练模型C,得到分类器Cz,用来预测学生在预测周的表现,z=m+1,m+2,…,M。
对应地,本发明的基于学习行为特征的SPOC学生每周表现预测装置,包括:
第一数据采集模块,用于获取本学期已产生的前m周课程日志数据和往届前m周课程日志数据;
第二数据采集模块,用于从学生成绩库中获取本学期学生已取得的GPA数据和往届学生的GPA数据;
第三数据采集模块,用于获取本学期学生的前m周表现数据和往届学生的前m周表现数据,根据每周测试记录获得每周表现数据,表现良好记为1,表现不佳记为0;
特征提取模块,用于根据第一数据采集模块获取的数据对每位学生每周提取一个特征向量,特征向量中包括简单学习行为特征、复合学习行为特征和基于学习习惯的学习行为特征;
训练数据生成模块,对训练集中的每位学生生成预测周的训练集,将学生从特征提取模块得到的特征向量拼接从第二数据采集模块得到的GPA数据再拼接从第三数据采集模块得到的预测周表现数据,得到预测周训练集;
预测模块,将训练数据生成模块生成的训练数据输入K近邻、支持向量机、朴素贝叶斯、随机森林、迭代决策树、Logistic模型和决策树七种机器学习模型中进行训练,根据ROC AUC指标挑选出最优模型C,利用全部训练集数据训练模型C,得到分类器Cz;将待预测学生的特征特征向量拼接GPA数据生成测试数据输入分类器Cz,得到预测学生在预测周表现良好的概率Pz,若Pz大于tz,则输出预测结果为表现良好,否则输出预测结果为表现不佳。
本发明的优点和积极效果在于:
(1)基于学习习惯的学习行为特征设计,使得特征的意义更明确,更能够反映学生的学习过程,有助于提升模型预测准确度,同时也会使得模型更易于理解;基于学生学习习惯设计的学习行为特征与普通学习行为特征相比,融入了教师的教学经验,能够反映学生在在线课程中的学习习惯,有助于提高预测模型的预测准确度;
(2)将学生的成绩表现具体到周,每周都训练一个模型预测学生能否通过当前周的课堂预测,能够让教师及时的了解学生学习水平,帮助可能不通过本周课堂测试的学生更好的学习课程内容,提高课堂实验的通过率;
(3)预测学生的每周表现是否良好,既能够预测学生近期几周的学习情况,让教师能够得到更及时的反馈,提早发现问题学生。又能给出学生在本学期后期的表现情况,提供学生学习表现的参考趋势,让教师更好的掌握学生学习状况;
(4)考虑到多种数据挖掘模型的特点不同,适用的数据集也不同,本发明挑选出七个经典的数据挖掘模型,包括生成模型朴素贝叶斯,判别模型K近邻,支持向量机,随机森林,迭代决策树,Logistic模型,决策树,根据ROC AUC指标挑选出适合当前数据集的最优模型以提高数据预测的准确性。
附图说明
图1是本发明的基于学习行为特征的SPOC学生每周表现预测方法整体流程图;
图2是本发明预测方法中课程日志数据收集的示意图;
图3是本发明预测方法中学生成绩数据收集的示意图;
图4是本发明预测方法中学生每周表现数据收集的示意图;
图5是本发明预测方法中特征提取示意图;
图6是本发明预测方法中特征拼接示意图;
图7是本发明预测方法中准备训练集数据示意图;
图8是本发明预测方法中模型训练过程示意图;
图9是本发明预测方法中预测每周表现示意图;
图10是本发明实施例中采用Logistic模型在不同周预测学生表现的ROC AUC热力图;
图11是本发明实施例中不同特征在Logistic模型中的重要性示意图。
具体实施方式
下面结合附图和实施例来说明本发明的实现过程。
假设课程共分为M周,学生每周需要在在线课程中完成相应的教学任务,如观看教学视频、浏览教学材料、完成课后作业等。并且教师每周都要对学生进行测试,得到学生当前周的表现。在课程进行到m周时,利用课程的往年前m周数据和本学期前m周数据,使用机器学习方法对学生每周测试表现进行预测。M、m均为正数。
如图1所示,本发明基于学习行为特征的SPOC学生每周表现预测方法主要包括五个步骤:数据收集,特征提取,准备训练集数据,训练模型和预测表现。下面说明各个实现步骤。
步骤1,数据收集。预测使用的数据有三种:课程日志数据,学生成绩数据和学生每周测试数据。
课程日志数据主要用来提取学生访问在线课程的学习行为特征,其收集过程如图2所示。SPOC课程可以记录学生访问课程的过程,包括观看视频、访问html页面、提交题目等学生学习行为记录。本发明根据本学期注册学生列表和课程结构文件,对本学期课程已产生的原始课程日志进行预处理,去掉原始课程日志中的测试数据、脏数据,并对日志按照时间进行排序,同时提取出当前课程进度m周。利用往届注册学生列表和当前课程结构,过滤掉往届原始课程日志中当前课程不存在的资源访问记录、测试数据和脏数据,将其按照时间进行排序,提取出往届前m周课程日志数据。
除课程日志数据外,还需要学生成绩数据,从学生成绩数据中获取的学生已获得的GPA(Grade Point Average,平均成绩点数),作为预测学生每周表现的一个特征。学生成绩数据收集过程如图3所示,使用注册学生列表即可从学生成绩数据库中获取学生已取得的GPA数据,其中往届学生的GPA只计算往届学生在上本期课程之前所获得的GPA。
本发明的预测目标是学生每周表现,即学生在每周测试中的表现是否良好,如学生在线课程的课后作业完成情况、课程实验通过情况、课上问答表现等。学生每周表现数据收集过程如图4所示,根据课程的具体测试情况,本发明方法将学生表现分为良好和非良好。若学生表现良好,则值为1,否则值为0。
步骤2,特征提取。特征提取是机器学习的重要步骤,涉及特定领域的领域知识。特征的设计引入该领域的经验知识,对模型预测的准确度会有很大的帮助。
根据课程日志所能记录的数据,本发明设计了三种类型的特征:简单学习行为特征、复合学习行为特征和基于学习习惯的学习行为特征。其中,简单学习行为特征是对学习浏览课程记录的简单统计,如资源访问时长、访问次数、内容提交次。复合学习行为特征是在简单统计的基础上使用了比值、均值、方差等统计方法,并结合教师的教学经验,使得特征含义更明确。而基于学生学习习惯的学习行为特征则考虑到表现良好的学生和其余的学生之间学习习惯存在的差异。如特征x24表示学生是否习惯拖延,在截止日期前24小时内集中完成作业。本发明的设计的特征如表1-3所示,共28个特征,x1为预测目标学生每周表现。特征提取的过程如图5所示,输入数据为课程日志和SPOC课程结构文件。其中课程日志有两种,一种是往届课程日志,另一种是本学期的课程日志。为了使得模型能够考虑到不同周的学生学习行为对预测周的学生表现影响不同,本发明将课程日志切分到周,每个特征提取一个特征矩阵Xn,Xn,i,j表示学生i在第j周的特征Xn的值。
本发明实施例中所提供的简单学习行为特征有x2~x8共7个,如表1所示。复合学习行为特征有x9~x20共12个,如表2所示。基于学习习惯的学习行为特征有x21~x29共9个,如表3所示。
表1.简单学习行为特征
特征 | 名称 | 定义 |
x2 | 总时间 | 学生花费在课程上的所有资源 |
x3 | 论坛发帖数 | 在论坛中发帖的次数 |
x4 | 视频总时间 | 花费在教学视频上的总时间 |
x5 | 平均发帖长度 | 论坛发帖的平均长度 |
x6 | 问题提交个数 | 提交不同问题的个数 |
x7 | 提交次数 | 问题的提交次数 |
x8 | 正确问题个数 | 正确提交的不同问题的个数 |
表2.复合学习行为特征
表3.基于学习习惯设计的学习行为特征
表中,min()表示求取最小值,average()表示求取平均值,Sum()表示求和。
上述特征中,表3所示的基于学习习惯设计的学习行为特征,是结合了教师在教学中的经验设计的学习学习习惯特征,与一般特征的不同之处在于这些特征能够反映学生在学习过程中的一些常见习惯。如特征x21首次提交问题与特征x29首次访问章节,都是表明学生在课程内容发布后学习新内容的积极性。特征x22与特征x23则反映了学生解决问题所用的时间,其中x22表示学生观察题目和思考的时间,x23则算上了学生查阅资料、休息的时间。特征x24-x27反映了学生在课程发布时和课程截止时提交作业的行为。有些学生对学习课程非常积极,在课程刚发布时就参与课程内容的学习,并成功解决课程问题。而有很多学生则由很明显的拖延症,虽然他们做作业很积极,但是却对截止日期很敏感,通常会在截止日期前提交并完成课程问题。在线学习中,部分学生可能会先尝试提交问题,然后根据问题的反馈选择性的学习课程资源,特征x28能够反映学生的这种行为。本发明将教师所了解的学生的学习习惯映射到学生在在线课程中的学习行为,并使用普通的特征加上学习习惯特征来预测学生每周表现,可以进一步的提高模型预测的准确度。
本发明中,对每个学生每周都提取28个特征,预测更准确。如果从所有周的数据中提取出28个特征,那么学生在临近预测周的表现则会被历史数据所掩盖。比如预测学生在第7周的表现,该生在前五周学习都不认真,勉强通过测试或者是多次未通过测试,但是其在第五周和第六周非常努力,则第七周的测试通过的可能性应该提高(假设第七周的测试与之前的测试相比难度变化不大),如果从7周中提取28个特征,那么模型可能会无法识别出该生在最近两周特别努力,预测该生通过第7周的测试的概率也和之前各个测试通过的概率类似。
步骤3,准备训练集数据。根据步骤2得到每个特征的特征矩阵,将同一特征在不同周提取的特征当作不同特征处理,并将每个学生在前m周中提取的所有特征按照时间依次拼接为一个特征向量,所有学生的特征向量组成特征向量矩阵,特征拼接示意图如图6所示。
如图7所示,在特征拼接完成后,将学生的GPA数据拼接到学生的特征向量中,并将第m+1周学生的表现作为样本标签数据,得到训练集数据Dm+1,以此类推,将第m+2、m+3、…,M周学生的表现作为样本标签数据,得到训练集Dm+2,Dm+3,…DM。
对于训练集中的一个数据,组成包括三部分。第一部分是学生每周特征,设WN表示预测周周数-1,则每周特征向量有28个特征,第一部分共有拼接的28*WN个特征;第二部分是学生GPA数据,即每个学生上一学年的GPA;第三部分是学生分类标签。分类标签是根据学生在WN+1周的表现得到的0或1二分类标签。其中第一部分和第二部分组成训练模型使用的特征矩阵,第三部分则是对应的样本分类标签。对于往届学生,可得到添加了分类标签的训练数据。对于本学期学生,前m周数据处理和往年数据相同,但没有添加学生的分类标签,所得到的拼接的特征向量中保护28*m个特征与已取得的GPA。本发明利用训练集数据训练模型,然后将本学期学生数据输入模型,预测得到本学期学生在预测周表现值。
步骤4,模型训练。数据挖掘的分类模型训练,输入的内容分两部分:一是所有训练样本的特征,即模型中的自变量;二是样本的分类标签,即模型中的因变量。输出是训练后的模型,即确定参数后的模型。模型训练的目的就是找到一组参数,能够使得模型能够尽可能多的将训练样本正确分类。在本发明中,训练模型的输入特征就是每周每个学生提取的28个特征和GPA,分类标签则是学生在预测周的表现。
模型训练过程如图8所示,使用在步骤3得到的训练集数据,训练分类器并得到阈值。对于训练数据集Dz,z=m+1,m+2,…,M:
a)使用K折交叉验证的方法,将训练集数据输入到K近邻,支持向量机,朴素贝叶斯,随机森林,迭代决策树,Logistic模型,决策树七种经典机器学习模型进行模型训练和评估,并根据ROC AUC指标挑选最优模型C。
b)根据步骤a)中模型在不同阈值下所得到的召回率和精准度指标,设定模型预测学生表现良好的阈值tz,当学生预测结果大于阈值tz时,表示该学生表现良好,预测结果为1,否则为0。
c)根据步骤a)中所得最优模型C,使用全部的训练集数据训练模型C,得到分类器Cz,即用来预测本学期第z周学生表现的分类器。
预测表现过程如图9所示,使用中训练好的分类器Cm+1,Cm+2,…,CM预测学生在m周之后的每周表现。对于分类器Cz,z=m+1,m+2,…,M:
d)将待预测学生的特征向量矩阵输入到分类器Cz中,得到模型预测学生表现是否良好的概率Pz。
e)根据得到的阈值tz和Pz,判断第z周学生表现是否良好。若Pz大于tz,则预测结果为表现良好,否则预测结果为表现不佳。
相应地,本发明提供的基于学习行为特征的SPOC学生每周表现预测装置,包括如下模块:
第一数据采集模块,用于获取本学期已产生的前m周课程日志数据和往届前m周课程日志数据;
第二数据采集模块,用于从学生成绩库中获取本学期学生已取得的GPA数据和往届学生的GPA数据;
第三数据采集模块,用于获取本学期学生的前m周表现数据和往届学生的前m周表现数据,根据每周测试记录获得每周表现数据,表现良好记为1,表现不佳记为0;
特征提取模块,用于根据第一数据采集模块获取的数据对每位学生每周提取一个特征向量,特征向量中包括简单学习行为特征、复合学习行为特征和基于学习习惯的学习行为特征;
训练数据生成模块,对训练集中的每位学生生成预测周的训练集,将学生从特征提取模块得到的特征向量拼接从第二数据采集模块得到的GPA数据再拼接从第三数据采集模块得到的预测周表现数据,得到预测周训练集;
预测模块,将训练数据生成模块生成的训练数据输入K近邻、支持向量机、朴素贝叶斯、随机森林、迭代决策树、Logistic模型和决策树七种机器学习模型中进行训练,根据ROC AUC指标挑选出最优模型C,利用全部训练集数据训练模型C,得到分类器Cz;将待预测学生的特征特征向量拼接GPA数据生成测试数据输入分类器Cz,得到预测学生在预测周表现良好的概率Pz,若Pz大于tz,则输出预测结果为表现良好,否则输出预测结果为表现不佳。
本发明具有结合教师的教学经验设计学生学习行为特征优势,将学生的表现的预测具体到周,有利于教师及时发现学习出现问题的学生。并且预测结果还能辅助教师了解学生的总体水平和本周课堂实验的难度是否适中。
本方法可适用于任何可以记录学生在线学习访问情况的教学平台。根据记录的数据提取本方法所设计的全部或者部分特征后,即可训练模型并对待预测学生进行表现预测。预测目标可以是每周的表现,但不仅限于每周的表现。比如使用本方法提取学生期末考试前的所有学习行为特征,并使用历史课程中能够取得成绩的学生对模型进行训练,即可预测学生在期末考试中的表现。
对本发明提供的技术方案进行实验验证,使用的数据集是某大学2016年秋季计算机组成原理实验课程日志,参与课程的学生人数为377人。课程共16周,前6周为教程部分,学生在7-16周根据自己的学习计划和进度完成相应的章节。学生必须参与每周的课上测试,以评判其是否完成相应章节的学习。预测使用从第7周开始,采用本发明方法,使用ROCAUC来评估模型在历史数据上的预测表现。ROC AUC是二分类模型的一个模型表现指标,值介于0到1之间,AUC值越大,表明模型表现越好。相对于准确度指标,ROC AUC在正负样本分布不均匀的时候能够更准确地评估模型。为了尽早能够预测学生在未来的某一周是否能够通过课上测试,在不同的周数预测学生在目标周的表现,如预测学生在第9周的表现时,可以在第6周开始预测,即使用前六周的数据预测学生在第9周的表现。本发明给出Logistic模型的实验结果,虽然Logistic模型的预测表现不是最好的,但是相比其它模型,Logistic模型更容易理解,并能够对特征的重要性进行评估。
图10为Logistic模型在不同周预测学生表现的ROC AUC热力图。横坐标为预测目标周,纵坐标Lag表示使用了Lag周的历史数据(从第1周开始)。从图中可以看出,使用预测周前所有的数据对目标周预测时(对角线)ROC AUC为0.53-0.74。除第10、11、12和最后一周外,使用前六周的数据(教程部分)对学生表现进行预测即可取得相对不错的表现。在使用SVM模型进行预测时,使用预测周前所有的数据对目标周预测时(对角线)ROC AUC为0.62-0.83,比Logistic模型AUC平均提高0.09。
图11给出了不同特征在Logistic模型中的重要性。从特征重要性图中可以看出,表现突出的特征都在第二类特征和第三类特征中,如x14最长事件持续时间和x29首次访问章节,表明在设计特征时融入领域知识更容易产生较强预测能力的特征。
本方法基于Python机器学习库scikit-learn实现了多个模型使用同一训练集训练并评估模型表现,从而选择最适合数据集的模型,所以输出是最优训练后模型。在计算机组成原理实验课数据集上实验,发现最适合该数据集的模型是支持向量机模型,支持向量机模型在训练后能够找到将训练样本分割开的超平面方程w·x+b=0,x是变量,w与b是参数,参数向量的维度取决于输入模型输入特征的个数。在预测学生第7周表现的实验中,已经共有6*28=168个特征向量,在加入GPA算作一个特征,训练模型的第一部分输入是169*SN矩阵,其中SN是用来训练模型的学生个数,第二部分输入SN个学生对应的在第7周中的表现,训练后的输出就是超平面w*·x+b*=0,使用该超平面方程和决策函数,即可利用需要预测的学生的169个特征对学生表现进行预测。
Claims (5)
1.一种基于学习行为特征的SPOC学生每周表现预测方法,其特征在于,包括:
步骤1,数据收集,获取课程日志数据、学生成绩数据和学生每周表现数据;
课程日志数据包括本学期已产生的前m周课程日志数据和往届前m周课程日志数据;学生成绩数据包括本学期学生已取得的GPA数据和往届学生的GPA数据;学生每周表现数据包括本学期学生的前m周表现数据和往届学生的前m周表现数据;m为正整数,GPA为平均成绩点数;
步骤2,特征提取,对每位学生每一周提取一个特征向量,特征向量包括简单学习行为特征、复合学习行为特征和基于学习习惯的学习行为特征;设特征向量中包含K个特征;
步骤3,准备训练集数据;
对属于训练集的每位学生,将其每周的特征向量按照时间进行拼接,设m周的特征向量拼接为K*m的向量;将学生的GPA数据作为一个特征加入拼接向量中;将第m+1周学生表现数据作为标签加入拼接向量中;生成训练集Dm+1;以此类推,依次将第m+2、、m+3、…,M周学生的表现作为标签,加入拼接向量中,得到训练集Dm+2,Dm+3,…DM;M为正整数;
步骤4,利用训练集数据训练模型;在训练时,模型的输入特征是每位学生每周的特征向量,分类标签是学生在预测周的表现数据;
使用K折交叉验证的方法,将训练集数据输入到K近邻、支持向量机、朴素贝叶斯、随机森林、迭代决策树、Logistic模型、决策树七种机器学习模型进行模型训练,根据ROC AUC指标挑选出最优模型C;使用全部训练集数据训练模型C,得到分类器Cz,用来预测学生在预测周的表现,z=m+1,m+2,…,M。
2.根据权利要求1所述的预测方法,其特征在于,所述的步骤2中,每个特征向量中,基于学习习惯的学习行为特征包括9个,分别是:
首次提交问题,定义为:Sum(首次看到问题的时间-首次提交问题的时间);
问题原子时间,定义为:Sum(浏览问题时间);
问题分子时间,定义为:Sum(首次看到问题的时间-最后一次提交问题的时间);
问题发布后24小时内完成的问题;
问题发布后48小时内完成的问题;
截止日期前24小时内完成的问题;
截止日期前48小时内完成的问题;
提交问题所在章节已学习时间;
首次访问章节,定义为:min(首次看到该章节问题,首次访问该章节的电子文档,首次观看该章节的视频)-章节发布时间。
3.根据权利要求1所述的预测方法,其特征在于,所述的步骤4中,根据模型C在不同阈值下所得到的召回率和精准度指标,设定模型C预测学生表现良好的阈值tz,将待预测学生的特征向量矩阵输入到分类器Cz中,得到模型C预测学生表现良好的概率Pz,若Pz大于tz,则预测结果为表现良好,否则预测结果为表现不佳。
4.一种基于学习行为特征的SPOC学生每周表现预测装置,其特征在于,包括:
第一数据采集模块,用于获取本学期已产生的前m周课程日志数据和往届前m周课程日志数据;
第二数据采集模块,用于从学生成绩库中获取本学期学生已取得的GPA数据和往届学生的GPA数据;
第三数据采集模块,用于获取本学期学生的前m周表现数据和往届学生的前m周表现数据,根据每周测试记录获得每周表现数据,表现良好记为1,表现不佳记为0;
特征提取模块,用于根据第一数据采集模块获取的数据对每位学生每周提取一个特征向量,特征向量中包括简单学习行为特征、复合学习行为特征和基于学习习惯的学习行为特征;
训练数据生成模块,对训练集中的每位学生生成预测周的训练集,将每位学生从特征提取模块得到的特征向量拼接从第二数据采集模块得到的GPA数据再拼接从第三数据采集模块得到的预测周表现数据,得到预测周训练数据;
预测模块,将训练数据生成模块生成的训练数据输入K近邻、支持向量机、朴素贝叶斯、随机森林、迭代决策树、Logistic模型和决策树七种机器学习模型中进行训练,根据ROCAUC指标挑选出最优模型C,利用全部训练集数据训练模型C,得到分类器Cz;将待预测学生的特征特征向量拼接GPA数据生成测试数据输入分类器Cz,得到预测学生在预测周表现良好的概率Pz,若Pz大于tz,则输出预测结果为表现良好,否则输出预测结果为表现不佳。
5.根据权利要求4所述的预测装置,其特征在于,所述的训练数据生成模块,对每位学生,首先将前m周每周的特征向量按照时间拼接,形成一个K*m的向量,K为一周的特征个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710551541.7A CN107180284A (zh) | 2017-07-07 | 2017-07-07 | 一种基于学习行为特征的spoc学生每周表现预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710551541.7A CN107180284A (zh) | 2017-07-07 | 2017-07-07 | 一种基于学习行为特征的spoc学生每周表现预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107180284A true CN107180284A (zh) | 2017-09-19 |
Family
ID=59845938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710551541.7A Pending CN107180284A (zh) | 2017-07-07 | 2017-07-07 | 一种基于学习行为特征的spoc学生每周表现预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107180284A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944990A (zh) * | 2017-12-29 | 2018-04-20 | 山大地纬软件股份有限公司 | 一种基于机器学习的精准化推送的综合柜员装置及方法 |
CN108121785A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 一种基于教育大数据的分析方法 |
CN108197657A (zh) * | 2018-01-04 | 2018-06-22 | 成都寻道科技有限公司 | 一种基于校园数据的学生经济状况预测方法 |
CN108597280A (zh) * | 2018-04-27 | 2018-09-28 | 中国人民解放军国防科技大学 | 一种基于学习行为分析的教学系统及教学方法 |
CN108876123A (zh) * | 2018-06-01 | 2018-11-23 | 首都师范大学 | 一种教学干预方法和装置 |
CN108986574A (zh) * | 2018-09-06 | 2018-12-11 | 北京春秋泰阁文化传播有限公司 | 一种即时互动型及大数据分析在线教学平台及方法 |
CN109002492A (zh) * | 2018-06-27 | 2018-12-14 | 淮阴工学院 | 一种基于LightGBM的绩点预测方法 |
CN109272165A (zh) * | 2018-09-30 | 2019-01-25 | 江苏满运软件科技有限公司 | 注册概率预估方法、装置、存储介质及电子设备 |
CN109272164A (zh) * | 2018-09-29 | 2019-01-25 | 清华大学深圳研究生院 | 学习行为动态预测方法、装置、设备及存储介质 |
CN109460420A (zh) * | 2018-09-28 | 2019-03-12 | 北京赛博贝斯数据科技有限责任公司 | 结构化数据的知识挖掘方法及系统 |
CN109543963A (zh) * | 2018-11-06 | 2019-03-29 | 深圳信息职业技术学院 | 一种基于学生学习习惯的大数据分析方法及系统 |
CN109784578A (zh) * | 2019-01-24 | 2019-05-21 | 中国科学院软件研究所 | 一种结合业务规则的在线学习停滞预测系统 |
CN110059716A (zh) * | 2019-03-12 | 2019-07-26 | 西北大学 | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 |
CN111008658A (zh) * | 2019-11-30 | 2020-04-14 | 南京森林警察学院 | 一种基于监督式学习的警务人员学习分析系统 |
CN111461394A (zh) * | 2020-02-24 | 2020-07-28 | 桂林电子科技大学 | 一种基于深度矩阵分解的学生成绩预测方法 |
CN111754370A (zh) * | 2020-07-01 | 2020-10-09 | 广州驰兴通用技术研究有限公司 | 一种基于人工智能的在线教育课程管理方法及系统 |
CN111915458A (zh) * | 2020-07-13 | 2020-11-10 | 同济大学 | 面向探究式与个性化学习的线上实验教学系统 |
CN112214688A (zh) * | 2020-10-12 | 2021-01-12 | 中国石油大学(北京) | 选修课的推荐方法、装置和服务器 |
CN112380263A (zh) * | 2020-11-11 | 2021-02-19 | 北京爱论答科技有限公司 | 一种教学数据推荐方法及装置 |
CN112484255A (zh) * | 2020-11-30 | 2021-03-12 | 成都航空职业技术学院 | 一种节能型暖通空调系统及楼宇自控方法 |
CN113128611A (zh) * | 2021-04-27 | 2021-07-16 | 陕西师范大学 | 基于深度学习学生在线学习效率预测的模型检测方法 |
CN117593159A (zh) * | 2024-01-17 | 2024-02-23 | 天津市品茗科技有限公司 | 一种培训管理系统和方法 |
-
2017
- 2017-07-07 CN CN201710551541.7A patent/CN107180284A/zh active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121785A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 一种基于教育大数据的分析方法 |
CN107944990A (zh) * | 2017-12-29 | 2018-04-20 | 山大地纬软件股份有限公司 | 一种基于机器学习的精准化推送的综合柜员装置及方法 |
CN108197657A (zh) * | 2018-01-04 | 2018-06-22 | 成都寻道科技有限公司 | 一种基于校园数据的学生经济状况预测方法 |
CN108197657B (zh) * | 2018-01-04 | 2022-04-19 | 成都寻道科技有限公司 | 一种基于校园数据的学生经济状况预测方法 |
CN108597280A (zh) * | 2018-04-27 | 2018-09-28 | 中国人民解放军国防科技大学 | 一种基于学习行为分析的教学系统及教学方法 |
CN108876123A (zh) * | 2018-06-01 | 2018-11-23 | 首都师范大学 | 一种教学干预方法和装置 |
CN109002492B (zh) * | 2018-06-27 | 2021-09-03 | 淮阴工学院 | 一种基于LightGBM的绩点预测方法 |
CN109002492A (zh) * | 2018-06-27 | 2018-12-14 | 淮阴工学院 | 一种基于LightGBM的绩点预测方法 |
CN108986574A (zh) * | 2018-09-06 | 2018-12-11 | 北京春秋泰阁文化传播有限公司 | 一种即时互动型及大数据分析在线教学平台及方法 |
CN108986574B (zh) * | 2018-09-06 | 2020-12-29 | 北京春秋泰阁文化传播有限公司 | 一种即时互动型及大数据分析在线教学平台及方法 |
CN109460420A (zh) * | 2018-09-28 | 2019-03-12 | 北京赛博贝斯数据科技有限责任公司 | 结构化数据的知识挖掘方法及系统 |
CN109272164A (zh) * | 2018-09-29 | 2019-01-25 | 清华大学深圳研究生院 | 学习行为动态预测方法、装置、设备及存储介质 |
CN109272165A (zh) * | 2018-09-30 | 2019-01-25 | 江苏满运软件科技有限公司 | 注册概率预估方法、装置、存储介质及电子设备 |
CN109272165B (zh) * | 2018-09-30 | 2021-04-20 | 满帮信息咨询有限公司 | 注册概率预估方法、装置、存储介质及电子设备 |
CN109543963A (zh) * | 2018-11-06 | 2019-03-29 | 深圳信息职业技术学院 | 一种基于学生学习习惯的大数据分析方法及系统 |
CN109543963B (zh) * | 2018-11-06 | 2022-01-11 | 深圳信息职业技术学院 | 一种基于学生学习习惯的大数据分析方法及系统 |
CN109784578A (zh) * | 2019-01-24 | 2019-05-21 | 中国科学院软件研究所 | 一种结合业务规则的在线学习停滞预测系统 |
CN109784578B (zh) * | 2019-01-24 | 2021-02-02 | 中国科学院软件研究所 | 一种结合业务规则的在线学习停滞预测系统 |
CN110059716A (zh) * | 2019-03-12 | 2019-07-26 | 西北大学 | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 |
CN111008658A (zh) * | 2019-11-30 | 2020-04-14 | 南京森林警察学院 | 一种基于监督式学习的警务人员学习分析系统 |
CN111461394A (zh) * | 2020-02-24 | 2020-07-28 | 桂林电子科技大学 | 一种基于深度矩阵分解的学生成绩预测方法 |
CN111754370A (zh) * | 2020-07-01 | 2020-10-09 | 广州驰兴通用技术研究有限公司 | 一种基于人工智能的在线教育课程管理方法及系统 |
CN111915458A (zh) * | 2020-07-13 | 2020-11-10 | 同济大学 | 面向探究式与个性化学习的线上实验教学系统 |
CN112214688A (zh) * | 2020-10-12 | 2021-01-12 | 中国石油大学(北京) | 选修课的推荐方法、装置和服务器 |
CN112380263A (zh) * | 2020-11-11 | 2021-02-19 | 北京爱论答科技有限公司 | 一种教学数据推荐方法及装置 |
CN112484255A (zh) * | 2020-11-30 | 2021-03-12 | 成都航空职业技术学院 | 一种节能型暖通空调系统及楼宇自控方法 |
CN113128611A (zh) * | 2021-04-27 | 2021-07-16 | 陕西师范大学 | 基于深度学习学生在线学习效率预测的模型检测方法 |
CN113128611B (zh) * | 2021-04-27 | 2023-06-06 | 陕西师范大学 | 基于深度学习学生在线学习效率预测的模型检测方法 |
CN117593159A (zh) * | 2024-01-17 | 2024-02-23 | 天津市品茗科技有限公司 | 一种培训管理系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107180284A (zh) | 一种基于学习行为特征的spoc学生每周表现预测方法及装置 | |
CN103942993B (zh) | 一种基于irt的自适应在线测评系统及其方法 | |
Marlier et al. | The EU and social inclusion: Facing the challenges | |
CN108182489A (zh) | 一种基于在线学习行为分析的个性化学习推荐方法 | |
CN101901555A (zh) | 学习能力检测系统及其方法 | |
Asanbe et al. | Teachers’ performance evaluation in higher educational institution using data mining technique | |
CN106779079A (zh) | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 | |
CN106373057B (zh) | 一种面向网络教育的成绩不良学习者识别方法 | |
Käser et al. | Modeling and analyzing inquiry strategies in open-ended learning environments | |
CN109345101A (zh) | 基于综合评价分析法的教育质量评价分析方法 | |
CN110059716A (zh) | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 | |
CN108256102A (zh) | 一种基于聚类的独立学院学生评教数据分析方法 | |
CN107704995A (zh) | 学员评价系统 | |
KR20190066849A (ko) | 빅데이터와 머신러닝 기반의 학생 맞춤형 인공지능 stem 교육 플랫폼 | |
Bussaman et al. | Prediction models of learning strategies and learning achievement for lifelong learning | |
Alhakami et al. | Data mining for student advising | |
CN107832453A (zh) | 面向个性化学习方案的虚拟试卷推荐方法 | |
Bull et al. | Using the principles of multiliteracies to inform pedagogical change | |
CN109523442A (zh) | 一种基于校园教育系统的大数据分析方法 | |
Ababneh et al. | Guiding the Students in High School by Using Machine Learning. | |
Abdul-Hamid et al. | Assessment testing can be used to inform policy decisions: the case of Jordan | |
CN106710344A (zh) | 计算机应用考试系统 | |
TWM606688U (zh) | 知識點得分之雲端智能題庫系統 | |
Bo et al. | Teaching evaluation for computational-thinking-oriented elementary computer courses | |
Chen et al. | Design of assessment judging model for physical education professional skills course based on convolutional neural network and few-shot learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170919 |