一种基于在线学习行为分析的个性化学习推荐方法
技术领域
本发明涉及数据分析领域,尤其涉及基于大数据在线学习行为的评价和对学习者的性格进行分析并进行个性化学习推荐方法。
背景技术
随着在线课程的广泛使用和线上学习的普及,在线学习在当代学生的学习生活中的比例日益增大,在线学习系统如MOOC(Massive Open Online Course,大型开放式网络课程)和SPOC(Small PrivateOnline Course,小规模限制性在线课程)使学习者不受时间和空间的限制,通过互联网可以随时随地进行线上学习,线上讨论,以及线上测评等。再者,学习者登录上线学习的时间规律性能从侧面反映出学习者的自律性,客观评价学习时间规律性特征能够增强模型对于学习者学习成效的预测。同时,不同学习者所拥有的性格是不同的,固然也会有适应不同性格的学习方法。因此,就如何利用数据挖掘技术对积累的大量在线学习行为数据进行分析,并挖掘学习者的性格特征与学习效率的关系,已经成为新的研究重点。
近年来在线数据挖掘工作广泛展开,但是关于学习者的在线成绩预测分析的研究工作仍不够充分,且目前的学习效果评估方法都是进行简单等级划分,另外应用更精确的回归预测方法较少,没有考虑到学习者的个性化学习方法对学习效果的影响。Kloos等人提出了一个精确的有效性策略(PES),在一个案例研究中,它计算了在Khan Academy平台上使用的四种小规模限制性在线课程(SPOC)的学生在观看视频演讲和解决参数练习时的有效性,将不同的可视化方法和不同的教学方法结合在一起,便于学生能够同自己的同学进行全面的比较,并快速找到自己的优点和缺点。吕海燕等人采用Microsoft SQL ServerAnalysis Services提供的微软决策树算法,通过对学员的登录行为影响因素和课程相应资源模块的浏览日志记录进行统计分析,找出影响学员的浏览因素。并指出不同层次,专业,性别对于登陆学习的天数是有影响的。I.P.Ratnapala等人通过对学生与电子学习系统的互动进行定量分析,分析了一组412名学生在电子学习系统中的访问行为,并根据他们的课程访问日志记录使用K-means聚类方法将它们分组成簇。该研究主要分析学习环境的差异可能会改变学生群体的在线访问行为。该方法只简单从学习者访问平台学习数量进行分析,存在一定局限性。
发明内容
为了克服已有的对学习者在线行为数据挖掘不充分,没有考虑到登录学习时间规律性对学习效果的影响,不能准确对学习者的测试成绩进行回归预测的情况,本发明提供一种预测精度较高、较为全面分析学习者线上学习时间规律性的BP神经网络预测方法。并且能够对学习者进行性格分析,为学习者做出个性化学习方法推荐。
本发明解决其技术问题所采用的技术方案是:
一种基于在线学习行为分析的个性化学习推荐方法,包括:
步骤1收集数据,获取在线学习平台的学习者日志数据、学生成绩数据和学生性格数据,所述日志数据包括本学期产生的前n周在线课程日志数据和往届前n周课程日志数据;学生成绩数据包括本学期学生已取得的GPA数据和往届学生的GPA数据;学生性格数据为通过线上或线下向学生发放性格调查问卷,收集到的调查问卷数据;n为正整数,GPA为平均成绩点数;
步骤2特征提取与挖掘,对每位学生前n周的在线课程日志数据提取一个特征向量,特征向量包括学生用户的登录时间,浏览学习时长数据,参与论坛讨论数据,在线笔记数据,课后作业完成情况数据,以及在线测试数据,对这些在线特征进行挖掘,得到学生学习的勤奋;对学生登录时间的挖掘,并通过实际熵函数和登录时间差散点模型进行评价可以得到学生的自律性评价数据;
步骤3准备数据集进行BP神经网络的训练和测试模型的准确度,将收集到的每位学生特征信息整合成二维数据表的形式,乱序后按照9:1的比例划分训练数据集和测试数据集,并将学生的GPA数据作为类标,进行有监督训练,经过训练集训练后的模型通过测试集进行测试,在测试集准确率达到标准阈值ε后,模型训练完成;
步骤4利用训练好的模型,对新的学习者进行成绩预测,将新的学习者按照步骤2进行学习特征的提取与数据挖掘,将提取好的特征输入模型,模型将会自动给出期末的预测GPA;
步骤5向学习者发放调查问卷,并收集问卷数据。采用Felder-Silverman性格分类法,并制定线上和线下调查问卷,收集学习者的性格特征数据;
步骤6对问卷数据进行k-means聚类分析,通过对收集到的不同学习者的性格特征,通过K-means聚成不同的类簇,确定聚类个数,当簇间距离最大,簇内距离最小时,确定每类中的学生。分析出每类的学生性格共性特征;
步骤7结合不同学习者的性格特征,进行个性化学习方法的推荐,筛选出每类中成绩好的学生,并将其在线学习特征结合该类性格的性格表现特征进行相关学习方法的推荐。
进一步,所述的步骤2中,每个学生的特征向量中,学习行为特征包括6个,分别是:
登录时间,定义为:登录学生个人IP账号并开始进行有效学习的时间;
浏览教学资源,定义为:在线时间长短,配合鼠标键盘操作,且不能快进操作,即开始视频学习时间-结束视频学习时间;
论坛数据,定义为:发贴和回帖的数量与质量,浏览回复量等有效数据;
在线笔记,定义为:在线笔记数量;
作业情况,定义为:作业总量,作业完成质量,所述作业总量来
自于平台上的总量,作业完成质量来自于老师的批改;
在线测试,定义为:测试次数,完成测试时间,测试分数记录。
再进一步,所述的步骤2中,对学生登录时间的挖掘,并通过实际熵函数和登录时间差散点模型进行评价得到学生的自律性评价数据,使用实际熵函数来衡量用户登陆学习的时间规律性系数sε,如下:
更进一步,所述的步骤2中,为了刻画学生的登陆学习时间的规律性,提出刻画两次登录之间的时间差的方法,分别计算得到学生每两次登陆之间的时间间隔差,再加上一个实验周期中的登录次数,就将线上学习时间分布情况精确刻画出来。
所述的步骤2中,为了衡量学生线上学习的时间规律性与其学习成效的关系,使用斯皮尔曼相关系数进行定量描述,通过斯皮尔曼相关系数进行计算他们之间的相关度,从而确定两者关系,斯皮尔曼相关度如公式:
其中di=rg(Xi)-rg(Yi)为成绩排序等级和时间差排序等级的等级差,理论上,当大量实验样本等级出现相同使用定义式,使用排名变量之间的皮尔逊相关系数来计算,如公式(3):
这里rgX表示真实成绩等级排序,rgY表示时间差排序,cov(rgX,rgY)是等级变量的协方差,σrgX,σrgY是等级变量的标准偏差。
所述的步骤6中,对问卷数据进行k-means聚类分析,通过对收集到的不同学习者的性格特征,通过K-means聚成不同的类簇,确定聚类个数,当簇间距离最大,簇内距离最小时,确定每类中的学生;分析出每类的学生性格共性特征,根据收集的得到的问卷数据,得到学生的4个维度的性格得分,分别计算用户i和用户j之间的相似度距离,即使用下面公式:
得到的cosθi,j(0≤i≤100,0≤j≤100)值域范围在[-1,1],将其映射到[0,255],用不同的颜色表示用户之间的相似度距离,得到似度矩阵,使用热图将学习者性格的距离相似度矩阵映射二维坐标中,然后通过RGB进行显示出来。
本发明的有益效果主要表现在:
(1)基于学生线上学习行为特征设计,使得学习特征的意义更加明确,更能够反映学生的学习过程,有助于提升对于学生GPA的预测精度,同时使得模型更易于理解;采用BP神经网络能够对训练数据进行充分训练,综合全面考虑学生的线上各个学习特征对GPA的影响。
(2)设计使用实际熵函数和登录时间差散点模型对学生登录学习的时间规律性进行综合评价,确定学生的学习自律性,精细化地将学生的每次上线学习加入评价体系,从而从侧面增加对于学生GPA的预测精准度。
(3)考虑到不同的学生对应不同的性格特征,自然也会有不同的学习方法,随着“因材施教”的理念现已深入人心,从而促使个性化教育和网络在线教育联系起来,因此加入性格特征来强化模型,对在线学习者进行科学、合理、精确的分析,并推荐对应于学习者性格的学习方法,以提高学习者的学习效率。
附图说明
图1是基于在线学习行为分析的个性化学习推荐方法整体流程图;
图2是学习行为和描述属性图;
图3是在线学习行为数据收集过程图;
图4是学生登陆学习时间散点图;
图5是实际熵斯皮尔曼相关性散点图;
图6是聚类前的相似度矩阵热图可视化;
图7是聚类后的相似度矩阵热图可视化;
具体实施方式
下面结合附图和实施例来说明本发明的实现过程。
参照图1~图7,一种基于在线学习行为分析的个性化学习推荐方法,本方法从玩课网平台所提供的开放数据接口,采集学生在线学习的行为操作数据。根据系统设计要求,学生的操作行为数据主要包括6种:a.登录时间。每次的登陆的系统登录时间(经过筛选的超过30分钟的时间为有效时间);b.浏览教学资源。行为数据是在线时间长短,必须配合鼠标键盘操作,且不能快进等操作的次数才是有效数据;c.论坛数据。主要是发贴和回帖的数量与质量,将字数、浏览回复率等作为有效数据;d.在线笔记。记录学生笔记的数量;e.课后作业完成情况。记录学上的作业总数,以及作业完成的数量和质量;f.在线测试。包括每次提交的分数的最高分和最低分。在课程进行到n周时,利用课程的往年前n周数据和本学期前n周数据,使用BP神经网络对学生每周测试表现进行预测。n为正数。
如图1所示,本发明一种基于在线学习行为分析的个性化学习推荐方法,主要包括七个步骤:收集数据,特征提取与挖掘,准备训练数据集并进行模型的训练,预测新的学习者学习表现,发放并收集调查问卷,对问卷数据进行聚类分析,个性化学习方法推荐。下面说明各个实现步骤。
步骤1收集数据,获取在线学习平台的学习者日志数据、学生成绩数据,学生性格数据。在线平台日志数据包括本学期产生的前n周在线课程日志数据和往届前n周课程日志数据,数据所对应的学习行为和描述属性如图2,数据主要用来提取学生访问在线课程的学习行为特征,其收集过程如图3;学生成绩数据包括本学期学生已取得的GPA数据和往届学生的GPA数据;学生性格数据为通过线上或线下向学生发放性格调查问卷,收集到的调查问卷数据;n为正整数,GPA为平均成绩点数。使用学生的真实期末考试成绩以及任课老师的评价来作为类标进行综合评定,采用以下分类方式,见公式1:
G=g×70%+e×30%(1)
其中g代表学生期末考试的真实成绩,e代表任课老师评定的成绩,G代表综合评定成绩。
步骤2在线学习特征清洗和挖掘。对每位学生前n周的在线课程日志数据提取一个特征向量,特征向量包括学生用户的登录时间,浏览学习时长数据,参与论坛讨论数据,在线笔记数据,课后作业完成情况数据,以及在线测试数据。
(1)对这些在线行为数据进行清洗,从在线学习平台获得某一课程的在线学习用户的实际操作日志,平台以检测时间点的方式检测用户在线时间与操作行为,这就需要我们把数据清洗整理,使复杂凌乱的数据转化为较直观的可分析的可视化数据。在数据清洗处理的过程中,需要明确需要数据的侧重方向,例如原始数据是以时间点的形式记录用户在线时间,我们将时间点统计转化成用户在线时长。从而得到各个行为的基本参数。但这些参数的单位各不相同,需要在进行数据清理后进行归一化处理,得到网络在线学习行为各个维度的基本属性值并且确定各个维度的权重。在这个过程中,如去掉一门课程在线总时长小于25小时大于45小时的用户数据,这类用户在各模块所花时间都不多或存在挂机情况,没有参考价值。再进行数据的标准化处理,根据z-score标准分数计算,定义如式2~4:
(2)通过上述在线学习特征,得到学生学习的勤奋指数;对学生登录时间的挖掘,并通过实际熵函数和登录时间差散点模型进行评价可以得到学生的自律性评价数据。按照通常情况,大学学习时间周期一般是按周进行计算的,作业也基本是按周进行提交的,所以按周作为时间段进行划分,将一周时间分成7等份,每一份的跨度为1天,一周编码为1到7(例如,周一为1,周二为2,如此类推)。然后将学习者的每次登陆学习时间映射到这个离散的时间序列(1,2,3,4,5,6,7)中,如果时间分布跨越在两天之中,那么映射到时间长的时间序列上。例如,如果一个用户的开始学习时间是周一的晚上21:00,结束时间为周二凌晨1:00,那么计算得到在周一学习时间为3小时,周二学习时间为1小时,这段学习时间映射到1上。使用实际熵函数来衡量用户登陆学习的时间规律性系数sε,定义如式4:
其中,x代表映射的时间序列所占用的星期数,n表示映射的序列数,为了准确提取学习者的学习规律性,这里的n必须取连续的序列,Λi代表从第i个开始的前面没出现过的最短序列的长度。例如某用户i学习某课程映射到时间序列之后的序列为{1,4,1,4,5,1,4,1,4,1,4}另一个用户j的学习时间序列为{1,1,3,1,3,3,2,1,3,2},用户k的学习时间序列为{1,2,3,4,5,6,7,1,2,3}。i对应的Λ序列为{1,1,3,3,5,5,0,0,0,0},j对应3的Λ序列为{1,2,1,3,2,2,1,3,0,0},k对应的Λ序列为{1,1,1,1,1,1,1,0,0,0}。i的x为5,j的x为7,k的x为2,计算出用户i的实际熵值为31.9803,用户j的实际熵值为75.2178,用户k的实际熵值为13.1576.结果表明用户k的实际熵值要小于前面两个用户,如果序列所占用的时间长度越短,熵的效果就越明显。基于实际熵函数作为对学习者学习周期的时间规律性评估,则:实际熵越小,学习的时间间隔,即学习的时间规律性越强。
(3)为了刻画学生的登陆学习时间的规律性,提出刻画两次登录之间的时间差的方法。理论上,分别计算得到学生每两次登陆之间的时间间隔差,再加上一个实验周期中的登录次数,就可以将线上学习时间分布情况就可以被精确刻画出来。我们将学习者的学习时间特性映射到二维坐标系中进行可视化,并制成学生学习时间散点图,如图4。i(i=1,2,...,n,n代表用户登陆的总次数)登陆,Y轴代表相邻两次登陆间隔的时间差(第一次登陆的时间间隔记为0,图中X轴上的第一个点)。线上学习规律性强的用户的登陆次数较多,在图中的表现为散点比较多,并且散点的分布更加接近X轴。位于X轴上的点表示用户相邻两天都有上线学习的记录。位置比较远离X轴的点是表示某两次上线学习时间相隔较长,例如图4中纵坐标大于20的点表示该用户超过二十天没有登陆平台进行线上学习,间隔时间较长。
(4)为了衡量学生线上学习的时间规律性与其学习成效的关系,使用斯皮尔曼(Spearman)相关系数进行定量描述。通过斯皮尔曼相关系数进行计算他们之间的相关度,从而确定两者关系。斯皮尔曼相关度如公式6:
其中di=rg(Xi)-rg(Yi)为成绩排序等级和时间差排序等级的等级差。理论上,当大量实验样本等级出现相同使用定义式,使用排名变量之间的皮尔逊相关系数来计算,如公式7:
这里rgX表示真实成绩等级排序,rgY表示时间差排序,cov(rgX,rgY)是等级变量的协方差,σrgX,σrgY是等级变量的标准偏差。通过计算学习者的实际熵函数,并给出相应的排序,再根据学习者实际成绩排序,画出实际熵与成绩排序斯皮尔曼相关性散点图,如图5。
步骤3准备数据集进行BP神经网络的训练和测试模型的准确度。将收集到的学生在线学习特征和经过挖掘的时间规律性信息整合成二维数据表的形式,乱序后按照9:1的比例划分神经网络的训练数据集和测试数据集。并将学生的GPA数据作为类标,进行BP神经网络的训练。经过训练集训练后的模型通过测试集进行测试,在测试集准确率达到标准阈值ε后,模型训练完成。
步骤4利用训练好的模型,对新的学习者进行成绩预测。将新的学习者按照步骤2进行学习特征的提取与数据挖掘,将提取好的特征输入模型,模型将会自动给出学生的预测GPA。
步骤5向学习者发放调查问卷,并收集问卷数据。采用Felder-Silverman性格分类法,并制定线上和线下调查问卷,收集学习者的性格特征数据。FS性格分类法围绕信息加工,感知信息,输入信息及内容理解四个方面,每个方面有两种不同类型的学习者。将学生分为四种互斥选项组合而成的16种学习综合风格。围绕着16中学习风格制定调查问卷,并收集统计问卷信息。
步骤6对问卷数据进行k-means聚类分析,通过对收集到的不同学习者的性格特征,通过K-means聚成不同的类簇,确定聚类个数,当簇间距离最大,簇内距离最小时,确定每类中的学生。分析出每类的学生性格共性特征。根据收集的得到的问卷数据,得到学生的4个维度的性格得分,分别计算用户i和用户j之间的相似度距离,即使用下面公式:
得到的cosθi,j(0≤i≤100,0≤j≤100)值域范围在[-1,1],将其映射到[0,255],用不同的颜色表示用户之间的相似度距离,得到似度矩阵,使用热图将学习者性格的距离相似度矩阵映射二维坐标中,然后通过RGB进行显示出来。通过对相似度矩阵的处理,对用户进行矩阵的行列交换,将上述聚在同一个类的用户交换到一起。不同类的学生都集中在一起,在热图的可视化中将看到在对角线上有三块对角块,说明聚类效果明显。图6,7分别表示聚类前后的热图可视化效果图。
步骤7结合不同学习者的性格特征,进行个性化学习方法的推荐。筛选出每类中成绩好的学生,并将其在线学习特征结合该类性格的性格表现特征进行相关学习方法的推荐。
(1)性格分类为第一类的学习者属于沉思型,感悟型,视觉型和综合型学习者,这类学生的分数偏差并没有特别大。这类性格的学生数量最多。筛选出这一类中学习效果较好的用户,并且对比他们的学习方法,总结出其学习行为特征总结为视频浏览时间占整个课程学习总时间的55%以上,而文本模块时间所占比值为15%左右,笔记记录量为8项左右,发帖量为3贴左右,测试次数都到达了4次以上。并且这类学习者偏好深入思考问题,喜欢在安静环境下学习。善于全局思考问题,思维发散,建议多思考,多感悟,多应用。性格分类
(2)第二类的学习者在感知维度,输入维度和理解维度的分数都很高,属于感悟型,视觉性,序列型学习者同时属于活跃型学习者其最佳学习行为是视频浏览时间占整个课程学习总时间的65%以上,而文本模块时间所占比值小于10%,笔记记录量为2项,发帖量为8贴,测试完成时间与测试次数值均较高分别为135分钟以上和5次。建议这类学习者利用好自己擅长记住所看到的信息的特点,在学习过程中多借助图片去加深自己对知识点的记忆,比如记英语单词可采用小卡片的方式。或者通过流程图的形式去掌握知识结构。
(3)性格分类为第三类的学习者在输入维度分数偏高,属于视觉型学习者。在处理维度,感知维度和理解维度偏向于活跃型,直觉型和综合型,但分数不是很高。这种性格类型的学习者其学习行为特点总结为视频观看时间占学习课程总时间的65%,论坛浏览时间占总学习时间的10%左右,发帖量较少只有2-3贴,测试次数为2-3次。该类学习者相对喜欢活跃的学习氛围,喜欢与别人讨论,在相互讨论的过程中,听取不同人对于知识的理解,从而加深自己的理解。建议者类学习者多参到团队合作中去,主动承担起团队的核心任务。通过团队协作提升自己的能力。