CN110189236A - 基于大数据的学习预警方法 - Google Patents

基于大数据的学习预警方法 Download PDF

Info

Publication number
CN110189236A
CN110189236A CN201910361563.6A CN201910361563A CN110189236A CN 110189236 A CN110189236 A CN 110189236A CN 201910361563 A CN201910361563 A CN 201910361563A CN 110189236 A CN110189236 A CN 110189236A
Authority
CN
China
Prior art keywords
course
achievement
student
class
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910361563.6A
Other languages
English (en)
Inventor
胡挺
宋汀
夏冰
任盈盈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910361563.6A priority Critical patent/CN110189236A/zh
Publication of CN110189236A publication Critical patent/CN110189236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Educational Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的学习预警方法,所述预警方法包括以下步骤:步骤一,以学校或某一学院为对象,采集该对象中全部学生全部学科的现有的绩点成绩;步骤二,通过聚类分析得到初步的相关性课程,之后通过近邻算法结合核支持向量机分类器在聚类得到的粗糙集合中挖掘课程间更深层次的联系;步骤三,基于多元线性回归方法得出各必修课预测模型,根据现有学期的相关课程成绩,在学期初预测各门重要必修课的成绩。该方法有效预测学生成绩并及时进行干预,可以为学生学习思想动态的引导和教学质量提升提供重要的依据。

Description

基于大数据的学习预警方法
技术领域
本发明涉及一种基于大数据的学习预警系统,是属于生物特征识别技术领域。
背景技术
现有的学业预警通常是在教学过程结束之后进行的,对于教学过程中的预警是个空白,缺乏时效性。目前国内高校的预警只是针对学生成绩做出预警,忽略了与学生成绩密切相关的学生平时上课出勤情况、作业情况、学习态度等。大学学习中,有一些专业课程需要相关基础课程作为知识储备。专业课程的任课教师不了解学生对基础课程的掌握程度,在教学过程中主要依靠往年教学经验,而无法对目前的学生进行有针对性的授课。
通过分析往届学生每学期的学习数据(如:高考分数,基础课程成绩,课程出勤率,自习时间等),得出相关课程之间的联系,计算出特定因素对某一课程成绩的影响百分比。根据以上结论预测下一届学生在该课程上的挂科率。将预测结果反馈在任课教师的学生名单上,教师可以根据学生的预测挂科率调整教学方案,侧重关注预测挂科率高的学生,从而提高学生在该课程上的通过率。
发明内容
本发明就是针对上述的问题,将观察学生们整体学习情况的分布态势。避免因人为经验导致在评估过程中只关注某些课程的绩点,为促进学生全面发展,因材施教,正确评估学生的学习能力与能力方向,提供了一种有效的参考方法。
为了实现上述目的,本发明采用如下技术方案:基于大数据的学习预警方法,所述预警方法包括以下步骤:
步骤一,以学校或某一学院为对象,采集该对象中全部学生全部学科的现有的绩点成绩;
步骤二,通过聚类分析得到初步的相关性课程,之后通过近邻算法结合核支持向量机分类器在聚类得到的粗糙集合中挖掘课程间更深层次的联系;
步骤三,基于多元线性回归方法得出各必修课预测模型,根据现有学期的相关课程成绩,在学期初预测各门重要必修课的成绩。
进一步的,所述步骤二中,首先,通过高斯核的谱聚类算法将课程进行聚类,将全部课程间的关系采用点与点之间的距离来描述:
通过计算所有点之间的欧氏距离wij=||xi-xj||2来构造一个距离矩阵W,之后通过高斯核函数来构造相似矩阵S,其中sij=kij,接下来,谱聚类算法在构造度矩阵D,在非对角线上的元素设为0,再构造拉普拉斯矩阵L=D-W,将拉普拉斯矩阵标准化后对它求前k个最小的特征d的矩阵,再对该矩阵进行k均值聚类得到簇划分结果C={C1,C2,...,Ck}xi是第i个样本,特征列向量,kij是高斯核函数,sij是矩阵里的数列;;
其次,定义如下的高斯混合分布模型为概率密度函数:
该分布共由k个混合成分构成,每个混合成分对应一个高斯分布,其中μi是第i个高斯混合成分的参数,而αi>0为相应的混合系数,PM(x)是高斯混合分布;
通过已有的学生成绩样本点的采样,估计出该学生的学习能力所对应的概率密度函数;
再进一步用所述概率密度函数对未开课课程进行预测。
更进一步的,对所述高斯核函数的求解过程具体为:
根据高斯核函数把距离矩阵转换为相似矩阵,这样距离近的点相似度大,距离远的点相似度小,之后建立拉普拉斯矩阵L=D-W,用求出拉普拉斯矩阵的前k个最小特征值对应的k个特征向量,在归一化得到n×k的矩阵,再对它进行kmeans聚类得到最终的聚类结果。
进一步的,步骤三中,将先上的学期课程设定为已结课的课程,而后上的学期的课程设定为未结课的课程;采用分类方法,将成绩按照得分成若干类;
以已结课的课程为训练数据,已结课的课程为特征,某一门未结课的课程为标签,将成绩预测转换成类别预测,建立分类问题,采用XGBoost算法,相关课程的评判采用判定特征重要度的高低,特征重要度定义为以该特征在某一类成绩中分裂的次数的总和。
作为一种优选,所述步骤三中,根据softmax函数计算出后续课程预测成绩属于类别i的概率,
设输出的类别为a1,a2,a3,a4,a5,a6……an,对每个学生成绩样本,它属于类别i的概率为
对softmax函数进行求导,代入softmax函数表达式,可以得到:
当i=j时,
当i≠j时:
其中aj对应学生成绩样本;
得出预测出的后续课程成绩在每一个类别的概率分布,为已结课课程对后续课程相关性的统计学概率分布。
进一步的,对学生绩点的数学规律进行统计分析,得到与学习成绩相关的潜在因素;结合得到的潜在因素的得分函数,得到每个学生在这几个潜在因素方面的得分,由此可得学生的综合得分计算公式:zF=35.417%*FAC1_1+13.808%*FAC2_1+9.938%*FAC3_1+8.090%*FAC4_1。其中FACn_1表示第n个因子的得分,判断学生的学习类型。
作为一种优选,所述潜在因素包括:专业基础、思维能力、实验能力、动手能力。
本发明具有如下有益效果:
本发明统计某个学院成绩数据,获取全部大学本科期间的课程安排;找到课程之间的相关性,也就是要找到几组特征属性来刻画某一课程的特性。通过观察成绩单,经过多次测试,采用每门课的平均成绩,方差,选课人数,学分,课程号等因素作为刻画模型的特征属性,对最终数据进行了归一化处理,并根据这几个特征属性对数据进行了一定程度的预处理操作,最终得到课程的样本数据。
附图说明
图1为材料力学Ⅰ为标签时的重要性结果图;
图2为甲同学针对两大类课程的学习能力曲线图;
图3为乙同学针对两大类课程的学习能力曲线图;
图4为丙同学针对两大类课程的学习能力曲线图;
图5为丁同学针对两大类课程的学习能力曲线图;
图6为戊同学第一类课程学习能力曲线图;
图7为学习预警系统数据流图;
图8为学习预警系统数据源图;
图9为学习预警系统模块分析图。
具体实施方式
现将结合图1-9,对本发明的技术方案进行完整的描述。以下描述仅仅是本发明的一部分实施案例而已,并非全部。基于本发明中的实施案例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施案例,都属于本发明的权利保护范围之内。
本发明提供的基于大数据的学习预警方法,首先,分析后续课程与已结课的课程的成绩之间的相关性,找到具有相关性的课程。然后,进一步明确这种关联,得出描述相关性的统计学规律。考虑如何使用已结课课程的成绩预测未开课课程的成绩。在考虑现实条件下,分析学生成绩的分布方式,找出各课程之间的深层次联系,并对相关性比较高的课程进行分组,总结每组课程对应的知识类型。在此基础上,进一步优化这种模型,并得出分析结果,可以通过分析学生个体成绩,反映该学生学习模式与能力方向的评估结果。
本发明提供的基于大数据的学习预警方法包括以下步骤:
步骤一,以学校或某一学院为对象,采集该对象中全部学生全部学科的现有的绩点成绩;
步骤二,通过聚类分析得到初步的相关性课程,之后通过近邻算法结合核支持向量机分类器在聚类得到的粗糙集合中挖掘课程间更深层次的联系;
步骤三,基于多元线性回归方法得出各必修课预测模型,根据现有学期的相关课程成绩,在学期初预测各门重要必修课的成绩。
采用本发明提供的预警方法对学生绩点的数学规律进行统计分析,还能够得到与学习成绩相关的潜在因素;结合得到的潜在因素的得分函数,得到每个学生在这几个潜在因素方面的得分,由此可得学生的综合得分计算公式:zF=35.417%*FAC1_1+13.808%*FAC2_1+9.938%*FAC3_1+8.090%*FAC4_1。其中FACn_1表示第n个因子的得分,判断学生的学习类型。
本实施例通过主机学院成绩数据,共有68门大学课程。为了找到课程之间的相关性,本发明找到各个课程之间的关联程度,也就是要找到几组特征属性来刻画某一课程的特性。通过观察成绩单,经过多次测试,本发明最终采用每门课的平均成绩,方差,选课人数,学分,课程号作为用来刻画模型的特征属性,对最终数据进行了归一化处理,并根据这五个特征属性对数据进行了一定程度的预处理操作,最终得到54门课程的样本数据。
实施例1
1.采用本发明提供的基于大数据的学习预警方法能够实现对学生成绩预测的功能:
本发明使用SPSS软件分析学生成绩,得出统计规律,便于教学改进和相关研究参考。
在模型建立方面,由于初步分析数据较少,结论可能具有一定理论偏差。但是,可以通过更多届学生的数据,和更多课程数据的参与分析,逐步提升模型的准确性。
为了分析课程之间的相关性,本文首先设想使用聚类的方法,即把所有课程分成若干个簇类,处于同一簇内的课程相关性大,不同簇间的课程相关性小。考虑到Kmeans算法要求数据近似呈现高斯分布式能取得较好的聚类结果,并且聚类结果对初始聚类中心的选取不鲁棒,而谱聚类的划分是一种核化的聚类算法,这使得其对更为复杂的分布进行聚类,因此本文采用了基于高斯核的谱聚类算法。这里简单介绍谱聚类算法的计算步骤:
我们首先通过计算所有点之间的欧氏距离wij=||xi-xj||2来构造一个距离矩阵W,之后通过高斯核函数来构造相似矩阵S,其中sij=kij,接下来,谱聚类算法在构造度矩阵D,在非对角线上的元素设为0,再构造拉普拉斯矩阵L=D-W,将拉普拉斯矩阵标准化后对它求前k个最小的d的矩阵,再对该矩阵进行k均值聚类得到簇划分结果C={C1,C2,...,Ck}。
求解结果及分析
本文首先建立出距离矩阵,根据高斯核函数把距离矩阵转换为相似矩阵,这样距离近的点相似度大,距离远的点相似度小,之后建立拉普拉斯矩阵L=D-W,用求出拉普拉斯矩阵的前k个最小特征值对应的k个特征向量,在归一化得到n×k的矩阵,再对它进行kmeans聚类就得到了最终的聚类结果。
通过实验得到如下聚类结果:
表1基于高斯核的谱聚类算法的聚类结果
本文将所有课程聚为3类通过比较实验不难发现,对于理工类的基础课程被聚为一类,诸如高等数学,线性代数,大学物理,工程图学,机械原理等等,而力学课程如结构力学,弹性力学,空气动力学,材料力学等专业课程被分为一类,最后计算机语言的3门课程被分为一类,大体上很好的将所有课程进行了有效的聚类,不难看出类内的课程相关性大,类间的课程相关性小,那么可以认为,类内的课程就是是(具有较强)相关性的课程。比如,第一类中包含明显有相关关系的分在两个学期进行学习的高等数学Ⅱ、大学物理和工程图学等课程,同时这些课程又是属于低年级的专业基础课程;第二类中包含流体力学、理论力学、传热学、弹性力学、结构力学等高年级专业核心课程;第三类中则是包含了程序设计类的课程。这样,通过基于高斯核的谱聚类算法,我们便能够按照课程的五个属性将所有课程分为3个类,并且每个类的内部的课程之间明显具有很强的相关关系。
在本实施例中,采用如下方式对学生的考试成绩进行预测:
在该问题中,通过对每门课程进行聚类能够揭示每门课程的内在规律,得到的聚类结果能够为之后的进一步数据分析提供基础。本文假设学生对每类课程的学习能力符合某种特定的概率分布而高斯混合(Mixture of Gaussian)模型理论[2]上可以拟合任意的概率分布。因此,为了进一步得到每门课之间的关联性及对未开课课程的成绩进行预测,我们采用高斯混合聚类来对问题一中的关联性进行刻画。具体的,我们可定义如下的高斯混合分布:
该分布共由k个混合成分构成,每个混合成分对应一个高斯分布,其中μii是第i个高斯混合成分的参数,而αi>0为相应的“混合系数”,这样,我们便能够通过已有的学生成绩样本点的采样估计出该学生的学习能力所对应的概率密度函数,然后进一步可用这一概率密度函数对未开课课程进行预测。考虑到对每个学生而言,已开课的课程数量较少会影响概率密度函数的拟合,我们采用三次样条插值的方法对每个同学已开课课程进行插值处理,然后求解高斯混合模型。
基于上述方法,以及本发明预测的学生成绩,还能进一步得到学生学习能力的评估以及对后续课程学习情况的预测,具体方法如下:
下面我们以上文聚类所得的第一类为例,来构造每个同学对第一类课程的学习能力曲线。注意到,第一类课程共有如下27门课程,这里直接引用第一题分类结果对应的表格。
我们用第一类中课程中属于大一学年大二学年的课程作为输入来拟合某个同学的学习能力曲线,然后利用此曲线预测大三该同学此类课程的学习成绩。如图2至图5所示,针对甲同学,我们选择其第一大类大一大二学年的课程来预测其第一大类大三课程的成绩,其中各门成绩如下:工程图学Ⅰ(1)93分,工程图学Ⅰ(2)83分,高等数学Ⅱ(2)78分,高等数学II(1)77分,大学物理Ⅰ(1)分75,大学物理Ⅰ(2)94分,机械原理89分,线性代数78分,微机原理与应用87分。我们根据这些课程成绩,通过高斯混合模型来拟合该同学的学习曲线(如下所示),本文认为该生同一大类大三课程的成绩的概率分布是和通过第一大类大一大二课程拟合出来的学习能力的曲线是相同的。
对于乙同学,我们选择其(第一大类)大一大二学年的课程为(来预测其第一大类大三课程的成绩),其中各门成绩如下:工程图学Ⅰ(1)82分,工程图学Ⅰ(2)67分,高等数学Ⅱ(2)47分,高等数学II(1)25分,大学物理Ⅰ(1)54分,大学物理Ⅰ(2)60分,机械原理55分,线性代数36分,微机原理与应用39分。我们根据这些课程成绩,通过高斯混合模型来拟合该同学的学习曲线,如下所示,本文认为该生第一大类大三课程的成绩的概率分布是和通过第一大类大一大二课程拟合出来的学习能力的曲线是相同的。
在这里我们混合了3个高斯分布,针对第一大类课程,这两位同学得到的高斯混合分布的概率函数分别为:甲同学0.70N(77.22,5.05)+0.23N(85.38,8.60)+0.07N(91.10,1.43)乙同学0.51N(44.61,108.91)+0.15N(26.45,2.28)+0.134N(70.94,41.13)。
我们只需对上述概率密度函数在对应区间进行积分便可以对该同学未开课课程的成绩进行预测:得到对于新开设的第一类课程,其分数在70-100的概率为0.9101,其期望成绩为82分,对于真实情况,该同学的机械设计89分,互换性与技术测量85分,液压与气压传动85分,可见我们得到的模型能够较好的预测甲同学的成绩。针对乙同学,我们预测其成绩不及格的概率为0.56,其期望成绩为50分,其真实成绩为机械设计19分,互换性与技术测量53分,液压与气压传动35分。
表2对两名同学后续第一类课程的成绩预测
期望成绩 真实成绩1 真实成绩2 真实成绩3 预测概率
同学甲 82 89 85 85 70-100为0.91
同学乙 50 19 53 35 不及格为0.56
从预测值与真实值的对比,我们可以发现我们的模型能够有效地对未开课课程的成绩进行预测。
考虑到聚类算法只能够寻找到各个课程之间的较为初步的相关关系。为进一步挖掘每个大类内部课程之间的相关性,本文采用基于径向基核的支持向量机算法:核svm或k-svm,之所以使用核svm算法而不是简单的使用svm算法是因为不敢保证每一个大类是线性可分的。而结果正如预想的一样,数据集是线性不可分的。
本文采用近邻学习是思想来构建核svm的训练集,具体方法如下:由问题一得到的一个大类,本文认为中欧氏距离最大的两个样本点相关性是最小的。以这两个样本点为中心,分别使用5-近邻算法,得到一组样本点个数为10的数据集作为训练集。之后,在该训练集上训练核svm模型将分为不同的两类、,并且每个小类和拥有更强的相关性。
所述步骤三中,根据softmax函数计算出后续课程预测成绩属于类别i的概率,
设输出的类别为a1,a2,a3,a4,a5,a6……an,对每个学生成绩样本,它属于类别i的概率为
对softmax函数进行求导,代入softmax函数表达式,可以得到:
当i=j时,
当i≠j时:
其中
得出预测出的后续课程成绩在每一个类别的概率分布。
本文使用上述算法对问题一的数据进行处理,得到表3。表中加粗课程为类内的先导课程,否则为后续课程。
表3各大类课程间的进一步细分
本文大部分都符合预期猜想,有效的将每个大类中基础课程和核心课程分开,比如将第一大类中的“大学物理”等课程分为一类,而将机械类核心课程分为另一类。但也有不符合常识的情况,注意到表1.1中第一大类中的两门“流体力学”分成了两类,这不符合通常的认知。但其实这两门“流体力学”分别是两个不同的系在大二和大三开设的。在查阅数据时发现,其中大二开设的那门,与之有关的先导课程并不多,而且学时学分也比较少。而大三开设的那门,先导课程比较多,学时也比较长。本文认为,大二开设的“流体力学”,虽然是必修课但并不是其系的核心课程,学习的也比较浅。而大三开设的“流体力学”,是其系的核心课程之一,学习的十分深入。虽然都是“流体力学”,但它在不同系的地位是不同的,要求也是不同,所以把两个“流体力学”分成不同的两类其实是一种更深层次的分类,而不是一个矛盾的结果。
首先以丙同学和丁同学的成绩作为实例,来预测他们的能力方向和学习模式。依照2.1节中的方法,将这两个同学所有第一类课程和第二类课程的课程成绩作为模型的输入数据,绘制得到如图4、图5所示学习能力曲线图。
通过上述学习能力曲线图我们可以看出丙同学学习比较优异,在两类课程上的成绩基本稳定,并没哟明显的偏科情形,因此判断丙同学具有良好的学习习惯,能够应对两大类课程的学习,对该同学没必要提出学业警示;丁同学在第一类课程的高峰出现在70-75分数段,在第二类课程的高峰出现在80左右分数段,说明丁同学对第二类课程的掌握明显好于对第一类课程的掌握,可对其发出风险提示指导其花费更多的经历来学习第一类课程。
事实上,对某位同学戊同学,我们绘制的其在第一类课程的学习能力曲线如图7所示,可预测对下一门将要学习的第一类课程该生不及格的概率为11.21%。从曲线可以看出,该生成绩大多在60-70分低分段,处于及格边缘说明该生可能并没有掌握第一类课程学习的方法,而且也不适合第一类课程。
事实上我们发现,第一类课程大多是基础的机械类课程和通识课,通过比较数据不难看出该生虽然学习努力但并不适合机械类的课程,所以本文认为该生并不适应第一类课程的学习,并且考虑到之后该类课程的低分概率较高,可对其提出警示。
基于本发明提供的预警方法,对学生绩点的数学规律进行统计分析,得到与学习成绩相关的潜在因素;结合得到的潜在因素的得分函数,得到每个学生在这几个潜在因素方面的得分,由此可得学生的综合得分计算公式:zF=35.417%*FAC1_1+13.808%*FAC2_1+9.938%*FAC3_1+8.090%*FAC4_1。其中FACn_1表示第n个因子的得分,判断学生的学习类型。
根据对学生绩点数学规律的统计分析,得到了与学习相关的4个方面的潜在因素:专业基础、思维能力、实验能力、动手能力。结合前面得到的因子得分函数,可以计算每个学生在这4个方面的得分,由此可以判断学生的学习类型;还可以对所有学生按照这4个因素的得分进行分类,以观察他们整体学习情况的分布态势。避免因人为经验导致在评估过程中只关注某些课程的绩点,为促进学生全面发展,因材施教,正确评估学生的学习能力与能力方向,提供了一种有效的参考方法。有助于体现和贯彻因材施教,综合发展的教育理念。
根据之前学期的相关课程成绩,在学期初预测各门重要必修课的成绩。对于预测成绩危险(如预测得分低于60)的学生,可以采取提前告知有关课程老师等方法,及时予以关注,从开始就予以足够重视,更有针对性地教学,将对提升教学效果,建立学生自信,起到一定作用。
下面说明本发明预警方法的软件实现过程:
数据导入SPSS并预处理后的简单统计学分析结果如下:表4描述统计
经过多元线性回归分析,得出各学期必修课程绩点预测模型如下
大一下
工程图学I2=47.568+0.409*工程图学I1
高等数学II2=0.844*高等数学I1
大二上
理论力学I=0.235*高等数学II1+0.441*大学物理II1+0.246*高等数学II2
线性代数=40.001+0.273*高等数学II一+0.317*高等数学II2
大学物理II2=28.844+0.263*高等数学II一+0.42大学物理II1
大学物理实验I2=32.016+0.547*大学物理实验I1+0.098*高等数学II2
概率论与数理统计=0.478*高等数学II一+0.242*高等数学II2+0.243*大学物理II1
计算方法=0.382*大学物理实验I1+0.306*高等数学II2+0.275*大学物理II1
大二下
材料力学I=0.145*高等数学II一+0.344*理论力学I+0.278*线性代数+0.229*计算方法
电工电子技术=-0.157高等数学II一+0.125*线性代数+0.206*计算方法+0.364*大学物理实验I1+0.159*高等数学II2+0.162大学物理II1+0.094*概率论与数理统计
电工课设=0.652*大学物理实验I1+0.136*C语言课程设计+0.121*线性代数弹性力学=0.165*高等数学II一+0.338*大学物理实验I2+0.287*线性代数+0.146*计算方法
基于XGBoost学业预测与分析建模研究
本发明采用XGBoost算法找到相关性较强的课程,得到如下结论:
材料力学Ⅰ与理论力学Ⅰ、C++语言程序设计和电工与电子技术Ⅱ(1),电工与电子技术Ⅱ(2)与理论力学Ⅰ、电工与电子技术Ⅱ(1),机械原理与理论力学Ⅰ、线性代数、电工与电子技术Ⅱ(1)和工程材料学,机械设计与机械原理、工程材料学、材料力学Ⅰ、线性代数和工程图学Ⅰ(2),液压与气压传动与互换性与技术测量,具有较强的相关性。
本文所取验证学生样本总数为145人,分别利用前三学期已结课课程成绩预测第四学期课程成绩,前四学期课程成绩预测第五学期课程成绩,前五学期课程成绩预测第六学期课程成绩。预测准确率均在55%以上。
采用分类的思想将学生成绩划分为6个大区间,将成绩预测的回归问题转换为分类问题。这样可以使得模型具有更好的泛化性能。容许预测的学生成绩可以有上下浮动;采用的XGBoost算法具有速度快,精度高,占用资源少的优点,对于处理大数据可以并行化计算;利用特征重要度和专家评估法结合计算课程相关性,即保证客观的正确性又考虑了主观因素和人类的先验知识,可以显著提高模型的健壮性。
模型对成绩的分类采用了一种方式即分成6类,而在实际情况下可能存在其它分类方式能够更好的预测成绩和相关性。
基于训练数据采用XGBoost算法,最后计算样本特征的重要度,特征度高的相关性越高。
利用混合高斯分布拟合学生的学习能力曲线能够对学生的学习能力进行量化评价,并能够客观的给出其后续课程的成绩预测。这一方法一方面保证了提前假设特定的概率分布所带来的局限,也使得预测结果更具说服力。
囿于数据规模,我们在训练模型时采用的数据量较小并且课程类别以理工科为主,这可能使得模型出现一些欠拟合问题并且对于学生人文社科方向的能力不能有效评价。
本发明的主要实现思想可用于分析网络课程在线数据。在线课程中存在诸多的属性,比如:观看视频频率、观看时长、章节测试成绩、登陆次数、论坛活跃度等更为具体的指标,本文模型能够适用于此种情形的数据分析。
本发明模型也可用于购物网站的推荐系统,根据用户的已有数据分析出用户的购物偏好,建立出模型后进行个性化的商品推荐。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽范围。

Claims (8)

1.基于大数据的学习预警方法,其特征在于,所述预警方法包括以下步骤:
步骤一,以学校或某一学院为对象,采集该对象中全部学生全部学科的现有的绩点成绩;
步骤二,通过聚类分析得到初步的相关性课程,之后通过近邻算法结合核支持向量机分类器在聚类得到的粗糙集合中挖掘课程间更深层次的联系;
步骤三,基于多元线性回归方法得出各必修课预测模型,根据现有学期的相关课程成绩,在学期初预测各门重要必修课的成绩。
2.根据权利要求1所述的基于大数据的学习预警方法,其特征在于,所述步骤二中,首先,通过高斯核的谱聚类算法将课程进行聚类,将全部课程间的关系采用点与点之间的距离来描述:
通过计算所有点之间的欧氏距离wij=||xi-xj||2来构造一个距离矩阵W,之后通过高斯核函数来构造相似矩阵S,其中sij=kij,接下来,谱聚类算法在构造度矩阵D,在非对角线上的元素设为0,再构造拉普拉斯矩阵L=D-W,将拉普拉斯矩阵标准化后对它求前k个最小的特征值对应的特征向量,构造出一个n
d的矩阵,再对该矩阵进行k均值聚类得到簇划分结果C={C1,C2,...,Ck};xi是第i个样本,特征列向量,kij是高斯核函数,sij是矩阵里的数列;
其次,定义如下的高斯混合分布模型为概率密度函数:
该分布共由k个混合成分构成,每个混合成分对应一个高斯分布,其中μi是第i个高斯混合成分的参数,而αi>0为相应的混合系数,PM(x)是高斯混合分布;
通过已有的学生成绩样本点的采样,估计出该学生的学习能力所对应的概率密度函数;
再进一步用所述概率密度函数对未开课课程进行预测。
3.根据权利要求2所述的基于大数据的学习预警方法,其特征在于,对所述高斯核函数的求解过程具体为:
根据高斯核函数把距离矩阵转换为相似矩阵,这样距离近的点相似度大,距离远的点相似度小,之后建立拉普拉斯矩阵L=D-W,用求出拉普拉斯矩阵的前k个最小特征值对应的k个特征向量,在归一化得到n×k的矩阵,再对它进行kmeans聚类得到最终的聚类结果。
4.根据权利要求3所述的基于大数据的学习预警方法,其特征在于,步骤三中,将先上的学期课程设定为已结课的课程,而后上的学期的课程设定为未结课的课程;采用分类方法,将成绩按照得分成若干类;
以已结课的课程为训练数据,已结课的课程为特征,某一门未结课的课程为标签,将成绩预测转换成类别预测,建立分类问题,采用XGBoost算法,相关课程的评判采用判定特征重要度的高低,特征重要度定义为以该特征在某一类成绩中分裂的次数的总和。
5.根据权利要求4所述的基于大数据的学习预警方法,其特征在于,所述步骤三中,根据softmax函数计算出后续课程预测成绩属于类别i的概率,
设输出的类别为a1,a2,a3,a4,a5,a6……an,对每个学生成绩样本,它属于类别i的概率为
对softmax函数进行求导,代入softmax函数表达式,可以得到:
当i=j时,
当i≠j时:
其中aj对应学生成绩样本;
得出预测出的后续课程成绩在每一个类别的概率分布,为已结课课程对后续课程相关性的统计学概率分布。
6.根据权利要求2所述的基于大数据的学习预警方法,其特征在于,成绩按照得分成若干类。
7.根据权利要求2所述的基于大数据的学习预警方法,其特征在于,对学生绩点的数学规律进行统计分析,得到与学习成绩相关的潜在因素;结合得到的潜在因素的得分函数,得到每个学生在这几个潜在因素方面的得分,由此可得学生的综合得分计算公式:zF=35.417%*FAC1_1+13.808%*FAC2_1+9.938%*FAC3_1+8.090%*FAC4_1;其中FACn_1表示第n个因子的得分,判断学生的学习类型。
8.根据权利要求5所述的基于大数据的学习预警方法,其特征在于,所述潜在因素包括:专业基础、思维能力、实验能力、动手能力。
CN201910361563.6A 2019-04-30 2019-04-30 基于大数据的学习预警方法 Pending CN110189236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910361563.6A CN110189236A (zh) 2019-04-30 2019-04-30 基于大数据的学习预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910361563.6A CN110189236A (zh) 2019-04-30 2019-04-30 基于大数据的学习预警方法

Publications (1)

Publication Number Publication Date
CN110189236A true CN110189236A (zh) 2019-08-30

Family

ID=67715372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910361563.6A Pending CN110189236A (zh) 2019-04-30 2019-04-30 基于大数据的学习预警方法

Country Status (1)

Country Link
CN (1) CN110189236A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709640A (zh) * 2020-06-15 2020-09-25 浙江大学 一种针对教育场景的特征均衡智能分组方法
CN112085262A (zh) * 2020-08-24 2020-12-15 辽宁石油化工大学 一种基于机器学习算法的大学生寝室调配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895033A (zh) * 2017-11-24 2018-04-10 淮阴工学院 一种基于机器学习的学生学业预警系统的预警方法
CN108460139A (zh) * 2018-03-09 2018-08-28 上海开放大学 基于网络爬虫数据挖掘在线课程教学质量评估管理系统
CN108985522A (zh) * 2018-08-02 2018-12-11 杭州华网信息技术有限公司 一种智慧校园挂科预警方法与系统
CN109002492A (zh) * 2018-06-27 2018-12-14 淮阴工学院 一种基于LightGBM的绩点预测方法
CN109146174A (zh) * 2018-08-21 2019-01-04 广东恒电信息科技股份有限公司 一种基于成绩预测的选修课精准推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895033A (zh) * 2017-11-24 2018-04-10 淮阴工学院 一种基于机器学习的学生学业预警系统的预警方法
CN108460139A (zh) * 2018-03-09 2018-08-28 上海开放大学 基于网络爬虫数据挖掘在线课程教学质量评估管理系统
CN109002492A (zh) * 2018-06-27 2018-12-14 淮阴工学院 一种基于LightGBM的绩点预测方法
CN108985522A (zh) * 2018-08-02 2018-12-11 杭州华网信息技术有限公司 一种智慧校园挂科预警方法与系统
CN109146174A (zh) * 2018-08-21 2019-01-04 广东恒电信息科技股份有限公司 一种基于成绩预测的选修课精准推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何楚: ""基于频繁模式谱聚类的课程关联分类模型和学生成绩预测算法研究"", 《计算机应用研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709640A (zh) * 2020-06-15 2020-09-25 浙江大学 一种针对教育场景的特征均衡智能分组方法
CN112085262A (zh) * 2020-08-24 2020-12-15 辽宁石油化工大学 一种基于机器学习算法的大学生寝室调配方法
CN112085262B (zh) * 2020-08-24 2023-12-26 辽宁石油化工大学 一种基于机器学习算法的大学生寝室调配方法

Similar Documents

Publication Publication Date Title
WO2022170985A1 (zh) 选题方法、装置、计算机设备和存储介质
CN110111223A (zh) 基于人工智能的自适应教育方法和系统
Liu Data Analysis of Educational Evaluation Using K‐Means Clustering Method
CN112686462A (zh) 基于学生画像的异常检测方法、装置、设备及存储介质
CN111461394A (zh) 一种基于深度矩阵分解的学生成绩预测方法
CN110189236A (zh) 基于大数据的学习预警方法
Depren DETERMINATION OF THE FACTORS AFFECTING STUDENTS’SCIENCE ACHIEVEMENT LEVEL IN TURKEY AND SINGAPORE: AN APPLICATION OF QUANTILE REGRESSION MIXTURE MODEL
Bataev et al. Artificial intelligence technologies in higher education institutions: a model of adaptive education
Shen et al. Research on method of identifying poor families based on machine learning
Sghir et al. Using learning analytics to improve students' enrollments in higher education
Yi Research on intelligent evaluation of English diagnosis system based on fuzzy K-means clustering
Chen et al. Learning disability early warning system based on classification algorithm
Su Design of intelligent classroom teaching scheme using artificial intelligence
Miao A hybrid model for student grade prediction using support vector machine and neural network
Razak et al. Prediction of Secondary Students Performance: A Case Study
Song et al. Prediction for CET-4 Based on Random Forest
Yi The Development of Early Warning System for College English Academic Performance Based by Big Data Computation
Mahboob et al. A comparative study of engineering students pedagogical progress
Jiang et al. Teaching Evaluation Index of College Students Based on Random Forest
Zhang Construction and application of English teachers' intelligent classroom teaching ability training mode integrating MOOC and flipped classroom
Han A Model for Evaluating the Teaching Effect of the “Second Classroom” in Universities Based on Big Data Analysis
Wang Research on Campus Digital Teaching System of Smart u Based on Data Mining Algorithm
Zhang et al. Analysis of undergraduate network learning based on K-means clustering and decision tree
Marcu et al. Comparative analysis of predictve models on online education in context of covid-19–A case study
Wang et al. An Online English Practice System Based on Diagnosis Learning and ASP. NET

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830