CN105913353A - 一种基于K-means聚类多权重自适应的学生学习行为分析方法 - Google Patents

一种基于K-means聚类多权重自适应的学生学习行为分析方法 Download PDF

Info

Publication number
CN105913353A
CN105913353A CN201610222553.0A CN201610222553A CN105913353A CN 105913353 A CN105913353 A CN 105913353A CN 201610222553 A CN201610222553 A CN 201610222553A CN 105913353 A CN105913353 A CN 105913353A
Authority
CN
China
Prior art keywords
student
attendance
wei
data set
perform step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610222553.0A
Other languages
English (en)
Inventor
朱全银
沈恩强
钱亚平
周泓
魏然
唐洁方
肖绍章
唐娥
严云洋
李翔
胡荣林
王留洋
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201610222553.0A priority Critical patent/CN105913353A/zh
Publication of CN105913353A publication Critical patent/CN105913353A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于K‑means聚类多权重自适应的学生学习行为分析方法,本发明利用学生平时早操、课堂、晚自习、晚宿舍考勤出勤数据,采用一种多权重自适应的加权算法对学生进行K‑means聚类,将具有不同学习行为的学生聚为一类,并结合学生的平均成绩分析不同的学习行为与学习成绩之间的关系;本发明提出的学生行为分析方法可应用于高校学生学习行为习惯的分析,针对不同学习行为的学生,实施不同的管理办法。

Description

一种基于K-means聚类多权重自适应的学生学习行为分析 方法
技术领域
本发明属于数据分析的行为分析领域,特别涉及一种基于K-means聚类多权重自适应的学生学习行为分析方法,可应用于高校学生行为分析决策支持系统。
背景技术
在大数据时代,数据分析在许多领域发挥了巨大的作用。行为分析是数据分析的一个方面,而行为分析又可以分为网站用户行为分析、消费行为分析等,针对高校大学生的行为分析有大学生体育锻炼行为分析、大学生饮食行为习惯分析、大学生消费行为与习惯分析等。而学习行为是高校大学生主要的行为习惯之一。进行学生的学习行为分析对提高学生成绩,提高教学质量,为校管理者提供决策支持有关键作用。对学生行为分析主要分为数据获取、数据处理、模型建立三个方面。其中数据预处理用到技术主要包括:数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据分析之前使用,大大提高了数据分析模式的质量,降低实际分析所需要的时间。数据分析模型建立的方法比较广泛,如最小二乘回归、神经网络、时间序列、K-means聚类、Apriori算法等。
2010 年至 2015 年,朱全银等给出了商品销售数据抽取与数据挖掘的方法(Quanyin Zhu, Yunyang Yan, Jin Ding and Jin Qian. The Case Study for PriceExtracting of Mobile Phone Sell Online. IEEE 2nd International Conference onSoftware Engineering and Service Science, Beijing, Chian, July.2011, pp. 281-295;Quanyin Zhu, Yunyang Yan, Jin Ding and Yu Zhang. The Commodities PriceExtracting for Shop Online, 2010 International Conference on FutureInformation Technology and Management Engineering,Changzhou,Jiangsu,Chian,Dec.2010, Vol.2,pp.317-320;)该方法能同样运用于本方法中的教务网课表信息数据挖掘;朱全银等给出的《一种校园个性化掌上服务及用户行为习惯分析的实现方法》(中国专利公开号:CN 104731971A, 公开时间2015-06-24)中的用户行为习惯分析方法是基于多种考勤客户端的用户操作日志及学生出勤率进行的用户行为习惯分析方法,不同于本发明提出的一种基于K-means聚类多权重自适应的学生学习行为分析方法,本发明对学生的出勤信息进行细化为早操正常出勤率、早操非正常出勤率、课堂正常出勤率、课堂非正常出勤率、晚自习正常出勤率、晚自习非正常出勤率、晚宿舍考勤出勤率七个维度并作为聚类分析的输入层。
K-means聚类:
聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。K-means 算法接受参数 K ;然后将事先输入的n个数据对象划分为 K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法的基本思想是:以空间中K个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
PCA降维:
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
发明内容
本发明的目的是根据在校大学生的早操、课堂、晚自习、晚宿舍考勤数据对学生进行聚类,得到具有不同学习行为的学生分组,研究学生学习行为和成绩之间的关系,从而为学校的学生管理员提供决策支持。
本发明的技术方案是:利用学生平时早操、课堂、晚自习、晚宿舍考勤出勤数据,结合空间向量模型、多权重自适应加权方法,先对学生的考勤数据进行预处理与特征加权;使用分层聚类的方法确定聚类中心的个数并初始化聚类中心;进而利用K-means聚类算法对学生进行聚类,结合学生成绩信息分析每个类别的学生具有不同的学习行为,其中,包括:学生聚类与归类流程步骤A和多权重生成算法步骤B;具体包括以下步骤:
学生聚类与归类流程步骤A,从步骤A1至步骤A25:
步骤A1、设学生人数为M,考勤数据的维度为N,建立考勤数据集Records={Stu1,Stu2,…,StuM},Records的元素Stum={s1,s2,...,sN}表示学生m的考勤数据,s1,s2,…,sN为Stum的七个维度,其中,m∈[1,M];
步骤A2、执行步骤B1至B17;
步骤A3、设聚类中心个数为K;定义1:带权重考勤数据集Wrecords={Stu1*weih,Stu2*weih,…,StuM*weih},其中,weih∈W,h∈[1,L];定义2:学生聚类组数据集Urecord={U1,U2,...,UK},U1,U2,...,UK分别表示K个学生聚类组,每个聚类组中的学生具有相似的学习行为,令uxy表示x聚类组内的y用户,U1={u11,u12,…,u1r},U2={u21,u22,…,u2w},…,UK={uK1,uK2,…,uKv},其中,x∈[1,K],y∈[1,M],r+w+v=M;定义3:评估值数据集VALUE={(wei1,v1),(wei2,v2),…,(weiL,vL)},其中,(weiz,vz)表示权重子集weiz对应的评估值vz,z∈[1,L];定义4:聚类中心数据集Center={cen1,cen2,…,cenK}表示K个聚类中心的数据集;
步骤A4、定义循环变量t,并赋初值t=1;
步骤A5、如果t<=L,则执行步骤A6,否则执行步骤A11;
步骤A6、使用weit对数据集Records添加权重得到带权重考勤数据集Wrecords={Stu1*weit,Stu2*weit,…,StuM*weit},其中Stup*weiq={sp1*wq1,sp2*wq2,…,spN*wqN},sp1,sp2,…,spN分别表示Stup的N个维度,wq1,wq2,…,wqN分别表示weiq的N个维度,p∈[1,M],q∈[1,L];
步骤A7、使用层次聚类算法确定K值;
步骤A8、使用K-means算法对数据集Wrecords进行聚类,得到步骤A3中的学生聚类组数据集Urecord={U1,U2,...,UK}和聚类中心数据集Center={cen1,cen2,…,cenK};
步骤A9、定义GetCenter(Stui)表示先根据Stui和Urecord得到Stui所属聚类组的编号,再结合Center获取Stui对应的聚类中心,使用平方误差和对步骤A8中的Urecord进行评估,并将(weit,vt)添加到步骤A3中的评估值数据集VALUE中,其中,i∈[1,M];
步骤A10、t=t+1,执行步骤A5;
步骤A11、定义Min(VALUE)表示步骤A3中的VALUE数据集中评估值的最小值,根据Min(VALUE)得到对应的权重weij,其中,j∈[1,L];使用权重weij对Record加权得到数据集FWrecord={FStu1,FStu2,…,FStuM},使用K-means算法对FWrecord进行聚类,得到聚类组数据集FUrecord={F1,F2,…,FK},其中,F1,F2,…,FK分别表示K个学生聚类组;
步骤A12、加载学生成绩数据集Grade={g1,g2,…,gM},求出M个学生的平均成绩为E;分别计算数据集FUrecord中的每个聚类组中所有学生的平均成绩得到数据集FGrade={ag1,ag2,…,agK};
步骤A13、定义M个学生的平均出勤率为V,分别计算数据集FUrecord中每个聚类组中的所有学生的平均成绩得到数据集FHabit={ah1,ah2,…,ahK};
步骤A14、定义学生聚类组数据集StuCollectionA={Ea1,Ea2,...,Ean1},StuCollectionB={Eb1,Eb2,...,Ebn2},StuCollectionC={Ec1,Ec2,...,Ecn3},StuCollectionD={Ed1,Ed2,...,Edn4},其中,Ea,Eb,Ec,Ed为学生聚类组,且n1+n2+n3+n4=M;设循环变量n,并赋初值n=1;
步骤A15、如果n<=K则执行步骤A16,否则执行步骤A25;
步骤A16、如果ahn<V且agn<E则执行步骤A17,否则执行步骤A18;
步骤A17、将聚类组Fn添加到StuCollectionD数据集,执行步骤A24;
步骤A18、如果ahn<V且agn>=E则执行步骤A19,否则执行步骤A20;
步骤A19、将聚类组Fn添加到StuCollectionC数据集,执行步骤A24;
步骤A20、如果ahn>=V且agn<E则执行步骤A21,否则执行步骤A22;
步骤A21、将聚类组Fn添加到StuCollectionB数据集,执行步骤A24;
步骤A22、如果ahn>=V且agn>=E则执行步骤A23,否则执行步骤A24;
步骤A23、将聚类组Fn添加到StuCollectionA数据集,执行步骤A24;
步骤A24、n=n+1,执行步骤A15;
步骤A25、得到四类学生聚类组数据集StuCollectionA、StuCollectionB、StuCollectionC、StuCollectionD,其中,StuCollectionA表示A类学生的数据集,StuCollectionB表示B类学生的数据集,StuCollectionC表示C类学生的数据集,StuCollectionD表示D类学生的数据集;
多权重生成算法步骤B,从步骤B1至步骤B18:
步骤B1、定义浮点型循环变量a,b,c,d,e,f,g;权重最大阈值为P,权重最小阈值为S,步长为Q,并初始化a=S,b=S,c=S,d=S,e=S,f=S,g=S;权重数据集元素的个数为L,权重数据集W={wei1,wei2,…,weiL},其中,wei1,wei2,…,weiL为权重数据集W的L个权重子集;
步骤B2、如果a<=P则执行步骤B3,否则执行步骤B18;
步骤B3、如果b<=P则执行步骤B4,否则执行步骤B17;
步骤B4、如果c<=P则执行步骤B5,否则执行步骤B16;
步骤B5、如果d<=P则执行步骤B6,否则执行步骤B15;
步骤B6、如果e<=P则执行步骤B7,否则执行步骤B14;
步骤B7、如果f<=P则执行步骤B8,否则执行步骤B13;
步骤B8、如果g<=P则执行步骤B9,否则执行步骤B12;
步骤B9、如果a+b+c+d+e+f+g=1则执行步骤B10,否则执行步骤B11;
步骤B10、将{a,b,c,d,e,f,g}添加到权重数据集W中,执行步骤B8;
步骤B11、g=g+Q,执行步骤B8;
步骤B12、f=f+Q,执行步骤B7;
步骤B13、e=e+Q,执行步骤B6;
步骤B14、d=d+Q,执行步骤B5;
步骤B15、c=c+Q,执行步骤B4;
步骤B16、b=b+Q,执行步骤B3;
步骤B17、a=a+Q,执行步骤B2;
步骤B18、得到生成的权重数据集W={{wa1,wb1,wc1,wd1,we1,wf1,wg1},{wa2,wb2,wc2,wd2,we2,wf2,wg2},...,{waL,wbL,wcL,wdL,weL,wfL,wgL}},即W={wei1,wei2,…,weiL}。
定义N为每个学生考勤数据的维度,每个学生的考勤数据由早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率七个维度构成,步骤A1和步骤A6中的考勤数据维度N取值为7。
步骤A1至A28用于学生聚类与归类,首先计算每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率并作为学生的七个维度,然后对考勤数据添加由步骤B生成的权重并使用K-means算法对所有的学生进行聚类,得到不同的聚类组,然后求出每个聚类组中所有学生的平均成绩和平均出勤率,再求出M个学生的平均成绩和平均出勤率,根据每个聚类组的平均成绩、平均出勤率和M个学生的平均成绩、平均出勤率对现有的聚类组进一步归类,最后得到四个类别的学生:学习行为习惯好且成绩也好的学生、学习行为习惯好但成绩不好的学生、学习行为习惯不好但成绩较好的学生、学习行为习惯不好且成绩也不好的学生;步骤B1至B18用于权重数据集的生成,首先定义权重的最大阈值为P、最小阈值为S、步长为Q,然后使用7层循环生成每个权重子集并将生成的权重子集添加到权重数据集W中。
定义权重的最大阈值为P,权重的最小阈值为S,步长为Q,阈值P、阈值S和步长Q用于权重集的生成,步骤B1至B8中的P取值为0.3,步骤B1中的S取值为0.05,步骤B1、步骤B11至B17中的Q取值为0.05。
本发明创造性的提出了根据学生的早操、课堂、晚自习、晚宿舍考勤数据,使用K-means聚类算法对学生进行聚类,得到具有不同学习行为的学生聚类组,然后再根据每个聚类组中学生的平均成绩进一步对聚类后的学生聚类组进行分类,最终得出四类具有不同学习行为的学生数据集;其中创造性的提出了针对不同考勤类型的多权重自适应加权算法,利用计算机高效计算的特点,自动找出每个数据维度的最佳权重,显著地提高了聚类的效果;本发明可应用于高校学生教学管理,针对不同学习行为的学生,实施不同的管理办法。
附图说明
附图1为本发明学生聚类与归类流程图。
附图2为多权重生成算法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如附图1所示,学生聚类与归类流程步骤A,从步骤A1至步骤A25:
步骤A1、设学生人数为M,考勤数据的维度为N,建立考勤数据集Records={Stu1,Stu2,…,StuM},Records的元素Stum={s1,s2,...,sN}表示学生m的考勤数据,s1,s2,…,sN为Stum的七个维度,其中,m∈[1,M];
步骤A2、执行步骤B1至B17;
步骤A3、设聚类中心个数为K;定义1:带权重考勤数据集Wrecords={Stu1*weih,Stu2*weih,…,StuM*weih},其中,weih∈W,h∈[1,L];定义2:学生聚类组数据集Urecord={U1,U2,...,UK},U1,U2,...,UK分别表示K个学生聚类组,每个聚类组中的学生具有相似的学习行为,令uxy表示x聚类组内的y用户,U1={u11,u12,…,u1r},U2={u21,u22,…,u2w},…,UK={uK1,uK2,…,uKv},其中,x∈[1,K],y∈[1,M],r+w+v=M;定义3:评估值数据集VALUE={(wei1,v1),(wei2,v2),…,(weiL,vL)},其中,(weiz,vz)表示权重子集weiz对应的评估值vz,z∈[1,L];定义4:聚类中心数据集Center={cen1,cen2,…,cenK}表示K个聚类中心的数据集;
步骤A4、定义循环变量t,并赋初值t=1;
步骤A5、如果t<=L,则执行步骤A6,否则执行步骤A11;
步骤A6、使用weit对数据集Records添加权重得到带权重考勤数据集Wrecords={Stu1*weit,Stu2*weit,…,StuM*weit},其中Stup*weiq={sp1*wq1,sp2*wq2,…,spN*wqN},sp1,sp2,…,spN分别表示Stup的N个维度,wq1,wq2,…,wqN分别表示weiq的N个维度,p∈[1,M],q∈[1,L];
步骤A7、使用层次聚类算法确定K值;
步骤A8、使用K-means算法对数据集Wrecords进行聚类,得到步骤A3中的学生聚类组数据集Urecord={U1,U2,...,UK}和聚类中心数据集Center={cen1,cen2,…,cenK};
步骤A9、定义GetCenter(Stui)表示先根据Stui和Urecord得到Stui所属聚类组的编号,再结合Center获取Stui对应的聚类中心,使用平方误差和对步骤A8中的Urecord进行评估,并将(weit,vt)添加到步骤A3中的评估值数据集VALUE中,其中,i∈[1,M];
步骤A10、t=t+1,执行步骤A5;
步骤A11、定义Min(VALUE)表示步骤A3中的VALUE数据集中评估值的最小值,根据Min(VALUE)得到对应的权重weij,其中,j∈[1,L];使用权重weij对Record加权得到数据集FWrecord={FStu1,FStu2,…,FStuM},使用K-means算法对FWrecord进行聚类,得到聚类组数据集FUrecord={F1,F2,…,FK},其中,F1,F2,…,FK分别表示K个学生聚类组;
步骤A12、加载学生成绩数据集Grade={g1,g2,…,gM},求出M个学生的平均成绩为E;分别计算数据集FUrecord中的每个聚类组中所有学生的平均成绩得到数据集FGrade={ag1,ag2,…,agK};
步骤A13、定义M个学生的平均出勤率为V,分别计算数据集FUrecord中每个聚类组中的所有学生的平均成绩得到数据集FHabit={ah1,ah2,…,ahK};
步骤A14、定义学生聚类组数据集StuCollectionA={Ea1,Ea2,...,Ean1},StuCollectionB={Eb1,Eb2,...,Ebn2},StuCollectionC={Ec1,Ec2,...,Ecn3},StuCollectionD={Ed1,Ed2,...,Edn4},其中,Ea,Eb,Ec,Ed为学生聚类组,且n1+n2+n3+n4=M;设循环变量n,并赋初值n=1;
步骤A15、如果n<=K则执行步骤A16,否则执行步骤A25;
步骤A16、如果ahn<V且agn<E则执行步骤A17,否则执行步骤A18;
步骤A17、将聚类组Fn添加到StuCollectionD数据集,执行步骤A24;
步骤A18、如果ahn<V且agn>=E则执行步骤A19,否则执行步骤A20;
步骤A19、将聚类组Fn添加到StuCollectionC数据集,执行步骤A24;
步骤A20、如果ahn>=V且agn<E则执行步骤A21,否则执行步骤A22;
步骤A21、将聚类组Fn添加到StuCollectionB数据集,执行步骤A24;
步骤A22、如果ahn>=V且agn>=E则执行步骤A23,否则执行步骤A24;
步骤A23、将聚类组Fn添加到StuCollectionA数据集,执行步骤A24;
步骤A24、n=n+1,执行步骤A15;
步骤A25、得到四类学生聚类组数据集StuCollectionA、StuCollectionB、StuCollectionC、StuCollectionD,其中,StuCollectionA表示A类学生的数据集,StuCollectionB表示B类学生的数据集,StuCollectionC表示C类学生的数据集,StuCollectionD表示D类学生的数据集;
如附图2所示,多权重生成步骤B,从步骤B1至步骤B18:
步骤B1、定义浮点型循环变量a,b,c,d,e,f,g;权重最大阈值为P,权重最小阈值为S,步长为Q,并初始化a=S,b=S,c=S,d=S,e=S,f=S,g=S;权重数据集元素的个数为L,权重数据集W={wei1,wei2,…,weiL},其中,wei1,wei2,…,weiL为权重数据集W的L个权重子集;
步骤B2、如果a<=P则执行步骤B3,否则执行步骤B18;
步骤B3、如果b<=P则执行步骤B4,否则执行步骤B17;
步骤B4、如果c<=P则执行步骤B5,否则执行步骤B16;
步骤B5、如果d<=P则执行步骤B6,否则执行步骤B15;
步骤B6、如果e<=P则执行步骤B7,否则执行步骤B14;
步骤B7、如果f<=P则执行步骤B8,否则执行步骤B13;
步骤B8、如果g<=P则执行步骤B9,否则执行步骤B12;
步骤B9、如果a+b+c+d+e+f+g=1则执行步骤B10,否则执行步骤B11;
步骤B10、将{a,b,c,d,e,f,g}添加到权重数据集W中,执行步骤B8;
步骤B11、g=g+Q,执行步骤B8;
步骤B12、f=f+Q,执行步骤B7;
步骤B13、e=e+Q,执行步骤B6;
步骤B14、d=d+Q,执行步骤B5;
步骤B15、c=c+Q,执行步骤B4;
步骤B16、b=b+Q,执行步骤B3;
步骤B17、a=a+Q,执行步骤B2;
步骤B18、得到生成的权重数据集W={{wa1,wb1,wc1,wd1,we1,wf1,wg1},{wa2,wb2,wc2,wd2,we2,wf2,wg2},...,{waL,wbL,wcL,wdL,weL,wfL,wgL}},即W={wei1,wei2,…,weiL}。
定义N为每个学生考勤数据的维度,每个学生的考勤数据由早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率七个维度构成,步骤A1和步骤A6中的考勤数据维度N取值为7。
步骤A1至A28用于学生聚类与归类,首先计算每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率并作为学生的七个维度,然后对考勤数据添加由步骤B生成的权重并使用K-means算法对所有的学生进行聚类,得到不同的聚类组,然后求出每个聚类组中所有学生的平均成绩和平均出勤率,再求出M个学生的平均成绩和平均出勤率,根据每个聚类组的平均成绩、平均出勤率和M个学生的平均成绩、平均出勤率对现有的聚类组进一步归类,最后得到四个类别的学生:学习行为习惯好且成绩也好的学生、学习行为习惯好但成绩不好的学生、学习行为习惯不好但成绩较好的学生、学习行为习惯不好且成绩也不好的学生;步骤B1至B18用于权重数据集的生成,首先定义权重的最大阈值为P、最小阈值为S、步长为Q,然后使用7层循环生成每个权重子集并将生成的权重子集添加到权重数据集W中。
定义权重的最大阈值为P,权重的最小阈值为S,步长为Q,阈值P、阈值S和步长Q用于权重集的生成,当步骤B1至B8中的P取值为0.3,步骤B1中的S取值为0.05,步骤B1、步骤B11至B17中的Q取值为0.05时,得到的步骤B1中权重数据集的子集个数L值为12217。
为了更好的说明本方法的有效性,利用学校考勤系统收集到的学生考勤数据,选取一个年级410名学生作为应用对象,选取每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率、晚宿舍考勤出勤率作为每个学生的7个维度,其中,非正常出勤率是指未带校园卡、病假、事假等特殊情况;使用上述方法的步骤,423名学生被分成四个类,其中,A类学生共7人,平均成绩为107,平均出勤率为0.40;B类学生共267人,平均成绩为113,平均出勤率为0.67;C类学生共112人,平均成绩为117,平均出勤率为0.55;D类学生共24人,平均成绩为123,平均出勤率为0.46,求得所有学生的平均成绩为115,平均出勤率为0.52,根据平均成绩和平均出勤率,将四类学生进一步归类,其中,A类学生学习行为习惯不好,同时成绩也不好,B类学生学习行为习惯好,但成绩不好,C类学生学习行为习惯好,成绩也较好,D类学生学习行为习惯不好,但是成绩很好。
本发明可与计算机系统结合,自动完成对学生学习行为的分析。
本发明创造性的提出了根据学生在校多种考勤数据,使用K-means聚类算法对学生的学习行为进行分析,其中,创造性的提出了针对不同考勤类型的多权重自适应加权算法,有效的提高了分析的效果;本发明提出的学生行为分析方法适用于高校学生学习行为习惯的分析,具体的可以将学生分为学习成绩好并且学习习惯也好、学习成绩不好但学习习惯好、学习成绩好但学习习惯不好和学习成绩不好并且学习习惯也不好四类,针对具有不同的学习行为习惯和成绩的学生,高校实施不同的教育管理办法,有效地提高了教学效果。

Claims (4)

1.一种基于K-means聚类多权重自适应的学生学习行为分析方法,其特征在于,利用学生平时早操、课堂、晚自习、晚宿舍考勤出勤数据,结合空间向量模型、多权重自适应加权方法,先对学生的考勤数据进行预处理与特征加权;使用分层聚类的方法确定聚类中心的个数并初始化聚类中心;进而利用K-means聚类算法对学生进行聚类,结合学生成绩信息分析每个类别的学生具有不同的学习行为,其中,包括:学生聚类与归类流程步骤A和多权重生成算法步骤B;具体包括以下步骤:
学生聚类与归类流程步骤A,从步骤A1至步骤A25:
步骤A1、设学生人数为M,考勤数据的维度为N,建立考勤数据集Records={Stu1,Stu2,…,StuM},Records的元素Stum={s1,s2,...,sN}表示学生m的考勤数据,s1,s2,…,sN为Stum的七个维度,其中,m∈[1,M];
步骤A2、执行步骤B1至B17;
步骤A3、设聚类中心个数为K;定义1:带权重考勤数据集Wrecords={Stu1*weih,Stu2*weih,…,StuM*weih},其中,weih∈W,h∈[1,L];定义2:学生聚类组数据集Urecord={U1,U2,...,UK},U1,U2,...,UK分别表示K个学生聚类组,每个聚类组中的学生具有相似的学习行为,令uxy表示x聚类组内的y用户,U1={u11,u12,…,u1r},U2={u21,u22,…,u2w},…,UK={uK1,uK2,…,uKv},其中,x∈[1,K],y∈[1,M],r+w+v=M;定义3:评估值数据集VALUE={(wei1,v1),(wei2,v2),…,(weiL,vL)},其中,(weiz,vz)表示权重子集weiz对应的评估值vz,z∈[1,L];定义4:聚类中心数据集Center={cen1,cen2,…,cenK}表示K个聚类中心的数据集;
步骤A4、定义循环变量t,并赋初值t=1;
步骤A5、如果t<=L,则执行步骤A6,否则执行步骤A11;
步骤A6、使用weit对数据集Records添加权重得到带权重考勤数据集Wrecords={Stu1*weit,Stu2*weit,…,StuM*weit},其中Stup*weiq={sp1*wq1,sp2*wq2,…,spN*wqN},sp1,sp2,…,spN分别表示Stup的N个维度,wq1,wq2,…,wqN分别表示weiq的N个维度,p∈[1,M],q∈[1,L];
步骤A7、使用层次聚类算法确定K值;
步骤A8、使用K-means算法对数据集Wrecords进行聚类,得到步骤A3中的学生聚类组数据集Urecord={U1,U2,...,UK}和聚类中心数据集Center={cen1,cen2,…,cenK};
步骤A9、定义GetCenter(Stui)表示先根据Stui和Urecord得到Stui所属聚类组的编号,再结合Center获取Stui对应的聚类中心,使用平方误差和对步骤A8中的Urecord进行评估,并将(weit,vt)添加到步骤A3中的评估值数据集VALUE中,其中,i∈[1,M];
步骤A10、t=t+1,执行步骤A5;
步骤A11、定义Min(VALUE)表示步骤A3中的VALUE数据集中评估值的最小值,根据Min(VALUE)得到对应的权重weij,其中,j∈[1,L];使用权重weij对Record加权得到数据集FWrecord={FStu1,FStu2,…,FStuM},使用K-means算法对FWrecord进行聚类,得到聚类组数据集FUrecord={F1,F2,…,FK},其中,F1,F2,…,FK分别表示K个学生聚类组;
步骤A12、加载学生成绩数据集Grade={g1,g2,…,gM},求出M个学生的平均成绩为E;分别计算数据集FUrecord中的每个聚类组中所有学生的平均成绩得到数据集FGrade={ag1,ag2,…,agK};
步骤A13、定义M个学生的平均出勤率为V,分别计算数据集FUrecord中每个聚类组中的所有学生的平均成绩得到数据集FHabit={ah1,ah2,…,ahK};
步骤A14、定义学生聚类组数据集StuCollectionA={Ea1,Ea2,...,Ean1},StuCollectionB={Eb1,Eb2,...,Ebn2},StuCollectionC={Ec1,Ec2,...,Ecn3},StuCollectionD={Ed1,Ed2,...,Edn4},其中,Ea,Eb,Ec,Ed为学生聚类组,且n1+n2+n3+n4=M;设循环变量n,并赋初值n=1;
步骤A15、如果n<=K则执行步骤A16,否则执行步骤A25;
步骤A16、如果ahn<V且agn<E则执行步骤A17,否则执行步骤A18;
步骤A17、将聚类组Fn添加到StuCollectionD数据集,执行步骤A24;
步骤A18、如果ahn<V且agn>=E则执行步骤A19,否则执行步骤A20;
步骤A19、将聚类组Fn添加到StuCollectionC数据集,执行步骤A24;
步骤A20、如果ahn>=V且agn<E则执行步骤A21,否则执行步骤A22;
步骤A21、将聚类组Fn添加到StuCollectionB数据集,执行步骤A24;
步骤A22、如果ahn>=V且agn>=E则执行步骤A23,否则执行步骤A24;
步骤A23、将聚类组Fn添加到StuCollectionA数据集,执行步骤A24;
步骤A24、n=n+1,执行步骤A15;
步骤A25、得到四类学生聚类组数据集StuCollectionA、StuCollectionB、StuCollectionC、StuCollectionD,其中,StuCollectionA表示A类学生的数据集,StuCollectionB表示B类学生的数据集,StuCollectionC表示C类学生的数据集,StuCollectionD表示D类学生的数据集;
多权重生成算法步骤B,从步骤B1至步骤B18:
步骤B1、定义浮点型循环变量a,b,c,d,e,f,g;权重最大阈值为P,权重最小阈值为S,步长为Q,并初始化a=S,b=S,c=S,d=S,e=S,f=S,g=S;权重数据集元素的个数为L,权重数据集W={wei1,wei2,…,weiL},其中,wei1,wei2,…,weiL为权重数据集W的L个权重子集;
步骤B2、如果a<=P则执行步骤B3,否则执行步骤B18;
步骤B3、如果b<=P则执行步骤B4,否则执行步骤B17;
步骤B4、如果c<=P则执行步骤B5,否则执行步骤B16;
步骤B5、如果d<=P则执行步骤B6,否则执行步骤B15;
步骤B6、如果e<=P则执行步骤B7,否则执行步骤B14;
步骤B7、如果f<=P则执行步骤B8,否则执行步骤B13;
步骤B8、如果g<=P则执行步骤B9,否则执行步骤B12;
步骤B9、如果a+b+c+d+e+f+g=1则执行步骤B10,否则执行步骤B11;
步骤B10、将{a,b,c,d,e,f,g}添加到权重数据集W中,执行步骤B8;
步骤B11、g=g+Q,执行步骤B8;
步骤B12、f=f+Q,执行步骤B7;
步骤B13、e=e+Q,执行步骤B6;
步骤B14、d=d+Q,执行步骤B5;
步骤B15、c=c+Q,执行步骤B4;
步骤B16、b=b+Q,执行步骤B3;
步骤B17、a=a+Q,执行步骤B2;
步骤B18、得到生成的权重数据集W={{wa1,wb1,wc1,wd1,we1,wf1,wg1},{wa2,wb2,wc2,wd2,we2,wf2,wg2},...,{waL,wbL,wcL,wdL,weL,wfL,wgL}},即W={wei1,wei2,…,weiL}。
2.一种基于K-means聚类多权重自适应的学生学习行为分析方法,其特征在于:定义N为每个学生考勤数据的维度,每个学生的考勤数据由早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率七个维度构成,步骤A1和步骤A6中的考勤数据维度N取值为7。
3.一种基于K-means聚类多权重自适应的学生学习行为分析方法,其特征在于:步骤A1至A28用于学生聚类与归类,首先计算每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率并作为学生的七个维度,然后对考勤数据添加由步骤B生成的权重并使用K-means算法对所有的学生进行聚类,得到不同的聚类组,然后求出每个聚类组中所有学生的平均成绩和平均出勤率,再求出M个学生的平均成绩和平均出勤率,根据每个聚类组的平均成绩、平均出勤率和M个学生的平均成绩、平均出勤率对现有的聚类组进一步归类,最后得到四个类别的学生:学习行为习惯好且成绩也好的学生、学习行为习惯好但成绩不好的学生、学习行为习惯不好但成绩较好的学生、学习行为习惯不好且成绩也不好的学生;步骤B1至B18用于权重数据集的生成,首先定义权重的最大阈值为P、最小阈值为S、步长为Q,然后使用7层循环生成每个权重子集并将生成的权重子集添加到权重数据集W中。
4.一种基于K-means聚类多权重自适应的学生学习行为分析方法,其特征在于:定义权重的最大阈值为P,权重的最小阈值为S,步长为Q,阈值P、阈值S和步长Q用于权重集的生成,步骤B1至B8中的P取值为0.3,步骤B1中的S取值为0.05,步骤B1、步骤B11至B17中的Q取值为0.05。
CN201610222553.0A 2016-04-12 2016-04-12 一种基于K-means聚类多权重自适应的学生学习行为分析方法 Pending CN105913353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610222553.0A CN105913353A (zh) 2016-04-12 2016-04-12 一种基于K-means聚类多权重自适应的学生学习行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610222553.0A CN105913353A (zh) 2016-04-12 2016-04-12 一种基于K-means聚类多权重自适应的学生学习行为分析方法

Publications (1)

Publication Number Publication Date
CN105913353A true CN105913353A (zh) 2016-08-31

Family

ID=56745054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610222553.0A Pending CN105913353A (zh) 2016-04-12 2016-04-12 一种基于K-means聚类多权重自适应的学生学习行为分析方法

Country Status (1)

Country Link
CN (1) CN105913353A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234434A (zh) * 2016-12-22 2018-06-29 上海行邑信息科技有限公司 一种基于email地址识别的侦测方法
CN108235295A (zh) * 2018-01-26 2018-06-29 南华大学 一种学生在校信息采集和分类系统及方法
CN108256102A (zh) * 2018-02-01 2018-07-06 厦门大学嘉庚学院 一种基于聚类的独立学院学生评教数据分析方法
CN108335242A (zh) * 2017-12-20 2018-07-27 卓智网络科技有限公司 学生区分方法和装置
CN112668750A (zh) * 2020-11-25 2021-04-16 紫光云技术有限公司 一种基于行为时序权重的分布式FP-Growth成绩预警模型

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234434A (zh) * 2016-12-22 2018-06-29 上海行邑信息科技有限公司 一种基于email地址识别的侦测方法
CN108234434B (zh) * 2016-12-22 2020-12-29 上海行邑信息科技有限公司 一种基于email地址识别的侦测方法
CN108335242A (zh) * 2017-12-20 2018-07-27 卓智网络科技有限公司 学生区分方法和装置
CN108235295A (zh) * 2018-01-26 2018-06-29 南华大学 一种学生在校信息采集和分类系统及方法
CN108256102A (zh) * 2018-02-01 2018-07-06 厦门大学嘉庚学院 一种基于聚类的独立学院学生评教数据分析方法
CN108256102B (zh) * 2018-02-01 2022-02-11 厦门大学嘉庚学院 一种基于聚类的独立学院学生评教数据分析方法
CN112668750A (zh) * 2020-11-25 2021-04-16 紫光云技术有限公司 一种基于行为时序权重的分布式FP-Growth成绩预警模型
CN112668750B (zh) * 2020-11-25 2023-07-07 紫光云技术有限公司 一种基于行为时序权重的分布式FP-Growth成绩预警模型

Similar Documents

Publication Publication Date Title
Sun et al. A particle swarm optimization-based flexible convolutional autoencoder for image classification
Anuradha et al. A comparative analysis on the evaluation of classification algorithms in the prediction of students performance
CN105913353A (zh) 一种基于K-means聚类多权重自适应的学生学习行为分析方法
Xiao et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction
Hong et al. Discovering learning behavior patterns to predict dropout in MOOC
CN113065974B (zh) 一种基于动态网络表示学习的链路预测方法
CN104484682A (zh) 一种基于主动深度学习的遥感图像分类方法
Wang et al. The trend-fuzzy-granulation-based adaptive fuzzy cognitive map for long-term time series forecasting
Zhang et al. Multiview unsupervised shapelet learning for multivariate time series clustering
CN110489661A (zh) 一种基于生成对抗网络和迁移学习的社交关系预测方法
Loganathan et al. Development of machine learning based framework for classification and prediction of students in virtual classroom environment
Zhang et al. Transfer learning from unlabeled data via neural networks
Jembere et al. Matrix factorisation for predicting student performance
CN110070070B (zh) 一种动作识别方法
Mu et al. AD-link: An adaptive approach for user identity linkage
BH et al. Data mining in higher education system and the quality of faculty affecting students academic performance: a systematic review
Ou-Yang et al. An Integrated mining approach to discover business process models with parallel structures: towards fitness improvement
JP7218633B2 (ja) 情報処理装置及びプログラム
Murugananthan et al. Educational data mining life cycle model for student mental healthcare and education in Malaysia and India
Kumari et al. A study of AdaBoost and bagging approaches on student dataset
Barik et al. Enhancing Educational Data Mining based ICT Competency among e-Learning Tutors using Statistical Classifier
Thenmozhi et al. Developed Modified Particle Swarm Optimization For Feature Selection On Learning Based Big Data In Cloud Computing
Topolski et al. Modification of the Principal Component Analysis Method Based on Feature Rotation by Class Centroids.
Shekhar et al. Integrating decision trees with metaheuristic search optimization algorithm for a student’s performance prediction
Djioua et al. Deterministic and evolutionary extraction of delta-lognormal parameters: performance comparison

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160831

WD01 Invention patent application deemed withdrawn after publication