CN105913353A

CN105913353A - 一种基于K-means聚类多权重自适应的学生学习行为分析方法

Info

Publication number: CN105913353A
Application number: CN201610222553.0A
Authority: CN
Inventors: 朱全银; 沈恩强; 钱亚平; 周泓; 魏然; 唐洁方; 肖绍章; 唐娥; 严云洋; 李翔; 胡荣林; 王留洋; 王斌
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2016-04-12
Filing date: 2016-04-12
Publication date: 2016-08-31

Abstract

本发明公开了一种基于K‑means聚类多权重自适应的学生学习行为分析方法，本发明利用学生平时早操、课堂、晚自习、晚宿舍考勤出勤数据，采用一种多权重自适应的加权算法对学生进行K‑means聚类，将具有不同学习行为的学生聚为一类，并结合学生的平均成绩分析不同的学习行为与学习成绩之间的关系；本发明提出的学生行为分析方法可应用于高校学生学习行为习惯的分析，针对不同学习行为的学生，实施不同的管理办法。

Description

一种基于K-means聚类多权重自适应的学生学习行为分析方法

技术领域

本发明属于数据分析的行为分析领域，特别涉及一种基于K-means聚类多权重自适应的学生学习行为分析方法，可应用于高校学生行为分析决策支持系统。

背景技术

在大数据时代，数据分析在许多领域发挥了巨大的作用。行为分析是数据分析的一个方面，而行为分析又可以分为网站用户行为分析、消费行为分析等，针对高校大学生的行为分析有大学生体育锻炼行为分析、大学生饮食行为习惯分析、大学生消费行为与习惯分析等。而学习行为是高校大学生主要的行为习惯之一。进行学生的学习行为分析对提高学生成绩，提高教学质量，为校管理者提供决策支持有关键作用。对学生行为分析主要分为数据获取、数据处理、模型建立三个方面。其中数据预处理用到技术主要包括：数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据分析之前使用，大大提高了数据分析模式的质量，降低实际分析所需要的时间。数据分析模型建立的方法比较广泛，如最小二乘回归、神经网络、时间序列、K-means聚类、Apriori算法等。

2010 年至 2015 年，朱全银等给出了商品销售数据抽取与数据挖掘的方法（Quanyin Zhu, Yunyang Yan, Jin Ding and Jin Qian. The Case Study for PriceExtracting of Mobile Phone Sell Online. IEEE 2nd International Conference onSoftware Engineering and Service Science, Beijing, Chian, July.2011, pp. 281-295;Quanyin Zhu, Yunyang Yan, Jin Ding and Yu Zhang. The Commodities PriceExtracting for Shop Online, 2010 International Conference on FutureInformation Technology and Management Engineering，Changzhou,Jiangsu,Chian,Dec.2010, Vol.2,pp.317-320;）该方法能同样运用于本方法中的教务网课表信息数据挖掘；朱全银等给出的《一种校园个性化掌上服务及用户行为习惯分析的实现方法》（中国专利公开号：CN 104731971A, 公开时间2015-06-24）中的用户行为习惯分析方法是基于多种考勤客户端的用户操作日志及学生出勤率进行的用户行为习惯分析方法，不同于本发明提出的一种基于K-means聚类多权重自适应的学生学习行为分析方法，本发明对学生的出勤信息进行细化为早操正常出勤率、早操非正常出勤率、课堂正常出勤率、课堂非正常出勤率、晚自习正常出勤率、晚自习非正常出勤率、晚宿舍考勤出勤率七个维度并作为聚类分析的输入层。

K-means聚类：

聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。K-means 算法接受参数 K ；然后将事先输入的n个数据对象划分为 K个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。K-means算法的基本思想是：以空间中K个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

PCA降维:

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

发明内容

本发明的目的是根据在校大学生的早操、课堂、晚自习、晚宿舍考勤数据对学生进行聚类，得到具有不同学习行为的学生分组，研究学生学习行为和成绩之间的关系，从而为学校的学生管理员提供决策支持。

本发明的技术方案是：利用学生平时早操、课堂、晚自习、晚宿舍考勤出勤数据，结合空间向量模型、多权重自适应加权方法，先对学生的考勤数据进行预处理与特征加权；使用分层聚类的方法确定聚类中心的个数并初始化聚类中心；进而利用K-means聚类算法对学生进行聚类，结合学生成绩信息分析每个类别的学生具有不同的学习行为，其中，包括：学生聚类与归类流程步骤A和多权重生成算法步骤B；具体包括以下步骤：

学生聚类与归类流程步骤A，从步骤A1至步骤A25：

步骤A1、设学生人数为M，考勤数据的维度为N，建立考勤数据集Records={Stu₁,Stu₂,…,Stu_M}，Records的元素Stu_m={s₁,s₂,...,s_N}表示学生m的考勤数据，s₁,s₂,…,s_N为Stu_m的七个维度，其中，m∈[1,M]；

步骤A2、执行步骤B1至B17；

步骤A3、设聚类中心个数为K；定义1：带权重考勤数据集Wrecords={Stu₁*wei_h,Stu₂*wei_h,…,Stu_M*wei_h}，其中，wei_h∈W，h∈[1,L]；定义2：学生聚类组数据集Urecord={U₁,U₂,...,U_K}，U₁,U₂,...,U_K分别表示K个学生聚类组，每个聚类组中的学生具有相似的学习行为，令u_xy表示x聚类组内的y用户，U₁={u₁₁,u₁₂,…,u_1r},U₂={u₂₁,u₂₂,…,u_2w}，…，U_K={u_K1,u_K2,…,u_Kv}，其中，x∈[1,K]，y∈[1,M]，r+w+v=M；定义3：评估值数据集VALUE={(wei₁,v₁),(wei₂,v₂),…,(wei_L,v_L)}，其中，(wei_z,v_z)表示权重子集wei_z对应的评估值v_z，z∈[1,L]；定义4：聚类中心数据集Center={cen₁,cen₂,…,cen_K}表示K个聚类中心的数据集；

步骤A4、定义循环变量t，并赋初值t=1；

步骤A5、如果t<=L，则执行步骤A6，否则执行步骤A11；

步骤A6、使用wei_t对数据集Records添加权重得到带权重考勤数据集Wrecords={Stu₁*wei_t,Stu₂*wei_t,…,Stu_M*wei_t}，其中Stu_p*wei_q={s_p1*w_q1,s_p2*w_q2,…,s_pN*w_qN}，s_p1,s_p2,…,s_pN分别表示Stu_p的N个维度，w_q1,w_q2,…,w_qN分别表示wei_q的N个维度，p∈[1,M]，q∈[1,L]；

步骤A7、使用层次聚类算法确定K值；

步骤A8、使用K-means算法对数据集Wrecords进行聚类，得到步骤A3中的学生聚类组数据集Urecord={U₁,U₂,...,U_K}和聚类中心数据集Center={cen₁,cen₂,…,cen_K}；

步骤A9、定义GetCenter(Stu_i)表示先根据Stu_i和Urecord得到Stu_i所属聚类组的编号，再结合Center获取Stu_i对应的聚类中心，使用平方误差和对步骤A8中的Urecord进行评估，并将(wei_t,v_t)添加到步骤A3中的评估值数据集VALUE中，其中，i∈[1,M]；

步骤A10、t=t+1，执行步骤A5；

步骤A11、定义Min(VALUE)表示步骤A3中的VALUE数据集中评估值的最小值，根据Min(VALUE)得到对应的权重wei_j，其中，j∈[1,L]；使用权重wei_j对Record加权得到数据集FWrecord={FStu₁,FStu₂,…,FStu_M}，使用K-means算法对FWrecord进行聚类，得到聚类组数据集FUrecord={F₁,F₂,…,F_K}，其中，F₁,F₂,…,F_K分别表示K个学生聚类组；

步骤A12、加载学生成绩数据集Grade={g₁,g₂,…,g_M}，求出M个学生的平均成绩为E；分别计算数据集FUrecord中的每个聚类组中所有学生的平均成绩得到数据集FGrade={ag₁,ag₂,…,ag_K}；

步骤A13、定义M个学生的平均出勤率为V，分别计算数据集FUrecord中每个聚类组中的所有学生的平均成绩得到数据集FHabit={ah₁,ah₂,…,ah_K}；

步骤A14、定义学生聚类组数据集StuCollectionA={Ea₁,Ea₂,...,Ea_n1}，StuCollectionB={Eb₁,Eb₂,...,Eb_n2}，StuCollectionC={Ec₁,Ec₂,...,Ec_n3}，StuCollectionD={Ed₁,Ed₂,...,Ed_n4}，其中，Ea,Eb,Ec,Ed为学生聚类组，且n1+n2+n3+n4=M；设循环变量n，并赋初值n=1；

步骤A15、如果n<=K则执行步骤A16，否则执行步骤A25；

步骤A16、如果ah_n<V且ag_n<E则执行步骤A17，否则执行步骤A18；

步骤A17、将聚类组F_n添加到StuCollectionD数据集，执行步骤A24；

步骤A18、如果ah_n<V且ag_n>=E则执行步骤A19，否则执行步骤A20；

步骤A19、将聚类组F_n添加到StuCollectionC数据集，执行步骤A24；

步骤A20、如果ah_n>=V且ag_n<E则执行步骤A21，否则执行步骤A22；

步骤A21、将聚类组F_n添加到StuCollectionB数据集，执行步骤A24；

步骤A22、如果ah_n>=V且ag_n>=E则执行步骤A23，否则执行步骤A24；

步骤A23、将聚类组F_n添加到StuCollectionA数据集，执行步骤A24；

步骤A24、n=n+1，执行步骤A15；

步骤A25、得到四类学生聚类组数据集StuCollectionA、StuCollectionB、StuCollectionC、StuCollectionD，其中，StuCollectionA表示A类学生的数据集，StuCollectionB表示B类学生的数据集，StuCollectionC表示C类学生的数据集，StuCollectionD表示D类学生的数据集；

多权重生成算法步骤B，从步骤B1至步骤B18：

步骤B1、定义浮点型循环变量a,b,c,d,e,f,g；权重最大阈值为P，权重最小阈值为S，步长为Q，并初始化a=S,b=S,c=S,d=S,e=S,f=S,g=S；权重数据集元素的个数为L，权重数据集W={wei₁,wei₂,…,wei_L}，其中，wei₁,wei₂,…,wei_L为权重数据集W的L个权重子集；

步骤B2、如果a<=P则执行步骤B3，否则执行步骤B18；

步骤B3、如果b<=P则执行步骤B4，否则执行步骤B17；

步骤B4、如果c<=P则执行步骤B5，否则执行步骤B16；

步骤B5、如果d<=P则执行步骤B6，否则执行步骤B15；

步骤B6、如果e<=P则执行步骤B7，否则执行步骤B14；

步骤B7、如果f<=P则执行步骤B8，否则执行步骤B13；

步骤B8、如果g<=P则执行步骤B9，否则执行步骤B12；

步骤B9、如果a+b+c+d+e+f+g=1则执行步骤B10，否则执行步骤B11；

步骤B10、将{a,b,c,d,e,f,g}添加到权重数据集W中，执行步骤B8；

步骤B11、g=g+Q，执行步骤B8；

步骤B12、f=f+Q，执行步骤B7；

步骤B13、e=e+Q，执行步骤B6；

步骤B14、d=d+Q，执行步骤B5；

步骤B15、c=c+Q，执行步骤B4；

步骤B16、b=b+Q，执行步骤B3；

步骤B17、a=a+Q，执行步骤B2；

步骤B18、得到生成的权重数据集W={{wa₁,wb₁,wc₁,wd₁,we₁,wf₁,wg₁},{wa₂,wb₂,wc₂,wd₂,we₂,wf₂,wg₂},...,{wa_L,wb_L,wc_L,wd_L,we_L,wf_L,wg_L}}，即W={wei₁,wei₂,…,wei_L}。

定义N为每个学生考勤数据的维度，每个学生的考勤数据由早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率七个维度构成，步骤A1和步骤A6中的考勤数据维度N取值为7。

步骤A1至A28用于学生聚类与归类，首先计算每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率并作为学生的七个维度，然后对考勤数据添加由步骤B生成的权重并使用K-means算法对所有的学生进行聚类，得到不同的聚类组，然后求出每个聚类组中所有学生的平均成绩和平均出勤率，再求出M个学生的平均成绩和平均出勤率，根据每个聚类组的平均成绩、平均出勤率和M个学生的平均成绩、平均出勤率对现有的聚类组进一步归类，最后得到四个类别的学生：学习行为习惯好且成绩也好的学生、学习行为习惯好但成绩不好的学生、学习行为习惯不好但成绩较好的学生、学习行为习惯不好且成绩也不好的学生；步骤B1至B18用于权重数据集的生成，首先定义权重的最大阈值为P、最小阈值为S、步长为Q，然后使用7层循环生成每个权重子集并将生成的权重子集添加到权重数据集W中。

定义权重的最大阈值为P，权重的最小阈值为S，步长为Q，阈值P、阈值S和步长Q用于权重集的生成，步骤B1至B8中的P取值为0.3，步骤B1中的S取值为0.05，步骤B1、步骤B11至B17中的Q取值为0.05。

本发明创造性的提出了根据学生的早操、课堂、晚自习、晚宿舍考勤数据，使用K-means聚类算法对学生进行聚类，得到具有不同学习行为的学生聚类组，然后再根据每个聚类组中学生的平均成绩进一步对聚类后的学生聚类组进行分类，最终得出四类具有不同学习行为的学生数据集；其中创造性的提出了针对不同考勤类型的多权重自适应加权算法，利用计算机高效计算的特点，自动找出每个数据维度的最佳权重，显著地提高了聚类的效果；本发明可应用于高校学生教学管理，针对不同学习行为的学生，实施不同的管理办法。

附图说明

附图1为本发明学生聚类与归类流程图。

附图2为多权重生成算法流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如附图1所示，学生聚类与归类流程步骤A，从步骤A1至步骤A25：

步骤A2、执行步骤B1至B17；

步骤A4、定义循环变量t，并赋初值t=1；

步骤A5、如果t<=L，则执行步骤A6，否则执行步骤A11；

步骤A7、使用层次聚类算法确定K值；

步骤A10、t=t+1，执行步骤A5；

步骤A15、如果n<=K则执行步骤A16，否则执行步骤A25；

步骤A16、如果ah_n<V且ag_n<E则执行步骤A17，否则执行步骤A18；

步骤A18、如果ah_n<V且ag_n>=E则执行步骤A19，否则执行步骤A20；

步骤A20、如果ah_n>=V且ag_n<E则执行步骤A21，否则执行步骤A22；

步骤A24、n=n+1，执行步骤A15；

如附图2所示，多权重生成步骤B，从步骤B1至步骤B18：

步骤B2、如果a<=P则执行步骤B3，否则执行步骤B18；

步骤B3、如果b<=P则执行步骤B4，否则执行步骤B17；

步骤B4、如果c<=P则执行步骤B5，否则执行步骤B16；

步骤B5、如果d<=P则执行步骤B6，否则执行步骤B15；

步骤B6、如果e<=P则执行步骤B7，否则执行步骤B14；

步骤B7、如果f<=P则执行步骤B8，否则执行步骤B13；

步骤B8、如果g<=P则执行步骤B9，否则执行步骤B12；

步骤B9、如果a+b+c+d+e+f+g=1则执行步骤B10，否则执行步骤B11；

步骤B10、将{a,b,c,d,e,f,g}添加到权重数据集W中，执行步骤B8；

步骤B11、g=g+Q，执行步骤B8；

步骤B12、f=f+Q，执行步骤B7；

步骤B13、e=e+Q，执行步骤B6；

步骤B14、d=d+Q，执行步骤B5；

步骤B15、c=c+Q，执行步骤B4；

步骤B16、b=b+Q，执行步骤B3；

步骤B17、a=a+Q，执行步骤B2；

定义权重的最大阈值为P，权重的最小阈值为S，步长为Q，阈值P、阈值S和步长Q用于权重集的生成，当步骤B1至B8中的P取值为0.3，步骤B1中的S取值为0.05，步骤B1、步骤B11至B17中的Q取值为0.05时，得到的步骤B1中权重数据集的子集个数L值为12217。

为了更好的说明本方法的有效性，利用学校考勤系统收集到的学生考勤数据，选取一个年级410名学生作为应用对象，选取每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率、晚宿舍考勤出勤率作为每个学生的7个维度，其中，非正常出勤率是指未带校园卡、病假、事假等特殊情况；使用上述方法的步骤，423名学生被分成四个类，其中，A类学生共7人，平均成绩为107，平均出勤率为0.40；B类学生共267人，平均成绩为113，平均出勤率为0.67；C类学生共112人，平均成绩为117，平均出勤率为0.55；D类学生共24人，平均成绩为123，平均出勤率为0.46，求得所有学生的平均成绩为115，平均出勤率为0.52，根据平均成绩和平均出勤率，将四类学生进一步归类，其中，A类学生学习行为习惯不好，同时成绩也不好，B类学生学习行为习惯好，但成绩不好，C类学生学习行为习惯好，成绩也较好，D类学生学习行为习惯不好，但是成绩很好。

本发明可与计算机系统结合，自动完成对学生学习行为的分析。

本发明创造性的提出了根据学生在校多种考勤数据，使用K-means聚类算法对学生的学习行为进行分析，其中，创造性的提出了针对不同考勤类型的多权重自适应加权算法，有效的提高了分析的效果；本发明提出的学生行为分析方法适用于高校学生学习行为习惯的分析，具体的可以将学生分为学习成绩好并且学习习惯也好、学习成绩不好但学习习惯好、学习成绩好但学习习惯不好和学习成绩不好并且学习习惯也不好四类，针对具有不同的学习行为习惯和成绩的学生，高校实施不同的教育管理办法，有效地提高了教学效果。

Claims

1.一种基于K-means聚类多权重自适应的学生学习行为分析方法，其特征在于，利用学生平时早操、课堂、晚自习、晚宿舍考勤出勤数据，结合空间向量模型、多权重自适应加权方法，先对学生的考勤数据进行预处理与特征加权；使用分层聚类的方法确定聚类中心的个数并初始化聚类中心；进而利用K-means聚类算法对学生进行聚类，结合学生成绩信息分析每个类别的学生具有不同的学习行为，其中，包括：学生聚类与归类流程步骤A和多权重生成算法步骤B；具体包括以下步骤：

学生聚类与归类流程步骤A，从步骤A1至步骤A25：

步骤A2、执行步骤B1至B17；

步骤A4、定义循环变量t，并赋初值t=1；

步骤A5、如果t<=L，则执行步骤A6，否则执行步骤A11；

步骤A7、使用层次聚类算法确定K值；

步骤A10、t=t+1，执行步骤A5；

步骤A15、如果n<=K则执行步骤A16，否则执行步骤A25；

步骤A16、如果ah_n<V且ag_n<E则执行步骤A17，否则执行步骤A18；

步骤A18、如果ah_n<V且ag_n>=E则执行步骤A19，否则执行步骤A20；

步骤A20、如果ah_n>=V且ag_n<E则执行步骤A21，否则执行步骤A22；

步骤A24、n=n+1，执行步骤A15；

多权重生成算法步骤B，从步骤B1至步骤B18：

步骤B2、如果a<=P则执行步骤B3，否则执行步骤B18；

步骤B3、如果b<=P则执行步骤B4，否则执行步骤B17；

步骤B4、如果c<=P则执行步骤B5，否则执行步骤B16；

步骤B5、如果d<=P则执行步骤B6，否则执行步骤B15；

步骤B6、如果e<=P则执行步骤B7，否则执行步骤B14；

步骤B7、如果f<=P则执行步骤B8，否则执行步骤B13；

步骤B8、如果g<=P则执行步骤B9，否则执行步骤B12；

步骤B9、如果a+b+c+d+e+f+g=1则执行步骤B10，否则执行步骤B11；

步骤B10、将{a,b,c,d,e,f,g}添加到权重数据集W中，执行步骤B8；

步骤B11、g=g+Q，执行步骤B8；

步骤B12、f=f+Q，执行步骤B7；

步骤B13、e=e+Q，执行步骤B6；

步骤B14、d=d+Q，执行步骤B5；

步骤B15、c=c+Q，执行步骤B4；

步骤B16、b=b+Q，执行步骤B3；

步骤B17、a=a+Q，执行步骤B2；

2.一种基于K-means聚类多权重自适应的学生学习行为分析方法，其特征在于：定义N为每个学生考勤数据的维度，每个学生的考勤数据由早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率七个维度构成，步骤A1和步骤A6中的考勤数据维度N取值为7。

3.一种基于K-means聚类多权重自适应的学生学习行为分析方法，其特征在于：步骤A1至A28用于学生聚类与归类，首先计算每个学生的早操出勤率、早操非正常出勤率、课堂出勤率、课堂非正常出勤率、晚自习出勤率、晚自习非正常出勤率和晚宿舍考勤出勤率并作为学生的七个维度，然后对考勤数据添加由步骤B生成的权重并使用K-means算法对所有的学生进行聚类，得到不同的聚类组，然后求出每个聚类组中所有学生的平均成绩和平均出勤率，再求出M个学生的平均成绩和平均出勤率，根据每个聚类组的平均成绩、平均出勤率和M个学生的平均成绩、平均出勤率对现有的聚类组进一步归类，最后得到四个类别的学生：学习行为习惯好且成绩也好的学生、学习行为习惯好但成绩不好的学生、学习行为习惯不好但成绩较好的学生、学习行为习惯不好且成绩也不好的学生；步骤B1至B18用于权重数据集的生成，首先定义权重的最大阈值为P、最小阈值为S、步长为Q，然后使用7层循环生成每个权重子集并将生成的权重子集添加到权重数据集W中。

4.一种基于K-means聚类多权重自适应的学生学习行为分析方法，其特征在于：定义权重的最大阈值为P，权重的最小阈值为S，步长为Q，阈值P、阈值S和步长Q用于权重集的生成，步骤B1至B8中的P取值为0.3，步骤B1中的S取值为0.05，步骤B1、步骤B11至B17中的Q取值为0.05。