CN108256102A

CN108256102A - 一种基于聚类的独立学院学生评教数据分析方法

Info

Publication number: CN108256102A
Application number: CN201810102590.7A
Authority: CN
Inventors: 辜萍萍
Original assignee: Xiamen University Tan Kah Kee College
Current assignee: Xiamen University Tan Kah Kee College
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-07-06
Anticipated expiration: 2038-02-01
Also published as: CN108256102B

Abstract

本发明公开了一种基于聚类的独立学院学生评教数据分析方法，包括步骤：1）教学评价结果数据的预处理，将数据统一化为文本属性，得到评教数据表；2）采用模糊K‑Modes算法对评教数据表的数据进行分析，得到数据分析的结果。本发明利用聚类分析方法从获得的评教结果数据出发，结合学生的属性特征、课程的属性特征进行大数据分析，发现数据集之中蕴藏的规律，即评教结果是否受主观因素的影响，哪些主观因素又将各自如何影响着最终结果；辅助决策，进一步加强教学管理和提高教学水平，也可以调整优化评价机制使其更加合理化。

Description

一种基于聚类的独立学院学生评教数据分析方法

技术领域

本发明涉及大数据技术领域，具体涉及一种基于聚类的独立学院学生评教数据分析方法。

背景技术

目前，国内外大学普遍运用一些教学质量评价手段来监督教师的教学效果，从而建设教学质量的监督保障体系。其中，学生作为主体进行评教成为主流形式，该方法能够及时发现并解决教学工作中存在的各种问题，在改进教师教学、增强学生的主动性、提高教学质量方面起到了积极作用。评教过后，学校的管理层根据评教分数的高低对教师进行奖惩以促进良性竞争。

然而，教学评价本身就是一种认识过程，而人在认识过程中受到人心理活动的各种特点制约，因而造成人在认识事物过程中的误差。在学生个体与课程本身均存在差异的情况下，评教结果是否能真实地反映教师教学水平，在业界一直都存在着争议。尤其是独立学院的学生，其学习能力与学习态度需要在督促引导下进一步提高，在这种情况下实施学生评教，评教过程中难免存在敷衍了事流于形式的情况，评教结果往往有失公正公平，因此，更应该对评教数据做进一步的挖掘分析，根据学生特点(包括专业、年级、性别、学习成绩等)、课程属性(包括全校性公选课、专业必修课、专业选修课等)以及评教分数等数据进行聚类，发现该校学生评教的规律，对学校管理层客观对待评教结果提供决策支持。在申请号为201520357875.7的实用新型专利中提出了一种基于云教育服务平台的学生评教系统，该系统改进了传统的发放纸质调查问卷的评教形式，而是通过网络搜集大量的学生评教数据并自动统计出每位教师对应课程的评教分数，而后简单地对这些分数进行报表，却没有对数据源头与结果做深度分析，这就造成数据的浪费和误用。在申请号为201611234631.5的发明专利中摒弃单独使用学生评教的数据源对教学效果进行评价，而是同时考虑学生成绩数据及教学督导评价数据，通过对上述三类数据进行机器学习建立神经网络教学评价模型，挖掘出决定教学质量的核心因素。但是该模型的应用必须满足两个前提条件：其一，学生评教的数据源必须来自于认真诚恳的评教过程，评教分数必须是公正客观的；其二，教学督导必须对每门课提供有代表性的评价数据。然而，学生的从众心理与督导资源的不足都将造成数据源的歪曲与缺失。其实，大量的学生评教数据中隐藏的价值应该被进一步挖掘和利用，否则就会造成信息浪费。数据挖掘正是通过对数据的特征及关联进行算法分析从而达到发现数据现象背后的规律的方法。目前，将数据分析方法应用于评教问题的研究正如火如荼地展开。例如，上海立信会计学院金融学院的黄波在文献“黄波.学生评教的影响因素研究——基于排序Logit/Probit回归的实证分析[J].高等财经教育研究,2014,(4):1-8.”中综合运用描述性统计、相关性分析、逐步回归和排序Logit/Probit回归分析方法，研究了课堂和教师特征对评教结果的影响，算法中选取教师基本信息、教师每学期工作量、学生评教总分、课程成绩分布等变量发现学生成绩因素与评教分的正相关关系以及任课教师的教龄和博士学位分别与评教分正相关和负相关关系。该课题主要针对财经专业的学生评教数据进行分析，因此没有考虑学生专业不同的情况，也忽略了学生年级、性别等个性化差异对评教分数的影响。但是，学生特性是影响评教结果非常重要的因素之一。在该文献中还单方面地总结出专业课较公共课评教分数高，数学与物理等理科课程的评教分数偏低。但是，不同的学生对待不同的课程态度是迥异的，例如，大二大三的学生对待专业课比公选课较为严肃认真，但是大四的学生就未必。因此应该综合各因素一并分析更为全面。现有方法的不足之处是：

1、大多数评教系统只是利用网络收集了大量的学生评教问卷，再根据固定的公式量化结果。学校管理层根据最终分数的排序决定对教师的奖惩，根本没有考虑学生打分的公正合理性，既违背了评教的初衷又削减了教师积极性。

2、在综合考虑教师因素、学生因素、课程因素对评教分数影响的研究中，只侧重考虑教师的个体差异与课程的属性特点，并没有通过现有的评教数据挖掘出学生因素及课程因素与评教分数之间隐藏的规律。

发明内容

针对现有技术的不足，本发明提出一种基于聚类的独立学院学生评教数据分析方法，以解决数据浪费与误用的问题，采用改进的聚类分析方法对评教中的学生性别、年级、学生专业、学生成绩、课程属性、评教分数等因素进行数据集聚类，从聚类模式中挖掘出具有代表性的规律，即评教分数的高低是否受到当前学生群体差异与课程差异的影响，有何影响，为学校更加合理看待及利用评教结果督促教学提供决策支持。

为实现上述目的，本发明的技术方案是：一种基于聚类的独立学院学生评教数据分析方法，包括以下步骤：

(1)教学评价结果数据的预处理，将数据统一化为文本属性，得到评教数据表；

(2)采用模糊K-Modes算法对评教数据表的数据进行分析，得到数据分析的结果。

进一步地，所述步骤(1)具体包括：

获取教学评价结果数据，每一个样本包括学生属性数据、课程属性数据和课程评教成绩数据；

学生属性数据的预处理：

所述学生属性数据包括专业类型、年级、性别、出勤率和课程期末成绩，其中专业类型、年级、性别的属性取值为文本型数据，

出勤率y＝出勤课时/学期总课时,当{y|y≥0.9}属性赋值为高，当{y|0.9＞y≥0.8}属性赋值为中，当{y|0.8＞y≥0.7}属性赋值为低，当{y|y＜0.7}取消评教资格；

课程期末成绩按照分数进行降序排序，再根据所排名次划分成5个区间{[0，10％]，[11％，20％]，[21％，30％]，[31％，40％]，[41％，100％]}，对应得到属性赋值分别为{优，良，中，合格，不合格}；

课程属性数据的预处理：

课程属性数据包括课程类型，具体包括专业必修课、专业选修课、全校性公选课和基本技能课；

课程评教成绩数据的预处理：

将每一个课程评教成绩按照分数进行降序排序，再根据所排名次划分成5个区间{[0，10％]，[11％，20％]，[21％，30％]，[31％，40％]，[41％，100％]}，对应得到属性赋值分别为{优，良，中，合格，不合格}。

进一步地，所述步骤(2)具体包括：

步骤S1：设置循环参数高限，并设初始值为0，设置聚类数K的初始值为1；

步骤S2：从评教数据表中任意选取K条记录作为初始聚类中心；

步骤S3：计算每一个数据样本对各个聚类中心的隶属度，隶属度最大的表示该样本已找到对应的类；

步骤S4：计算轮廓系数S，

其中，n表示样本总数，假设样本i被聚到c类，个体轮廓系数

a(i)表示样本i和同属于c类的其他所有样本之间的平均距离，b(i)表示样本i和非c类的各个类中所有样本的平均距离的最小值；

步骤S5：对循环参数递增加1，重复步骤S2至S4，重新寻找k类聚类中心后再聚类，再计算轮廓系数；

步骤S6：达到循环参数高限，每次循环中计算的轮廓系数越接近1，说明当前选取的初始聚类中心是最佳的，淘汰其他的循环中所得到的聚类中心，转到步骤S7；

步骤S7：更新每个类的聚类中心，重新找出数据集中更能代表聚类中心的数据记录，即聚类中心的每一个数据列取值为该类所有样本中该数据列出现频率最高的那项值；

步骤S8：重新计算各个数据样本对新聚类中心的隶属度；

步骤S9：如果隶属度有变化，根据每个样本的最大隶属度重新归类，回到步骤S7；如果隶属度没有变化，那么k类的聚类已经完成，计算距离评价函数F(X,K)的值；

其中，x_i为第c类中任一对象，z_i为第c类聚类中心；

步骤S10：如果K值递增加1，回到步骤S2进行下一轮的聚类流程；如果聚类流程停止，比较每一轮聚类计算得出的F(X,K)的值，找到最小的值对应的那轮聚类为最佳的聚类结果，得到数据分析的结果。

与现有技术相比，本发明具有有益效果：

(1)本发明的聚类分析模型建立在学生的各项基本属性与评教结果的数据集中，通过聚类算法对数据集进行分类标识，进而识别每一个子类中的聚类中心，这些中心代表着每一条评教规律；

(2)本发明可发现不同的学生群体对于评教结果的影响，这些潜藏在数据中的知识可以辅助决策，进一步加强教学管理和提高教学水平，也可以调整优化评价机制使其更加合理化。

附图说明

图1是本发明一实施例中评教系统架构图；

图2是本发明一实施例中聚类分析模型关联图；

图3是本发明一实施例中改进的模糊K-Modes算法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示的评教系统架构，首先在过程1、2中由评教系统客户端采集学生的基本信息、出勤率、课程期末成绩以及评教问卷数据，再将所有数据存储于服务器端的评教数据库中备用，如所述的过程3所示。当技术人员在客户端触发评教数据的聚类分析模型，评教系统的服务器端将评教数据发送给聚类客户端进行算法分析，如所述的过程4、5所示。最后，分析结论将存储于专用数据库也可以打印成报表供教学管理人员查看以辅助决策。

聚类分析模型必须从网络评教系统获得所要分析的数据。首先必须进行的是学生评教过程，学生在系统中填写并提交评教问卷，针对每一个教师——课程对象提供一份问卷，当评教过程结束，学生评教系统的后台数据库就存取了评价结果数据，将这些数据导出并导入分析模型进行聚类，最后在模型中展示聚类结果并将结果数据存入数据库中。图2展示了外部实体与分析模型的关联关系。

在本实施例中，为每门课程每位学生分配一张评教问卷，问卷包含10道单项选择题，每道题的分值范围为1分至10分，由学生自主填写选取对应分值，系统自动筛选出完整作答的有效问卷再进行评教成绩计算。在填写问卷之前要求每位学生利用学号账户登录系统，分别输入专业类型、年级、性别，与此同时，任课教师输入学生的课程期末成绩与出勤率数据，评教系统将根据学号一一匹配来自学生端、教师端与评教问卷的信息。

每一位学生通过评教系统提交的每一份针对教师——课程的评教问卷都是一个数据样本，从该样本中提炼出三类属性数据，分别是：学生属性数据、课程属性数据、教师——课程评教成绩数据。这些属性数据中既包含文本型数据又包含数值型数据，例如，学生的专业类型、年级、性别及课程类型都是文本型数据，而出勤率、课程成绩与评教成绩又是数值型数据，因此为了提高聚类的执行效率，实验中对数据进行标准化处理，即统一化为文本属性。三类数据的预处理方式如下：

A.学生属性数据

学生属性数据包含专业类型、年级、性别、出勤率、课程期末成绩，具体属性取值范围如表1所示。

表1

属性	属性取值范围
		专业类型	理工类、文史类、经济类、艺术类、体育类
年级	大一、大二、大三、大四
		性别	男、女
出勤率	高、中、低
		课程期末成绩	优、良、中、合格、不合格

其中，出勤率(y)＝出勤课时/学期总课时，根据该公式计算结果隶属的范围分别划分为三个子类，对应关系分别是当{y|y≥0.9}赋值为“高”，当{y|0.9＞y≥0.8}赋值为中，当{y|0.8＞y≥0.7}，当{y|y＜0.7}根据惯有制度已取消评教资格；课程期末成绩按照分数进行降序排序，再根据所排名次划分成5个区间{[0，10％]，[11％，20％]，[21％，30％]，[31％，40％]，[41％，100％]}，对应得到文本赋值分别为{优，良，中，合格，不合格}，这种5等级的划分方法类似于五分制统计法，可行易用。

B.课程属性数据

国内的大学课程体系丰富多样，但对于综合性大学而言，普遍将课程类型设置为四大类，如表2内容所示。因此，课程类型可以根据实际情况简单赋值。

表2

C.教师——课程评教成绩数据

在大学中，每一位教师一般任教若干门课程，也存在同一门课程的同一个课程班由多位教师讲授，因此，课程班里每一位学生针对每一个教师——课程对象提交一份教学评价问卷，从而产生一个总分数据。该总分数据的属性预处理如表3所示。

表3

属性	属性取值范围
		评教成绩评教成绩	优、良、中、合格、不合格

评教成绩也是数值型数据，如同学生的课程成绩一样，可以文本化处理。将每一个总分按照分数进行降序排序，再根据所排名次划分成5个区间{[0，10％]，[11％，20％]，[21％，30％]，[31％，40％]，[41％，100％]}，对应得到文本赋值分别为{优，良，中，合格，不合格}。

在数据存储方面，采用关系型数据库可处理的二维表格格式。表格中每一行记录对应一个样本数据，即每一份问卷中采集出数据为一个样本数据，每一列对应一种属性，若样本数量是n，属性种类的数量是m，则表格的规模也是(n m)，如表4所示。在该研究模型中，总共包含的属性有学生专业类型、年级、性别、课程类型、出勤率、课程成绩、评教成绩，因此m取值7。

表4

x₁₁	x₁₂	……	x_1m
				x₂₁	x₂₂	……	x_2m
……	……	……	……
				x_n1	x_n2	……	x_nm

在本实施例中，经过上述预处理后得到的评教数据表如表5所示。

表5

专业类型

年级

性别

课程类型

课程期末成绩

出勤率

评教成绩

理工类

大一

女

基本技能课

良

高

良

文史类

大二

男

专业必修课

合格

高

优

……

学生评教数据的最大特点是，样本的每一个属性经过标准化后均是文本型数据，即是离散型数值而非连续型数值，在本发明中采用模糊K-Modes算法实现聚类，模糊K-Modes算法交替更新聚类中心和隶属度矩阵，直到代价函数值不再变化。这里，Z_l＝[z_l1,z_l2,...,z_lm]是能够代表聚类l的向量,即聚类中心，是隶属度矩阵W_l×n的一个元素，它表示对象X_i划分到聚类l中的隶属度，d是差异测度(距离)，α＞1是加权指数。划分矩阵的更新公式为：

经典的模糊K-Modes算法过程一般如下：

(a)初始选择k个评教数据样本作为聚类中心。

(b)根据k个中心的值，计算每个变量对于各个类的隶属度，即首次分类，计算公式如公式(1)所示。其中的距离公式如公式(2)所示。

(c)重新更新各类的中心，原则是：每个新的中心，其各属性的取值决定于在该属性上具有各种取值的所有数据样本对应的权值总和，总和最大的对应的那个属性值当选。如此，也意味着目标函数最小化当且仅当其中，对于

(d)重新计算各个变量对于各新中心的隶属度，如果发现对于某个中心的隶属度有变化，就更新隶属度，然后再次根据新的隶属度更新各中心。

(e)重复步骤(d)，直到没有需要更新的隶属度和中心，意味着聚类完成，所得聚类中心已足以代表聚类模式，此时，每一个聚类模式仍然是评教数据样本的属性集合，包含着学生专业类型、年级、性别、课程类型、课程期末成绩、出勤率、评教成绩这7种属性，属性值正是反映评教数据的规律，例如，一个评教数据集通过聚类之后得到若干个分类，其中一个聚类模式的属性取值分别为：专业类型(“理工科”)、年级(“大四”)、性别(“男”)、课程类型(所有，包含“专业必修课”、“专业选修课”等)、课程期末成绩(“合格”)、出勤率(“低”)、“高”。如果高年级学生在出勤率低且课程成绩刚刚合格的情况下对其所有课程打出了较高的评教分，就说明这个群体的学生评教时受主观情绪影响较明显，那么教学管理者就要反思面对该群体是否适合推行当前的评教制度，将这部分学生提交的评教问卷参与全体的统计排名是否客观公正。

在本实施例中，如图3所示，采用模糊K-Modes算法对评教数据表的数据进行分析的具体过程包括：

步骤S1：设置循环参数高限为10次，并设初始值为0，设置聚类数K的初始值为1；

步骤S3：计算每一个数据样本对各个聚类中心的隶属度，隶属度最大的表示该样本已找到对应的类；在本实施例中，第一轮聚类数为1，该步骤结束时，评教数据表划分为1类，其中的每一条数据记录都隶属到一个类中；

步骤S4：计算轮廓系数S，

其中，n表示样本总数，假设样本i被聚到c类，个体轮廓系数

步骤S6：达到循环参数高限10次后，每次循环中计算的轮廓系数越接近1，说明当前选取的初始聚类中心是最佳的，淘汰其他的循环中所得到的聚类中心，转到步骤S7；

步骤S8：重新计算各个数据样本对新聚类中心的隶属度；

其中，x_i为第c类中任一对象，z_i为第c类聚类中心；

在本实施例中，样本数为200，即评教数据表中包含200条记录，因此只要k值≤15，当上一轮聚类已完成，就可以将k值递增1，开始进行下一轮的聚类流程。本实施例中通过15轮聚类，最适合的聚类结果是聚为6类，每一类的聚类中心如表6所示。聚类中心是每个类中最有代表性的数据记录，因此也称为一个数据集的模式。教学管理人员通过这些聚类模式可以发现学生评教打分的规律，如果担心这些规律只是巧合，管理人员可以对学生群体进行访问调查，也可以对相关任课教师进行专家听课加以判断。

表6

专业类型

年级

性别

课程类型

课程期末成绩

出勤率

评教成绩

1、

理工类

大四

男

专业选修课

合格

中

优

2、

文史类

大一

女

基本技能课

优

高

合格

3、

理工类

大一

男

专业必修课

良

中

合格

4、

艺术类

大二

男

专业必修课

良

中

优

5、

经济类

大四

女

专业必修课

良

高

优

6、

理工类

大二

男

专业必修课

中

良

教学质量关乎一所学校的发展定位，国内的高等院校都采取各种手段加强教学管理以提升教学品质。目前，大多数学校通过网络系统收集学生的评教数据，再利用评教结果对教师采取相关的奖惩措施。但是，评教结果是否能够真实反映教师的教学水平决定于学生是否具备足够的教学评价能力以及真诚的评价态度。尤其在独立学院与一众二本院校，学生的素质参差不齐、心智不完全成熟容易受他人影响，如此就较难提供客观评教数据，评教结果势必受到主观因素影响。然而，掌握了大量评教数据的教学单位并没有对这些数据进行深度分析挖掘，造成数据的浪费及误用。在现阶段，已经有学者提出利用数据挖掘领域的方法对评教过程进行监管，试图发现影响评教质量核心因素，但是并没有把焦点放在数据来源的学生群体身上。因此，本发明利用聚类分析方法从获得的评教结果数据出发，结合学生的属性特征、课程的属性特征进行大数据分析，试图发现数据集之中蕴藏的规律，即评教结果是否受主观因素的影响，哪些主观因素又将各自如何影响着最终结果；当这些规律展示出来之后，教学管理层必将调整思路考虑以下几个问题：(1)如何对评教结果进行分类排名更加合理；(2)如何设置评教总分计算公式更加准确；(3)如何完善网络评教系统的设计可以更加吸引学生认真参与评教。

本发明是针对评教制度不健全或评教主体尚未具备完全评教能力的情况下提出的一种深度分析评教数据的方法，方法中利用改进的聚类分析算法对学生评教数据进行规律挖掘，通过网络评教系统获得学生基本属性数据、课程属性数据以及评教问卷成绩数据，将这些数据整合成数据表并进行标准化，聚类结果可以提供给学校的教务管理人员参考辅助决策，以便改进评教制度，更好地实现评教初衷。只有真正反映教学效果的评教才能为反哺教学为其提供决策参考。教师面对公正的评教体系才会信服。

以上所述的具体实施例，对本发明的目的、技术方案和成果进行了详尽说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聚类的独立学院学生评教数据分析方法，其特征在于，包括以下步骤：

（1）教学评价结果数据的预处理，将数据统一化为文本属性，得到评教数据表；

（2）采用模糊K-Modes算法对评教数据表的数据进行分析，得到数据分析的结果。

2.根据权利要求1所述的独立学院学生评教数据分析方法，其特征在于，所述步骤（1）具体包括：

学生属性数据的预处理：

出勤率y=出勤课时/学期总课时，当｛y| y≥0.9｝，属性赋值为高，当｛y| 0.9＞y≥0.8｝，属性赋值为中，当｛y| 0.8＞y≥0.7｝，属性赋值为低，当｛y| y＜0.7｝，取消评教资格；

课程期末成绩按照分数进行降序排序，再根据所排名次划分成5个区间：{[0，10%]，[11%，20%]，[21%，30%]，[31%，40%]，[41%，100%]}，对应得到属性赋值分别为{优，良，中，合格，不合格}；

课程属性数据的预处理：

课程评教成绩数据的预处理：

将每一个课程评教成绩按照分数进行降序排序，再根据所排名次划分成5个区间：{[0，10%]，[11%，20%]，[21%，30%]，[31%，40%]，[41%，100%]}，对应得到属性赋值分别为{优，良，中，合格，不合格}。

3.根据权利要求1所述的独立学院学生评教数据分析方法，其特征在于，所述步骤（2）具体包括：

步骤S4：计算轮廓系数S，

其中，n表示样本总数，假设样本i被聚到c类，个体轮廓系数

，

a(i)表示样本ｉ和同属于ｃ类的其他所有样本之间的平均距离，b(i)表示样本ｉ和非ｃ类的各个类中所有样本的平均距离的最小值；

步骤S8：重新计算各个数据样本对新聚类中心的隶属度；

其中， x _i为第c类中任一对象，z _i为第c类聚类中心；

步骤S10：如果K≤，K值递增加1，回到步骤S2进行下一轮的聚类流程；如果K＞，聚类流程停止，比较每一轮聚类计算得出的F(X,K)的值，找到最小的值对应的那轮聚类为最佳的聚类结果，得到数据分析的结果。