CN108256102A - 一种基于聚类的独立学院学生评教数据分析方法 - Google Patents
一种基于聚类的独立学院学生评教数据分析方法 Download PDFInfo
- Publication number
- CN108256102A CN108256102A CN201810102590.7A CN201810102590A CN108256102A CN 108256102 A CN108256102 A CN 108256102A CN 201810102590 A CN201810102590 A CN 201810102590A CN 108256102 A CN108256102 A CN 108256102A
- Authority
- CN
- China
- Prior art keywords
- data
- religion
- cluster
- attribute
- course
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000007405 data analysis Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000012797 qualification Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 239000002699 waste material Substances 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 239000000686 essence Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Educational Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于聚类的独立学院学生评教数据分析方法,包括步骤:1)教学评价结果数据的预处理,将数据统一化为文本属性,得到评教数据表;2)采用模糊K‑Modes算法对评教数据表的数据进行分析,得到数据分析的结果。本发明利用聚类分析方法从获得的评教结果数据出发,结合学生的属性特征、课程的属性特征进行大数据分析,发现数据集之中蕴藏的规律,即评教结果是否受主观因素的影响,哪些主观因素又将各自如何影响着最终结果;辅助决策,进一步加强教学管理和提高教学水平,也可以调整优化评价机制使其更加合理化。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种基于聚类的独立学院学生评教数据分析方法。
背景技术
目前,国内外大学普遍运用一些教学质量评价手段来监督教师的教学效果,从而建设教学质量的监督保障体系。其中,学生作为主体进行评教成为主流形式,该方法能够及时发现并解决教学工作中存在的各种问题,在改进教师教学、增强学生的主动性、提高教学质量方面起到了积极作用。评教过后,学校的管理层根据评教分数的高低对教师进行奖惩以促进良性竞争。
然而,教学评价本身就是一种认识过程,而人在认识过程中受到人心理活动的各种特点制约,因而造成人在认识事物过程中的误差。在学生个体与课程本身均存在差异的情况下,评教结果是否能真实地反映教师教学水平,在业界一直都存在着争议。尤其是独立学院的学生,其学习能力与学习态度需要在督促引导下进一步提高,在这种情况下实施学生评教,评教过程中难免存在敷衍了事流于形式的情况,评教结果往往有失公正公平,因此,更应该对评教数据做进一步的挖掘分析,根据学生特点(包括专业、年级、性别、学习成绩等)、课程属性(包括全校性公选课、专业必修课、专业选修课等)以及评教分数等数据进行聚类,发现该校学生评教的规律,对学校管理层客观对待评教结果提供决策支持。在申请号为201520357875.7的实用新型专利中提出了一种基于云教育服务平台的学生评教系统,该系统改进了传统的发放纸质调查问卷的评教形式,而是通过网络搜集大量的学生评教数据并自动统计出每位教师对应课程的评教分数,而后简单地对这些分数进行报表,却没有对数据源头与结果做深度分析,这就造成数据的浪费和误用。在申请号为201611234631.5的发明专利中摒弃单独使用学生评教的数据源对教学效果进行评价,而是同时考虑学生成绩数据及教学督导评价数据,通过对上述三类数据进行机器学习建立神经网络教学评价模型,挖掘出决定教学质量的核心因素。但是该模型的应用必须满足两个前提条件:其一,学生评教的数据源必须来自于认真诚恳的评教过程,评教分数必须是公正客观的;其二,教学督导必须对每门课提供有代表性的评价数据。然而,学生的从众心理与督导资源的不足都将造成数据源的歪曲与缺失。其实,大量的学生评教数据中隐藏的价值应该被进一步挖掘和利用,否则就会造成信息浪费。数据挖掘正是通过对数据的特征及关联进行算法分析从而达到发现数据现象背后的规律的方法。目前,将数据分析方法应用于评教问题的研究正如火如荼地展开。例如,上海立信会计学院金融学院的黄波在文献“黄波.学生评教的影响因素研究——基于排序Logit/Probit回归的实证分析[J].高等财经教育研究,2014,(4):1-8.”中综合运用描述性统计、相关性分析、逐步回归和排序Logit/Probit回归分析方法,研究了课堂和教师特征对评教结果的影响,算法中选取教师基本信息、教师每学期工作量、学生评教总分、课程成绩分布等变量发现学生成绩因素与评教分的正相关关系以及任课教师的教龄和博士学位分别与评教分正相关和负相关关系。该课题主要针对财经专业的学生评教数据进行分析,因此没有考虑学生专业不同的情况,也忽略了学生年级、性别等个性化差异对评教分数的影响。但是,学生特性是影响评教结果非常重要的因素之一。在该文献中还单方面地总结出专业课较公共课评教分数高,数学与物理等理科课程的评教分数偏低。但是,不同的学生对待不同的课程态度是迥异的,例如,大二大三的学生对待专业课比公选课较为严肃认真,但是大四的学生就未必。因此应该综合各因素一并分析更为全面。现有方法的不足之处是:
1、大多数评教系统只是利用网络收集了大量的学生评教问卷,再根据固定的公式量化结果。学校管理层根据最终分数的排序决定对教师的奖惩,根本没有考虑学生打分的公正合理性,既违背了评教的初衷又削减了教师积极性。
2、在综合考虑教师因素、学生因素、课程因素对评教分数影响的研究中,只侧重考虑教师的个体差异与课程的属性特点,并没有通过现有的评教数据挖掘出学生因素及课程因素与评教分数之间隐藏的规律。
发明内容
针对现有技术的不足,本发明提出一种基于聚类的独立学院学生评教数据分析方法,以解决数据浪费与误用的问题,采用改进的聚类分析方法对评教中的学生性别、年级、学生专业、学生成绩、课程属性、评教分数等因素进行数据集聚类,从聚类模式中挖掘出具有代表性的规律,即评教分数的高低是否受到当前学生群体差异与课程差异的影响,有何影响,为学校更加合理看待及利用评教结果督促教学提供决策支持。
为实现上述目的,本发明的技术方案是:一种基于聚类的独立学院学生评教数据分析方法,包括以下步骤:
(1)教学评价结果数据的预处理,将数据统一化为文本属性,得到评教数据表;
(2)采用模糊K-Modes算法对评教数据表的数据进行分析,得到数据分析的结果。
进一步地,所述步骤(1)具体包括:
获取教学评价结果数据,每一个样本包括学生属性数据、课程属性数据和课程评教成绩数据;
学生属性数据的预处理:
所述学生属性数据包括专业类型、年级、性别、出勤率和课程期末成绩,其中专业类型、年级、性别的属性取值为文本型数据,
出勤率y=出勤课时/学期总课时,当{y|y≥0.9}属性赋值为高,当{y|0.9>y≥0.8}属性赋值为中,当{y|0.8>y≥0.7}属性赋值为低,当{y|y<0.7}取消评教资格;
课程期末成绩按照分数进行降序排序,再根据所排名次划分成5个区间{[0,10%],[11%,20%],[21%,30%],[31%,40%],[41%,100%]},对应得到属性赋值分别为{优,良,中,合格,不合格};
课程属性数据的预处理:
课程属性数据包括课程类型,具体包括专业必修课、专业选修课、全校性公选课和基本技能课;
课程评教成绩数据的预处理:
将每一个课程评教成绩按照分数进行降序排序,再根据所排名次划分成5个区间{[0,10%],[11%,20%],[21%,30%],[31%,40%],[41%,100%]},对应得到属性赋值分别为{优,良,中,合格,不合格}。
进一步地,所述步骤(2)具体包括:
步骤S1:设置循环参数高限,并设初始值为0,设置聚类数K的初始值为1;
步骤S2:从评教数据表中任意选取K条记录作为初始聚类中心;
步骤S3:计算每一个数据样本对各个聚类中心的隶属度,隶属度最大的表示该样本已找到对应的类;
步骤S4:计算轮廓系数S,
其中,n表示样本总数,假设样本i被聚到c类,个体轮廓系数
a(i)表示样本i和同属于c类的其他所有样本之间的平均距离,b(i)表示样本i和非c类的各个类中所有样本的平均距离的最小值;
步骤S5:对循环参数递增加1,重复步骤S2至S4,重新寻找k类聚类中心后再聚类,再计算轮廓系数;
步骤S6:达到循环参数高限,每次循环中计算的轮廓系数越接近1,说明当前选取的初始聚类中心是最佳的,淘汰其他的循环中所得到的聚类中心,转到步骤S7;
步骤S7:更新每个类的聚类中心,重新找出数据集中更能代表聚类中心的数据记录,即聚类中心的每一个数据列取值为该类所有样本中该数据列出现频率最高的那项值;
步骤S8:重新计算各个数据样本对新聚类中心的隶属度;
步骤S9:如果隶属度有变化,根据每个样本的最大隶属度重新归类,回到步骤S7;如果隶属度没有变化,那么k类的聚类已经完成,计算距离评价函数F(X,K)的值;
其中,xi为第c类中任一对象,zi为第c类聚类中心;
步骤S10:如果K值递增加1,回到步骤S2进行下一轮的聚类流程;如果聚类流程停止,比较每一轮聚类计算得出的F(X,K)的值,找到最小的值对应的那轮聚类为最佳的聚类结果,得到数据分析的结果。
与现有技术相比,本发明具有有益效果:
(1)本发明的聚类分析模型建立在学生的各项基本属性与评教结果的数据集中,通过聚类算法对数据集进行分类标识,进而识别每一个子类中的聚类中心,这些中心代表着每一条评教规律;
(2)本发明可发现不同的学生群体对于评教结果的影响,这些潜藏在数据中的知识可以辅助决策,进一步加强教学管理和提高教学水平,也可以调整优化评价机制使其更加合理化。
附图说明
图1是本发明一实施例中评教系统架构图;
图2是本发明一实施例中聚类分析模型关联图;
图3是本发明一实施例中改进的模糊K-Modes算法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示的评教系统架构,首先在过程1、2中由评教系统客户端采集学生的基本信息、出勤率、课程期末成绩以及评教问卷数据,再将所有数据存储于服务器端的评教数据库中备用,如所述的过程3所示。当技术人员在客户端触发评教数据的聚类分析模型,评教系统的服务器端将评教数据发送给聚类客户端进行算法分析,如所述的过程4、5所示。最后,分析结论将存储于专用数据库也可以打印成报表供教学管理人员查看以辅助决策。
聚类分析模型必须从网络评教系统获得所要分析的数据。首先必须进行的是学生评教过程,学生在系统中填写并提交评教问卷,针对每一个教师——课程对象提供一份问卷,当评教过程结束,学生评教系统的后台数据库就存取了评价结果数据,将这些数据导出并导入分析模型进行聚类,最后在模型中展示聚类结果并将结果数据存入数据库中。图2展示了外部实体与分析模型的关联关系。
在本实施例中,为每门课程每位学生分配一张评教问卷,问卷包含10道单项选择题,每道题的分值范围为1分至10分,由学生自主填写选取对应分值,系统自动筛选出完整作答的有效问卷再进行评教成绩计算。在填写问卷之前要求每位学生利用学号账户登录系统,分别输入专业类型、年级、性别,与此同时,任课教师输入学生的课程期末成绩与出勤率数据,评教系统将根据学号一一匹配来自学生端、教师端与评教问卷的信息。
每一位学生通过评教系统提交的每一份针对教师——课程的评教问卷都是一个数据样本,从该样本中提炼出三类属性数据,分别是:学生属性数据、课程属性数据、教师——课程评教成绩数据。这些属性数据中既包含文本型数据又包含数值型数据,例如,学生的专业类型、年级、性别及课程类型都是文本型数据,而出勤率、课程成绩与评教成绩又是数值型数据,因此为了提高聚类的执行效率,实验中对数据进行标准化处理,即统一化为文本属性。三类数据的预处理方式如下:
A.学生属性数据
学生属性数据包含专业类型、年级、性别、出勤率、课程期末成绩,具体属性取值范围如表1所示。
表1
属性 | 属性取值范围 |
专业类型 | 理工类、文史类、经济类、艺术类、体育类 |
年级 | 大一、大二、大三、大四 |
性别 | 男、女 |
出勤率 | 高、中、低 |
课程期末成绩 | 优、良、中、合格、不合格 |
其中,出勤率(y)=出勤课时/学期总课时,根据该公式计算结果隶属的范围分别划分为三个子类,对应关系分别是当{y|y≥0.9}赋值为“高”,当{y|0.9>y≥0.8}赋值为中,当{y|0.8>y≥0.7},当{y|y<0.7}根据惯有制度已取消评教资格;课程期末成绩按照分数进行降序排序,再根据所排名次划分成5个区间{[0,10%],[11%,20%],[21%,30%],[31%,40%],[41%,100%]},对应得到文本赋值分别为{优,良,中,合格,不合格},这种5等级的划分方法类似于五分制统计法,可行易用。
B.课程属性数据
国内的大学课程体系丰富多样,但对于综合性大学而言,普遍将课程类型设置为四大类,如表2内容所示。因此,课程类型可以根据实际情况简单赋值。
表2
C.教师——课程评教成绩数据
在大学中,每一位教师一般任教若干门课程,也存在同一门课程的同一个课程班由多位教师讲授,因此,课程班里每一位学生针对每一个教师——课程对象提交一份教学评价问卷,从而产生一个总分数据。该总分数据的属性预处理如表3所示。
表3
属性 | 属性取值范围 |
评教成绩评教成绩 | 优、良、中、合格、不合格 |
评教成绩也是数值型数据,如同学生的课程成绩一样,可以文本化处理。将每一个总分按照分数进行降序排序,再根据所排名次划分成5个区间{[0,10%],[11%,20%],[21%,30%],[31%,40%],[41%,100%]},对应得到文本赋值分别为{优,良,中,合格,不合格}。
在数据存储方面,采用关系型数据库可处理的二维表格格式。表格中每一行记录对应一个样本数据,即每一份问卷中采集出数据为一个样本数据,每一列对应一种属性,若样本数量是n,属性种类的数量是m,则表格的规模也是(n m),如表4所示。在该研究模型中,总共包含的属性有学生专业类型、年级、性别、课程类型、出勤率、课程成绩、评教成绩,因此m取值7。
表4
x11 | x12 | …… | x1m |
x21 | x22 | …… | x2m |
…… | …… | …… | …… |
xn1 | xn2 | …… | xnm |
在本实施例中,经过上述预处理后得到的评教数据表如表5所示。
表5
专业类型 | 年级 | 性别 | 课程类型 | 课程期末成绩 | 出勤率 | 评教成绩 |
理工类 | 大一 | 女 | 基本技能课 | 良 | 高 | 良 |
文史类 | 大二 | 男 | 专业必修课 | 合格 | 高 | 优 |
…… | …… | …… | …… | …… | …… | …… |
学生评教数据的最大特点是,样本的每一个属性经过标准化后均是文本型数据,即是离散型数值而非连续型数值,在本发明中采用模糊K-Modes算法实现聚类,模糊K-Modes算法交替更新聚类中心和隶属度矩阵,直到代价函数值不再变化。这里,Zl=[zl1,zl2,...,zlm]是能够代表聚类l的向量,即聚类中心,是隶属度矩阵Wl×n的一个元素,它表示对象Xi划分到聚类l中的隶属度,d是差异测度(距离),α>1是加权指数。划分矩阵的更新公式为:
经典的模糊K-Modes算法过程一般如下:
(a)初始选择k个评教数据样本作为聚类中心。
(b)根据k个中心的值,计算每个变量对于各个类的隶属度,即首次分类,计算公式如公式(1)所示。其中的距离公式如公式(2)所示。
(c)重新更新各类的中心,原则是:每个新的中心,其各属性的取值决定于在该属性上具有各种取值的所有数据样本对应的权值总和,总和最大的对应的那个属性值当选。如此,也意味着目标函数最小化当且仅当其中,对于
(d)重新计算各个变量对于各新中心的隶属度,如果发现对于某个中心的隶属度有变化,就更新隶属度,然后再次根据新的隶属度更新各中心。
(e)重复步骤(d),直到没有需要更新的隶属度和中心,意味着聚类完成,所得聚类中心已足以代表聚类模式,此时,每一个聚类模式仍然是评教数据样本的属性集合,包含着学生专业类型、年级、性别、课程类型、课程期末成绩、出勤率、评教成绩这7种属性,属性值正是反映评教数据的规律,例如,一个评教数据集通过聚类之后得到若干个分类,其中一个聚类模式的属性取值分别为:专业类型(“理工科”)、年级(“大四”)、性别(“男”)、课程类型(所有,包含“专业必修课”、“专业选修课”等)、课程期末成绩(“合格”)、出勤率(“低”)、“高”。如果高年级学生在出勤率低且课程成绩刚刚合格的情况下对其所有课程打出了较高的评教分,就说明这个群体的学生评教时受主观情绪影响较明显,那么教学管理者就要反思面对该群体是否适合推行当前的评教制度,将这部分学生提交的评教问卷参与全体的统计排名是否客观公正。
在本实施例中,如图3所示,采用模糊K-Modes算法对评教数据表的数据进行分析的具体过程包括:
步骤S1:设置循环参数高限为10次,并设初始值为0,设置聚类数K的初始值为1;
步骤S2:从评教数据表中任意选取K条记录作为初始聚类中心;
步骤S3:计算每一个数据样本对各个聚类中心的隶属度,隶属度最大的表示该样本已找到对应的类;在本实施例中,第一轮聚类数为1,该步骤结束时,评教数据表划分为1类,其中的每一条数据记录都隶属到一个类中;
步骤S4:计算轮廓系数S,
其中,n表示样本总数,假设样本i被聚到c类,个体轮廓系数
a(i)表示样本i和同属于c类的其他所有样本之间的平均距离,b(i)表示样本i和非c类的各个类中所有样本的平均距离的最小值;
步骤S5:对循环参数递增加1,重复步骤S2至S4,重新寻找k类聚类中心后再聚类,再计算轮廓系数;
步骤S6:达到循环参数高限10次后,每次循环中计算的轮廓系数越接近1,说明当前选取的初始聚类中心是最佳的,淘汰其他的循环中所得到的聚类中心,转到步骤S7;
步骤S7:更新每个类的聚类中心,重新找出数据集中更能代表聚类中心的数据记录,即聚类中心的每一个数据列取值为该类所有样本中该数据列出现频率最高的那项值;
步骤S8:重新计算各个数据样本对新聚类中心的隶属度;
步骤S9:如果隶属度有变化,根据每个样本的最大隶属度重新归类,回到步骤S7;如果隶属度没有变化,那么k类的聚类已经完成,计算距离评价函数F(X,K)的值;
其中,xi为第c类中任一对象,zi为第c类聚类中心;
步骤S10:如果K值递增加1,回到步骤S2进行下一轮的聚类流程;如果聚类流程停止,比较每一轮聚类计算得出的F(X,K)的值,找到最小的值对应的那轮聚类为最佳的聚类结果,得到数据分析的结果。
在本实施例中,样本数为200,即评教数据表中包含200条记录,因此只要k值≤15,当上一轮聚类已完成,就可以将k值递增1,开始进行下一轮的聚类流程。本实施例中通过15轮聚类,最适合的聚类结果是聚为6类,每一类的聚类中心如表6所示。聚类中心是每个类中最有代表性的数据记录,因此也称为一个数据集的模式。教学管理人员通过这些聚类模式可以发现学生评教打分的规律,如果担心这些规律只是巧合,管理人员可以对学生群体进行访问调查,也可以对相关任课教师进行专家听课加以判断。
表6
专业类型 | 年级 | 性别 | 课程类型 | 课程期末成绩 | 出勤率 | 评教成绩 | |
1、 | 理工类 | 大四 | 男 | 专业选修课 | 合格 | 中 | 优 |
2、 | 文史类 | 大一 | 女 | 基本技能课 | 优 | 高 | 合格 |
3、 | 理工类 | 大一 | 男 | 专业必修课 | 良 | 中 | 合格 |
4、 | 艺术类 | 大二 | 男 | 专业必修课 | 良 | 中 | 优 |
5、 | 经济类 | 大四 | 女 | 专业必修课 | 良 | 高 | 优 |
6、 | 理工类 | 大二 | 男 | 专业必修课 | 中 | 中 | 良 |
教学质量关乎一所学校的发展定位,国内的高等院校都采取各种手段加强教学管理以提升教学品质。目前,大多数学校通过网络系统收集学生的评教数据,再利用评教结果对教师采取相关的奖惩措施。但是,评教结果是否能够真实反映教师的教学水平决定于学生是否具备足够的教学评价能力以及真诚的评价态度。尤其在独立学院与一众二本院校,学生的素质参差不齐、心智不完全成熟容易受他人影响,如此就较难提供客观评教数据,评教结果势必受到主观因素影响。然而,掌握了大量评教数据的教学单位并没有对这些数据进行深度分析挖掘,造成数据的浪费及误用。在现阶段,已经有学者提出利用数据挖掘领域的方法对评教过程进行监管,试图发现影响评教质量核心因素,但是并没有把焦点放在数据来源的学生群体身上。因此,本发明利用聚类分析方法从获得的评教结果数据出发,结合学生的属性特征、课程的属性特征进行大数据分析,试图发现数据集之中蕴藏的规律,即评教结果是否受主观因素的影响,哪些主观因素又将各自如何影响着最终结果;当这些规律展示出来之后,教学管理层必将调整思路考虑以下几个问题:(1)如何对评教结果进行分类排名更加合理;(2)如何设置评教总分计算公式更加准确;(3)如何完善网络评教系统的设计可以更加吸引学生认真参与评教。
本发明是针对评教制度不健全或评教主体尚未具备完全评教能力的情况下提出的一种深度分析评教数据的方法,方法中利用改进的聚类分析算法对学生评教数据进行规律挖掘,通过网络评教系统获得学生基本属性数据、课程属性数据以及评教问卷成绩数据,将这些数据整合成数据表并进行标准化,聚类结果可以提供给学校的教务管理人员参考辅助决策,以便改进评教制度,更好地实现评教初衷。只有真正反映教学效果的评教才能为反哺教学为其提供决策参考。教师面对公正的评教体系才会信服。
以上所述的具体实施例,对本发明的目的、技术方案和成果进行了详尽说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于聚类的独立学院学生评教数据分析方法,其特征在于,包括以下步骤:
(1)教学评价结果数据的预处理,将数据统一化为文本属性,得到评教数据表;
(2)采用模糊K-Modes算法对评教数据表的数据进行分析,得到数据分析的结果。
2.根据权利要求1所述的独立学院学生评教数据分析方法,其特征在于,所述步骤(1)具体包括:
获取教学评价结果数据,每一个样本包括学生属性数据、课程属性数据和课程评教成绩数据;
学生属性数据的预处理:
所述学生属性数据包括专业类型、年级、性别、出勤率和课程期末成绩,其中专业类型、年级、性别的属性取值为文本型数据,
出勤率y=出勤课时/学期总课时,当{y| y≥0.9},属性赋值为高,当{y| 0.9>y≥0.8},属性赋值为中,当{y| 0.8>y≥0.7},属性赋值为低,当{y| y<0.7},取消评教资格;
课程期末成绩按照分数进行降序排序,再根据所排名次划分成5个区间:{[0,10%],[11%,20%],[21%,30%],[31%,40%],[41%,100%]},对应得到属性赋值分别为{优,良,中,合格,不合格};
课程属性数据的预处理:
课程属性数据包括课程类型,具体包括专业必修课、专业选修课、全校性公选课和基本技能课;
课程评教成绩数据的预处理:
将每一个课程评教成绩按照分数进行降序排序,再根据所排名次划分成5个区间:{[0,10%],[11%,20%],[21%,30%],[31%,40%],[41%,100%]},对应得到属性赋值分别为{优,良,中,合格,不合格}。
3.根据权利要求1所述的独立学院学生评教数据分析方法,其特征在于,所述步骤(2)具体包括:
步骤S1:设置循环参数高限,并设初始值为0,设置聚类数K的初始值为1;
步骤S2:从评教数据表中任意选取K条记录作为初始聚类中心;
步骤S3:计算每一个数据样本对各个聚类中心的隶属度,隶属度最大的表示该样本已找到对应的类;
步骤S4:计算轮廓系数S,
其中,n表示样本总数,假设样本i被聚到c类,个体轮廓系数
,
a(i)表示样本i和同属于c类的其他所有样本之间的平均距离,b(i)表示样本i和非c类的各个类中所有样本的平均距离的最小值;
步骤S5:对循环参数递增加1,重复步骤S2至S4,重新寻找k类聚类中心后再聚类,再计算轮廓系数;
步骤S6:达到循环参数高限,每次循环中计算的轮廓系数越接近1,说明当前选取的初始聚类中心是最佳的,淘汰其他的循环中所得到的聚类中心,转到步骤S7;
步骤S7:更新每个类的聚类中心,重新找出数据集中更能代表聚类中心的数据记录,即聚类中心的每一个数据列取值为该类所有样本中该数据列出现频率最高的那项值;
步骤S8:重新计算各个数据样本对新聚类中心的隶属度;
步骤S9:如果隶属度有变化,根据每个样本的最大隶属度重新归类,回到步骤S7;如果隶属度没有变化,那么k类的聚类已经完成,计算距离评价函数F(X,K)的值;
其中, x i 为第c类中任一对象,z i 为第c类聚类中心;
步骤S10:如果K≤,K值递增加1,回到步骤S2进行下一轮的聚类流程;如果K>,聚类流程停止,比较每一轮聚类计算得出的F(X,K)的值,找到最小的值对应的那轮聚类为最佳的聚类结果,得到数据分析的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810102590.7A CN108256102B (zh) | 2018-02-01 | 2018-02-01 | 一种基于聚类的独立学院学生评教数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810102590.7A CN108256102B (zh) | 2018-02-01 | 2018-02-01 | 一种基于聚类的独立学院学生评教数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108256102A true CN108256102A (zh) | 2018-07-06 |
CN108256102B CN108256102B (zh) | 2022-02-11 |
Family
ID=62743371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810102590.7A Active CN108256102B (zh) | 2018-02-01 | 2018-02-01 | 一种基于聚类的独立学院学生评教数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108256102B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934150A (zh) * | 2019-03-07 | 2019-06-25 | 百度在线网络技术(北京)有限公司 | 一种会议参与度识别方法、装置、服务器和存储介质 |
CN110047509A (zh) * | 2019-03-28 | 2019-07-23 | 国家计算机网络与信息安全管理中心 | 一种两级子空间划分方法及装置 |
CN110046667A (zh) * | 2019-04-19 | 2019-07-23 | 华东交通大学 | 一种基于深度神经网络学习评分数据对的教学评价方法 |
CN110363674A (zh) * | 2019-06-26 | 2019-10-22 | 陕西师范大学 | 基于ap聚类的班级社交群体检测方法 |
CN111091411A (zh) * | 2019-11-07 | 2020-05-01 | 央视市场研究股份有限公司 | 问卷分割设计方法 |
CN111144732A (zh) * | 2019-12-23 | 2020-05-12 | 江苏金智教育信息股份有限公司 | 一种基于行为大数据的学生能力评估方法和装置 |
CN112668895A (zh) * | 2020-12-31 | 2021-04-16 | 重庆绿安信息科技有限公司 | 一种数字资源质量监管系统 |
CN113076835A (zh) * | 2021-03-25 | 2021-07-06 | 济南升界软件有限公司 | 基于回归分析的教学评价方法及系统 |
CN117112871A (zh) * | 2023-10-19 | 2023-11-24 | 南京华飞数据技术有限公司 | 基于fcm聚类算法模型的数据实时高效融合处理方法 |
CN117972221A (zh) * | 2024-04-02 | 2024-05-03 | 济宁市金桥煤矿 | 一种煤矿实操培训课程智能推荐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081495A (ja) * | 2009-10-05 | 2011-04-21 | Tokyo Electric Power Co Inc:The | 文書データ解析装置、方法及びプログラム |
CN105913353A (zh) * | 2016-04-12 | 2016-08-31 | 淮阴工学院 | 一种基于K-means聚类多权重自适应的学生学习行为分析方法 |
CN106055631A (zh) * | 2016-05-27 | 2016-10-26 | 成都成信高科信息技术有限公司 | 基于模糊联合聚类方法的针灸处方主穴挖掘方法 |
CN106096748A (zh) * | 2016-04-28 | 2016-11-09 | 武汉宝钢华中贸易有限公司 | 基于聚类分析和决策树算法的装车工时预测模型 |
CN107122793A (zh) * | 2017-03-23 | 2017-09-01 | 北京航空航天大学 | 一种改进的全局最优化k‑modes聚类方法 |
CN107316261A (zh) * | 2017-07-10 | 2017-11-03 | 湖北科技学院 | 一种基于人脸分析的教学质量评估系统 |
-
2018
- 2018-02-01 CN CN201810102590.7A patent/CN108256102B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081495A (ja) * | 2009-10-05 | 2011-04-21 | Tokyo Electric Power Co Inc:The | 文書データ解析装置、方法及びプログラム |
CN105913353A (zh) * | 2016-04-12 | 2016-08-31 | 淮阴工学院 | 一种基于K-means聚类多权重自适应的学生学习行为分析方法 |
CN106096748A (zh) * | 2016-04-28 | 2016-11-09 | 武汉宝钢华中贸易有限公司 | 基于聚类分析和决策树算法的装车工时预测模型 |
CN106055631A (zh) * | 2016-05-27 | 2016-10-26 | 成都成信高科信息技术有限公司 | 基于模糊联合聚类方法的针灸处方主穴挖掘方法 |
CN107122793A (zh) * | 2017-03-23 | 2017-09-01 | 北京航空航天大学 | 一种改进的全局最优化k‑modes聚类方法 |
CN107316261A (zh) * | 2017-07-10 | 2017-11-03 | 湖北科技学院 | 一种基于人脸分析的教学质量评估系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934150A (zh) * | 2019-03-07 | 2019-06-25 | 百度在线网络技术(北京)有限公司 | 一种会议参与度识别方法、装置、服务器和存储介质 |
CN110047509A (zh) * | 2019-03-28 | 2019-07-23 | 国家计算机网络与信息安全管理中心 | 一种两级子空间划分方法及装置 |
CN110046667B (zh) * | 2019-04-19 | 2022-08-12 | 华东交通大学 | 一种基于深度神经网络学习评分数据对的教学评价方法 |
CN110046667A (zh) * | 2019-04-19 | 2019-07-23 | 华东交通大学 | 一种基于深度神经网络学习评分数据对的教学评价方法 |
CN110363674A (zh) * | 2019-06-26 | 2019-10-22 | 陕西师范大学 | 基于ap聚类的班级社交群体检测方法 |
CN110363674B (zh) * | 2019-06-26 | 2023-06-02 | 陕西师范大学 | 基于ap聚类的班级社交群体检测方法 |
CN111091411A (zh) * | 2019-11-07 | 2020-05-01 | 央视市场研究股份有限公司 | 问卷分割设计方法 |
CN111091411B (zh) * | 2019-11-07 | 2023-12-22 | 央视市场研究股份有限公司 | 问卷分割设计方法 |
CN111144732A (zh) * | 2019-12-23 | 2020-05-12 | 江苏金智教育信息股份有限公司 | 一种基于行为大数据的学生能力评估方法和装置 |
CN112668895A (zh) * | 2020-12-31 | 2021-04-16 | 重庆绿安信息科技有限公司 | 一种数字资源质量监管系统 |
CN113076835A (zh) * | 2021-03-25 | 2021-07-06 | 济南升界软件有限公司 | 基于回归分析的教学评价方法及系统 |
CN113076835B (zh) * | 2021-03-25 | 2022-11-29 | 济南升界软件有限公司 | 基于回归分析的教学评价方法及系统 |
CN117112871A (zh) * | 2023-10-19 | 2023-11-24 | 南京华飞数据技术有限公司 | 基于fcm聚类算法模型的数据实时高效融合处理方法 |
CN117112871B (zh) * | 2023-10-19 | 2024-01-05 | 南京华飞数据技术有限公司 | 基于fcm聚类算法模型的数据实时高效融合处理方法 |
CN117972221A (zh) * | 2024-04-02 | 2024-05-03 | 济宁市金桥煤矿 | 一种煤矿实操培训课程智能推荐方法及系统 |
CN117972221B (zh) * | 2024-04-02 | 2024-06-11 | 济宁市金桥煤矿 | 一种煤矿实操培训课程智能推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108256102B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256102A (zh) | 一种基于聚类的独立学院学生评教数据分析方法 | |
CN106557846A (zh) | 基于大学生在校数据的毕业去向预测方法 | |
CN106875305A (zh) | 一种高校教学质量评价方法 | |
CN113763212A (zh) | 一种基于cdbn的高校教学质量评估方法 | |
Rickels | Nonperformance variables as predictors of marching band contest results | |
Fong et al. | Applying a hybrid model of neural network and decision tree classifier for predicting university admission | |
Adak et al. | An elective course suggestion system developed in computer engineering department using fuzzy logic | |
Archbald | Measuring school choice using indicators | |
Tuslaela | The scholarship awarding decision support system uses the topsis method | |
Zhang et al. | An empirical study on student evaluations of teaching based on data mining | |
OROZOVA et al. | Generalized net model for dynamic decision making and prognoses | |
Liu et al. | Multimode Teaching Quality Evaluation Model of Higher Education Course Based on Improved Particle Swarm Optimization | |
Dikmenli et al. | Geography Teachers' Attitudes and Beliefs Regarding Classroom Management. | |
CN115935032A (zh) | 一种基于智能推荐习题发布个性化作业的方法及装置 | |
CN113888055A (zh) | 动态教学管理系统 | |
Katiliūtė | Students' perception of the quality of studies: differences between the students according to their academic performance | |
Galeev et al. | Application of individual educational trajectories and adaptive content in engineering education | |
Deepika et al. | Analyze and predicting the student academic performance using data mining tools | |
Wu et al. | Fuzzy evaluation and decision making for indigenous physical curriculum | |
CN117726485B (zh) | 一种基于大数据的智适应教育学习方法及系统 | |
Mei | Application of Decision Tree Algorithm in Teaching Quality of Higher Vocational Colleges | |
CN107292779A (zh) | 一种自动生成测试报告的系统 | |
Iskandar et al. | The Communication Analysis Among Stakeholders in Management of Children Education by the Poor Scholarship as Human Capital to Grow Quality Characteristics of Educational Basics | |
Peng | Quality improvement of undergraduate courses based on fuzzy analytic hierarchy process and entropy method | |
Kang et al. | A study of the current status of teachers’ Core qualities and abilities and the importance of their background factors in primary and secondary schools in Tianjin |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |