CN102122294A - 基于数据挖掘的大学生选课心理调查研究平台及方法 - Google Patents

基于数据挖掘的大学生选课心理调查研究平台及方法 Download PDF

Info

Publication number
CN102122294A
CN102122294A CN2011100365967A CN201110036596A CN102122294A CN 102122294 A CN102122294 A CN 102122294A CN 2011100365967 A CN2011100365967 A CN 2011100365967A CN 201110036596 A CN201110036596 A CN 201110036596A CN 102122294 A CN102122294 A CN 102122294A
Authority
CN
China
Prior art keywords
questionnaire
student
data
module
survey
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100365967A
Other languages
English (en)
Inventor
纪滨
马丽
秦锋
李伟
姚文锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN2011100365967A priority Critical patent/CN102122294A/zh
Publication of CN102122294A publication Critical patent/CN102122294A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据挖掘算法的大学生选课心理研究工作平台及方法。该平台采用B/S模式,由问卷管理子系统、信息采集子系统和信息处理子系统3个子系统组成,其中问卷管理子系统由问卷导入、问卷制作和问卷修订3个模块组成;信息采集子系统由问卷调查、外部调查结果导入2个模块组成;信息处理子系统由简单统计、数据挖掘2个模块组成。其方法是利用平台进行问卷准备,实施网站调查采集调查记录集数据,提取大学生选课心理规则。本发明适应教务和教研工作的电子化、网络化和智能化的发展趋势,便于大学生选课管理及研究工作质量的改善和效率的提高。

Description

基于数据挖掘的大学生选课心理调查研究平台及方法
所属技术领域
本发明涉及大学生选课心理调查研究技术领域,属于计算机辅助应用领域。
背景技术
当前是信息技术的时代,大部分高校都完成了管理信息化及网络化,特别是教务处等部门都存有大量学生与课程的信息。随着高校开设了越来越多的选修课,长期观察表明,学生选课心理具有一定的规律性,教务管理人员如果能够获取这些规律,便于合理调整课程设置,减少教学资源的浪费,而且学生工作部门能及时把握具体学生群的学风学情信息。但目前高校的信息系统尚不能用于大学生选课心理规律研究。
目前,对学生选课心理的研究方式是一般由经验丰富的研究专家采用计算机统计调查数据,为便于归类,一般问卷涉及的问题项数量较小,且分析容易受研究者主观因素影响较多,从而影响到结论的客观性和精确性;同时,实施调查数据来源于纸质问卷调查后手工转换为电子文档,工作效率低下;而在组织问卷发放到收回过程中,难以保证以足够的精力跟踪监督一个个具体的答题行为,实践中存在一人代替多人答题、敷衍了事地乱答现象,造成废卷多、调查数据质量不高,成为后继研究工作的障碍;而且这种研究方式繁琐、周期长。因此,该方法不利于推广到日常的教务实践。
随着网络技术的发展,网站调查技术成为替代纸质问卷调查采集数据的新方法,对被调查对象的身份识别普遍采用锁定用户的注册方式,或锁定IP地址两种方式,但在进行大学生选课心理网站调查时,前者操作繁琐,浪费调查实施时间,后者虽然操作简单,但同前者一样都不能锁定实际答题人,存在一人可以反复答卷的可能,失去一人只作答一次的约束。
本发明适合于高校大学生选课心理调查及研究工作,也适合相似性工作,得到的规律结论受研究者主观影响较小。特别的,通过调整问卷设计,可以适合不同课程的选课心理调查。
发明内容
本发明的目的是为了克服目前技术中的上述不足。本发明基于数据挖掘的大学生选课心理调查研究平台采用B/S模式,由3个部分组成,即问卷管理子系统、信息采集子系统和信息处理子系统,主要实现调查数据的采集和处理两大功能。平台的系统结构框图见图1。
问卷管理子系统有3个功能模块:问卷导入模块用于将系统外部的选修课调查问卷文档(所有问题及对应答案单选项)导入;问卷制作模块是在利用系统本身创建新的选修课调查问卷;问卷修订模块可将废弃的问卷删除掉和对现有的问卷进行修改,三个模块均能实现对选修课问卷的网页预览。
信息采集子系统有2个功能模块,完成调查数据的采集功能:外部调查结果导入模块用于纸质问卷调查汇集的调查记录集表文档导入到数据库服务器;问卷调查模块用于网站问卷调查并将文字信息转为便于计算机处理的统一数据格式的调查记录集表存入学生选课调查问卷答案数据库服务器。采用网站问卷调查形式时,可以组织被调查学生群体在固定区域、规定时间段,只需凭自己清楚的个人信息学号和身份证号便迅速可登陆调查系统,以此既可识别实际的答卷人,也方便学生不用花费太多时间配合完成调查任务。而同时掌握其他同学学号和身份证号因涉及个人隐私,故替别人作答可能性可大大减少;在数据库中设置标识限制每位学生只能作答一次,避免同一学生反复答题现象;系统中设提示功能可减少未作答完毕就提交的现象,降低胡乱作答的可能性。采用网站调查方式可以大大降低大学生选修课问卷调查工作的劳动强度,减少废卷,迅速归集原始调查记录集数据。
信息处理子系统有2个功能模块,具有对原始调查记录集数据进行整理和清洗后,完成调查数据的处理功能:简单统计模块可以将数据库中的某一问卷的调查记录集表输出到Excel中,进行简单统计分析;数据挖掘模块可对具体的数据记录表进行数据挖掘,寻找隐藏在大量的学生答卷信息记录数据中的、能够体现学生选课的规则集。数据挖掘算法有多种选择,本发明采用ID3算法生成决策树,并从该树提取规则(可对决策树进行剪枝)。
本系统中某门课程所有学生答卷信息的调查记录集数据可看成一张决策表,由条件属性和决策属性构成,条件属性(Ci)对应问题项,决策属性(D)对应学生最终的选课决定,每条记录对应的是每份问卷对应的答案和选课决定。其中,Xij表示第i个学生其第j个问题项的选项,Di代表第i个学生的对某调查课程的选课决定。决策表模型如下:
Figure BSA00000433080300021
设S是m个训练数据样本的集合,一个数据样本即为一条记录,所有属性值均为离散型。该算法选择使信息增益率Gain_ratio(Ci)最大的属性ci作为分枝属性,这种方法使生成的决策树平均深度较小,从而有较快的分类速度。条件属性ci中信息增益率定义,见公式(1)。Gain(Ci)为条件属性Ci的信息增益,计算见公式(5)。Split(Ci)为其分裂熵,计算见公式(6)。
Gain_ratio(Ci)=Gain(Ci)/Split(Ci),i=1,…,n    (1)
假定决策属性D具有X个不同取值(本发明中X=3,其中1代表“弃选”,2代表“试听”,3代表“必选”),该属性的不同值将数据样本集合分为X个不同类,|Sv|是其中的同种类型样本数,v=1,…,X。Pv是任意样本属于Sv的概率。计算见公式(2)。对一个给定的训练数据样本集分类所需的期望信息由见公式(3)。
Pv=|Sv|/m                                        (2)
I ( S 1 , S 2 , · · · , S X ) = - Σ v = 1 X P v log 2 P v - - - ( 3 )
设条件属性Ci具有Y个不同值,则S可被划分为Y个子集,其中|Sj|在该条件属性中具有相同的值cj的样本数,则在条件属性Ci的熵或信息期望计算见公式(4)。其在该属性分枝上将获得的信息增益,见公式(5)。熵值越小,子集划分的纯度越高,对于给定的子集Sj,Svj为在条件属性值为cj时的子集。
E ( C i ) = Σ j = 1 Y ( | S 1 j | + | S 2 j | + · · · + | S Xj | ) / m * I ( S 1 j , S 2 j , · · · S Xj ) - - - ( 4 )
Gain(Ci)=I(S1,…,SX)-E(Ci)                                (5)
Split ( C i ) = - Σ j = 1 Y | S j | / | S | * log 2 | S j | / | S | - - - ( 6 )
根据公式(1),即使属性值取值个数多会导致Gain(Ci)有所增加,但Split(Ci)也有所增加,因此,可以补偿因属性值太多导致的偏差。
决策树的生成过程中,开始时所有属性都在根节点,然后根据设定的标准选择测试属性,用不同的测试属性递归地进行数据分割。本文应用基于ID3算法的决策树生成算法如下:
步骤1:计算每一个条件属性的信息增益率;
步骤2:选择信息增益率最大的属性,产生决策树结点;
步骤3:由该属性的不同取值产生分支;
步骤4:对各分支的子集递归调用步骤1-3,建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。
最后,得到一棵决策树。根据此树,从根节点到每个叶节点分别为一条规则。其中沿每一路径中条件属性的合取即为规则的前提部分,而每一路径的叶节点为规则的结论部分。为了精简规则,可通过对生成的决策树进行剪枝,通过设置可信度(CD)和支持度(SD)的阈值来剔除影响力小的规则。计算公式见(7)和(8)。
CD=符合规则的记录数/符合条件属性集合的记录数        (7)
SD=符合规则的记录数/总记录数                        (8)
本发明符合高校教务和教研人员研究大学生选课规律的习惯,可以针对性组织相关学生进行在线调查,既方便被调查学生迅速完成调查作业,也方便调查人员迅速完成调查实施任务。本发明可以为研究人员制作及修订管理问卷,也可外部导入问卷文件;可以导出调查记录集文件利用Excel强大功能分析数据,也可直接进行数据挖掘,自动生成规则集。本发明适应教务和教研工作的电子化、网络化和智能化的发展趋势,便于大学生选课管理及研究工作质量的改善和效率的提高。
附图说明
图1是本发明的系统结构框图。
图2是本发明的数据处理流程图。
图3是图1的数据挖掘模块数据处理流程图。
图4是本发明运行数据挖掘算法后产生的选课决策树。
具体实施方式
本发明的数据处理流程图如图2吧所示,现以调查目标《嵌入式系统》选修课为例,对本发明作进一步详细说明。
步骤1:问卷制作。将该课程问卷文档分为问题项和对应答案选项两部分分别存入问卷数据库。12个问题项表示为决策表中的12个条件属性项(Ci),最后的问题项表示为决策表中的决策项(D);对应的答案选项表示为属性项的值,为便于数据处理,属性值用对应的数字表示,如问题项“1.你的性别”的值是男,就用“1”表示。整个问卷如下表所示:
Figure BSA00000433080300031
Figure BSA00000433080300041
步骤2:问卷修订。在实施调查前,可对问卷进行修改,增加或减少问题项及答案项,修改有关文字内容,也可删除无用或废弃的问卷。
步骤3:问卷调查。由于学校已存有在册具体学生的学号及身份证号信息,因此,教务人员在调查前,将所要调查的学生群体信息表导入到平台的学生数据库中。当学生参加网站选课问卷调查时,便可根据自己的学号作为用户名,身份证号作为密码,迅速登录问卷答题系统,进行答卷,一旦提交答卷,将在数据库中被标识,以此为条件,该生将无法再次答卷,确保每个学生只能作答一次。每个学生的答卷是一条调查记录,假定某个学生的答卷记录如下:
  记录编号  条件属性1   条件属性2 …… 条件属性12   决策属性
  XXX  男   自学能力较好 …… 应该开设   必选
每次问卷调查获得一个调查记录集,记录集的数据存储格式为答案选项对应的数字,例如上面那条学生答卷记录,对应的数字记录如下:
  记录编号  条件属性1  条件属性2 …… 条件属性12   决策属性
XXX 1 2 …… 1 1
步骤4:数据清洗。由计算机自动识别答案选项不完整的调查记录,并将其从调查记录集中删除;也可根据步骤6分析得出的显然不合逻辑的规则,删除对应的调查记录。
步骤5:生成决策树。由计算机对一个调查记录集运行数据挖掘算法,生成原始决策树。将数字表达的决策树映射为研究者能看明白的文字表达形式,如图4所示。并输入SD值为20%和CD值70%,这两个值的范围为0-100%,可根据研究者需要设定,修剪决策树,得到数量较少的、文字表达的规则集。
步骤6:对得到的规则集进行评价,如果发现明显不合逻辑的规则,则返回步骤4;如果没有发现明显不合逻辑的规则,则将该规则集保存在规则数据库中,并可输出文字表达的规则集文档,供相关人员日后方便评阅。

Claims (3)

1.一种基于数据挖掘算法的大学生选课心理研究工作平台,其特征在于平台采用B/S模式,由3个子系统组成:
问卷管理子系统有3个功能模块:问卷导入模块用于将系统外部的选修课调查问卷文档(所有问题及对应答案单选项)导入;问卷制作模块是在利用系统本身创建新的选修课调查问卷;问卷修订模块可将废弃的问卷删除掉和对现有的问卷进行修改,三个模块均能实现对选修课问卷的网页预览;
信息采集子系统有2个功能模块,完成调查数据的采集功能:外部调查结果导入模块用于纸质问卷调查汇集的调查记录集表文档导入到数据库服务器;问卷调查模块用于网站问卷调查并将文字信息转为便于计算机处理的统一数据格式的调查记录集表存入学生选课调查问卷答案数据库服务器;
信息处理子系统有2个功能模块,具有对原始数据进行整理和清洗后,完成调查数据的处理功能:简单统计模块可以将数据库中的某一问卷的调查记录集表输出到Excel中,进行简单统计分析;数据挖掘模块可对具体的数据记录表进行数据挖掘,寻找隐藏在大量的学生答卷信息记录数据中的、能够体现学生选课的规则集。
2.一种基于数据挖掘算法的大学生选课心理研究工作方法,其特征在于以下具体步骤:
(1)问卷制作。将该课程问卷文档分为问题项和对应答案选项两部分分别存入问卷数据库。问题项对应于决策表中的条件属性项和决策项;而对应的答案选项表示为属性项的值,为便于数据处理,属性值用对应的数字表示;
(2)问卷修订。在实施调查前,可对问卷进行修改,增加或减少问题项及答案项,修改有关文字内容,也可删除无用或废弃的问卷;
(3)问卷调查。教务人员在调查前,将所要调查的学生群体信息表导入到平台的学生数据库中。当学生参加网站选课问卷调查时,便可根据自己的学号作为用户名,身份证号作为密码,登录问卷答题系统,进行答卷,一旦提交答卷,将在数据库中被标识,以此为条件,该生将无法再次答卷,确保每个学生只能作答一次;
(4)数据清洗。由计算机自动识别答案选项不完整的调查记录,并将其从调查记录集中删除;也可根据步骤6分析得出的显然不合逻辑的规则,删除对应的调查记录;
(5)生成决策树。由计算机对一个调查记录集运行数据挖掘算法,生成原始决策树。将数字表达的决策树映射为研究者能看明白的文字表达形式,并可根据研究者需要输入SD和CD的值,这两个值的范围为0-100%,修剪决策树,得到数量较少的、文字表达的规则集;
(6)对得到的规则集进行评价,如果发现明显不合逻辑的规则,则返回步骤4;如果没有发现明显不合逻辑的规则,则将该规则集保存在规则数据库中,并可输出文字表达的规则集文档,供日后方便评阅。
3.如权利要求2所述的数据挖掘算法,其特征在于步骤5中,决策树的产生核心计算公式是信息增益率Gain_ratio(Ci)计算和可信度(CD)和支持度(SD)设置。决策树的产生可以单独根据信息增益率产生,也可与可信度和支持度组合。
CN2011100365967A 2011-01-29 2011-01-29 基于数据挖掘的大学生选课心理调查研究平台及方法 Pending CN102122294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100365967A CN102122294A (zh) 2011-01-29 2011-01-29 基于数据挖掘的大学生选课心理调查研究平台及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100365967A CN102122294A (zh) 2011-01-29 2011-01-29 基于数据挖掘的大学生选课心理调查研究平台及方法

Publications (1)

Publication Number Publication Date
CN102122294A true CN102122294A (zh) 2011-07-13

Family

ID=44250854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100365967A Pending CN102122294A (zh) 2011-01-29 2011-01-29 基于数据挖掘的大学生选课心理调查研究平台及方法

Country Status (1)

Country Link
CN (1) CN102122294A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966175A (zh) * 2015-07-27 2015-10-07 中国地质大学(北京) 一种土地利用心理测量研究系统
CN105930326A (zh) * 2015-11-26 2016-09-07 无锡子木教育科技有限公司 专业建设调研与课程开发系统
CN106920193A (zh) * 2017-02-15 2017-07-04 河南农业大学 一种大学体育教学器材管理系统
CN108062240A (zh) * 2017-12-28 2018-05-22 徐畅畅 基于vb和python的问卷录入与绘图系统
CN108280096A (zh) * 2017-01-06 2018-07-13 北京京东尚科信息技术有限公司 数据清洗方法及数据清洗装置
CN108334519A (zh) * 2017-01-19 2018-07-27 腾讯科技(深圳)有限公司 一种用户画像中的用户标签获取方法及装置
CN108446848A (zh) * 2018-03-21 2018-08-24 北京理工大学 个体网络安全意识分级量化评价方法
CN109190874A (zh) * 2018-07-12 2019-01-11 阿里巴巴集团控股有限公司 多分支业务流程的实现方法和装置
CN109492919A (zh) * 2018-11-18 2019-03-19 大连锐进科技发展有限公司 问卷调查系统管理平台
CN110222968A (zh) * 2019-05-28 2019-09-10 北京语言大学 一种基于测评中用户信息的技能测评抄袭甄别方法与装置
CN111265226A (zh) * 2020-03-03 2020-06-12 淮安信息职业技术学院 一种心理应激管理能力检测系统及方法
CN113422834A (zh) * 2021-06-30 2021-09-21 苏州众言网络科技股份有限公司 问卷调研方法、装置、计算机设备和存储介质
US12079423B2 (en) 2021-05-27 2024-09-03 Jonathan White Rapidly capturing user input

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966175A (zh) * 2015-07-27 2015-10-07 中国地质大学(北京) 一种土地利用心理测量研究系统
CN105930326A (zh) * 2015-11-26 2016-09-07 无锡子木教育科技有限公司 专业建设调研与课程开发系统
CN108280096A (zh) * 2017-01-06 2018-07-13 北京京东尚科信息技术有限公司 数据清洗方法及数据清洗装置
CN108334519A (zh) * 2017-01-19 2018-07-27 腾讯科技(深圳)有限公司 一种用户画像中的用户标签获取方法及装置
CN106920193A (zh) * 2017-02-15 2017-07-04 河南农业大学 一种大学体育教学器材管理系统
CN108062240A (zh) * 2017-12-28 2018-05-22 徐畅畅 基于vb和python的问卷录入与绘图系统
CN108446848A (zh) * 2018-03-21 2018-08-24 北京理工大学 个体网络安全意识分级量化评价方法
CN109190874A (zh) * 2018-07-12 2019-01-11 阿里巴巴集团控股有限公司 多分支业务流程的实现方法和装置
CN109492919A (zh) * 2018-11-18 2019-03-19 大连锐进科技发展有限公司 问卷调查系统管理平台
CN110222968A (zh) * 2019-05-28 2019-09-10 北京语言大学 一种基于测评中用户信息的技能测评抄袭甄别方法与装置
CN110222968B (zh) * 2019-05-28 2021-09-07 北京语言大学 一种基于测评中用户信息的技能测评抄袭甄别方法与装置
CN111265226A (zh) * 2020-03-03 2020-06-12 淮安信息职业技术学院 一种心理应激管理能力检测系统及方法
US12079423B2 (en) 2021-05-27 2024-09-03 Jonathan White Rapidly capturing user input
CN113422834A (zh) * 2021-06-30 2021-09-21 苏州众言网络科技股份有限公司 问卷调研方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN102122294A (zh) 基于数据挖掘的大学生选课心理调查研究平台及方法
Choudhury et al. Machine learning and human capital complementarities: Experimental evidence on bias mitigation
Polyakova et al. Design of a socio-economic processes monitoring system based on network analysis and big data
Ferguson Building theory in public relations: Interorganizational relationships as a public relations paradigm
Burns et al. Marketing research
Nosella et al. University-level mechanisms supporting the creation of new companies: an analysis of Italian academic spin-offs
Monroe et al. Evaluating structural equation models for categorical outcomes: A new test statistic and a practical challenge of interpretation
Xu et al. Influential mechanism of farmers' sense of relative deprivation in the sustainable development of rural tourism
Guan et al. Analyzing massive data sets: an adaptive fuzzy neural approach for prediction, with a real estate illustration
Bezerra et al. Replication of empirical studies in software engineering: An update of a systematic mapping study
Ammirato et al. Digitalising the systematic literature review process: the MySLR platform
Behrang et al. Total energy demand estimation in Iran using bees algorithm
Herzog et al. Methods and metrics for measuring the success of enterprise social software-what we can learn from practice and vice versa
CN112632405A (zh) 一种推荐方法、装置、设备及存储介质
El-Attar Trust, child care technology choice and female labor force participation
Goncalves et al. Gathering alumni information from a web social network
CN102591929A (zh) 一种图书馆数据处理系统及其数据处理方法
Zaman et al. A randomization tool for obtaining efficient estimators through focus group discussion in sensitive surveys
Baranowski et al. Social welfare in the light of topic modelling
Attfield et al. Discovery-led refinement in e-discovery investigations: sensemaking, cognitive ergonomics and system design
Akwei The process of creating dynamic capabilities
Mujthaba et al. Data Science Techniques, Tools and Predictions
Ramadiani et al. Evaluation of student academic performance using e-learning with the association rules method and the importance of performance analysis
Wowczko A case study of evaluating job readiness with data mining tools and CRISP-DM methodology
Girard et al. Exploring cross-cultural differences in social knowledge creation and exchange: A preliminary examination

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110713