CN109828997A - 一种大学生行为数据分析及学业预警方法 - Google Patents
一种大学生行为数据分析及学业预警方法 Download PDFInfo
- Publication number
- CN109828997A CN109828997A CN201910005603.3A CN201910005603A CN109828997A CN 109828997 A CN109828997 A CN 109828997A CN 201910005603 A CN201910005603 A CN 201910005603A CN 109828997 A CN109828997 A CN 109828997A
- Authority
- CN
- China
- Prior art keywords
- sequence
- university student
- frequent
- measured
- seq
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种大学生行为数据分析及学业预警方法,包括获取待测大学生的历史行为数据,并根据待测大学生的历史行为数据,得到行为轨迹,且进一步将行为轨迹按时间片进行切割,得到连续的时间片中的第一个活动组成的时间序列;在所获取连续的时间片中的第一个活动组成的时间序列中,利用预设基于压缩时间片序列的频繁序列模式挖掘算法,找到最感兴趣的前k个行为轨迹;基于感兴趣的前k个行为轨迹,训练出成绩预测模型,并基于SVM算法对成绩预测模型进行预测计算,得到待测大学生的毕业概率。实施本发明,采用基于压缩时间片序列中的频繁序列模式挖掘出大学生在校行为轨迹来做出学业预警,使数据挖掘算法更具有高效性及准确性。
Description
技术领域
本发明涉及计算机数据挖掘技术领域,尤其涉及一种大学生行为数据分析及学业预警方法。
背景技术
1997年,NASA研究人员Michael Cox和David Ellsworth发现气流数据集相当大,对主内存、本地磁盘,甚至远程磁盘都造成挑战,称此为大数据。当前,我们正处在一个数据爆发式增长的时代,据统计,2005年全球数字世界的规模为130EB,而2013年则达到了3.5ZB,到2020年,全球数据量将増至44ZB。各类相关系统采集和积累的数据急速增长,人们拥有更多可用于分析处理的数据,更多有效信息和数据价值有待发现和利用,这意味着人类己经迈入一个深度挖掘数据内在信息和核心价值的大数据时代。哈佛大学访问教授ThomosH.Davenort指出,“大数据及其分化将会在未来10年改变几乎每一个行业的业务功能。任何一个组织,如果早一点着手大数据的工作,都可以获得明显的竞争优势。”
推动高校教育大数据应用,是我国教育发展的现实需求和未来趋势。目前高校中碰到的问题如教育管理模式与机制尚待完善,教育质量亟待提升;教育经费使用效率不高,投入产出比较低;在教学组织形式方面,还较多地沿袭工业化时代的标准化教学内容、教学方法、考试制度,忽视学生的个性特征和认知发展;2017年新高考改革将带来的冲击,对大学专业建设调整、学科设置、管理精细化和人才培养模式方面提出了更高的要求。高校需要新的思维方式、新的方法手段和新的教学模式来突破瓶颈、破解难题,推动高校教育大数据应用与高校教育领域的深度融合,对解决当前高校教育发展面临的问题有重大现实意见。
2011年至2015年,我国大部分高校已经完成一轮甚至是几轮信息化系统的建设,基于这些信息化系统数据累积都已形成“大数据”,中央财经大学数据资源以每年30-50%的速度在增长;北京师范大学教务管理信息系统数据达到 500-600G,校园卡系统日记数据达到1-2TB,校园网日记数据大约为1TB;2015 年5月,清华大学的业务系统记录条数已达到3亿条;其中,门禁系统每天以 10万条的速度增长;结构化数据高达1.3T,非结构化数据更是积累至14T的规模。分散存在的不同规模、不同结构的这些学生行为数据蕴藏着丰富的宝藏。近年来,许多高校利用大学生行为数据开展了许多面向管理和师生服务的应用,依赖大数据挖掘方法以支持教育领域的校园管理与决策以及学生行为规律的分析受到广泛关注。
发展大学生行为数据分析方法是一个非常大的挑战,为了面对这个挑战,已经提出了很多方法。国外的多家在线教育机构,如edx、Coursera、Udacity等,针对在线教育过程中很多学生高发的辍学情况,应用数据挖掘方法对学生在线学习数据进行深层次挖掘分析,发现引发学生辍学的内在原因,并基于挖掘结果制定督促和引导策略,从而大大改善了在线教育的辍学问题。ITS则基于学生与系统中的交互日志数据进行数据挖掘,获取学生学习行为特征,建立个性化知识库,分析学生知识掌握情况,自适应地帮助学生建立培养知识体系。保罗. 艾伦实验室在2015年10月发起了一项大数据竞赛,研究在指定训练集样本上通过机器学习算法构建知识模型,在国内已有的方法中,有将推荐系统中的个性化回归和矩阵分解技术应用到学生成绩预测和课堂评估中,帮助学生规避挂科风险。有基于学生平时评测成绩数据,利用决策树挖掘方法提取规则,以预测学生课程成绩,帮助导师了解学生表现,提供适当的学习建议,提高教学质量。有以Hadoop架构为基础平台,分析和挖掘智慧校园系统中的大规模数据,建立基于学生相似度的协同过滤推荐系统实现校园信息共享和推荐。有基于学生在校园内学习、生活的实时行为数据,结合问卷调查、人口统计学等相关数据研发出了一套“大数据”系统“学生画像”。该系统利用校园一卡通追踪学生行为轨迹,通过对学生吃饭、打水、出行、消费行为记录,挖掘出每名学生的学习、生活状态,并通过对学生日常学习状态的追踪,对学生的期末成绩乃至大学四年后的就业情况作出预警。
然而,从建模技术的角度,现有技术尝试使用不同的深度学习模型对用户的行为建模.但是大学生行为分析往往对时间非常敏感,导致算法的在线实时更新对算法的复杂度和时间效率要求更为严格,而且用户的数据往往长短不一,并且具有稀疏、隐含兴趣多变的特性,如何设计更为高效的算法实现对大学生行为数据更为精准的分析仍具有很大的挑战。其次,从高校学生情境的角度来看,用户的行为往往受地理位置、社交好友、自身兴趣多种因素的影响,如何综合多种因素对高校学生进行建模仍值得进一步探索。最后,从应用场景的角度出发:不同场景下的数据规律和特征往往区别很大,而对于不同性别、不同专业或者来自不同地区的学生的行为规律往往需要综合领域专家和心理学专家等各方面的先验知识,如何泛化高校行为大数据分析的技术,也是一个值得深入研究的课题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种大学生行为数据分析及学业预警方法,采用基于压缩时间片序列中的频繁序列模式挖掘出大学生在校行为轨迹来做出学业预警,使数据挖掘算法更具有高效性及准确性。
为了解决上述技术问题,本发明实施例提供了一种大学生行为数据分析及学业预警方法,包括以下步骤:
步骤S1、获取待测大学生的历史行为数据,并根据所获取的待测大学生的历史行为数据,得到待测大学生在校的行为轨迹,且进一步将所得到的待测大学生在校的行为轨迹按时间片进行切割,得到连续的时间片中的第一个活动组成的时间序列;
步骤S2、在所得到连续的时间片中的第一个活动组成的时间序列中,利用预设基于压缩时间片序列的频繁序列模式挖掘算法,找到待测大学生最感兴趣的前k个行为轨迹;其中,k为正整数;
步骤S3、基于所找到的待测大学生最感兴趣的前k个行为轨迹,训练出成绩预测模型,并基于SVM算法对所述成绩预测模型进行预测计算,得到待测大学生的毕业概率。
其中,所述步骤S1具体包括:
获取待测大学生的历史行为数据,并根据所获取的待测大学生的历史行为数据,得到待测大学生在校的行为轨迹;其中,所述历史行为数据包括一卡通消费行为数据、选课行为数据和图书馆的利用记录行为数据;
给定待测大学生在校期间某一天的基于时间的活动序列seq(c),并定义语义轨迹是关于sem(s)(c)=<(t1,p1),……,(tn,pn)>的序列;其中,ti<tj表示第i个时间片,且ti<tj(i<j);pi表示为待测大学生的活动序列中的第i个位置;c表示为待测大学生;sem(s)(c)表示为活动序列seq(c)切割后组成的序列;
依据所定义的语义轨迹,将所得到的待测大学生在校的行为轨迹按时间片进行切割,并得到连续的时间片中的第一个活动组成的时间序列。
其中,所述步骤S2具体步骤包括:
步骤S21、根据连续的时间片中的第一个活动组成的时间序列,生成第一序列数据库Seq={s1,s2,……,sn},并对所述第一序列数据库Seq执行对齐算法,生成第二序列数据库Seq(d)={d1.d2,……,dm};其中,n表示所述第一序列数据库 Seq的记录条数;m表示所述第二序列数据库Seq(d)的记录条数;si表示第i个连续的时间片中的第一个活动组成的时间序列;
步骤S22、对所述第二序列数据库Seq(d)执行压缩算法,生成第三序列数据库CompressedSeq,并增加权值数组SE;
步骤S24、扫描所述第三序列数据库CompressedSeq,得到所述第三序列数据库CompressedSeq中每一项的支持度计数,并从所述第三序列数据库 CompressedSeq中筛选出支持度计数大于预设的最小支持度min_support的项来形成第一频繁集L1,且进一步对所述第三序列数据库CompressedSeq进行剪枝,删除序列长度为1和序列长度小于所述最小支持度min_support的序列,得到第一频繁序列D1;
步骤S25、设置计数器初始值等于2,并设置当前待连接操作的频繁项集初始为所述第一频繁项集L1,以及当前待剪枝的频繁序列初始为所述第一频繁序列D1;
步骤S26、获取当前计数器的值、当前待连接操作的频繁项集以及当前待剪枝的频繁序列,并判断所获取的当前待剪枝的频繁序列的行数是否大于当前计数器加1后的值;如果是,则执行下一步骤S27;如果否,则跳转至步骤S30;
步骤S27、根据预设的频繁序列模式挖掘连接算法,对当前待连接操作的频繁项集进行连接操作,得到连接操作后的频繁项集及其所含各项的支持度计数,且进一步在所得到的连接操作后的频繁项集中,筛选出支持度计数大于预设的最小支持度min_support的项来生成下一个频繁项集;
步骤S28、根据所生成的下一个频繁项集,对当前待剪枝的频繁序列进行剪枝,通过删除序列长度等于当前计数器的值和序列长度小于所述最小支持度 min_support的序列,得到下一个频繁序列;
步骤S29、对所述下一个频繁项集及其前面所有得到的频繁项集按照支持度计数从大到小的顺序进行排序,并取排序后的前k个位置的项形成新的待连接操作的频繁项集,以及取所得到的下一个频繁序列作为新的待剪枝的频繁序列,且进一步将当前计数器的值加1后,返回步骤S26;
步骤S30、如果否,则结束计算,输出所述第一频繁项集L1至第k个频繁项集Lk各自对应的支持度计数并按照从大到小的顺序进行排序,且进一步取排序后的前k个位置的数据为待测大学生最感兴趣的前k个行为轨迹。
其中,所述步骤S21中“对所述第一序列数据库Seq执行对齐算法”的具体步骤包括:
步骤41、获取所述第一序列数据库Seq={s1,s2,……,sn},并初始化第二序列数据库Seq(d)为空;
步骤42、令i=1;
步骤43、判断i是否小于n;如果是,则执行下一步骤44;如果否,则跳转至步骤46;
步骤44、在所述第一序列数据库Seq中提取序列si,若检测到序列si的长度等于11时,将序列si插入对齐的第二序列数据库Seq(d)中;反之,若检测到序列si的长度小于11时,进行左对齐操作,剩余位补0,将处理后的序列si插入对齐的第二序列数据库Seq(d)中;
步骤45、令i=i+1后,返回步骤43;
步骤46、算法终止,得到所述第二序列数据库Seq(d)={d1.d2,……,dm}并输出。
其中,所述步骤S22中“对所述第二序列数据库Seq(d)执行压缩算法”的具体步骤包括:
步骤51、初始化第三序列数据库CompressedSeq为空,并扫描所述第二序列数据库Seq(d)={d1.d2,……,dm};
步骤52、令q=1;
步骤53、判断q是否小于m;如果是,则执行下一步骤54;如果否,则跳转至步骤56;
步骤54、若所述第二序列数据库Seq(d)中的第j个字符与CompressedSeq 中的第j个字符完全相同,则将所述第二序列数据库Seq(d)中的第q条记录删除,并将所述第三序列数据库CompressedSeq中对应第q条记录的SE值加1;若所述第二序列数据库Seq(d)中的第j个字符与CompressedSeq中的第j个字符不同,则将所述第二序列数据库Seq(d)中的第q条记录添加到所述第三序列数据库 CompressedSeq中,并令SE=1;
步骤55、令q=q+1后,返回步骤53;
步骤56、算法结束,得到最终的第三序列数据库CompressedSeq并输出。
其中,所述步骤S27的具体步骤包括:
步骤61、获取当前待连接操作的频繁项集及当前待剪枝的频繁序列,并初始化下一个频繁项集为空;
步骤62、令x=0,y=x+1;
步骤63、判断x是否小于当前待剪枝的频繁序列的列数C;如果是,则执行下一步骤64;如果否,则跳转至步骤67;
步骤64、从当前待剪枝的频繁序列中提取对应y位置序列进行连接,并计算y位置序列的支持度计数;
步骤65、若y位置序列的支持度计数大于所述最小支持度min_support,则将y位置序列的支持度计数增加到下一个频繁项集中;反之,则直接丢弃;
步骤66、令x=x+1后,返回步骤63;
步骤67、算法结束,得到下一个频繁项集并输出。
实施本发明实施例,具有如下有益效果:
本发明基于大学生的历史行为数据,得到大学生在校的行为轨迹,并采用基于压缩时间片序列中的频繁序列模式挖掘出大学生在校行为轨迹来做出学业预警,使数据挖掘算法更具有高效性及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提出的一种大学生行为数据分析及学业预警方法的流程图;
图2为本发明实施例提出的一种大学生行为数据分析及学业预警方法中待测大学生在校的行为数据图;
图3为本发明实施例提出的一种大学生行为数据分析及学业预警方法中待测大学生在校行为轨迹变换为由连续的时间片中的第一个活动组成的时间序列组成的第一序列数据库图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种大学生行为数据分析及学业预警方法,包括以下步骤:
步骤S1、获取待测大学生的历史行为数据,并根据所获取的待测大学生的历史行为数据,得到待测大学生在校的行为轨迹,且进一步将所得到的待测大学生在校的行为轨迹按时间片进行切割,得到连续的时间片中的第一个活动组成的时间序列;
具体过程为,获取待测大学生的历史行为数据,并根据所获取的待测大学生的历史行为数据,得到待测大学生在校的行为轨迹;其中,待测大学生的历史行为数据包括但不限于一卡通消费行为数据、选课行为数据和图书馆的利用记录行为数据;
给定待测大学生在校期间某一天的基于时间的活动序列seq(c),并定义语义轨迹是关于sem(s)(c)=<(t1,p1),……,(tn,pn)>的序列;其中,ti<tj表示第i个时间片,且ti<tj(i<j);pi表示为待测大学生的活动序列中的第i个位置;c表示为待测大学生;sem(s)(c)表示为活动序列seq(c)切割后组成的序列;应当说明的是,由于待测大学生的活动序列的复杂性,需要将sem(s)(c)序列进行降维处理;
依据所定义的语义轨迹,将所得到的待测大学生在校的行为轨迹按时间片进行切割,并得到连续的时间片中的第一个活动组成的时间序列。
在本发明实施例中,通过收集待测大学生在不同地点的行为数据,包括一卡通消费行为、大学生的选课课表、图书馆的利用记录等等行为数据,并通过提取基于统计的特征(规律的行为模式),如频率特征,刷卡次数等方式来确定待测大学生在校的行为轨迹。一卡通消费行为可以基本判定大学生的用餐习惯和饮食规律程度,选课课表表示大学生的上课情况,图书馆的利用记录侧面反映了大学生在获得知识上的用功程度,大学生在校的行为轨迹则反映了大学生的日常作息、周期的行为模式和独特的生活习惯等。
由于大量的多来源行为数据已经积累,难以有效地提取有价值的信息。为了使得这些行为轨迹有意义,且具有规范性,需要将其编码成具有统一规范的离散符号的基于时间的行为轨迹序列,通过以多角度的方式利用其复杂的在校行为来反映大学生学业预警状况的因素。
在本发明实施例中,使用预定义的阈值Δt来划分原始序列中的行为轨迹,产生新的语义序列S:其中,Δt是两个相邻活动之间的最大的活动时长。其中,包含两个约束条件:Δt确保时间上的连续性;语义约束确保语义上的一致性。
上述操作,通过将不同的地点等信息转化为粗粒度的地点类别信息,并将大学生原始活动的地理位置信息转化为带有不同语义的语义轨迹信息,大大的简化了分析大学生行为轨迹的难度,更有利于发现有意义的行为轨迹,行为轨迹的定义如下:
以某位大学生为例,其部分行为轨迹示例如下表1所示;其中,每一行代表一条行为轨迹,如第2条记录表示某位大学生从宿舍出发,然后在餐厅等地点进行一卡通消费行为,接着,在教学楼进行上课行为,最后,回到宿舍。第2 条记录说明该大学生从宿舍出发,经过Δt小时,进行一卡通消费行为,接着再经过Δt小时,在教学楼进行上课行为,最后,再经过Δt小时,回到宿舍。
表1
序列ID | 行为轨迹 |
1 | 宿舍→宿舍 |
2 | 宿舍→餐厅→教学楼→宿舍 |
3 | 宿舍→餐厅→图书馆→宿舍 |
…… | …… |
步骤S2、在所得到连续的时间片中的第一个活动组成的时间序列中,利用预设基于压缩时间片序列的频繁序列模式挖掘算法,找到待测大学生最感兴趣的前k个行为轨迹;其中,k为正整数;
具体过程为,提出一种挖掘频繁序列模式算法—基于压缩时间片序列的频繁序列模式挖掘算法(Frequent Sequential Pattern Mining Algorithm Based on theCompression Time Slice Sequences,以下简称FSPC算法)。该算法的主要思想是,首先将行为轨迹进行压缩,其次对压缩后的行为轨迹序列进行频繁序列模式的挖掘,并判断是否满足本算法的连接条件,若满足条件,则进行连接步骤,否则不进行相对应的连接步骤。具体步骤如下:
步骤S21、根据连续的时间片中的第一个活动组成的时间序列,生成第一序列数据库Seq={s1,s2,……,sn},并对所述第一序列数据库Seq执行对齐算法,生成第二序列数据库Seq(d)={d1.d2,……,dm};其中,n表示所述第一序列数据库 Seq的记录条数;m表示所述第二序列数据库Seq(d)的记录条数;si表示第i个连续的时间片中的第一个活动组成的时间序列;
步骤S22、对所述第二序列数据库Seq(d)执行压缩算法,生成第三序列数据库CompressedSeq,并增加权值数组SE;
步骤S24、扫描所述第三序列数据库CompressedSeq,得到所述第三序列数据库CompressedSeq中每一项的支持度计数,并从所述第三序列数据库 CompressedSeq中筛选出支持度计数大于预设的最小支持度min_support的项来形成第一频繁集L1,且进一步对所述第三序列数据库CompressedSeq进行剪枝,删除序列长度为1和序列长度小于所述最小支持度min_support的序列,得到第一频繁序列D1;
步骤S25、设置计数器初始值等于2,并设置当前待连接操作的频繁项集初始为所述第一频繁项集L1,以及当前待剪枝的频繁序列初始为所述第一频繁序列D1;
步骤S26、获取当前计数器的值、当前待连接操作的频繁项集以及当前待剪枝的频繁序列,并判断所获取的当前待剪枝的频繁序列的行数是否大于当前计数器加1后的值;如果是,则执行下一步骤S27;如果否,则跳转至步骤S30;
步骤S27、根据预设的频繁序列模式挖掘连接算法,对当前待连接操作的频繁项集进行连接操作,得到连接操作后的频繁项集及其所含各项的支持度计数,且进一步在所得到的连接操作后的频繁项集中,筛选出支持度计数大于预设的最小支持度min_support的项来生成下一个频繁项集;
步骤S28、根据所生成的下一个频繁项集,对当前待剪枝的频繁序列进行剪枝,通过删除序列长度等于当前计数器的值和序列长度小于所述最小支持度 min_support的序列,得到下一个频繁序列;
步骤S29、对所述下一个频繁项集及其前面所有得到的频繁项集按照支持度计数从大到小的顺序进行排序,并取排序后的前k个位置的项形成新的待连接操作的频繁项集,以及取所得到的下一个频繁序列作为新的待剪枝的频繁序列,且进一步将当前计数器的值加1后,返回步骤S26;
步骤S30、如果否,则结束计算,输出所述第一频繁项集L1至第k个频繁项集Lk各自对应的支持度计数并按照从大到小的顺序进行排序,且进一步取排序后的前k个位置的数据为待测大学生最感兴趣的前k个行为轨迹。
在本发明实施例中,步骤S21中“对第一序列数据库Seq执行对齐算法”的具体步骤包括:
步骤41、获取所述第一序列数据库Seq={s1,s2,……,sn},并初始化第二序列数据库Seq(d)为空;
步骤42、令i=1;
步骤43、判断i是否小于n;如果是,则执行下一步骤44;如果否,则跳转至步骤46;
步骤44、在所述第一序列数据库Seq中提取序列si,若检测到序列si的长度等于11时,将序列si插入对齐的第二序列数据库Seq(d)中;反之,若检测到序列si的长度小于11时,进行左对齐操作,剩余位补0,将处理后的序列si插入对齐的第二序列数据库Seq(d)中;
步骤45、令i=i+1后,返回步骤43;
步骤46、算法终止,得到所述第二序列数据库Seq(d)={d1.d2,……,dm}并输出。
在本发明实施例中,步骤S22中“对第二序列数据库Seq(d)执行压缩算法”的具体步骤包括:
步骤51、初始化第三序列数据库CompressedSeq为空,并扫描所述第二序列数据库Seq(d)={d1.d2,……,dm};
步骤52、令q=1;
步骤53、判断q是否小于m;如果是,则执行下一步骤54;如果否,则跳转至步骤56;
步骤54、若所述第二序列数据库Seq(d)中的第j个字符与CompressedSeq 中的第j个字符完全相同,则将所述第二序列数据库Seq(d)中的第q条记录删除,并将所述第三序列数据库CompressedSeq中对应第q条记录的SE值加1;若所述第二序列数据库Seq(d)中的第j个字符与CompressedSeq中的第j个字符不同,则将所述第二序列数据库Seq(d)中的第q条记录添加到所述第三序列数据库 CompressedSeq中,并令SE=1;
步骤55、令q=q+1后,返回步骤53;
步骤56、算法结束,得到最终的第三序列数据库CompressedSeq并输出。
在本发明实施例中,步骤S27的具体步骤包括:
步骤61、获取当前待连接操作的频繁项集及当前待剪枝的频繁序列,并初始化下一个频繁项集为空;
步骤62、令x=0,y=x+1;
步骤63、判断x是否小于当前待剪枝的频繁序列的列数C;如果是,则执行下一步骤64;如果否,则跳转至步骤67;
步骤64、从当前待剪枝的频繁序列中提取对应y位置序列进行连接,并计算y位置序列的支持度计数;
步骤65、若y位置序列的支持度计数大于所述最小支持度min_support,则将y位置序列的支持度计数增加到下一个频繁项集中;反之,则直接丢弃;
步骤66、令x=x+1后,返回步骤63;
步骤67、算法结束,得到下一个频繁项集并输出。
应当说明的是,步骤S2可以采用下表2的机器语言方式来描述,步骤S21 中的对齐算法可以采用下表3的机器语言方式来描述,步骤S22中的压缩算法可以采用下表4的机器语言方式来描述,步骤S27中的频繁序列模式挖掘连接算法可以采用下表5的机器语言方式来描述。
表2
表3
表4
表5
步骤S3、基于所找到的待测大学生最感兴趣的前k个行为轨迹,训练出成绩预测模型,并基于SVM算法对所述成绩预测模型进行预测计算,得到待测大学生的毕业概率。
具体过程为,基于所找到的待测大学生最感兴趣的前k个行为轨迹,训练出成绩预测模型,并通过获取待测大学生其它时间段的历史行为数据,利用支持向量机SVM算法得到待测大学生的毕业概率。由于训练出成绩预测模型以及支持向量机SVM算法比较常用,在此不再赘述。
如图2至图3所示,对本发明实施例中的大学生行为数据分析及学业预警方法的应用场景做进一步说明:
以H校为例,提取H校2012级大学生在校期间前两学年的所有数据,包含学生基本信息表、整合表、基于时间的序列模式数据、行为轨迹数据,这里以一位学生的行为数据为例,对所有学生都进行相同操作。
图2为H大学2012级某位学生的行为数据,该行为数据经过数据预处理后得到第一序列数据库,如图3所示。
在图3中,共有15条记录,设定最小支持度阈值为0.05,所以,最小支持度为0.05×15=0.75≈1,本次实验取前5个最频繁序列。经过对齐和压缩操作后的实验数据如下表6所示。
表6
1、求第一频繁项集L1。扫描表6中的序列矩阵,计算每一项的支持度计数 (0除外),得到的结果如下表7所示。从表7中的支持度计数可以看出,支持度计数大于1的项有1、2、3、4、5,得到第一频繁项集L1为{1、2、3、4、5}。
表7
2、剪枝,删除序列长度为1的序列。要查找第二频繁项集L2,那么序列的长度必须不小于2,所以,序列长度为1的序列明显不符合该条件。而表6中, ID为1的序列的长度为1,所以删除该条序列,得到第一频繁序列D1。
3、连接生成第二频繁项集L2。对第一频繁序列D1中的项,按照顺序进行连接条件的判断,如果符合连接条件,则进行连接;如果不符合连接条件,则进行下一项的连接条件的判断。
本实验中的数据符合连接条件,连接结果为下表8所示。表8中,不小于最小支持度的项有11,13,14,15,21,22,23,31,54,L2为{11,13,14, 15,21,22,23,31,54}。
表8
4、剪枝,删除序列长度为2的序列和小于最小支持度的序列。即再删除表6中,ID为2和5的序列,得到第二频繁序列D2。
5、对频繁项集进行排序。根据支持度计数,对第二频繁项集L2按照从大到小的顺序进行排序,然后将排序在前5个位置的数据,进行下一步连接操作,排序结果为{11,21,13,14,15,22,23,31,54}。
6、连接生成第三频繁项集L3。根据上一步生成的排序结果,将第二频繁项集L2的前5个进行连接操作,连接结果为表9所示。表9中,不小于最小支持度阈值的项有111,211,213,131,154,L3为{111,211,213,131,154}。
表9
7、剪枝,删除序列长度为3的序列和小于最小支持度的序列。即再删除表6中,ID为3、4、6和8的序列,得到第三频繁序列D3。
8、对频繁项集进行排序。根据支持度计数,对第三频繁项集L3按照从大到小的顺序进行排序,然后将排序在前5个位置的数据,进行下一步连接操作,排序结果为{211,111,213,131,154}。根据支持度计数,对第一频繁项集L1~第三频繁项集L3按照从大到小的顺序进行排序,只取前5个最频繁项集,排序结果为{1,2,11,21,211}。
9、连接生成第四频繁项集L4。根据上一步生成的排序结果,将第三频繁项集L3的前5个进行连接操作,连接结果为:除Support(2131)=1外,其余均为0。故不小于最小支持度的只有项有2131,第四频繁项集L4为{2131}。
10、剪枝,删除序列长度为4的序列和小于最小支持度的序列。即再删除表6中,ID为7的序列,得到第四频繁序列D4。
11、对频繁项集进行排序。由于第四频繁项集L4中只有一个频繁项集,所以对第四频繁项集L4的排序结果为{2131}。根据支持度计数,对第一频繁项集 L1~第四频繁项集L4按照从大到小的顺序进行排序,只取前5个最频繁项集,排序结果为{1,2,11,21,211}。最终,算法输出的前k个最频繁序列为(1、2、 11、21、211)。
12、根据前k个最频繁序列为(1、2、11、21、211),训练出成绩预测模型,并基于SVM算法利用其它时间段的历史行为数据对成绩预测模型进行预测计算,得到待测大学生的毕业概率。
实施本发明实施例,具有如下有益效果:
本发明基于大学生的历史行为数据,得到大学生在校的行为轨迹,并采用基于压缩时间片序列中的频繁序列模式挖掘出大学生在校行为轨迹来做出学业预警,使数据挖掘算法更具有高效性及准确性。。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (6)
1.一种大学生行为数据分析及学业预警方法,其特征在于,包括以下步骤:
步骤S1、获取待测大学生的历史行为数据,并根据所获取的待测大学生的历史行为数据,得到待测大学生在校的行为轨迹,且进一步将所得到的待测大学生在校的行为轨迹按时间片进行切割,得到连续的时间片中的第一个活动组成的时间序列;
步骤S2、在所得到连续的时间片中的第一个活动组成的时间序列中,利用预设基于压缩时间片序列的频繁序列模式挖掘算法,找到待测大学生最感兴趣的前k个行为轨迹;其中,k为正整数;
步骤S3、基于所找到的待测大学生最感兴趣的前k个行为轨迹,训练出成绩预测模型,并基于SVM算法对所述成绩预测模型进行预测计算,得到待测大学生的毕业概率。
2.如权利要求1所述的大学生行为数据分析及学业预警方法,其特征在于,所述步骤S1具体包括:
获取待测大学生的历史行为数据,并根据所获取的待测大学生的历史行为数据,得到待测大学生在校的行为轨迹;其中,所述历史行为数据包括一卡通消费行为数据、选课行为数据和图书馆的利用记录行为数据;
给定待测大学生在校期间某一天的基于时间的活动序列seq(c),并定义语义轨迹是关于sem(s)(c)=<(t1,p1),……,(tn,pn)>的序列;其中,ti<tj表示第i个时间片,且ti<tj(i<j);pi表示为待测大学生的活动序列中的第i个位置;c表示为待测大学生;sem(s)(c)表示为活动序列seq(c)切割后组成的序列;
依据所定义的语义轨迹,将所得到的待测大学生在校的行为轨迹按时间片进行切割,并得到连续的时间片中的第一个活动组成的时间序列。
3.如权利要求1所述的大学生行为数据分析及学业预警方法,其特征在于,所述步骤S2具体步骤包括:
步骤S21、根据连续的时间片中的第一个活动组成的时间序列,生成第一序列数据库Seq={s1,s2,……,sn},并对所述第一序列数据库Seq执行对齐算法,生成第二序列数据库Seq(d)={d1.d2,……,dm};其中,n表示所述第一序列数据库Seq的记录条数;m表示所述第二序列数据库Seq(d)的记录条数;si表示第i个连续的时间片中的第一个活动组成的时间序列;
步骤S22、对所述第二序列数据库Seq(d)执行压缩算法,生成第三序列数据库CompressedSeq,并增加权值数组SE;
步骤S24、扫描所述第三序列数据库CompressedSeq,得到所述第三序列数据库CompressedSeq中每一项的支持度计数,并从所述第三序列数据库CompressedSeq中筛选出支持度计数大于预设的最小支持度min_support的项来形成第一频繁集L1,且进一步对所述第三序列数据库CompressedSeq进行剪枝,删除序列长度为1和序列长度小于所述最小支持度min_support的序列,得到第一频繁序列D1;
步骤S25、设置计数器初始值等于2,并设置当前待连接操作的频繁项集初始为所述第一频繁项集L1,以及当前待剪枝的频繁序列初始为所述第一频繁序列D1;
步骤S26、获取当前计数器的值、当前待连接操作的频繁项集以及当前待剪枝的频繁序列,并判断所获取的当前待剪枝的频繁序列的行数是否大于当前计数器加1后的值;如果是,则执行下一步骤S27;如果否,则跳转至步骤S30;
步骤S27、根据预设的频繁序列模式挖掘连接算法,对当前待连接操作的频繁项集进行连接操作,得到连接操作后的频繁项集及其所含各项的支持度计数,且进一步在所得到的连接操作后的频繁项集中,筛选出支持度计数大于预设的最小支持度min_support的项来生成下一个频繁项集;
步骤S28、根据所生成的下一个频繁项集,对当前待剪枝的频繁序列进行剪枝,通过删除序列长度等于当前计数器的值和序列长度小于所述最小支持度min_support的序列,得到下一个频繁序列;
步骤S29、对所述下一个频繁项集及其前面所有得到的频繁项集按照支持度计数从大到小的顺序进行排序,并取排序后的前k个位置的项形成新的待连接操作的频繁项集,以及取所得到的下一个频繁序列作为新的待剪枝的频繁序列,且进一步将当前计数器的值加1后,返回步骤S26;
步骤S30、如果否,则结束计算,输出所述第一频繁项集L1至第k个频繁项集Lk各自对应的支持度计数并按照从大到小的顺序进行排序,且进一步取排序后的前k个位置的数据为待测大学生最感兴趣的前k个行为轨迹。
4.如权利要求3所述的大学生行为数据分析及学业预警方法,其特征在于,所述步骤S21中“对所述第一序列数据库Seq执行对齐算法”的具体步骤包括:
步骤41、获取所述第一序列数据库Seq={s1,s2,……,sn},并初始化第二序列数据库Seq(d)为空;
步骤42、令i=1;
步骤43、判断i是否小于n;如果是,则执行下一步骤44;如果否,则跳转至步骤46;
步骤44、在所述第一序列数据库Seq中提取序列si,若检测到序列si的长度等于11时,将序列si插入对齐的第二序列数据库Seq(d)中;反之,若检测到序列si的长度小于11时,进行左对齐操作,剩余位补0,将处理后的序列si插入对齐的第二序列数据库Seq(d)中;
步骤45、令i=i+1后,返回步骤43;
步骤46、算法终止,得到所述第二序列数据库Seq(d)={d1.d2,……,dm}并输出。
5.如权利要求3所述的大学生行为数据分析及学业预警方法,其特征在于,所述步骤S22中“对所述第二序列数据库Seq(d)执行压缩算法”的具体步骤包括:
步骤51、初始化第三序列数据库CompressedSeq为空,并扫描所述第二序列数据库Seq(d)={d1.d2,……,dm};
步骤52、令q=1;
步骤53、判断q是否小于m;如果是,则执行下一步骤54;如果否,则跳转至步骤56;
步骤54、若所述第二序列数据库Seq(d)中的第j个字符与CompressedSeq中的第j个字符完全相同,则将所述第二序列数据库Seq(d)中的第q条记录删除,并将所述第三序列数据库CompressedSeq中对应第q条记录的SE值加1;若所述第二序列数据库Seq(d)中的第j个字符与CompressedSeq中的第j个字符不同,则将所述第二序列数据库Seq(d)中的第q条记录添加到所述第三序列数据库CompressedSeq中,并令SE=1;
步骤55、令q=q+1后,返回步骤53;
步骤56、算法结束,得到最终的第三序列数据库CompressedSeq并输出。
6.如权利要求3所述的大学生行为数据分析及学业预警方法,其特征在于,所述步骤S27的具体步骤包括:
步骤61、获取当前待连接操作的频繁项集及当前待剪枝的频繁序列,并初始化下一个频繁项集为空;
步骤62、令x=0,y=x+1;
步骤63、判断x是否小于当前待剪枝的频繁序列的列数C;如果是,则执行下一步骤64;如果否,则跳转至步骤67;
步骤64、从当前待剪枝的频繁序列中提取对应y位置序列进行连接,并计算y位置序列的支持度计数;
步骤65、若y位置序列的支持度计数大于所述最小支持度min_support,则将y位置序列的支持度计数增加到下一个频繁项集中;反之,则直接丢弃;
步骤66、令x=x+1后,返回步骤63;
步骤67、算法结束,得到下一个频繁项集并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005603.3A CN109828997A (zh) | 2019-01-03 | 2019-01-03 | 一种大学生行为数据分析及学业预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005603.3A CN109828997A (zh) | 2019-01-03 | 2019-01-03 | 一种大学生行为数据分析及学业预警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109828997A true CN109828997A (zh) | 2019-05-31 |
Family
ID=66861577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910005603.3A Withdrawn CN109828997A (zh) | 2019-01-03 | 2019-01-03 | 一种大学生行为数据分析及学业预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109828997A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555459A (zh) * | 2019-07-24 | 2019-12-10 | 四川大学 | 基于模糊聚类和支持向量回归的成绩预测方法 |
CN110610094A (zh) * | 2019-07-25 | 2019-12-24 | 温州医科大学 | 一种基于区块链的高校数据增量治理系统 |
CN110852390A (zh) * | 2019-11-13 | 2020-02-28 | 山东师范大学 | 一种基于校园行为序列的学生成绩分类预测方法及系统 |
CN110993102A (zh) * | 2019-11-18 | 2020-04-10 | 温州医科大学 | 一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统 |
CN112184241A (zh) * | 2020-09-27 | 2021-01-05 | 中国银联股份有限公司 | 一种身份认证的方法及装置 |
CN112668750A (zh) * | 2020-11-25 | 2021-04-16 | 紫光云技术有限公司 | 一种基于行为时序权重的分布式FP-Growth成绩预警模型 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631949A (zh) * | 2013-12-11 | 2014-03-12 | 中国科学院计算技术研究所 | 一种社交网络数据采集方法及系统 |
CN107194584A (zh) * | 2017-05-23 | 2017-09-22 | 武汉朱雀闻天科技有限公司 | 一种学生数据的分析方法及装置 |
-
2019
- 2019-01-03 CN CN201910005603.3A patent/CN109828997A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631949A (zh) * | 2013-12-11 | 2014-03-12 | 中国科学院计算技术研究所 | 一种社交网络数据采集方法及系统 |
CN107194584A (zh) * | 2017-05-23 | 2017-09-22 | 武汉朱雀闻天科技有限公司 | 一种学生数据的分析方法及装置 |
Non-Patent Citations (1)
Title |
---|
暴延敏: "基于大学生行为分析的学业预警方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555459A (zh) * | 2019-07-24 | 2019-12-10 | 四川大学 | 基于模糊聚类和支持向量回归的成绩预测方法 |
CN110610094A (zh) * | 2019-07-25 | 2019-12-24 | 温州医科大学 | 一种基于区块链的高校数据增量治理系统 |
CN110610094B (zh) * | 2019-07-25 | 2020-06-30 | 温州医科大学 | 一种基于区块链的高校数据增量治理系统 |
CN110852390A (zh) * | 2019-11-13 | 2020-02-28 | 山东师范大学 | 一种基于校园行为序列的学生成绩分类预测方法及系统 |
CN110993102A (zh) * | 2019-11-18 | 2020-04-10 | 温州医科大学 | 一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统 |
CN112184241A (zh) * | 2020-09-27 | 2021-01-05 | 中国银联股份有限公司 | 一种身份认证的方法及装置 |
CN112184241B (zh) * | 2020-09-27 | 2024-02-20 | 中国银联股份有限公司 | 一种身份认证的方法及装置 |
CN112668750A (zh) * | 2020-11-25 | 2021-04-16 | 紫光云技术有限公司 | 一种基于行为时序权重的分布式FP-Growth成绩预警模型 |
CN112668750B (zh) * | 2020-11-25 | 2023-07-07 | 紫光云技术有限公司 | 一种基于行为时序权重的分布式FP-Growth成绩预警模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109828997A (zh) | 一种大学生行为数据分析及学业预警方法 | |
Laube et al. | Discovering relative motion patterns in groups of moving point objects | |
CN107193967A (zh) | 一种多源异构行业领域大数据处理全链路解决方案 | |
CN108509517B (zh) | 一种面向实时新闻内容的流式话题演化跟踪方法 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
CN111950708B (zh) | 一种发现大学生日常生活习惯的神经网络结构与方法 | |
Kim et al. | Through 100 years of Ecological Society of America publications: development of ecological research topics and scientific collaborations | |
Zhang | Application of data mining technology in digital library. | |
Manos et al. | A taxonomy survey of decision support systems in agriculture | |
Chang | Hakka genealogical migration analysis enhancement using big data on library services | |
Wang et al. | The construction and empirical analysis of the company’s financial early warning model based on data mining algorithms | |
Winther | Mapping kinds in GIS and cartography | |
Dao et al. | CrimeScape: Analysis of socio-spatial associations of urban residential motor vehicle theft | |
Ceri et al. | Towards mega-modeling: a walk through data analysis experiences | |
Battle et al. | What Do We Mean When We Say “Insight”? A Formal Synthesis of Existing Theory | |
Kelly | Migration, agrarian transition, and rural change in Southeast Asia | |
CN107967338A (zh) | 一种个人日常行为数据的多维分析方法 | |
Hu et al. | Research on smart education service platform based on big data | |
Boughouas et al. | Towards a Big Educational Data Analytics | |
Alzua-Sorzabal et al. | Using MWD: A business intelligence system for tourism destination web | |
Zhao et al. | Logistic regression analysis of targeted poverty alleviation with big data in mobile network | |
Seebacher | Visual Analytics of Spatial Events: Methods for the Interactive Analysis of Spatio-Temporal Data Abstractions | |
Siddiqui et al. | Discovery of scalable association rules from large set of multidimensional quantitative datasets | |
Maia et al. | TweeProfiles3: visualization of spatio-temporal patterns on Twitter | |
Fadli et al. | Implementation of Data Mining on Tourist Visits Patterns on Lombok Island Tourism Objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190531 |