CN112416914B - 一种基于大数据分析的困难学生认定及预警方法及系统 - Google Patents

一种基于大数据分析的困难学生认定及预警方法及系统 Download PDF

Info

Publication number
CN112416914B
CN112416914B CN202011103664.2A CN202011103664A CN112416914B CN 112416914 B CN112416914 B CN 112416914B CN 202011103664 A CN202011103664 A CN 202011103664A CN 112416914 B CN112416914 B CN 112416914B
Authority
CN
China
Prior art keywords
data
students
student
early warning
difficult
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011103664.2A
Other languages
English (en)
Other versions
CN112416914A (zh
Inventor
李孟凡
冯甘雨
郑伯涛
周晨
张驰
任权
舒凡娣
吴昶
胡祁敏
唐天意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202011103664.2A priority Critical patent/CN112416914B/zh
Publication of CN112416914A publication Critical patent/CN112416914A/zh
Application granted granted Critical
Publication of CN112416914B publication Critical patent/CN112416914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Educational Technology (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大数据分析的困难学生认定及预警方法及系统,根据校内学生经济、生活、学习信息数据库数据以及学生社交网络言论、动态等数据的综合分析来判断学生是否存在困难以及学生困难程度如何,本发明减轻了在认定困难学生的过程中,处理学生经济相关数据的系统压力,并提高了对学生真实经济状况进行判断时的合理性与准确度。

Description

一种基于大数据分析的困难学生认定及预警方法及系统
技术领域
本发明涉及教育数据处理领域,特别是一种基于大数据分析的困难学生认定及预警方法及系统。
背景技术
教育数据作为大数据分支下的重要组成部分,对于了解学生基本情况,帮助学生更好地学习、成长和生活具有重大意义。对于很多高校来说,它们需要一种可以帮助解决扶困问题的学生管理系统,来保证困难学生的教育质量不受贫困问题影响。目前高校困难学生的传统认定方式主要依托学生填写的《高等学校学生及家庭情况调查表》,调查表信息主要来源于生源所在地的地市州,乡镇和民政办事处。但是由于具体家庭收入信息不透明、家庭信息不对称,同时需要还考虑到困难学生的实时经济情况,认定过程主要依托于学生申请、班级评定小组商讨、学院学校审核。总结而言,作为教育行业的一个垂直细分领域,针对高校困难学生的判定及预警工作存在着感性、模糊因素较多而导致工作系统性、科学性不足,数据收集、管理、分析、应用智能化程度低导致工作质量、效率不高的缺陷。为解决上述问题,现阶段已有一种基于学生一卡通的数据分析方法,即通过高校大学生的一卡通数据提取学生在校消费水平,并结合学生信息平台的相关家庭信息进行建模,分析出相应结果。但是该方法的分析工作范围仅仅在于一个学校或者一个地区,同时采集的数据来源极其有限,所能反应的信息不够全面。学生的一些校外消费信息未能及时掌握,数据准确性得不到有效保障。并且未能实现经济情况的预警工作,对资助等级的认定不具有指导意义。
中国专利CN106484844B“大数据挖掘方法及系统”提供了一种大数据挖掘系统,此系统可以从数据库中提取数据挖掘的目的数据集,并可以对目标数据集进行预处理。根据数据的功能类型和数据特点对经过预处理的目标数据进行数据挖掘得到数据结果并进行针对性的分析。将大数据挖掘系统运用到困难学生的预警之中,将其与学生的学习、经济、生活等信息数据库相链接,获得学生在学校内的各方面数据,挖掘出有用的信息并做出合理的分析,从而切实反应出学生在校的情况,进而判断学生的经济、生活状况,更加高效且准确地分辨出有困难的学生。但该系统仅能实现对已记录数据的获取与分析,学生校内真实的经济生活情况可能与数据结果不相吻合,需要结合诸如学生的日常行为表现、言论等综合判断。
中国专利CN105447113B“一种基于大数据的信息分析方法”提供了一种基于大数据的信息分析方法,根据用户输入的资源进行网络搜索,获得大数据资源。通过过滤服务器对大数据资源进行过滤,将过滤后的大数据资源发送至数据分析服务器进行大数据分析,最后将数据进行分类存储,形成图标进行展示。在学生社交网络上的各种言论、动态等运用大数据的信息分析方法进行过滤,筛查出学生与经济有关的动态,了解到学生的社交情况,并更进一步地走近学生的生活。随后对这些与经济相关的社交信息加以分析,更进一步地知晓学生经济的真实情况,从而更加精准地评估出有困难的学生。但该方法是根据信息出现频率情况来进行数据划分的,学生在社交网络中的与经济、消费的言论信息按照出现次数来判断是不合适的。较为合理的方法应该是在挖掘分析出学生在社交网络中与经济相关言论所体现的经济情况的基础上,结合学生校内经济消费数据综合地分析判断,通过和学生在校内具体的消费情况进行对比,减少了社交言论中的偶然情况对学生的经济状况分析带来的影响,从而让得出更准确的结论。
文章“家庭经济困难学生认定模式及其策略研究”中提出了一种困难学生的等级划分方案,即把困难学生分为困难型和特别困难型两种。将困难的学生按照其自身经济、生活数据进行区分细化,提供不同的资助方案,通过细化困难学生的分类,从而能够在给困难型学生提供足够的资助的同时,给特别困难型的学生提供更大的帮助,进而更有针对性地落实资源分配。但如何将学生困难情况细化后认定该学生的困难程度,文献中没有提出具体方法。文献[4]中提出了采用Pearson相关性分析和k-means算法对困难学生的一卡通消费数据进行分析,并根据全体学生消费数据划出正常消费额区间,把学生消费额的正常区间作为评判困难学生的一个标准,更加直观地评估学生的困难情况,在一定程度上简化了评估困难学生的过程。对异常离群值进行决策后发出预警,便可以初步筛选出可能的困难学生。利用此方法,即可利用本学校的所有学生的在校内一卡通消费情况计算出本校学生的平均消费水平,从而能够较快的初步筛选出疑似存在困难的学生。此方法虽然考虑了诸多与学生经济情况相关的数据,但是由于个体差异,学生的非经济类数据(如交易天数等)应属于次要考虑项,主要考虑项应是诸如消费金额等经济类数据。
基于上述内容,结合专利本身的进步性,以学生的经济数据作为基础,把捕捉新型网络数据的优势最大化,同时利用完整的结构排布构建模型,基于大数据将管理系统创新化、现代化,设计了一种基于大数据分析的困难学生认定及预警系统,以解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于大数据分析的困难学生认定及预警方法及系统,采用模糊数序模式识别模型的技术手段解决在认定困难学生的过程中学生多源异构数据处理难的问题。
为解决上述技术问题,本发明所采用的技术方案是:一种基于大数据分析的困难学生认定及预警方法,包括如下步骤:
S1.采集学生的综合数据,获得学生的校内系统数据和社交网络的公开数据;
S2.对步骤S1中采集的数据进行清洗,得到更有针对性的数据,并简化对数据的转换运算。最后整合形成该学生信息结构表;
S3.将数据存储于特定位置,将该学生信息结构表中的数据存入相应数据节点,并在所创建的特定文件夹中保存,对学生数据进行一一对应的存储;
S4.对数据进行筛选,选取不同指标作为数据中心进行数据分离;
S5.进行数据挖掘,构建数据挖掘模型,分离出经济类数据集N,对学生的经济状况进行判断分类;
S6.建立预警模型,根据不同学生的经济状态进行模型分类,触发分类预警。
优选的方案中,步骤S1包括如下步骤:
S11.获取学生在校的数据和社交网络的公开数据;
S12.提取学生的基本信息、成绩信息、考勤信息、家庭收入信息、消费信息和社交信息。
优选的方案中,步骤S2包括如下步骤:
S21.利用记录去重、离群点隔离、缺失值替换方法处理原始数据集中的缺失值和离群点;
S22.根据挖掘模型输入的需要,对必要的数据类型进行转换;
S23.对数据集进行特征选择,在保持数据挖掘模型性能的同时减少属性的数目;
S24.形成该学生信息结构表M。
优选的方案中,步骤S3包括如下步骤:
S31.将该学生信息结构表中的数据存入相应数据节点;
S32.在所创建的特定文件夹中保存,对学生数据进行一一对应的存储,用于对对数据进行流式地高效访问。
优选的方案中,步骤S4包括如下步骤:
S41.设定学生信息结构表M中所有对象的平均距离为
Figure BDA0002726231090000041
其中以xi为学生的基本信息和校园生活记录数据,xj为平均校园卡消费状况,线性规划出所有对象的平均距离;
再对学生信息结构表M中所有对象设立平均密度:
Figure BDA0002726231090000042
以平均校园卡消费状况xj作为聚类中心,设定聚类类别为两类:经济类数据、非经济类数据。利用各类数据与聚类中心的欧式距离,再结合平方准则误差函数分离出两类数据,在一定程度上避免了聚类结果陷入局部解的现象。
其中欧式距离为:
d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+……] (3)
平方准则误差函数为
Figure BDA0002726231090000043
优选的方案中,步骤S5包括如下步骤:
S51.建立模糊数学模式识别模型,将高校学生经济分为四种类型,得到A良好型、B正常型、C困难型和D特别困难型;
S52.根据模糊数学识别模型以及经济类数据集N确定学生隶属度等级分别对应A、B、C、D四种,以n个影响因子为例所示:
F=N×k×L (5)
k=(k1 k2……kn) (6)
N=(N1 N2……Nn) (7)
Figure BDA0002726231090000051
其中F为隶属度最终判别函数,k为n个影响因子的对应权重,N为经济类数据集中n个影响因子,L矩阵各个因子隶属于A、B、C、D四种分类等级。不同因子隶属度计算公式为:
Figure BDA0002726231090000052
S53.再根据择近原则判断归属模式A、B、C、D,取样本集四位标准良好型(A)、正常型(B)、较困难型(C)、困难型(D)作为样本代表,从而让所有的学生都归类于这四中类型并且确保所有的学生不同时归属于两个或者更多的类别;
S54.利用择近原则以及模糊集格贴近度公式进行学生经济异常等级隶属度判断:
设Ai,B∈F(U)(i=1,2,···,n),若存在i0,使:
N(Ai,B)=max{N(A1,B),N(A2,B),···,N(An,B)} (10)
其中,N(Ai,B)为B与Ai的贴近度。则认为B与Ai0最接近,即判定B与Ai0为一类,
现给出模糊集格贴近度公式为:
Figure BDA0002726231090000053
其中:
Figure BDA0002726231090000061
为模糊集A、B的内积。
其中:
Figure BDA0002726231090000062
为模糊集A、B的外积。
S55.判断出该学生属于哪一种经济状态,从而触发步骤S6中的某种预警模型。
优选的方案中,步骤S6中,当该学生的判断模型不为B等(正常型)时,触发分类预警;
当学生判断模型为A时,触发提醒程序,督促学生合理消费,理性消费;
当学生判断模型为C时,触发补助程序,提醒学生参与合适的助学金奖学金计划;当学生判断模型为D时,开启补助程序,时刻关注学生精神、生活动态,每月动态发放补助基金。
一种基于大数据分析的困难学生认定及预警系统,包括主控模块和人机交互界面,主控模块用于实现学生经济分级和经济分级预警;
人机交互界面用于数据交互,方便管理人员更好地操作管理该系统。
优选的方案中,主控模块包括数据采集模块、数据清洗模块、数据筛选模块、数据挖掘模块和预警判断模块,数据采集模块用于获取校内学生经济、生活、学习信息数据和学生社交网络言论、动态数据;
数据清洗模块用于剔除采集的无用缺失重复数据,并补充完整数据;
数据存储模块,用于通过HDFS容错分布式文件系统将完整数据存储在其中,方便后续调用;
数据筛选模块,用于对数据进行分类,简化后续的分析数据量,使得过程更加简练高效;
数据挖掘模块,用于对分离出不同类别的数据,建立模糊数学模式识别模型,识别出四类学生,即良好型、正常型、困难型、特别困难型,从而按照类别更好地进行相对应的资助;
预警判断模块,用于对已经分类好的四类经济状况学生进行分情况预警。
优选的方案中,通过人机交互索引设计,执行数据采集模块、数据清洗模块、数据筛选模块、数据挖掘模块和预警判断模块,通过人机交互界面清晰的实现结果数据可视化的过程,方便使用人员清晰明了显示该学生的经济分类等级以及预警措施。
本发明提供了一种基于大数据分析的困难学生认定及预警方法及系统,通过采用以上的方案,具有以下有益效果:
1、本发明通过对学生社交网络公开数据的采集在保障数据安全性的前提下进行多源异构海量数据的整合清理、分布式数据仓库的搭建,更加有效、安全的处理海量的教育大数据,将结构多样、内容繁杂的数据整理成统一格式,并去除其中的冗余数据,保证了数据质量,为数据分析工作提供可靠性支撑并提高了分析效率。
2、本发明同时建立了相关数据挖掘分析、预警模型,对多源数据进行合理整定,与相应的分析机制进行融合,更加高效准确的得出分析结果。
3.本发明建立模糊数序模式识别模型将高校学生经济分为四种类型,A(良好型)、B(正常型)、C(困难型)、D(特别困难型),便于实现学生困难预警和帮扶。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明中方法流程示意图;
图2为本发明中模块交互示意图;
图3为本发明中流程图形化示意图;
图4为本发明中人机交互界面示意图。
具体实施方式
实施例1:
一种基于大数据分析的困难学生认定及预警方法,包括如下步骤:
S1.采集学生的综合数据,获得学生的校内系统数据和社交网络的公开数据,进一步的,步骤S1包括如下步骤:
S11.获取学生在校的数据和社交网络的公开数据;
S12.提取学生的基本信息、成绩信息、考勤信息、家庭收入信息、消费信息和社交信息。
与学校的相关部门合作,获得学生在校的数据,主要采集内容为该学生教务系统数据、学工系统数据、后勤系统数据,同时用python中itchat库、selenium库抓取该学生微信朋友圈、新浪微博、QQ空间等社交网络的公开数据,从多个数据库动态提取学生的社交信息,进行分析,从而实时了解学生的生活状态,尽早发现可能有困难的学生,以及时对其进行资助。
S2.对步骤S1中采集的数据进行清洗,得到更有针对性的数据,并简化对数据的转换运算。最后整合形成该学生信息结构表。进一步的,步骤S2包括如下步骤:
S21.利用记录去重、离群点隔离、缺失值替换方法处理原始数据集中的缺失值和离群点;
S22.根据挖掘模型输入的需要,对必要的数据类型进行转换;
S23.对数据集进行特征选择,在保持数据挖掘模型性能的同时减少属性的数目;
S24.形成该学生信息结构表M。
在Rapidminer-Radoop工具中选择相应的算子,首先,在数据清洗阶段利用记录去重、离群点隔离、缺失值替换等方法处理原始数据集中的缺失值和离群点。其次,根据挖掘模型输入的需要,对必要的数据类型进行转换。接着对数据集进行特征选择,在保持数据挖掘模型性能的同时减少属性的数目。通过对数据的清洗,得到更有针对性的数据,并简化对数据的转换运算。最后整合形成该学生信息结构表,包含姓名、学号、性别、学院、各科学习成绩、各科考勤记录、家庭收入状况、学生校园卡消费记录、校园卡打卡地点纪律、医院就诊记录、社会(院系)活动参与记录等数据,计每一类数据为,将数据线性化,便于后续索引调用和分析记录。
S3.将数据存储于特定位置,将该学生信息结构表中的数据存入相应数据节点,并在所创建的特定文件夹中保存,对学生数据进行一一对应的存储。进一步的,步骤S3包括如下步骤:
S31.将该学生信息结构表中的数据存入相应数据节点;
S32.在所创建的特定文件夹中保存,对学生数据进行一一对应的存储,用于对对数据进行流式地高效访问。
利用HDFS容错式分布式文件系统将该学生信息结构表中的数据存入相应数据节点,并在所创建的特定文件夹中保存,对学生数据进行一一对应的存储,确保数据的安全。因为HDFS的设计建立在更多地响应“一次写入,多次读取”任务的基础之上,所以可以对数据进行流式地访问,从而使得数据的提取更加高效。
S4.对数据进行筛选,选取不同指标作为数据中心进行数据分离。进一步的,步骤S4包括如下步骤:
S41.设定学生信息结构表M中所有对象的平均距离为
Figure BDA0002726231090000091
其中以xi为学生的基本信息和校园生活记录数据,xj为平均校园卡消费状况,线性规划出所有对象的平均距离;
再对学生信息结构表M中所有对象设立平均密度:
Figure BDA0002726231090000092
以平均校园卡消费状况xj作为聚类中心,设定聚类类别为两类:经济类数据、非经济类数据。利用各类数据与聚类中心的欧式距离,再结合平方准则误差函数分离出两类数据,在一定程度上避免了聚类结果陷入局部解的现象。
其中欧式距离为:
d(xi,xj)=[(xi1-xj1)2+(xi2-xj2)2+……] (3)
平方准则误差函数为
Figure BDA0002726231090000093
首先选取经济相关指标作为数据中心,以平均校园卡消费状况作为分类中心,聚类个数选定2个,分为经济类数据和非经济类数据,由此在短时间内迅速分离出经济类数据。
S5.进行数据挖掘,构建数据挖掘模型,分离出经济类数据集N,对学生的经济状况进行判断分类。进一步的,步骤S5包括如下步骤:
S51.建立模糊数学模式识别模型,将高校学生经济分为四种类型,得到A良好型、B正常型、C困难型和D特别困难型;
S52.根据模糊数学识别模型以及经济类数据集N确定学生隶属度等级分别对应A、B、C、D四种,以n个影响因子为例所示:
F=N×k×L (5)
k=(k1 k2……kn) (6)
N=(N1 N2……Nn) (7)
Figure BDA0002726231090000101
其中F为隶属度最终判别函数,k为n个影响因子的对应权重,N为经济类数据集中n个影响因子,L矩阵各个因子隶属于A、B、C、D四种分类等级。不同因子隶属度计算公式为:
Figure BDA0002726231090000102
S53.再根据择近原则判断归属模式A、B、C、D,取样本集四位标准良好型(A)、正常型(B)、较困难型(C)、困难型(D)作为样本代表,从而让所有的学生都归类于这四中类型并且确保所有的学生不同时归属于两个或者更多的类别;
S54.利用择近原则以及模糊集格贴近度公式进行学生经济异常等级隶属度判断:
设Ai,B∈F(U)(i=1,2,···,n),若存在i0,使:
N(Ai,B)=max{N(A1,B),N(A2,B),···,N(An,B)} (10)
其中,N(Ai,B)为B与Ai的贴近度。则认为B与Ai0最接近,即判定B与Ai0为一类,
现给出模糊集格贴近度公式为:
Figure BDA0002726231090000103
其中:
Figure BDA0002726231090000104
为模糊集A、B的内积。
其中:
Figure BDA0002726231090000105
为模糊集A、B的外积。
S55.判断出该学生属于哪一种经济状态,从而触发步骤S6中的某种预警模型。
进行数据挖掘,分离出经济类数据集N包括:平均校园卡消费状况、总消费次数、日均消费金额、家庭变故情况、家庭收入情况、是否为独生子女、社交网络上学生有关经济的言论、图片、视频、群组记录等。根据经济类数据可大体分为3类:0/1数据(是非型)、数据型数据、动态文字程度型数据。对不同数据类型进行归一化处理,从而将多种经济相关的数据划分成了3大类数据,降低了需要处理的数据维度,让数据的挖掘更加直观,同时也简化了计算。接着分别设立不同权重ki作为影响因子,有k=(k1 k2……kn),在确保合理性的情况下对学生的经济状况进行分类判断。
由于学生困难的区分不是很明确,故选取不同方向的影响因子作为指标,建立一个模糊数序模式识别模型,再将现有数据带入计算,从而将数据转化为评估学生困难情况的指标,通过具体的数值来分析学生的困难状况,并对学生困难情况进行分类。
建立模糊数学模式识别模型,大致将高校学生经济分为四种类型,得到A(良好型),B(正常型),C(困难型),D(特别困难型)这一直观且形式简明的分类。
S6.建立预警模型,根据不同学生的经济状态进行模型分类,触发分类预警。进一步的,步骤S6中,当该学生的判断模型不为B等(正常型)时,触发分类预警;
当学生判断模型为A时,触发提醒程序,督促学生合理消费,理性消费;
当学生判断模型为C时,触发补助程序,提醒学生参与合适的助学金奖学金计划;当学生判断模型为D时,开启补助程序,时刻关注学生精神、生活动态,每月动态发放补助基金。
通过对不同学生的经济状态的判断,给每个学生经济状态赋予相应的等级,并针对性的对学生提出相对应的预警,从而让学生意识到自己需要合理消费或是自己能够参与助学金,奖学金活动等,让学生更正确地意识到自己的经济状况,从而自觉地减少不合理消费并在同时保证困难学生能够得到相应的资助,使得其教育质量不因贫困问题而产生影响。
通过人机交互索引设计,涵盖上述步骤1至步骤6,通过人机交互界面清晰的实现结果数据可视化的过程,方便使用人员清晰明了显示该学生的经济分类等级以及预警措施。包括数据收集、HDFS分布式文件储存、困难学生认定以及困难预警四大功能。
实施例2:
一种基于大数据分析的困难学生认定及预警系统,包括主控模块和人机交互界面,主控模块用于实现学生经济分级和经济分级预警;
人机交互界面用于数据交互,方便管理人员更好地操作管理该系统。
优选的方案中,主控模块包括数据采集模块、数据清洗模块、数据筛选模块、数据挖掘模块和预警判断模块.
数据采集模块用于获取校内学生经济、生活、学习信息数据和学生社交网络言论、动态数据,利用python中itchat库、selenium库、以及学校数据库权限抓取学生在校各项数据,从微信朋友圈、新浪微博、QQ空间等社交网络平台,以及学校的多个数据库等多个渠道进行数据的挖掘与采集,确保获取足够数量的数据。
数据清洗模块用于剔除采集的无用缺失重复数据,并补充完整数据;
数据存储模块,用于通过HDFS容错分布式文件系统将完整数据存储在其中,方便后续调用;
数据筛选模块,用于对数据进行分类,简化后续的分析数据量,使得过程更加简练高效。对海量数据进行分类,着重分为经济类数据和非经济类数据,因后续步骤着重分析研究经济类数据,故进行相应的分类可以简化后续的分析数据量,使得过程更加简练高效。
数据挖掘模块,用于对分离出不同类别的数据,建立模糊数学模式识别模型,识别出四类学生,即良好型、正常型、困难型、特别困难型,从而按照类别更好地进行相对应的资助;
预警判断模块,用于对已经分类好的四类经济状况学生进行分情况预警。
优选的方案中,通过人机交互索引设计,执行数据采集模块、数据清洗模块、数据筛选模块、数据挖掘模块和预警判断模块,通过人机交互界面清晰的实现结果数据可视化的过程,方便使用人员清晰明了显示该学生的经济分类等级以及预警措施。
和学校等相关部门沟通获取数据权限,采集教务系统数据、学工系统数据、后勤系统数据,然后使用python中itchat库、selenium库抓取学生微信朋友圈、新浪微博、QQ空间等社交网络公开数据,从多个渠道,动态获取实时言论信息,从而全方面地了解学生的生活信息。
由于采取的数据量巨大,数据可能存在异常、缺损、重复等问题。所以在数据准备模块中数据清洗中,选择Rapidminer-Radoop中相应的算子,在数据清洗阶段利用记录去重、离群点隔离、缺失值替换等方法处理原始数据集中的缺失值和离群点。其次,根据挖掘模型输入的需要,对必要的数据类型进行转换,确保数据有效。再次,对数据集进行特征选择,从而在保持挖掘模型性能的同时,减少需要清洗的属性数目。最后整合形成学生信息结构表,计M中的每一类数据为,将数据线性化,便于后续索引调用和分析记录。
接着利用数据存储的方法实现数据的存储,即将学生信息结构表运用写入语句将数据存入相应数据节点在所创建的文件夹中保存。利用HDFS这一容错的分布式文件系统,将所有数据经由源数据生成后会立即进行副本的备份操作,并将副本分别存储到集群的各个节点中执行数据的管理调度和数据的分析请求,通过对数据的备份,允许节点数据出现灾难性崩溃,从而发生减小意外情况对数据的存储产生影响。同时HDFS采用的多副本镜像复制策略保证了数据存储的安全性和可靠性。
数据筛选的方法包括:对海量数据进行分类,考虑对经济异常学生进行判断筛选和预警分析。故首先选取经济相关指标作为数据中心,以某一种经济类数据作为分类中心,聚类个数选定2个分为经济类数据和非经济类数据,由此分离出经济类数据。
具体步骤为先设定学生信息结构表中所有对象的平均距离和平均密度,然后以某一种经济类数据作为聚类中心,设定聚类类别为两类即经济类数据和非经济类数据。然后利用各类数据与聚类中心的欧式距离,最后再结合平方准则误差函数分离出欧式距离和平方准则误差函数。
其中构建数据挖掘模型的方法包括:数据挖掘,分离出经济类数据集包括:平均校园卡消费状况、总消费次数、日均消费金额、家庭变故情况、家庭收入情况、独生子女情况、社交网络上相应有关学生经济的动态、图片、视频、群组记录等。取代传统的调查问卷式数据提取,利用大数据的挖掘系统,对学生的日常消费、生活状况及家庭经济收支情况进行数据提取,在保护学生隐私的前提下,获取真实有效的信息。根据经济类数据可大体分为3类:0/1数据(是非型)、数据型数据、动态文字程度型数据。对不同数据类型进行归一化处理并分别设立不同权重作为影响因子,从而通过分析影响因子的数值,以线性的方式,直观地对学生的经济状况进行判断分类。
由于学生困难的区分不是很明确,所以选取不同方向的影响因子为指标建立一个大致的模型,,以数学模型表达学生的困难情况,通过具体的数学计算对困难情况进行评估判断,将感性的评估转化为理性的数值判断。根据指标高低将高校学生经济分为四种类型,A(良好型),B(正常型),C(困难型),D(特别困难型)。根据模糊数学识别模型以及经济类数据集确定学生隶属度等级分别对应A、B、C、D四种的模糊数序模式识别模型,在具体的数学计算后带入现有的数据,通过计算求得学生在困难上的分类情况。
再根据择近原则判断归属模式A、B、C、D,取样本集四位标准良好型、正常型、困难型、困难型作为样本代表,以样本估计总体,简化运算。
针对贴近度的选择,因为贴近度公式有很多,本模型采用格贴近度作为贴近度计算公式,通过表达模糊集、的外积和内积,得出的模糊集格贴近度公式。
最终通过判断的经济状态,分为四类情况,触发预警模型,即:
1.当学生的判断模型不为B等(经济正常型)时,触发分类预警。
2.当学生判断模型为A时,触发提醒程序,督促学生合理消费,理性消费。
3.当学生判断模型为C时,触发补助程序,提醒学生参与合适的助学金奖学金计划。
4.当学生判断模型为D时,开启补助程序,时刻关注学生精神、生活动态,每月动态发放补助基金。
人机交互界面设计方法如下:人机交互索引设计,分析相关指标,分别从硬件、软件等界面设计的原则进行构建,结合人机工程学布局理论和用户具体需求,设计相应软件。使其能实现数据的可视化处理,并且具有相应类别学生区分度高,预警信息发布及时等特点,同时使得信息的安全性和可靠性有所保障。
上述的实施例仅为本发明的优选技术方案,而不应视为对于本发明的限制,本申请中的实施例及实施例中的特征在不冲突的情况下,可以相互任意组合。本发明的保护范围应以权利要求记载的技术方案,包括权利要求记载的技术方案中技术特征的等同替换方案为保护范围。即在此范围内的等同替换改进,也在本发明的保护范围之内。

Claims (8)

1.一种基于大数据分析的困难学生认定及预警方法,其特征是:包括如下步骤:
S1.采集学生的综合数据,获得学生的校内系统数据和社交网络的公开数据;
S2.对步骤S1中采集的数据进行清洗,得到清洗后的数据,并简化对数据的转换运算,然后整合形成该学生的信息结构表;
S3.将数据存储于特定位置,将该学生的信息结构表中的数据存入相应数据节点,并在所创建的特定文件夹中保存,对学生数据进行一一对应的存储;
S4.对数据进行筛选,选取不同指标作为数据中心进行数据分离;
S5.进行数据挖掘,构建数据挖掘模型,分离出经济类数据集,对学生的经济状况进行判断分类;
S6.建立预警模型,根据不同学生的经济状态进行模型分类,触发分类预警;
步骤S4包括如下步骤:
S41.设定学生的信息结构表M中所有对象的平均距离为
Figure FDA0004249011490000011
其中xi为学生的基本信息和第i条校园生活记录数据,xj为第j条平均校园卡消费数据,线性规划出所有对象的平均距离;
再对学生的信息结构表M中所有对象设立平均密度:
Figure FDA0004249011490000012
以平均校园卡消费数据xj作为聚类中心,设定聚类类别为两类:经济类数据、非经济类数据,利用各类数据与聚类中心的欧式距离,再结合平方准则误差函数分离出两类数据,
其中欧式距离为:
d(Xi,Xj)=[(Xi1-Xj1)2+(Xi2-Xj2)2+…] (3)
平方准则误差函数为
Figure FDA0004249011490000021
步骤S5包括如下步骤:
S51.建立模糊数学模式识别模型,将高校学生经济分为四种类型,得到A良好型、B正常型、C困难型和D特别困难型;
S52.根据模糊数学识别模型以及经济类数据集确定学生隶属度等级:
F=N×k×L (5)
k=(k1 k2……kn) (6)
N=(N1 N2……Nn) (7)
Figure FDA0004249011490000022
其中F为隶属度最终判别函数,k为n个影响因子的对应权重,N为经济类数据集中n个影响因子,L矩阵各个因子隶属于A、B、C、D四种分类等级,不同因子隶属度计算公式为:
Figure FDA0004249011490000023
S53.再根据择近原则判断归属模式A、B、C、D,取样本集良好型SA、正常型SB、困难型SC、特别困难型SD作为样本代表,从而让所有的学生都归类于A、B、C、D这四种类型,并且确保学生不同时归属于两个或者更多的类别;
S54.利用择近原则以及模糊集格贴近度公式进行学生经济异常等级隶属度判断:
设A’i,B’∈F(U),i'=1,2,···,n2,若存在i'0,使:
P(A’i',B’)=max{P(A’1,B’),P(A’2,B’),···,P(A’n2,B’)} (10)
其中,P(A’i',B’)为B’与A’i'的贴近度,则认为B’与A’i'0最接近,即判定B’与A’i'0为一类,
现给出模糊集合贴近度公式为:
Figure FDA0004249011490000024
其中:A’⊙B’=∨u∈U(A’(u)∧B’(u))为模糊集A’、B’的内积;
其中:
Figure FDA0004249011490000031
为模糊集A’、B’的外积;
S55.判断出该学生属于哪一种经济状态,从而触发步骤S6中的某种预警模型。
2.根据权利要求1所述的一种基于大数据分析的困难学生认定及预警方法,其特征是:步骤S1包括如下步骤:
S11.获取学生在校的数据和社交网络的公开数据;
S12.提取学生的基本信息、成绩信息、考勤信息、家庭收入信息、消费信息和社交信息。
3.根据权利要求1所述的一种基于大数据分析的困难学生认定及预警方法,其特征是:步骤S2包括如下步骤:
S21.利用记录去重、离群点隔离、缺失值替换方法处理原始数据集中的缺失值和离群点;
S22.根据挖掘模型输入的需要,对必要的数据类型进行转换;
S23.对数据集进行特征选择,在保持数据挖掘模型性能的同时减少属性的数目;
S24.形成该学的生信息结构表M。
4.根据权利要求1所述的一种基于大数据分析的困难学生认定及预警方法,其特征是:步骤S3包括如下步骤:
S31.将该学生的信息结构表中的数据存入相应数据节点;
S32.在所创建的特定文件夹中保存,对学生数据进行一一对应的存储,用于对数据进行流式地高效访问。
5.根据权利要求1所述的一种基于大数据分析的困难学生认定及预警方法,其特征是:步骤S6中,当该学生的判断模型不为正常型时,触发分类预警;
当学生判断模型为A时,触发提醒程序,督促学生合理消费,理性消费;
当学生判断模型为C时,触发补助程序,提醒学生参与合适的助学金奖学金计划;当学生判断模型为D时,开启补助程序,时刻关注学生精神、生活动态,每月动态发放补助基金。
6.一种基于大数据分析的困难学生认定及预警系统,其特征是:包括主控模块和人机交互界面,主控模块用于实现学生经济分级和经济分级预警;
人机交互界面用于数据交互;所述系统用于执行权利要求1-5任意一项所述的方法。
7.根据权利要求6所述的一种基于大数据分析的困难学生认定及预警系统,其特征是:主控模块包括数据采集模块、数据清洗模块、数据筛选模块、数据挖掘模块和预警判断模块,数据采集模块用于获取校内学生经济、生活、学习信息数据和学生社交网络言论、动态数据;
数据清洗模块用于剔除采集的无用缺失重复数据,并补充完整数据;
数据存储模块,用于通过HDFS容错分布式文件系统将完整数据存储在其中,方便后续调用;
数据筛选模块,用于对数据进行分类,简化后续的分析数据量,使得过程更加简练高效;
数据挖掘模块,用于对分离出不同类别的数据,建立模糊数学模式识别模型,识别出四类学生,即良好型、正常型、困难型、特别困难型,从而按照类别更好地进行相对应的资助;
预警判断模块,用于对已经分类好的四类经济状况学生进行分情况预警。
8.根据权利要求6所述的一种基于大数据分析的困难学生认定及预警系统,其特征是:通过人机交互索引设计,执行数据采集模块、数据清洗模块、数据筛选模块、数据挖掘模块和预警判断模块,通过人机交互界面实现结果数据可视化的过程。
CN202011103664.2A 2020-10-15 2020-10-15 一种基于大数据分析的困难学生认定及预警方法及系统 Active CN112416914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011103664.2A CN112416914B (zh) 2020-10-15 2020-10-15 一种基于大数据分析的困难学生认定及预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011103664.2A CN112416914B (zh) 2020-10-15 2020-10-15 一种基于大数据分析的困难学生认定及预警方法及系统

Publications (2)

Publication Number Publication Date
CN112416914A CN112416914A (zh) 2021-02-26
CN112416914B true CN112416914B (zh) 2023-07-11

Family

ID=74854635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011103664.2A Active CN112416914B (zh) 2020-10-15 2020-10-15 一种基于大数据分析的困难学生认定及预警方法及系统

Country Status (1)

Country Link
CN (1) CN112416914B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460475A (zh) * 2017-12-20 2018-08-28 卓智网络科技有限公司 基于学生上网行为的贫困生预测方法和装置
CN108876409A (zh) * 2018-06-28 2018-11-23 深信服科技股份有限公司 一种高校贫困资助认证方法、系统及相关设备
CN109472299A (zh) * 2018-10-19 2019-03-15 浙江正元智慧科技股份有限公司 一种基于智能卡大数据的贫困大学生识别方法
CN110097142A (zh) * 2019-05-15 2019-08-06 杭州华网信息技术有限公司 针对学生序列化行为的贫困生预测方法
CN110516861A (zh) * 2019-08-19 2019-11-29 北京桃花岛信息技术有限公司 一种基于拓扑扩张网络模型的学生贫困程度预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090035733A1 (en) * 2007-08-01 2009-02-05 Shmuel Meitar Device, system, and method of adaptive teaching and learning
CN109145113B (zh) * 2018-08-24 2021-12-21 北京桃花岛信息技术有限公司 一种基于机器学习的学生贫困程度预测方法
CN111415099A (zh) * 2020-03-30 2020-07-14 西北大学 一种基于多分类BP-Adaboost的贫困生认定方法
CN111754115A (zh) * 2020-06-24 2020-10-09 重庆电子工程职业学院 高校家庭经济困难学生认定系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460475A (zh) * 2017-12-20 2018-08-28 卓智网络科技有限公司 基于学生上网行为的贫困生预测方法和装置
CN108876409A (zh) * 2018-06-28 2018-11-23 深信服科技股份有限公司 一种高校贫困资助认证方法、系统及相关设备
CN109472299A (zh) * 2018-10-19 2019-03-15 浙江正元智慧科技股份有限公司 一种基于智能卡大数据的贫困大学生识别方法
CN110097142A (zh) * 2019-05-15 2019-08-06 杭州华网信息技术有限公司 针对学生序列化行为的贫困生预测方法
CN110516861A (zh) * 2019-08-19 2019-11-29 北京桃花岛信息技术有限公司 一种基于拓扑扩张网络模型的学生贫困程度预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The Development of Demand Identification Model for Poverty Alleviation Subjects Using Fuzzy Proximity;Shuwei Jing et al;《Mathematical Problems in Engineering》;第1-14页 *
基于属性识别理论的贫困生等级评定模型研究;胡海滨;《福建工程学院学报》;第9卷(第4期);第367-370页 *

Also Published As

Publication number Publication date
CN112416914A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN109784721B (zh) 一种就业数据分析与数据挖掘分析的平台系统
CN106407278B (zh) 一种大数据平台的架构设计系统
Piad et al. Predicting IT employability using data mining techniques
CN110109908B (zh) 基于社会基础信息挖掘人物潜在关系的分析系统及方法
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN112183916B (zh) 土地储备生命周期管理系统
CN108304580A (zh) 一种面向城市网格化管理的重大事件预警方法和系统
Al-Janabi A proposed framework for analyzing crime data set using decision tree and simple k-means mining algorithms
CN116383198A (zh) 基于大数据的决策分析方法及系统
Zhang Application of data mining technology in digital library.
CN111353085A (zh) 一种基于特征模型的云挖掘分析网络舆情方法
KR102260591B1 (ko) 데이터 기반의 의사결정 지원시스템 및 동작 방법
Abazeed et al. A Classification and Prediction Model for Student's Performance in University Level.
CN112416914B (zh) 一种基于大数据分析的困难学生认定及预警方法及系统
Rodríguez-Ibáñez et al. Towards organization management using exploratory screening and big data tests: A case study of the spanish red cross
CN116842092A (zh) 数据建库及归集管理的方法及系统
Shayakhmetova et al. Descriptive big data analytics in the field of education
CN115934693A (zh) 一种区域实有人口动态计算方法
Cabanban-Casem Analytical visualization of higher education institutions' big data for decision making
Jones GIS project management approach for implementation of GIS for planning organisations
Eren et al. A K-means algorithm application on big data
Marzukhi et al. Framework of Knowledge-Based System for United Nations Peacekeeping Operations Using Data Mining Technique
CN113485987A (zh) 企业信息标签生成方法及装置
CN112966024A (zh) 一种基于大数据的金融风控数据分析系统
Si et al. Construction and management method of university information platform based on big data technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant