CN113626499B - 一种基于大数据数仓技术的学生画像挖掘实现方法 - Google Patents
一种基于大数据数仓技术的学生画像挖掘实现方法 Download PDFInfo
- Publication number
- CN113626499B CN113626499B CN202110906416.XA CN202110906416A CN113626499B CN 113626499 B CN113626499 B CN 113626499B CN 202110906416 A CN202110906416 A CN 202110906416A CN 113626499 B CN113626499 B CN 113626499B
- Authority
- CN
- China
- Prior art keywords
- student
- data
- students
- portraits
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005516 engineering process Methods 0.000 title claims abstract description 34
- 238000005065 mining Methods 0.000 title claims abstract description 29
- 230000006399 behavior Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 44
- 238000010606 normalization Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000037213 diet Effects 0.000 claims description 12
- 235000005911 diet Nutrition 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 9
- 238000012886 linear function Methods 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 9
- 206010012335 Dependence Diseases 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 235000012054 meals Nutrition 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000004622 sleep time Effects 0.000 claims description 6
- 230000036578 sleeping time Effects 0.000 claims description 6
- 235000021152 breakfast Nutrition 0.000 claims description 5
- 230000036541 health Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 5
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 9
- 230000003068 static effect Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 210000002784 stomach Anatomy 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Fuzzy Systems (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人物画像构建技术领域,具体地说,涉及一种基于大数据数仓技术的学生画像挖掘实现方法。包括搭建系统网络架构、数据采集、数据加工处理、数据标签化、构建画像、画像的应用分析、对异常进行检测分析、根据画像进行教学工作安排等步骤。本发明设计可以更好地对海量的学生行为数据进行加工及分类存储,便于快速查询调用,从而提高搭建学生画像的工作效率;可以深度挖掘学生的个性特征并较为准确地为其打上对应标签,可以更好实现在智慧校园中构建学生画像;有利于教育工作者、家长及学生本身更好地了解学生,便于及时发现学生日常学习行为中存在的不足,以便纠正、改善,从而可以更好地为学生量身定制对应的培养方案,提升教育水平。
Description
技术领域
本发明涉及人物画像构建技术领域,具体地说,涉及一种基于大数据数仓技术的学生画像挖掘实现方法。
背景技术
随着信息技术和网络的迅速发展,教育的信息化成为衡量一个国家和地区教育发展水平的重要标志,常见的教育信息实现方式为搭建智慧校园。市面上也存在加强家庭与学校沟通的应用平台,但这些平台局限性较大,无法满足学生的个性化发展需求。研究表明,前往教学楼、图书馆次数多且规律,生活、学习有规律,身边朋友表现良好的学生,往往学习表现会更为突出。若能以大数据分析技术、数据仓库技术为基础,大量收集学生的日常行为信息,通过研究学生的日常行为轨迹、言行习惯,可以直接或间接反映出学生的性格、习惯、态度等信息,通过整理、提炼这些信息,搭建该学生的标签画像,将学生画像应用在智慧校园中,则有望实现更好的因材施教。但是,目前却没有完善的可快速实现挖掘并搭建学生画像的方法。
发明内容
本发明的目的在于提供一种基于大数据数仓技术的学生画像挖掘实现方法,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供了一种基于大数据数仓技术的学生画像挖掘实现方法,包括如下步骤:
S1、搭建学生画像挖掘系统网络架构,并连接智慧校园信息管理平台;
S2、从多方面进行学生日常行为信息的数据采集;
S3、以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型;
S4、对学生数据进行标签化;
S5、构建学生的综合行为画像;
S6、学生综合行为画像的应用分析;
即通过归一化函数分别从学习、三餐习惯、作息习惯、消费水平、上网习惯方面的评估维度进行评估,其计算表达式如下:
学习指数:
L=f(s),
其中,f(s)为归一化函数,式中s为各个指标的评价值;
三餐习惯指数:
式中Y为三餐习惯指数,pm为早餐评价,td为用餐标准差评价,pn为夜宵评价,s为消费差评价,即午餐和晚餐的日均消费金额之间的差值;
作息习惯指数:
式中S为作息习惯指数,tc为睡眠时长评价,tu为入睡时间评价,ti为起床时间评价;
消费水平指数:
Sp=f(c),
式中c为学生日均消费金额;
上网习惯指数:
N=f(1.725+0.321t),
式中t为学生日均上网时间;
S7、通过学生综合画像,对异常的学生行为进行检测分析;
S8、教育工作者或教师,根据反馈的学生画像进行教学工作安排,并对存在异常行为的学生进行修正引导。
其中,所述S2中,这些数据包括静态数据和动态数据,结构化数据和非结构化数据;其中,静态数据主要包括学生的基本信息,如姓名、年龄、性别、民族、专业年级、考试成绩等;动态数据主要包括课程学习数据、作息时间数据、校园卡消费数据、网络访问数据、图书借阅数据等;结构化数据主要包括校园信息管理平台数据库中按照一定标准存储的规范数据;非结构化数据主要包括网页、Excel文件、图片信息、视频信息等数据。
其中,所述S4中,对原始数据进行分析,抽取学生行为相关变量或属性,并为其贴上“标签”;具体为:特征标签分为静态特征标签和动态特征标签,静态特征标签主要包括姓名、年龄、性别、专业年级、考试成绩等;动态特征标签包括学习水平、上网习惯、消费水平、饮食规律、社交关系等。
其中,所述S8中,授课教师借助画像信息可以改进教学方法、进行学习指导;辅导员借助画像信息可以及时进行行为预警和干预,改变管理手段和管理水平;学生本人也可以及时约束自己,改善学习方法,纠正不良生活、作息习惯。
作为本技术方案的进一步改进,所述S3中,以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型的方法包括如下步骤:
S3.1、获取学生的各方面行为信息,包括日常作息时间、课堂出席及表现情况、上网情况、校园门禁信息、饮食情况、消费情况等;
S3.2、搭建三层的数据仓库模型;
S3.3、对海量的学生校园生活数据进行清洗,完成异构多数据源的数据整合,形成统一数据库存储于数据仓库中,并补插不完整的数据;
S3.4、对清洗后的数据进行提炼,深度挖掘出所需的信息;
S3.5、通过聚类算法,对提炼出的学生特征信息进行聚类分析。
其中,所述S3.2中,三层数据仓库模型分别为:原始数据层(根据业务需求对数据的汇总、抽象与集成);数据中间层(对原始数据的清洗、提取整合);数据结果层(用于存放为学生打的标签,供外部应用生成学生画像)。
作为本技术方案的进一步改进,所述S3.5中,采用K-Means均值聚类算法,该算法步骤如下:
Step1、选K个初始聚类中心,Z1 I,Z2 I,∧ZK I,其中,(1,2,...,k)为寻找聚类中心的迭代运算的次序号;
Step2、逐个将需分类模式样本{X}按最小距离准则分配给K个聚类中心中的某一个Zj (1);对所有的i≠j,j=1,2,...,K,如果Z1 I,Z2 I,∧ZK I,则X∈Sj k,其中,k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj;
Step3、计算各个聚类中心的新的向量值Zj (k+1),j=1,2,...,K,求各聚类域中所包含样本的均值向量:
其中,Nj为第j个聚类域Sj中所包含的样本个数;
其中,以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:
Step4、若Zj (k+1)≠Zj (k+1),j=1,2,...,K,则返回S2,将模式样本逐个重新分类,重复迭代运算;若Zj (k+1)=Zj (k+1),j=1,2,...,K,则算法收敛,计算结束。
作为本技术方案的进一步改进,所述S5中,构建学生的综合行为画像的方法包括如下步骤:
S5.1、遵循朴素的行为特征表现规律,依据现实,建立学生特征模型;
S5.2、通过符号化抽象成学生特征的符号标签;
S5.3、对综合行为画像特征标签进行数据归一化处理。
其中,运用数据挖掘技术进行模型计算和标签化处理,用数据对学生进行综合行为画像。
作为本技术方案的进一步改进,所述S5.3中,数据归一化算法采用线性函数归一化和0均值标准化算法,其中,0均值标准化的算法表达式如下:
0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn,标准化后的数据呈正态分布,即均值为0,彼岸准差为1,在一定程度上改变了特征的分布,其函数如下:
该函数能够处理原始数据的分布,近似为高斯分布数据,其中,Xn为标准化后的新数据,X为原始数据值,μ为均值,σ为标准差。
作为本技术方案的进一步改进,所述S6中,学生综合行为画像的应用分析的方法包括如下步骤:
S6.1、通过对学生的准点率、出勤率、成绩等项目数据进行加权求和,对函数进行归一化,依此反映学生的学习基础与学习态度,对学生的学习特征进行评价分级并打上标签;
S6.2、按照饮食指数设定等级,表示学生的三餐习惯,并给予评价;
S6.3、根据睡眠时长、入眠时间和起床时间计算表示学生的作息习惯规律,设定作息习惯等级,并进行作息习惯评价;
S6.4、收集并计算学生与同学之间出现共现对的次数,通过Louvain社区发现算法识别学生的关系群体,以便发现社群中离群索居的学生;
S6.5、通过学生日均消费金额计算消费力指数,结合学生消费场所、位置等,对学生的消费行为及消费水平进行评价;
S6.6、以日均上网时长为主要计算因素,通过线性相关性判断学生的网络成瘾程度,并依此评价学生的上网健康情况。
其中,学习特征标签评价等级可分为:学霸、优秀学生、良好学生、中等学生、学渣等;三餐习惯等级标签可分为:饮食规律、饮食混乱、饭量合理、大胃王、小猫胃、早餐派、夜宵族等;作息习惯等级可分为:养生作息、夜猫子、日夜颠倒等;社交标签可分为:独行侠、正常社交、社交小王子/小公主等;消费标签可分为:名牌一族、过度消费、正常消费、务实节俭等;网瘾程度标签可分为:深度网虫、冲浪人、虚拟人生等。
作为本技术方案的进一步改进,所述S7中,通过学生综合画像,对异常的学生行为进行检测分析的方法包括如下步骤:
S7.1、以班级、组别或宿舍为单位构建多个学生画像,每个学生画像应包括至少两个方面的评估维度,构建学生画像后对全部学生画像进行归一化处理;
S7.2、根据全方面的评估维度构建分析空间,每个方面的评估维度作为分析空间的一个坐标轴;
S7.3、将每个学生的画像映射到分析空间;
S7.4、在分析空间中,分布于单个学生画像预设距离范围内的学生画像为邻近学生画像,计算单个学生画像的近邻学生画像的数量,依此分析单个学生画像与其他学生画像的位置分布情况,得出相似性;
S7.5、将学生画像输入时间序列模型,得到预测学生画像,以分析单个预测学生画像与其他预测学生画像的偏离程度,从而发现存在异常的学生。
作为本技术方案的进一步改进,所述S7.1中,对全部学生画像进行归一化处理采用线性函数归一化,其计算表达式如下:
线性函数归一化函数为将原始特征标签数据通过线性化方式映射到[0,1]区间,其函数如下:
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。
作为本技术方案的进一步改进,所述S7.5中,训练时间序列模型的方法如下:
获取学生的历史学生画像,其中一学生t1时刻的历史画像特征为x1=(a1,a2,...,a23),则t个时刻的特征序列为(x1,x2,...,xt),每个学生都有这样的一个特征序列,即构成了训练样本;
h1,h2,...,ht为模型隐层,将该学生的历史画像特征输入,得到y1,y2,...,yt,即下一时刻该学生的画像特征,其中y1是x2的预测值,y2是x3的预测值,依此类推,因此训练的目标可表示为:
其中,M表示训练的样本数量,t表示时序序列的长度,1表示损失函数,对时间序列模型进行训练的目标为尽可能地降低Loss。
作为本技术方案的进一步改进,所述。
本发明的目的之二在于,提供了一种基于大数据数仓技术的学生画像挖掘系统及系统运行系统,包括。
本发明的目的之三在于,提供了一种基于大数据数仓技术的学生画像挖掘系统及系统运行装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的基于大数据数仓技术的学生画像挖掘实现方法的步骤。
本发明的目的之四在于,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的基于大数据数仓技术的学生画像挖掘实现方法的步骤。
与现有技术相比,本发明的有益效果:
1.该基于大数据数仓技术的学生画像挖掘实现方法通过搭建三层结构的数据仓库模型,可以更好地对海量的学生行为数据进行加工及分类存储,便于快速查询调用,从而提高搭建学生画像的工作效率;
2.该基于大数据数仓技术的学生画像挖掘实现方法通过对学生的日常行为数据进行清洗、提炼、聚类,可以深度挖掘学生的个性特征并较为准确地为其打上对应标签,通过优化学生标签的类别和内容,可以更好实现在智慧校园中构建学生画像;
3.该基于大数据数仓技术的学生画像挖掘实现方法通过研究学生画像,有利于教育工作者、家长及学生本身更好地了解学生,便于及时发现学生日常学习行为中存在的不足,以便纠正、改善其不良习惯,从而可以更好地为学生量身定制对应的培养方案,提升教育水平。
附图说明
图1为本发明的示例性方法流程架构框图;
图2为本发明的整体方法流程图;
图3为本发明的局部方法流程图之一;
图4为本发明的局部方法流程图之二;
图5为本发明的局部方法流程图之三;
图6为本发明的局部方法流程图之四。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图6所示,本实施例的目的在于,提供了一种基于大数据数仓技术的学生画像挖掘实现方法,包括如下步骤:
S1、搭建学生画像挖掘系统网络架构,并连接智慧校园信息管理平台;
S2、从多方面进行学生日常行为信息的数据采集;
S3、以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型;
S4、对学生数据进行标签化;
S5、构建学生的综合行为画像;
S6、学生综合行为画像的应用分析;
即通过归一化函数分别从学习、三餐习惯、作息习惯、消费水平、上网习惯方面的评估维度进行评估,其计算表达式如下:
学习指数:
L=f(s),
其中,f(s)为归一化函数,式中s为各个指标的评价值;
三餐习惯指数:
式中Y为三餐习惯指数,Pm为早餐评价,td为用餐标准差评价,pn为夜宵评价,s为消费差评价,即午餐和晚餐的日均消费金额之间的差值;
作息习惯指数:
式中S为作息习惯指数,tc为睡眠时长评价,tu为入睡时间评价,ti为起床时间评价;
消费水平指数:
Sp=f(c),
式中c为学生日均消费金额;
上网习惯指数:
N=f(1.725+0.321t),
式中t为学生日均上网时间;
S7、通过学生综合画像,对异常的学生行为进行检测分析;
S8、教育工作者或教师,根据反馈的学生画像进行教学工作安排,并对存在异常行为的学生进行修正引导。
其中,S2中,这些数据包括静态数据和动态数据,结构化数据和非结构化数据;其中,静态数据主要包括学生的基本信息,如姓名、年龄、性别、民族、专业年级、考试成绩等;动态数据主要包括课程学习数据、作息时间数据、校园卡消费数据、网络访问数据、图书借阅数据等;结构化数据主要包括校园信息管理平台数据库中按照一定标准存储的规范数据;非结构化数据主要包括网页、Excel文件、图片信息、视频信息等数据。
其中,S4中,对原始数据进行分析,抽取学生行为相关变量或属性,并为其贴上“标签”;具体为:特征标签分为静态特征标签和动态特征标签,静态特征标签主要包括姓名、年龄、性别、专业年级、考试成绩等;动态特征标签包括学习水平、上网习惯、消费水平、饮食规律、社交关系等。
其中,S8中,授课教师借助画像信息可以改进教学方法、进行学习指导;辅导员借助画像信息可以及时进行行为预警和干预,改变管理手段和管理水平;学生本人也可以及时约束自己,改善学习方法,纠正不良生活、作息习惯。
本实施例中,S3中,以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型的方法包括如下步骤:
S3.1、获取学生的各方面行为信息,包括日常作息时间、课堂出席及表现情况、上网情况、校园门禁信息、饮食情况、消费情况等;
S3.2、搭建三层的数据仓库模型;
S3.3、对海量的学生校园生活数据进行清洗,完成异构多数据源的数据整合,形成统一数据库存储于数据仓库中,并补插不完整的数据;
S3.4、对清洗后的数据进行提炼,深度挖掘出所需的信息;
S3.5、通过聚类算法,对提炼出的学生特征信息进行聚类分析。
其中,S3.2中,三层数据仓库模型分别为:原始数据层(根据业务需求对数据的汇总、抽象与集成);数据中间层(对原始数据的清洗、提取整合);数据结果层(用于存放为学生打的标签,供外部应用生成学生画像)。
具体地,S3.5中,采用K-Means均值聚类算法,该算法步骤如下:
Step1、选K个初始聚类中心,Z1 I,Z2 I,∧ZK I,其中,(1,2,...,k)为寻找聚类中心的迭代运算的次序号;
Step2、逐个将需分类模式样本{X}按最小距离准则分配给K个聚类中心中的某一个Zj (1);对所有的i≠j,j=1,2,...,K,如果Z1 I,Z2 I,∧ZK I,则X∈Sj k,其中,k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj;
Step3、计算各个聚类中心的新的向量值Zj (k+1),j=1,2,...,K,求各聚类域中所包含样本的均值向量:
其中,Nj为第j个聚类域Sj中所包含的样本个数;
其中,以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:
Step4、若Zj (k+1)≠Zj (k+1),j=1,2,...,K,则返回S2,将模式样本逐个重新分类,重复迭代运算;若Zj (k+1)=Zj (k+1),j=1,2,...,K,则算法收敛,计算结束。
本实施例中,S5中,构建学生的综合行为画像的方法包括如下步骤:
S5.1、遵循朴素的行为特征表现规律,依据现实,建立学生特征模型;
S5.2、通过符号化抽象成学生特征的符号标签;
S5.3、对综合行为画像特征标签进行数据归一化处理。
其中,运用数据挖掘技术进行模型计算和标签化处理,用数据对学生进行综合行为画像。
具体地,S5.3中,数据归一化算法采用线性函数归一化和0均值标准化算法,其中,0均值标准化的算法表达式如下:
0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn,标准化后的数据呈正态分布,即均值为0,彼岸准差为1,在一定程度上改变了特征的分布,其函数如下:
该函数能够处理原始数据的分布,近似为高斯分布数据,其中,Xn为标准化后的新数据,X为原始数据值,μ为均值,σ为标准差。
本实施例中,S6中,学生综合行为画像的应用分析的方法包括如下步骤:
S6.1、通过对学生的准点率、出勤率、成绩等项目数据进行加权求和,对函数进行归一化,依此反映学生的学习基础与学习态度,对学生的学习特征进行评价分级并打上标签;
S6.2、按照饮食指数设定等级,表示学生的三餐习惯,并给予评价;
S6.3、根据睡眠时长、入眠时间和起床时间计算表示学生的作息习惯规律,设定作息习惯等级,并进行作息习惯评价;
S6.4、收集并计算学生与同学之间出现共现对的次数,通过Louvain社区发现算法识别学生的关系群体,以便发现社群中离群索居的学生;
S6.5、通过学生日均消费金额计算消费力指数,结合学生消费场所、位置等,对学生的消费行为及消费水平进行评价;
S6.6、以日均上网时长为主要计算因素,通过线性相关性判断学生的网络成瘾程度,并依此评价学生的上网健康情况。
其中,学习特征标签评价等级可分为:学霸、优秀学生、良好学生、中等学生、学渣等;三餐习惯等级标签可分为:饮食规律、饮食混乱、饭量合理、大胃王、小猫胃、早餐派、夜宵族等;作息习惯等级可分为:养生作息、夜猫子、日夜颠倒等;社交标签可分为:独行侠、正常社交、社交小王子/小公主等;消费标签可分为:名牌一族、过度消费、正常消费、务实节俭等;网瘾程度标签可分为:深度网虫、冲浪人、虚拟人生等。
本实施例中,S7中,通过学生综合画像,对异常的学生行为进行检测分析的方法包括如下步骤:
S7.1、以班级、组别或宿舍为单位构建多个学生画像,每个学生画像应包括至少两个方面的评估维度,构建学生画像后对全部学生画像进行归一化处理;
S7.2、根据全方面的评估维度构建分析空间,每个方面的评估维度作为分析空间的一个坐标轴;
S7.3、将每个学生的画像映射到分析空间;
S7.4、在分析空间中,分布于单个学生画像预设距离范围内的学生画像为邻近学生画像,计算单个学生画像的近邻学生画像的数量,依此分析单个学生画像与其他学生画像的位置分布情况,得出相似性;
S7.5、将学生画像输入时间序列模型,得到预测学生画像,以分析单个预测学生画像与其他预测学生画像的偏离程度,从而发现存在异常的学生。
具体地,S7.1中,对全部学生画像进行归一化处理采用线性函数归一化,其计算表达式如下:
线性函数归一化函数为将原始特征标签数据通过线性化方式映射到[0,1]区间,其函数如下:
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。
进一步地,S7.5中,训练时间序列模型的方法如下:
获取学生的历史学生画像,其中一学生t1时刻的历史画像特征为x1=(a1,a2,...,a23),则t个时刻的特征序列为(x1,x2,...,xt),每个学生都有这样的一个特征序列,即构成了训练样本;
h1,h2,...,ht为模型隐层,将该学生的历史画像特征输入,得到y1,y2,...,yt,即下一时刻该学生的画像特征,其中y1是x2的预测值,y2是x3的预测值,依此类推,因此训练的目标可表示为:
其中,M表示训练的样本数量,t表示时序序列的长度,1表示损失函数,对时间序列模型进行训练的目标为尽可能地降低Loss。
本实施例还提供了一种基于大数据数仓技术的学生画像挖掘系统及系统运行装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于大数据数仓技术的学生画像挖掘实现方法。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于大数据数仓技术的学生画像挖掘实现方法的步骤。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于大数据数仓技术的学生画像挖掘实现方法的步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储与计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:包括如下步骤:
S1、搭建学生画像挖掘系统网络架构,并连接智慧校园信息管理平台;
S2、从多方面进行学生日常行为信息的数据采集;
S3、以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型;具体包括:
S3.1、获取学生的各方面行为信息,包括日常作息时间、课堂出席及表现情况、上网情况、校园门禁信息、饮食情况、消费情况;
S3.2、搭建三层的数据仓库模型;
S3.3、对海量的学生校园生活数据进行清洗,完成异构多数据源的数据整合,形成统一数据库存储于数据仓库中,并补插不完整的数据;
S3.4、对清洗后的数据进行提炼,深度挖掘出所需的信息;
S3.5、通过聚类算法,对提炼出的学生特征信息进行聚类分析;
S4、对学生数据进行标签化;
S5、构建学生的综合行为画像;具体包括:
S5.1、遵循朴素的行为特征表现规律,依据现实,建立学生特征模型;
S5.2、通过符号化抽象成学生特征的符号标签;
S5.3、对综合行为画像特征标签进行数据归一化处理;
S6、学生综合行为画像的应用分析;具体包括:
S6.1、通过对学生的准点率、出勤率、成绩项目数据进行加权求和,对函数进行归一化,依此反映学生的学习基础与学习态度,对学生的学习特征进行评价分级并打上标签;
S6.2、按照饮食指数设定等级,表示学生的三餐习惯,并给予评价;
S6.3、根据睡眠时长、入眠时间和起床时间计算表示学生的作息习惯规律,设定作息习惯等级,并进行作息习惯评价;
S6.4、收集并计算学生与同学之间出现共现对的次数,通过Louvain社区发现算法识别学生的关系群体,以便发现社群中离群索居的学生;
S6.5、通过学生日均消费金额计算消费力指数,结合学生消费场所、位置,对学生的消费行为及消费水平进行评价;
S6.6、以日均上网时长为主要计算因素,通过线性相关性判断学生的网络成瘾程度,并依此评价学生的上网健康情况;
即通过归一化函数分别从学习、三餐习惯、作息习惯、消费水平、上网习惯方面的评估维度进行评估,其计算表达式如下:
学习指数:
L=f(s),
其中,f(s)为归一化函数,式中s为各个指标的评价值;
三餐习惯指数:
式中Y为三餐习惯指数,pm为早餐评价,td为用餐标准差评价,pn为夜宵评价,s为消费差评价,即午餐和晚餐的日均消费金额之间的差值;
作息习惯指数:
式中S为作息习惯指数,tc为睡眠时长评价,tu为入睡时间评价,ti为起床时间评价;
消费水平指数:
Sp=f(c),
式中c为学生日均消费金额;
上网习惯指数:
N=f(1.725+0.321t),
式中t为学生日均上网时间;
S7、通过学生综合画像,对异常的学生行为进行检测分析;具体包括:
S7.1、以班级、组别或宿舍为单位构建多个学生画像,每个学生画像应包括至少两个方面的评估维度,构建学生画像后对全部学生画像进行归一化处理;
S7.2、根据全方面的评估维度构建分析空间,每个方面的评估维度作为分析空间的一个坐标轴;
S7.3、将每个学生的画像映射到分析空间;
S7.4、在分析空间中,分布于单个学生画像预设距离范围内的学生画像为邻近学生画像,计算单个学生画像的近邻学生画像的数量,依此分析单个学生画像与其他学生画像的位置分布情况,得出相似性;
S7.5、将学生画像输入时间序列模型,得到预测学生画像,以分析单个预测学生画像与其他预测学生画像的偏离程度,从而发现存在异常的学生;
S8、教育工作者或教师,根据反馈的学生画像进行教学工作安排,并对存在异常行为的学生进行修正引导。
2.根据权利要求1所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S3.5中,采用K-Means均值聚类算法,该算法步骤如下:
Step1、选K个初始聚类中心,Z1 I,Z2 I,∧ZK I,其中,(1,2,...,k)为寻找聚类中心的迭代运算的次序号;
Step2、逐个将需分类模式样本{X}按最小距离准则分配给K个聚类中心中的某一个Zj (1);对所有的i≠j,j=1,2,...,K,如果Z1 I,Z2 I,∧ZK I,则X∈Sj k,其中,k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj;
Step3、计算各个聚类中心的新的向量值Zj (k+1),j=1,2,...,K,求各聚类域中所包含样本的均值向量:
其中,Nj为第j个聚类域Sj中所包含的样本个数;
其中,以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:
Step4、若Zj (k+1)≠Zj (k+1),j=1,2,...,K,则返回S2,将模式样本逐个重新分类,重复迭代运算;若Zj (k+1)=Zj (k+1),j=1,2,...,K,则算法收敛,计算结束。
3.根据权利要求1所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S5.3中,数据归一化算法采用线性函数归一化和0均值标准化算法,其中,0均值标准化的算法表达式如下:
0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn,标准化后的数据呈正态分布,即均值为0,彼岸准差为1,在一定程度上改变了特征的分布,其函数如下:
该函数能够处理原始数据的分布,近似为高斯分布数据,其中,Xn为标准化后的新数据,X为原始数据值,μ为均值,σ为标准差。
4.根据权利要求1所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S7.1中,对全部学生画像进行归一化处理采用线性函数归一化,其计算表达式如下:
线性函数归一化函数为将原始特征标签数据通过线性化方式映射到[0,1]区间,其函数如下:
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。
5.根据权利要求1所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S7.5中,训练时间序列模型的方法如下:
获取学生的历史学生画像,其中一学生t1时刻的历史画像特征为x1=(a1,a2,...,a23),则t个时刻的特征序列为(x1,x2,...,xt),每个学生都有这样的一个特征序列,即构成了训练样本;
h1,h2,...,ht为模型隐层,将该学生的历史画像特征输入,得到y1,y2,...,yt,即下一时刻该学生的画像特征,其中y1是x2的预测值,y2是x3的预测值,依此类推,因此训练的目标可表示为:
其中,M表示训练的样本数量,t表示时序序列的长度,l表示损失函数,对时间序列模型进行训练的目标为尽可能地降低Loss。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906416.XA CN113626499B (zh) | 2021-08-09 | 2021-08-09 | 一种基于大数据数仓技术的学生画像挖掘实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906416.XA CN113626499B (zh) | 2021-08-09 | 2021-08-09 | 一种基于大数据数仓技术的学生画像挖掘实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626499A CN113626499A (zh) | 2021-11-09 |
CN113626499B true CN113626499B (zh) | 2024-05-10 |
Family
ID=78383446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110906416.XA Active CN113626499B (zh) | 2021-08-09 | 2021-08-09 | 一种基于大数据数仓技术的学生画像挖掘实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626499B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926312B (zh) * | 2022-06-21 | 2023-06-30 | 广州新烨数码科技股份有限公司 | 一种基于人工智能的数据采集分析方法及系统 |
CN115659057A (zh) * | 2022-12-29 | 2023-01-31 | 北京易思汇商务服务有限公司 | 一种学校画像生成方法、装置、终端、系统及存储介质 |
CN117409964A (zh) * | 2023-04-21 | 2024-01-16 | 云启智慧科技有限公司 | 一种基于学生在校行为分析的综合心理评测方法 |
CN116611022B (zh) * | 2023-04-21 | 2024-04-26 | 深圳乐行智慧产业有限公司 | 智慧校园教育大数据融合方法及平台 |
CN116362933B (zh) * | 2023-05-30 | 2023-09-26 | 南京农业大学 | 基于大数据的智慧校园管理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492224A (zh) * | 2018-03-09 | 2018-09-04 | 上海开放大学 | 基于深度学习在线教育学生综合画像标签管理系统 |
CN111291173A (zh) * | 2020-01-17 | 2020-06-16 | 北京工业大学 | 一种基于混合神经网络的高校学生画像技术的应用方法 |
WO2020151164A1 (zh) * | 2019-01-23 | 2020-07-30 | 平安科技(深圳)有限公司 | 消息推送方法、装置、计算机设备及存储介质 |
CN111652291A (zh) * | 2020-05-18 | 2020-09-11 | 温州医科大学 | 一种基于组稀疏融合医院大数据建立学生成长画像的方法 |
CN112256755A (zh) * | 2020-10-20 | 2021-01-22 | 中电科新型智慧城市研究院有限公司福州分公司 | 一种基于深度学习的学生异常行为分析方法 |
AU2020103529A4 (en) * | 2020-11-19 | 2021-01-28 | Shenzhen Polytechnic | An educational big data analysis method based on artificial intelligence |
CN112686462A (zh) * | 2021-01-06 | 2021-04-20 | 广州视源电子科技股份有限公司 | 基于学生画像的异常检测方法、装置、设备及存储介质 |
WO2021147557A1 (zh) * | 2020-08-28 | 2021-07-29 | 平安科技(深圳)有限公司 | 客户画像方法、装置、计算机可读存储介质及终端设备 |
-
2021
- 2021-08-09 CN CN202110906416.XA patent/CN113626499B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492224A (zh) * | 2018-03-09 | 2018-09-04 | 上海开放大学 | 基于深度学习在线教育学生综合画像标签管理系统 |
WO2020151164A1 (zh) * | 2019-01-23 | 2020-07-30 | 平安科技(深圳)有限公司 | 消息推送方法、装置、计算机设备及存储介质 |
CN111291173A (zh) * | 2020-01-17 | 2020-06-16 | 北京工业大学 | 一种基于混合神经网络的高校学生画像技术的应用方法 |
CN111652291A (zh) * | 2020-05-18 | 2020-09-11 | 温州医科大学 | 一种基于组稀疏融合医院大数据建立学生成长画像的方法 |
WO2021147557A1 (zh) * | 2020-08-28 | 2021-07-29 | 平安科技(深圳)有限公司 | 客户画像方法、装置、计算机可读存储介质及终端设备 |
CN112256755A (zh) * | 2020-10-20 | 2021-01-22 | 中电科新型智慧城市研究院有限公司福州分公司 | 一种基于深度学习的学生异常行为分析方法 |
AU2020103529A4 (en) * | 2020-11-19 | 2021-01-28 | Shenzhen Polytechnic | An educational big data analysis method based on artificial intelligence |
CN112686462A (zh) * | 2021-01-06 | 2021-04-20 | 广州视源电子科技股份有限公司 | 基于学生画像的异常检测方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于校园行为大数据分析的学生画像系统构建探析;施明毅;杨光莹;杜敏;张家乐;韩秋;陈梓贤;;中国多媒体与网络教学学报(上旬刊);20200311(04);全文 * |
智慧校园数据画像标签建立与教学融合;邓嘉明;曾祥煜;;北京印刷学院学报;20200726(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113626499A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113626499B (zh) | 一种基于大数据数仓技术的学生画像挖掘实现方法 | |
Sillero et al. | Common mistakes in ecological niche models | |
Han et al. | Data mining: concepts and techniques | |
Yao et al. | Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model | |
Hedges et al. | Academic crowdsourcing in the humanities: Crowds, communities and co-production | |
US20200379958A1 (en) | Dynamic syntactic affinity group formation in a high-dimensional functional information system | |
May Petry et al. | MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings | |
Lu et al. | Land use change simulation and analysis using a vector cellular automata (CA) model: A case study of Ipswich City, Queensland, Australia | |
Ferri-García et al. | Data mining techniques to analyze the factors influencing active commuting to school | |
Vankayalapati et al. | K-means algorithm for clustering of learners performance levels using machine learning techniques. | |
Almgerbi et al. | A systematic review of data analytics job requirements and online-courses | |
Scheider et al. | Distinguishing extensive and intensive properties for meaningful geocomputation and mapping | |
Ikawati et al. | Student behavior analysis to detect learning styles in Moodle learning management system | |
Marín et al. | Towards unambiguous map labeling-Integer programming approach and heuristic algorithm | |
Brunsdon et al. | An open source geodemographic classification of small areas in the Republic of Ireland | |
De Groeve et al. | Individual Movement-Sequence Analysis Method (IM-SAM): characterizing spatio-temporal patterns of animal habitat use across landscapes | |
Sanvitha Kasthuriarachchi et al. | A data mining approach to identify the factors affecting the academic success of tertiary students in Sri Lanka | |
Jansen et al. | Land-cover harmonisation and semantic similarity: some methodological issues | |
Touya | Multi-criteria geographic analysis for automated cartographic generalization | |
Lugo et al. | The role of ports in the dynamics of urban hierarchies | |
Silva | Parts that add up to a whole: a framework for the analysis of tables | |
Yu et al. | A graph autoencoder network to measure the geometric similarity of drainage networks in scaling transformation | |
Stehle et al. | Analyzing spatio-temporal patterns and their evolution via sequence alignment | |
Haffner et al. | Fusing machine learning with place-based survey methods: revisiting questions surrounding perceptual regions | |
Alfano et al. | Natural language processing and semantic network visualization for philosophers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |