CN113626499A - 一种基于大数据数仓技术的学生画像挖掘实现方法 - Google Patents

一种基于大数据数仓技术的学生画像挖掘实现方法 Download PDF

Info

Publication number
CN113626499A
CN113626499A CN202110906416.XA CN202110906416A CN113626499A CN 113626499 A CN113626499 A CN 113626499A CN 202110906416 A CN202110906416 A CN 202110906416A CN 113626499 A CN113626499 A CN 113626499A
Authority
CN
China
Prior art keywords
student
data
students
portrait
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110906416.XA
Other languages
English (en)
Other versions
CN113626499B (zh
Inventor
李战军
刘全
郭晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingruan Innovation Technology Group Co Ltd
Original Assignee
Qingruan Innovation Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingruan Innovation Technology Group Co Ltd filed Critical Qingruan Innovation Technology Group Co Ltd
Priority to CN202110906416.XA priority Critical patent/CN113626499B/zh
Priority claimed from CN202110906416.XA external-priority patent/CN113626499B/zh
Publication of CN113626499A publication Critical patent/CN113626499A/zh
Application granted granted Critical
Publication of CN113626499B publication Critical patent/CN113626499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明涉及人物画像构建技术领域,具体地说,涉及一种基于大数据数仓技术的学生画像挖掘实现方法。包括搭建系统网络架构、数据采集、数据加工处理、数据标签化、构建画像、画像的应用分析、对异常进行检测分析、根据画像进行教学工作安排等步骤。本发明设计可以更好地对海量的学生行为数据进行加工及分类存储,便于快速查询调用,从而提高搭建学生画像的工作效率;可以深度挖掘学生的个性特征并较为准确地为其打上对应标签,可以更好实现在智慧校园中构建学生画像;有利于教育工作者、家长及学生本身更好地了解学生,便于及时发现学生日常学习行为中存在的不足,以便纠正、改善,从而可以更好地为学生量身定制对应的培养方案,提升教育水平。

Description

一种基于大数据数仓技术的学生画像挖掘实现方法
技术领域
本发明涉及人物画像构建技术领域,具体地说,涉及一种基于大数据数仓技术的学生画像挖掘实现方法。
背景技术
随着信息技术和网络的迅速发展,教育的信息化成为衡量一个国家和地区教育发展水平的重要标志,常见的教育信息实现方式为搭建智慧校园。市面上也存在加强家庭与学校沟通的应用平台,但这些平台局限性较大,无法满足学生的个性化发展需求。研究表明,前往教学楼、图书馆次数多且规律,生活、学习有规律,身边朋友表现良好的学生,往往学习表现会更为突出。若能以大数据分析技术、数据仓库技术为基础,大量收集学生的日常行为信息,通过研究学生的日常行为轨迹、言行习惯,可以直接或间接反映出学生的性格、习惯、态度等信息,通过整理、提炼这些信息,搭建该学生的标签画像,将学生画像应用在智慧校园中,则有望实现更好的因材施教。但是,目前却没有完善的可快速实现挖掘并搭建学生画像的方法。
发明内容
本发明的目的在于提供一种基于大数据数仓技术的学生画像挖掘实现方法,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供了一种基于大数据数仓技术的学生画像挖掘实现方法,包括如下步骤:
S1、搭建学生画像挖掘系统网络架构,并连接智慧校园信息管理平台;
S2、从多方面进行学生日常行为信息的数据采集;
S3、以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型;
S4、对学生数据进行标签化;
S5、构建学生的综合行为画像;
S6、学生综合行为画像的应用分析;
即通过归一化函数分别从学习、三餐习惯、作息习惯、消费水平、上网习惯方面的评估维度进行评估,其计算表达式如下:
学习指数:
L=f(s),
其中,f(s)为归一化函数,式中s为各个指标的评价值;
三餐习惯指数:
Figure BDA0003201677170000021
式中Y为三餐习惯指数,pm为早餐评价,td为用餐标准差评价,pn为夜宵评价,s为消费差评价,即午餐和晚餐的日均消费金额之间的差值;
作息习惯指数:
Figure BDA0003201677170000022
式中S为作息习惯指数,tc为睡眠时长评价,tu为入睡时间评价,ti为起床时间评价;
消费水平指数:
Sp=f(c),
式中c为学生日均消费金额;
上网习惯指数:
N=f(1.725+0.321t),
式中t为学生日均上网时间;
S7、通过学生综合画像,对异常的学生行为进行检测分析;
S8、教育工作者或教师,根据反馈的学生画像进行教学工作安排,并对存在异常行为的学生进行修正引导。
其中,所述S2中,这些数据包括静态数据和动态数据,结构化数据和非结构化数据;其中,静态数据主要包括学生的基本信息,如姓名、年龄、性别、民族、专业年级、考试成绩等;动态数据主要包括课程学习数据、作息时间数据、校园卡消费数据、网络访问数据、图书借阅数据等;结构化数据主要包括校园信息管理平台数据库中按照一定标准存储的规范数据;非结构化数据主要包括网页、Excel文件、图片信息、视频信息等数据。
其中,所述S4中,对原始数据进行分析,抽取学生行为相关变量或属性,并为其贴上“标签”;具体为:特征标签分为静态特征标签和动态特征标签,静态特征标签主要包括姓名、年龄、性别、专业年级、考试成绩等;动态特征标签包括学习水平、上网习惯、消费水平、饮食规律、社交关系等。
其中,所述S8中,授课教师借助画像信息可以改进教学方法、进行学习指导;辅导员借助画像信息可以及时进行行为预警和干预,改变管理手段和管理水平;学生本人也可以及时约束自己,改善学习方法,纠正不良生活、作息习惯。
作为本技术方案的进一步改进,所述S3中,以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型的方法包括如下步骤:
S3.1、获取学生的各方面行为信息,包括日常作息时间、课堂出席及表现情况、上网情况、校园门禁信息、饮食情况、消费情况等;
S3.2、搭建三层的数据仓库模型;
S3.3、对海量的学生校园生活数据进行清洗,完成异构多数据源的数据整合,形成统一数据库存储于数据仓库中,并补插不完整的数据;
S3.4、对清洗后的数据进行提炼,深度挖掘出所需的信息;
S3.5、通过聚类算法,对提炼出的学生特征信息进行聚类分析。
其中,所述S3.2中,三层数据仓库模型分别为:原始数据层(根据业务需求对数据的汇总、抽象与集成);数据中间层(对原始数据的清洗、提取整合);数据结果层(用于存放为学生打的标签,供外部应用生成学生画像)。
作为本技术方案的进一步改进,所述S3.5中,采用K-Means均值聚类算法,该算法步骤如下:
Step1、选K个初始聚类中心,Z1 I,Z2 I,∧ZK I,其中,(1,2,...,k)为寻找聚类中心的迭代运算的次序号;
Step2、逐个将需分类模式样本{X}按最小距离准则分配给K个聚类中心中的某一个Zj (1);对所有的i≠j,j=1,2,...,K,如果Z1 I,Z2 I,∧ZK I,则X∈Sj k,其中,k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj
Step3、计算各个聚类中心的新的向量值Zj (k+1),j=1,2,...,K,求各聚类域中所包含样本的均值向量:
Figure BDA0003201677170000041
其中,Nj为第j个聚类域Sj中所包含的样本个数;
其中,以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:
Figure BDA0003201677170000042
Step4、若Zj (k+1)≠Zj (k+1),j=1,2,...,K,则返回S2,将模式样本逐个重新分类,重复迭代运算;若Zj (k+1)=Zj (k+1),j=1,2,...,K,则算法收敛,计算结束。
作为本技术方案的进一步改进,所述S5中,构建学生的综合行为画像的方法包括如下步骤:
S5.1、遵循朴素的行为特征表现规律,依据现实,建立学生特征模型;
S5.2、通过符号化抽象成学生特征的符号标签;
S5.3、对综合行为画像特征标签进行数据归一化处理。
其中,运用数据挖掘技术进行模型计算和标签化处理,用数据对学生进行综合行为画像。
作为本技术方案的进一步改进,所述S5.3中,数据归一化算法采用线性函数归一化和0均值标准化算法,其中,0均值标准化的算法表达式如下:
0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn,标准化后的数据呈正态分布,即均值为0,彼岸准差为1,在一定程度上改变了特征的分布,其函数如下:
Figure BDA0003201677170000043
该函数能够处理原始数据的分布,近似为高斯分布数据,其中,Xn为标准化后的新数据,X为原始数据值,μ为均值,σ为标准差。
作为本技术方案的进一步改进,所述S6中,学生综合行为画像的应用分析的方法包括如下步骤:
S6.1、通过对学生的准点率、出勤率、成绩等项目数据进行加权求和,对函数进行归一化,依此反映学生的学习基础与学习态度,对学生的学习特征进行评价分级并打上标签;
S6.2、按照饮食指数设定等级,表示学生的三餐习惯,并给予评价;
S6.3、根据睡眠时长、入眠时间和起床时间计算表示学生的作息习惯规律,设定作息习惯等级,并进行作息习惯评价;
S6.4、收集并计算学生与同学之间出现共现对的次数,通过Louvain社区发现算法识别学生的关系群体,以便发现社群中离群索居的学生;
S6.5、通过学生日均消费金额计算消费力指数,结合学生消费场所、位置等,对学生的消费行为及消费水平进行评价;
S6.6、以日均上网时长为主要计算因素,通过线性相关性判断学生的网络成瘾程度,并依此评价学生的上网健康情况。
其中,学习特征标签评价等级可分为:学霸、优秀学生、良好学生、中等学生、学渣等;三餐习惯等级标签可分为:饮食规律、饮食混乱、饭量合理、大胃王、小猫胃、早餐派、夜宵族等;作息习惯等级可分为:养生作息、夜猫子、日夜颠倒等;社交标签可分为:独行侠、正常社交、社交小王子/小公主等;消费标签可分为:名牌一族、过度消费、正常消费、务实节俭等;网瘾程度标签可分为:深度网虫、冲浪人、虚拟人生等。
作为本技术方案的进一步改进,所述S7中,通过学生综合画像,对异常的学生行为进行检测分析的方法包括如下步骤:
S7.1、以班级、组别或宿舍为单位构建多个学生画像,每个学生画像应包括至少两个方面的评估维度,构建学生画像后对全部学生画像进行归一化处理;
S7.2、根据全方面的评估维度构建分析空间,每个方面的评估维度作为分析空间的一个坐标轴;
S7.3、将每个学生的画像映射到分析空间;
S7.4、在分析空间中,分布于单个学生画像预设距离范围内的学生画像为邻近学生画像,计算单个学生画像的近邻学生画像的数量,依此分析单个学生画像与其他学生画像的位置分布情况,得出相似性;
S7.5、将学生画像输入时间序列模型,得到预测学生画像,以分析单个预测学生画像与其他预测学生画像的偏离程度,从而发现存在异常的学生。
作为本技术方案的进一步改进,所述S7.1中,对全部学生画像进行归一化处理采用线性函数归一化,其计算表达式如下:
线性函数归一化函数为将原始特征标签数据通过线性化方式映射到[0,1]区间,其函数如下:
Figure BDA0003201677170000061
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。
作为本技术方案的进一步改进,所述S7.5中,训练时间序列模型的方法如下:
获取学生的历史学生画像,其中一学生t1时刻的历史画像特征为x1=(a1,a2,...,a23),则t个时刻的特征序列为(x1,x2,...,xt),每个学生都有这样的一个特征序列,即构成了训练样本;
h1,h2,...,ht为模型隐层,将该学生的历史画像特征输入,得到y1,y2,...,yt,即下一时刻该学生的画像特征,其中y1是x2的预测值,y2是x3的预测值,依此类推,因此训练的目标可表示为:
Figure BDA0003201677170000062
其中,M表示训练的样本数量,t表示时序序列的长度,1表示损失函数,对时间序列模型进行训练的目标为尽可能地降低Loss。
作为本技术方案的进一步改进,所述。
本发明的目的之二在于,提供了一种基于大数据数仓技术的学生画像挖掘系统及系统运行系统,包括。
本发明的目的之三在于,提供了一种基于大数据数仓技术的学生画像挖掘系统及系统运行装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的基于大数据数仓技术的学生画像挖掘实现方法的步骤。
本发明的目的之四在于,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的基于大数据数仓技术的学生画像挖掘实现方法的步骤。
与现有技术相比,本发明的有益效果:
1.该基于大数据数仓技术的学生画像挖掘实现方法通过搭建三层结构的数据仓库模型,可以更好地对海量的学生行为数据进行加工及分类存储,便于快速查询调用,从而提高搭建学生画像的工作效率;
2.该基于大数据数仓技术的学生画像挖掘实现方法通过对学生的日常行为数据进行清洗、提炼、聚类,可以深度挖掘学生的个性特征并较为准确地为其打上对应标签,通过优化学生标签的类别和内容,可以更好实现在智慧校园中构建学生画像;
3.该基于大数据数仓技术的学生画像挖掘实现方法通过研究学生画像,有利于教育工作者、家长及学生本身更好地了解学生,便于及时发现学生日常学习行为中存在的不足,以便纠正、改善其不良习惯,从而可以更好地为学生量身定制对应的培养方案,提升教育水平。
附图说明
图1为本发明的示例性方法流程架构框图;
图2为本发明的整体方法流程图;
图3为本发明的局部方法流程图之一;
图4为本发明的局部方法流程图之二;
图5为本发明的局部方法流程图之三;
图6为本发明的局部方法流程图之四。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图6所示,本实施例的目的在于,提供了一种基于大数据数仓技术的学生画像挖掘实现方法,包括如下步骤:
S1、搭建学生画像挖掘系统网络架构,并连接智慧校园信息管理平台;
S2、从多方面进行学生日常行为信息的数据采集;
S3、以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型;
S4、对学生数据进行标签化;
S5、构建学生的综合行为画像;
S6、学生综合行为画像的应用分析;
即通过归一化函数分别从学习、三餐习惯、作息习惯、消费水平、上网习惯方面的评估维度进行评估,其计算表达式如下:
学习指数:
L=f(s),
其中,f(s)为归一化函数,式中s为各个指标的评价值;
三餐习惯指数:
Figure BDA0003201677170000081
式中Y为三餐习惯指数,Pm为早餐评价,td为用餐标准差评价,pn为夜宵评价,s为消费差评价,即午餐和晚餐的日均消费金额之间的差值;
作息习惯指数:
Figure BDA0003201677170000091
式中S为作息习惯指数,tc为睡眠时长评价,tu为入睡时间评价,ti为起床时间评价;
消费水平指数:
Sp=f(c),
式中c为学生日均消费金额;
上网习惯指数:
N=f(1.725+0.321t),
式中t为学生日均上网时间;
S7、通过学生综合画像,对异常的学生行为进行检测分析;
S8、教育工作者或教师,根据反馈的学生画像进行教学工作安排,并对存在异常行为的学生进行修正引导。
其中,S2中,这些数据包括静态数据和动态数据,结构化数据和非结构化数据;其中,静态数据主要包括学生的基本信息,如姓名、年龄、性别、民族、专业年级、考试成绩等;动态数据主要包括课程学习数据、作息时间数据、校园卡消费数据、网络访问数据、图书借阅数据等;结构化数据主要包括校园信息管理平台数据库中按照一定标准存储的规范数据;非结构化数据主要包括网页、Excel文件、图片信息、视频信息等数据。
其中,S4中,对原始数据进行分析,抽取学生行为相关变量或属性,并为其贴上“标签”;具体为:特征标签分为静态特征标签和动态特征标签,静态特征标签主要包括姓名、年龄、性别、专业年级、考试成绩等;动态特征标签包括学习水平、上网习惯、消费水平、饮食规律、社交关系等。
其中,S8中,授课教师借助画像信息可以改进教学方法、进行学习指导;辅导员借助画像信息可以及时进行行为预警和干预,改变管理手段和管理水平;学生本人也可以及时约束自己,改善学习方法,纠正不良生活、作息习惯。
本实施例中,S3中,以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型的方法包括如下步骤:
S3.1、获取学生的各方面行为信息,包括日常作息时间、课堂出席及表现情况、上网情况、校园门禁信息、饮食情况、消费情况等;
S3.2、搭建三层的数据仓库模型;
S3.3、对海量的学生校园生活数据进行清洗,完成异构多数据源的数据整合,形成统一数据库存储于数据仓库中,并补插不完整的数据;
S3.4、对清洗后的数据进行提炼,深度挖掘出所需的信息;
S3.5、通过聚类算法,对提炼出的学生特征信息进行聚类分析。
其中,S3.2中,三层数据仓库模型分别为:原始数据层(根据业务需求对数据的汇总、抽象与集成);数据中间层(对原始数据的清洗、提取整合);数据结果层(用于存放为学生打的标签,供外部应用生成学生画像)。
具体地,S3.5中,采用K-Means均值聚类算法,该算法步骤如下:
Step1、选K个初始聚类中心,Z1 I,Z2 I,∧ZK I,其中,(1,2,...,k)为寻找聚类中心的迭代运算的次序号;
Step2、逐个将需分类模式样本{X}按最小距离准则分配给K个聚类中心中的某一个Zj (1);对所有的i≠j,j=1,2,...,K,如果Z1 I,Z2 I,∧ZK I,则X∈Sj k,其中,k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj
Step3、计算各个聚类中心的新的向量值Zj (k+1),j=1,2,...,K,求各聚类域中所包含样本的均值向量:
Figure BDA0003201677170000101
其中,Nj为第j个聚类域Sj中所包含的样本个数;
其中,以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:
Figure BDA0003201677170000111
Step4、若Zj (k+1)≠Zj (k+1),j=1,2,...,K,则返回S2,将模式样本逐个重新分类,重复迭代运算;若Zj (k+1)=Zj (k+1),j=1,2,...,K,则算法收敛,计算结束。
本实施例中,S5中,构建学生的综合行为画像的方法包括如下步骤:
S5.1、遵循朴素的行为特征表现规律,依据现实,建立学生特征模型;
S5.2、通过符号化抽象成学生特征的符号标签;
S5.3、对综合行为画像特征标签进行数据归一化处理。
其中,运用数据挖掘技术进行模型计算和标签化处理,用数据对学生进行综合行为画像。
具体地,S5.3中,数据归一化算法采用线性函数归一化和0均值标准化算法,其中,0均值标准化的算法表达式如下:
0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn,标准化后的数据呈正态分布,即均值为0,彼岸准差为1,在一定程度上改变了特征的分布,其函数如下:
Figure BDA0003201677170000112
该函数能够处理原始数据的分布,近似为高斯分布数据,其中,Xn为标准化后的新数据,X为原始数据值,μ为均值,σ为标准差。
本实施例中,S6中,学生综合行为画像的应用分析的方法包括如下步骤:
S6.1、通过对学生的准点率、出勤率、成绩等项目数据进行加权求和,对函数进行归一化,依此反映学生的学习基础与学习态度,对学生的学习特征进行评价分级并打上标签;
S6.2、按照饮食指数设定等级,表示学生的三餐习惯,并给予评价;
S6.3、根据睡眠时长、入眠时间和起床时间计算表示学生的作息习惯规律,设定作息习惯等级,并进行作息习惯评价;
S6.4、收集并计算学生与同学之间出现共现对的次数,通过Louvain社区发现算法识别学生的关系群体,以便发现社群中离群索居的学生;
S6.5、通过学生日均消费金额计算消费力指数,结合学生消费场所、位置等,对学生的消费行为及消费水平进行评价;
S6.6、以日均上网时长为主要计算因素,通过线性相关性判断学生的网络成瘾程度,并依此评价学生的上网健康情况。
其中,学习特征标签评价等级可分为:学霸、优秀学生、良好学生、中等学生、学渣等;三餐习惯等级标签可分为:饮食规律、饮食混乱、饭量合理、大胃王、小猫胃、早餐派、夜宵族等;作息习惯等级可分为:养生作息、夜猫子、日夜颠倒等;社交标签可分为:独行侠、正常社交、社交小王子/小公主等;消费标签可分为:名牌一族、过度消费、正常消费、务实节俭等;网瘾程度标签可分为:深度网虫、冲浪人、虚拟人生等。
本实施例中,S7中,通过学生综合画像,对异常的学生行为进行检测分析的方法包括如下步骤:
S7.1、以班级、组别或宿舍为单位构建多个学生画像,每个学生画像应包括至少两个方面的评估维度,构建学生画像后对全部学生画像进行归一化处理;
S7.2、根据全方面的评估维度构建分析空间,每个方面的评估维度作为分析空间的一个坐标轴;
S7.3、将每个学生的画像映射到分析空间;
S7.4、在分析空间中,分布于单个学生画像预设距离范围内的学生画像为邻近学生画像,计算单个学生画像的近邻学生画像的数量,依此分析单个学生画像与其他学生画像的位置分布情况,得出相似性;
S7.5、将学生画像输入时间序列模型,得到预测学生画像,以分析单个预测学生画像与其他预测学生画像的偏离程度,从而发现存在异常的学生。
具体地,S7.1中,对全部学生画像进行归一化处理采用线性函数归一化,其计算表达式如下:
线性函数归一化函数为将原始特征标签数据通过线性化方式映射到[0,1]区间,其函数如下:
Figure BDA0003201677170000131
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。
进一步地,S7.5中,训练时间序列模型的方法如下:
获取学生的历史学生画像,其中一学生t1时刻的历史画像特征为x1=(a1,a2,...,a23),则t个时刻的特征序列为(x1,x2,...,xt),每个学生都有这样的一个特征序列,即构成了训练样本;
h1,h2,...,ht为模型隐层,将该学生的历史画像特征输入,得到y1,y2,...,yt,即下一时刻该学生的画像特征,其中y1是x2的预测值,y2是x3的预测值,依此类推,因此训练的目标可表示为:
Figure BDA0003201677170000132
其中,M表示训练的样本数量,t表示时序序列的长度,1表示损失函数,对时间序列模型进行训练的目标为尽可能地降低Loss。
本实施例还提供了一种基于大数据数仓技术的学生画像挖掘系统及系统运行装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于大数据数仓技术的学生画像挖掘实现方法。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于大数据数仓技术的学生画像挖掘实现方法的步骤。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于大数据数仓技术的学生画像挖掘实现方法的步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储与计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:包括如下步骤:
S1、搭建学生画像挖掘系统网络架构,并连接智慧校园信息管理平台;
S2、从多方面进行学生日常行为信息的数据采集;
S3、以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型;
S4、对学生数据进行标签化;
S5、构建学生的综合行为画像;
S6、学生综合行为画像的应用分析;
即通过归一化函数分别从学习、三餐习惯、作息习惯、消费水平、上网习惯方面的评估维度进行评估,其计算表达式如下:
学习指数:
L=f(s),
其中,f(s)为归一化函数,式中s为各个指标的评价值;
三餐习惯指数:
Figure FDA0003201677160000011
式中Y为三餐习惯指数,pm为早餐评价,td为用餐标准差评价,pn为夜宵评价,s为消费差评价,即午餐和晚餐的日均消费金额之间的差值;
作息习惯指数:
Figure FDA0003201677160000012
式中S为作息习惯指数,tc为睡眠时长评价,tu为入睡时间评价,ti为起床时间评价;
消费水平指数:
Sp=f(c),
式中c为学生日均消费金额;
上网习惯指数:
N=f(1.725+0.321t),
式中t为学生日均上网时间;
S7、通过学生综合画像,对异常的学生行为进行检测分析;
S8、教育工作者或教师,根据反馈的学生画像进行教学工作安排,并对存在异常行为的学生进行修正引导。
2.根据权利要求1所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S3中,以数据仓库技术为基础对数据进行加工处理,并搭建数据的分层模型的方法包括如下步骤:
S3.1、获取学生的各方面行为信息,包括日常作息时间、课堂出席及表现情况、上网情况、校园门禁信息、饮食情况、消费情况等;
S3.2、搭建三层的数据仓库模型;
S3.3、对海量的学生校园生活数据进行清洗,完成异构多数据源的数据整合,形成统一数据库存储于数据仓库中,并补插不完整的数据;
S3.4、对清洗后的数据进行提炼,深度挖掘出所需的信息;
S3.5、通过聚类算法,对提炼出的学生特征信息进行聚类分析。
3.根据权利要求2所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S3.5中,采用K-Means均值聚类算法,该算法步骤如下:
Step1、选K个初始聚类中心,Z1 I,Z2 I,∧ZK I,其中,(1,2,...,k)为寻找聚类中心的迭代运算的次序号;
Step2、逐个将需分类模式样本{X}按最小距离准则分配给K个聚类中心中的某一个Zj (1);对所有的i≠j,j=1,2,...,K,如果Z1 I,Z2 I,∧ZK I,则X∈Sj k,其中,k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为Zj
Step3、计算各个聚类中心的新的向量值Zj (k+1),j=1,2,...,K,求各聚类域中所包含样本的均值向量:
Figure FDA0003201677160000021
其中,Nj为第j个聚类域Sj中所包含的样本个数;
其中,以均值向量作为新的聚类中心,可使如下聚类准则函数J最小:
Figure FDA0003201677160000031
Step4、若Zj (k+1)≠Zj (k+1),j=1,2,...,K,则返回S2,将模式样本逐个重新分类,重复迭代运算;若Zj (k+1)=Zj (k+1),j=1,2,...,K,则算法收敛,计算结束。
4.根据权利要求3所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S5中,构建学生的综合行为画像的方法包括如下步骤:
S5.1、遵循朴素的行为特征表现规律,依据现实,建立学生特征模型;
S5.2、通过符号化抽象成学生特征的符号标签;
S5.3、对综合行为画像特征标签进行数据归一化处理。
5.根据权利要求4所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S5.3中,数据归一化算法采用线性函数归一化和0均值标准化算法,其中,0均值标准化的算法表达式如下:
0均值标准化是指对原始特征标签数据的均值和标准差进行数据标准化处理,将原始数据值X通过Z-score标准化到Xn,标准化后的数据呈正态分布,即均值为0,彼岸准差为1,在一定程度上改变了特征的分布,其函数如下:
Figure FDA0003201677160000032
该函数能够处理原始数据的分布,近似为高斯分布数据,其中,Xn为标准化后的新数据,X为原始数据值,μ为均值,σ为标准差。
6.根据权利要求5所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S6中,学生综合行为画像的应用分析的方法包括如下步骤:
S6.1、通过对学生的准点率、出勤率、成绩等项目数据进行加权求和,对函数进行归一化,依此反映学生的学习基础与学习态度,对学生的学习特征进行评价分级并打上标签;
S6.2、按照饮食指数设定等级,表示学生的三餐习惯,并给予评价;
S6.3、根据睡眠时长、入眠时间和起床时间计算表示学生的作息习惯规律,设定作息习惯等级,并进行作息习惯评价;
S6.4、收集并计算学生与同学之间出现共现对的次数,通过Louvain社区发现算法识别学生的关系群体,以便发现社群中离群索居的学生;
S6.5、通过学生日均消费金额计算消费力指数,结合学生消费场所、位置等,对学生的消费行为及消费水平进行评价;
S6.6、以日均上网时长为主要计算因素,通过线性相关性判断学生的网络成瘾程度,并依此评价学生的上网健康情况。
7.根据权利要求6所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S7中,通过学生综合画像,对异常的学生行为进行检测分析的方法包括如下步骤:
S7.1、以班级、组别或宿舍为单位构建多个学生画像,每个学生画像应包括至少两个方面的评估维度,构建学生画像后对全部学生画像进行归一化处理;
S7.2、根据全方面的评估维度构建分析空间,每个方面的评估维度作为分析空间的一个坐标轴;
S7.3、将每个学生的画像映射到分析空间;
S7.4、在分析空间中,分布于单个学生画像预设距离范围内的学生画像为邻近学生画像,计算单个学生画像的近邻学生画像的数量,依此分析单个学生画像与其他学生画像的位置分布情况,得出相似性;
S7.5、将学生画像输入时间序列模型,得到预测学生画像,以分析单个预测学生画像与其他预测学生画像的偏离程度,从而发现存在异常的学生。
8.根据权利要求7所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S7.1中,对全部学生画像进行归一化处理采用线性函数归一化,其计算表达式如下:
线性函数归一化函数为将原始特征标签数据通过线性化方式映射到[0,1]区间,其函数如下:
Figure FDA0003201677160000051
该函数能够实现对原始特征标签数据的等比例缩放,其中Xn为归一化的数据,X为转换前值,Xmax和Xmin分别为原始值集的最大值和最小值。
9.根据权利要求8所述的基于大数据数仓技术的学生画像挖掘实现方法,其特征在于:所述S7.5中,训练时间序列模型的方法如下:
获取学生的历史学生画像,其中一学生t1时刻的历史画像特征为x1=(a1,a2,...,a23),则t个时刻的特征序列为(x1,x2,...,xt),每个学生都有这样的一个特征序列,即构成了训练样本;
h1,h2,...,ht为模型隐层,将该学生的历史画像特征输入,得到y1,y2,...,yt,即下一时刻该学生的画像特征,其中y1是x2的预测值,y2是x3的预测值,依此类推,因此训练的目标可表示为:
Figure FDA0003201677160000052
其中,M表示训练的样本数量,t表示时序序列的长度,l表示损失函数,对时间序列模型进行训练的目标为尽可能地降低Loss。
CN202110906416.XA 2021-08-09 一种基于大数据数仓技术的学生画像挖掘实现方法 Active CN113626499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110906416.XA CN113626499B (zh) 2021-08-09 一种基于大数据数仓技术的学生画像挖掘实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110906416.XA CN113626499B (zh) 2021-08-09 一种基于大数据数仓技术的学生画像挖掘实现方法

Publications (2)

Publication Number Publication Date
CN113626499A true CN113626499A (zh) 2021-11-09
CN113626499B CN113626499B (zh) 2024-05-10

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926312A (zh) * 2022-06-21 2022-08-19 广州新烨数码科技股份有限公司 一种基于人工智能的数据采集分析方法及系统
CN115659057A (zh) * 2022-12-29 2023-01-31 北京易思汇商务服务有限公司 一种学校画像生成方法、装置、终端、系统及存储介质
CN116362933A (zh) * 2023-05-30 2023-06-30 南京农业大学 基于大数据的智慧校园管理方法及系统
CN116611022A (zh) * 2023-04-21 2023-08-18 深圳乐行智慧产业有限公司 智慧校园教育大数据融合方法及平台
CN117409964A (zh) * 2023-04-21 2024-01-16 云启智慧科技有限公司 一种基于学生在校行为分析的综合心理评测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492224A (zh) * 2018-03-09 2018-09-04 上海开放大学 基于深度学习在线教育学生综合画像标签管理系统
CN111291173A (zh) * 2020-01-17 2020-06-16 北京工业大学 一种基于混合神经网络的高校学生画像技术的应用方法
WO2020151164A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 消息推送方法、装置、计算机设备及存储介质
CN111652291A (zh) * 2020-05-18 2020-09-11 温州医科大学 一种基于组稀疏融合医院大数据建立学生成长画像的方法
CN112256755A (zh) * 2020-10-20 2021-01-22 中电科新型智慧城市研究院有限公司福州分公司 一种基于深度学习的学生异常行为分析方法
AU2020103529A4 (en) * 2020-11-19 2021-01-28 Shenzhen Polytechnic An educational big data analysis method based on artificial intelligence
CN112686462A (zh) * 2021-01-06 2021-04-20 广州视源电子科技股份有限公司 基于学生画像的异常检测方法、装置、设备及存储介质
WO2021147557A1 (zh) * 2020-08-28 2021-07-29 平安科技(深圳)有限公司 客户画像方法、装置、计算机可读存储介质及终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492224A (zh) * 2018-03-09 2018-09-04 上海开放大学 基于深度学习在线教育学生综合画像标签管理系统
WO2020151164A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 消息推送方法、装置、计算机设备及存储介质
CN111291173A (zh) * 2020-01-17 2020-06-16 北京工业大学 一种基于混合神经网络的高校学生画像技术的应用方法
CN111652291A (zh) * 2020-05-18 2020-09-11 温州医科大学 一种基于组稀疏融合医院大数据建立学生成长画像的方法
WO2021147557A1 (zh) * 2020-08-28 2021-07-29 平安科技(深圳)有限公司 客户画像方法、装置、计算机可读存储介质及终端设备
CN112256755A (zh) * 2020-10-20 2021-01-22 中电科新型智慧城市研究院有限公司福州分公司 一种基于深度学习的学生异常行为分析方法
AU2020103529A4 (en) * 2020-11-19 2021-01-28 Shenzhen Polytechnic An educational big data analysis method based on artificial intelligence
CN112686462A (zh) * 2021-01-06 2021-04-20 广州视源电子科技股份有限公司 基于学生画像的异常检测方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
施明毅;杨光莹;杜敏;张家乐;韩秋;陈梓贤;: "基于校园行为大数据分析的学生画像系统构建探析", 中国多媒体与网络教学学报(上旬刊), no. 04, 11 March 2020 (2020-03-11) *
邓嘉明;曾祥煜;: "智慧校园数据画像标签建立与教学融合", 北京印刷学院学报, no. 07, 26 July 2020 (2020-07-26) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926312A (zh) * 2022-06-21 2022-08-19 广州新烨数码科技股份有限公司 一种基于人工智能的数据采集分析方法及系统
CN115659057A (zh) * 2022-12-29 2023-01-31 北京易思汇商务服务有限公司 一种学校画像生成方法、装置、终端、系统及存储介质
CN116611022A (zh) * 2023-04-21 2023-08-18 深圳乐行智慧产业有限公司 智慧校园教育大数据融合方法及平台
CN117409964A (zh) * 2023-04-21 2024-01-16 云启智慧科技有限公司 一种基于学生在校行为分析的综合心理评测方法
CN116611022B (zh) * 2023-04-21 2024-04-26 深圳乐行智慧产业有限公司 智慧校园教育大数据融合方法及平台
CN116362933A (zh) * 2023-05-30 2023-06-30 南京农业大学 基于大数据的智慧校园管理方法及系统
CN116362933B (zh) * 2023-05-30 2023-09-26 南京农业大学 基于大数据的智慧校园管理方法及系统

Similar Documents

Publication Publication Date Title
Han et al. Data mining: concepts and techniques
Hedges et al. Academic crowdsourcing in the humanities: Crowds, communities and co-production
Aleem et al. Educational data mining methods: A survey
May Petry et al. MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings
Shu Knowledge discovery in the social sciences: A data mining approach
CN113656687B (zh) 基于教研数据的教师画像构建方法
Martínez-Torres Content analysis of open innovation communities using latent semantic indexing
Mutar et al. Smoke detection based on image processing by using grey and transparency features
Zhao et al. Improvement of English key competences based on machine learning and artificial intelligence technology
Syed et al. Personalized recommendation system for advanced learning management systems
Masrur et al. Interpretable machine learning for analysing heterogeneous drivers of geographic events in space-time
Villalonga-Gómez et al. Profiling distance learners in TEL environments: a hierarchical cluster analysis
Huan et al. Learners' Autonomous Learning Behavior in Distance Reading Based on Big Data
Kumar et al. Relevance of data mining techniques in edification sector
Uddin et al. Proposing logical table constructs for enhanced machine learning process
CN113626499B (zh) 一种基于大数据数仓技术的学生画像挖掘实现方法
CN113626499A (zh) 一种基于大数据数仓技术的学生画像挖掘实现方法
de Baker et al. Chapter X: educational data mining and learning analytics
Pardos et al. The school of information and its relationship to computer science at UC Berkeley
Fang et al. Knowledge map construction based on association rule mining extending with interaction frequencies and knowledge tracking for rules cleaning
Kushwaha A Futuristic Perspective on Artificial Intelligence
Skov Science maps for exploration, navigation, and reflection—A graphic approach to strategic thinking
Varga Geocaching: tracing geotagged social media research using mixed methods
Huang et al. Feature selection for clustering online learners
Kim et al. Summarizing Students’ Free Responses for an Introductory Algebra-Based Physics Course Survey Using Cluster and Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant