CN115204496A - 一种校园人际关系数据分析方法及装置 - Google Patents
一种校园人际关系数据分析方法及装置 Download PDFInfo
- Publication number
- CN115204496A CN115204496A CN202210843611.7A CN202210843611A CN115204496A CN 115204496 A CN115204496 A CN 115204496A CN 202210843611 A CN202210843611 A CN 202210843611A CN 115204496 A CN115204496 A CN 115204496A
- Authority
- CN
- China
- Prior art keywords
- occurrence
- student
- campus
- interpersonal relationship
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种校园人际关系数据分析方法及装置,其包括如下步骤:学生数据采集;对所述学生数据进行预处理;生成预测模型;模型训练;以及根据模型训练的最终评估结果确定最终的校园人际关系预测模型。本发明根据预处理的学生数据进行轨迹预分类,使其能够更有效的提取特征值,提高模型准确率,且最终预测模型所输出的学生校园人际关系预测结果准确。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种校园人际关系数据分析方法及装置。
背景技术
社会交往是学生社会化的基本途径,也是学生健康成长的根本保证。通过交往建立起来的人际关系,包括体现亲密关系的友谊以及青年学生向往的爱情等,其对学生心理、道德、思想观念的发展均有重要影响。
但学生在校期间,老师无法长期保持对学生动态(尤其是日常生活以及人际交往方面)的细致关注,因此往往无法发现学生在人际交往过程中出现的问题和心里障碍。
虽然现有技术中已出现通过聚类算法将学生人群进行划分,进而认为被群体独立出来的个体具有性格孤僻、存在人际交往障碍等问题的方案,但聚类算法是一种无监督学习,无法确保结果的准确性,可解释性差。
发明内容
本发明的目的在于提供一种校园人际关系数据分析方法及装置,其根据预处理的学生数据进行轨迹预分类,使其能够更有效的提取特征值,提高模型准确率,且最终预测模型所输出的学生校园人际关系预测结果准确。
为实现上述目的,本申请提供了一种校园人际关系数据分析方法,其包括如下步骤:
学生数据采集;
对所述学生数据进行预处理;
生成预测模型;
模型训练;
以及根据模型训练的最终评估结果确定最终的校园人际关系预测模型。
优选的,对所述学生数据进行预处理包括如下步骤:
筛选学生共现记录,并确定特征值;所述共现的定义为在预定时间内,两个学生是否出现在校园内的同一地点;所述特征值包括:高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数、专业排名差距、性别是否相同、是否同班;
对所述学生共现记录进行分类,以获得共现记录分类结果,所述共现记录分类结果包括:高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数;
获取有共现记录的学生的学生成绩信息;
确定有共现记录的学生是否同班以及性别是否相同;
将学生之间的人际关系划分为若干类型,并对每一类型进行对应编号;
以及以学号为主索引,将上述学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联,以获得已完成预处理的数据集。
优选的,生成预测模型包括如下步骤:
从已完成预处理的数据集中采用随机有放回的方式抽取n个训练样本,并进行k轮抽取操作,以得到k个数据集;
遍历k个数据集,并从每一数据集中随机选择g个特征值,并根据每一数据集中的g个特征值生成与该数据集对应的关系分类树;
将k个关系分类树形成一个集成分类模型,按照对k个关系分类树投票的方式选取票数最多的关系分类树作为预测模型。
优选的,根据每一数据集中的g个特征值生成与该数据集对应的关系分类树包括如下步骤:
从g个特征值中选取一个特征值,并假设该特征值作为与该特征值所在数据集对应的关系分类树的节点,并根据公式(1)获取该特征值作为分支点时的信息熵差异:
其中,GAP(E,div)为信息熵差异,E为信息熵,D为该特征值所在数据集,div为假设该特征值作为待生成的关系分类树的节点,y代表该特征值的值域,x代表该特征值的取值,m代表人际关系类型,n代表m中的一类;p为人际关系n的数量在所有人际关系类型总数中所占的比例;
重复上述步骤,获得g个信息熵差异,并将其中信息熵差异的最大值所对应的特征值确定为待生成的关系分类树的节点;
重复上述步骤,通过递归迭代直至g个特征值的信息熵差异小于预设值或没有特征值可供选择为止,以确定若干个待生成的关系分类树的节点,并根据所有节点生成与该数据集对应的关系分类树;
重复上述过程,以获得k个关系分类树。
优选的,模型训练包括如下步骤:
使用Spark分布式计算引擎从分布式文件系统中获取已完成预处理的数据集,并将数据集中的数据转换成数据框;
对所述预测模型进行训练;
使用DictVectorizer对所述预测模型进行字典特征提取;
设置关系分类树以及关系分类树深度的初始值范围,再对所述预测模型进行训练;
将已完成预处理的数据集分为k份,每次选择其中一份作为测试集,剩余的k-1份作为训练集,重复训练k次并计算评估指标,计算k组评估指标结果的平均值,即为交叉检验下所述预测模型的最终评估结果。
优选的,所述评估指标包括精准率precision、召回率recall、F1-score中的一种或几种。
优选的,所述精准率计算公式如下:
其中yi为人际关系类型,T和F分别代表预测正确的样本数和错误样本数,precision(yi)为人际关系类型yi的预测精准率,即,预测为人际关系类型yi且预测正确的样本占预测为人际关系类型yi的样本比例。
优选的,所述召回率计算公式如下:
其中yi为类型人际关系,T代表预测正确的样本数,A代表实际的样本数,recall(yi)为人际关系类型yi的预测召回率,即,预测为人际关系类型yi且预测正确的样本占实际为人际关系类型yi样本的比例。
优选的,所述F1-score计算公式如下:
还提供一种校园人际关系数据分析装置,其包括:
学生数据存储单元,其用于存储学生数据;
共现记录获取单元,其连接所述学生数据存储单元,用于从所述学生数据中筛选学生共现记录,对所述学生共现记录进行分类,以获得共现记录分类结果,以及确定特征值;
数据集预处理单元,其用于以学号为主索引,将学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联,以获得已完成预处理的数据集;
预测模型生成单元,其用于根据已完成预处理的数据集生成预测模型;
预测模型训练单元,其用于对所述预测模型进行训练,并确定最终的校园人际关系预测模型。
综上所述,本发明与现有技术相比具有以下有益效果:
本发明根据预处理的学生数据进行轨迹预分类(即按照共现记录进行分类,且按照高峰期和非高峰期进行区分),使其能够更有效的提取特征值,提高模型准确率;进一步的,本发明通过建立关系分类树来获取预测模型,且从信息熵的角度形成新的关系分类树分支,并采用集成算法来获取最终的预测模型,所获得模型精度高于通过单棵关系分类树所获得模型的精度,且由最终预测模型所输出的学生校园人际关系预测结果准确。
附图说明
图1为本发明中校园人际关系数据分析方法的步骤示意图;
图2为本发明中根据特征值生成关系分类树的示意图;
图3为本发明中校园人际关系数据分析装置的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供了一种校园人际关系数据分析方法,其包括如下步骤:
S1、学生数据采集,且所述学生数据包括如下信息中的一种或几种:
学生个人信息,如所在班级信息、性别等,其可以通过学校学生学籍管理系统获取;
在校活动轨迹信息,如出现在学校内食堂、宿舍楼、超市、图书馆等场所的记录,其可以通过校园卡等与学生身份绑定的设备获取;
学生成绩信息,如专业排名、各科考试成绩等,其可以通过学校学生成绩管理系统获取;
以及人际关系信息,如朋友数量、是否有恋人等,其可以通过问卷调查等方式获取;
S2、对所述学生数据进行预处理,其具体包括:
S201、筛选学生共现记录,并确定特征值;本实施例中所述共现的定义为在预定时间(如30秒)内,两个学生是否出现在校园内的同一地点,所述地点包括学校内的食堂、宿舍楼、超市、图书馆等场所中的一种或几种;
对所述学生共现记录进行分类,以获得共现记录分类结果,所述共现记录分类结果包括:高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数,进一步的,所述高峰期为周一至周五每天的11-12时以及17-18时,非高峰期为周六全天和周日全天;需要注意的是,周一至周五每天的11-12时以及17-18时分别对应上午课程结束和下午课程结束后的时间段,该时间段内若两个学生关系密切,则共同出现在食堂、宿舍楼的可能性较高,如上午/下午课程结束后一起去食堂吃饭、回宿舍楼等,而在非高峰期,如周六全天和周日全天,由于是周末,即使两个学生关系密切,但两者仍然会安排各自的活动,由此使得两者的共现记录较少,因此,区分高峰期和非高峰期的意义在于,可以更加精准的获取学生的共现记录,以佐证其人际关系是否密切;
获取有共现记录的学生的学生成绩信息;
确定有共现记录的学生是否同班以及性别是否相同;
将学生之间的人际关系划分为若干类型,并对每一类型进行对应编号,所述类型包括:第一类型(编号:路人0)、第二类型(编号:浅交1)、第三类型(编号:密友2)、第三类型(编号:情侣3);
所述特征值包括:高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数、专业排名差距、性别是否相同、是否同班;
S202、以学号为主索引,使用Spark算法将上述学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联,以获得已完成预处理的数据集;
S3、生成预测模型,其包括如下步骤:
S301、从已完成预处理的数据集中采用随机有放回的方式抽取n个训练样本,并进行k轮抽取操作,以得到k个数据集(k为正整数,如k=10);由此通过有放回的随机采样,一方面均匀取样保证样本权重一致,另一方面确保模型的泛化能力;
S302、遍历k个数据集(如本实施例中k=3,即为3个数据集:数据集1、数据集2、数据集3),并从每一数据集中随机选择g个(g为大于或等于3的正整数)特征值(如从数据集中随机选择专业排名差距、性别是否相同、是否同班3个特征值,从数据集2中随机选择非高峰期食堂共现次数、图书馆共现次数、专业排名差距3个特征值,从数据集3中随机选择高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数3个特征值),并根据每一数据集中的g个特征值生成与该数据集对应的关系分类树;
具体的,如图2所示,根据每一数据集中的g个特征值生成与该数据集对应的关系分类树包括如下步骤:
S3021、从g个特征值中选取一个特征值,并假设该特征值作为与该特征值所在数据集对应的关系分类树的节点,并根据公式(1)获取该特征值作为分支点时的信息熵差异:
其中,GAP(E,div)为信息熵差异,E为信息熵,D为该特征值所在数据集,div为假设该特征值作为待生成的关系分类树的节点(例如将是否同班作为关系分类树节点),y代表该特征值的值域(例如同班、不同班),x代表该特征值的取值(例如同班),m代表人际关系类型(如路人、浅交、密友、情侣),n代表m中的一类(例如路人),p为人际关系n的数量在所有人际关系类型总数中所占的比例,例如,路人、浅交、密友、情侣四种人际关系类型的数量分别为10个、30个、40个、20个,则所有人际关系类型总数为100个,其中n为路人人际关系,其数量为10个,则p=10/100=0.1;
S3022、重复上述步骤S3021,由此获得g个信息熵差异,并将其中信息熵差异的最大值所对应的特征值确定为待生成的关系分类树的节点;
S3023、重复步骤S3021-3022,通过递归迭代直至g个特征值的信息熵差异小于预设值或没有特征值可供选择为止,由此确定若干个待生成的关系分类树的节点,并根据所有节点生成与该数据集对应的关系分类树;
S3024、重复上述过程,以获得k个关系分类树;
S303、将k个关系分类树形成一个集成分类模型,按照对k个关系分类树投票的方式选取票数最多的关系分类树作为预测模型;
S4、模型训练,其具体包括如下步骤:
S401、使用Spark分布式计算引擎从分布式文件系统(HDFS)中获取已完成预处理的数据集,并将数据集中的数据转换成数据框(即DataFrame);
S402、使用Sklearn框架对所述预测模型进行训练,例如,本实施例中因为内置了数据划分、交叉验证以及分类器等,因此可采用算法中自带的oob数据作为测试数据,以进行预测模型训练,其中oob数据的数据量p为:
S403、使用DictVectorizer(一种特征工程的方法)对所述预测模型进行字典特征提取,如本实施例中使用one-hot编码将路人、浅交、密友、情侣转换成[‘0001’,’0010’,’0100’,’1000’],进一步进行特征提取;
S404、设置关系分类树以及关系分类树深度等关键参数的初始值范围,再对所述预测模型进行训练;
S405、将已完成预处理的数据集分为k份,每次选择其中一份作为测试集,剩余的k-1份作为训练集,重复训练k次并计算评估指标,计算k组评估指标结果的平均值,即为交叉检验下所述预测模型的最终评估结果;
S5、根据模型训练的最终评估结果确定最终的校园人际关系预测模型;
以及S6、将待预测的、包含特征值的数据集(即需要进行人际关系预测的数据集,其人际关系类型未知)输入最终的校园人际关系预测模型,以得到校园人际关系预测结果,并进行存储。
由此,本实施例根据预处理的学生数据进行轨迹预分类(即按照共现记录进行分类),使其能够更有效的提取特征值,提高模型准确率;进一步的,通过建立关系分类树来获取预测模型,且从信息熵的角度形成新的关系分类树分支,避免单纯从距离的角度进行分类而产生的缺点(如各个特征值的维度不同导致权重和量纲不统一,使得后续分类结果不准确),此外,本实施例采用集成算法来获取最终的预测模型,所获得模型精度高于通过单棵关系分类树所获得模型的精度。
在此基础上,由最终预测模型所输出的学生校园人际关系预测结果准确,有助于管理方(如学校、家长等)准确获取具有社交障碍的学生,且在出现学生失联等突发情况时,学校管理人员能够第一时间确定与该学生有日常密切接触的其他学生,及时了解情况并采取应急方案。
实施例2:
本实施例与实施例1的不同之处仅在于,为了提高模型的泛化能力,在执行步骤S4的过程中可实时进行核心参数调整,所述核心参数包括如下参照中的一种或几种:
关系分类树个数,默认值为100;
分类树的最大深度,默认值为5,以防止过拟合和欠拟合;
分支节点训练样本的阈值,默认指为2,防止过拟合和欠拟合。
此外,所述步骤S405中的评估指标包括精准率、召回率、F1-score中的一种或几种;
具体的,所述精准率计算公式如下:
其中yi为人际关系类型(例如密友),T和F分别代表预测正确的样本数和错误样本数,precision(yi)为人际关系类型yi的预测精准率,即,预测为人际关系类型yi且预测正确的样本占预测为人际关系类型yi的样本比例;
所述召回率计算公式如下:
其中yi为类型人际关系(例如密友),T代表预测正确的样本数,A代表实际的样本数,recall(yi)为人际关系类型yi的预测召回率,即,预测为人际关系类型yi且预测正确的样本占实际为人际关系类型yi样本的比例;
所述F1-score计算公式如下:
其中F1-score的计算结果范围为0~1,结果越大则说明预测模型的预测精度越高。
实施例3:
本实施例提供了一种用于实现实施例1或2所述校园人际关系数据分析方法的校园人际关系数据分析装置,如图3所示,其包括:
学生数据存储单元1,其用于存储学生数据;
共现记录获取单元2,其连接所述学生数据存储单元1,用于从所述学生数据中筛选学生共现记录,对所述学生共现记录进行分类,以获得共现记录分类结果,以及确定特征值;
数据集预处理单元3,其用于以学号为主索引,使用Spark算法将学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联,以获得已完成预处理的数据集;
预测模型生成单元4,其用于根据已完成预处理的数据集生成预测模型,其具体步骤与步骤S3相同,不再赘述;
预测模型训练单元5,其用于对所述预测模型进行训练,并确定最终的校园人际关系预测模型,其具体步骤与步骤S4-S5相同,不再赘述。
综上所述,本发明根据预处理的学生数据进行轨迹预分类(即按照共现记录进行分类,且按照高峰期和非高峰期进行区分),使其能够更有效的提取特征值,提高模型准确率;进一步的,本发明通过建立关系分类树来获取预测模型,且从信息熵的角度形成新的关系分类树分支,并采用集成算法来获取最终的预测模型,所获得模型精度高于通过单棵关系分类树所获得模型的精度。
在此基础上,由最终预测模型所输出的学生校园人际关系预测结果准确,有助于管理方(如学校、家长等)准确获取具有社交障碍的学生,且在出现学生失联等突发情况时,学校管理人员能够第一时间确定与该学生有日常密切接触的其他学生,及时了解情况并采取应急方案。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种校园人际关系数据分析方法,其特征在于,包括如下步骤:
学生数据采集;
对所述学生数据进行预处理;
生成预测模型;
模型训练;
以及根据模型训练的最终评估结果确定最终的校园人际关系预测模型。
2.如权利要求1所述的校园人际关系数据分析方法,其特征在于,对所述学生数据进行预处理包括如下步骤:
筛选学生共现记录,并确定特征值;所述共现的定义为在预定时间内,两个学生是否出现在校园内的同一地点;所述特征值包括:高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数、专业排名差距、性别是否相同、是否同班;
对所述学生共现记录进行分类,以获得共现记录分类结果,所述共现记录分类结果包括:高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数;
获取有共现记录的学生的学生成绩信息;
确定有共现记录的学生是否同班以及性别是否相同;
将学生之间的人际关系划分为若干类型,并对每一类型进行对应编号;
以及以学号为主索引,将上述学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联,以获得已完成预处理的数据集。
3.如权利要求2所述的校园人际关系数据分析方法,其特征在于,生成预测模型包括如下步骤:
从已完成预处理的数据集中采用随机有放回的方式抽取n个训练样本,并进行k轮抽取操作,以得到k个数据集;
遍历k个数据集,并从每一数据集中随机选择g个特征值,并根据每一数据集中的g个特征值生成与该数据集对应的关系分类树;
将k个关系分类树形成一个集成分类模型,按照对k个关系分类树投票的方式选取票数最多的关系分类树作为预测模型。
4.如权利要求3所述的校园人际关系数据分析方法,其特征在于,根据每一数据集中的g个特征值生成与该数据集对应的关系分类树包括如下步骤:
从g个特征值中选取一个特征值,并假设该特征值作为与该特征值所在数据集对应的关系分类树的节点,并根据公式(1)获取该特征值作为分支点时的信息熵差异:
其中,GAP(E,div)为信息熵差异,E为信息熵,D为该特征值所在数据集,div为假设该特征值作为待生成的关系分类树的节点,y代表该特征值的值域,x代表该特征值的取值,m代表人际关系类型,n代表m中的一类;p为人际关系n的数量在所有人际关系类型总数中所占的比例;
重复上述步骤,获得g个信息熵差异,并将其中信息熵差异的最大值所对应的特征值确定为待生成的关系分类树的节点;
重复上述步骤,通过递归迭代直至g个特征值的信息熵差异小于预设值或没有特征值可供选择为止,以确定若干个待生成的关系分类树的节点,并根据所有节点生成与该数据集对应的关系分类树;
重复上述过程,以获得k个关系分类树。
5.如权利要求3所述的校园人际关系数据分析方法,其特征在于,模型训练包括如下步骤:
使用Spark分布式计算引擎从分布式文件系统中获取已完成预处理的数据集,并将数据集中的数据转换成数据框;
对所述预测模型进行训练;
使用DictVectorizer对所述预测模型进行字典特征提取;
设置关系分类树以及关系分类树深度的初始值范围,再对所述预测模型进行训练;
将已完成预处理的数据集分为k份,每次选择其中一份作为测试集,剩余的k-1份作为训练集,重复训练k次并计算评估指标,计算k组评估指标结果的平均值,即为交叉检验下所述预测模型的最终评估结果。
6.如权利要求5所述的校园人际关系数据分析方法,其特征在于,所述评估指标包括精准率precision、召回率recall、F1-score中的一种或几种。
10.一种校园人际关系数据分析装置,其特征在于,包括:
学生数据存储单元,其用于存储学生数据;
共现记录获取单元,其连接所述学生数据存储单元,用于从所述学生数据中筛选学生共现记录,对所述学生共现记录进行分类,以获得共现记录分类结果,以及确定特征值;
数据集预处理单元,其用于以学号为主索引,将学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联,以获得已完成预处理的数据集;
预测模型生成单元,其用于根据已完成预处理的数据集生成预测模型;
预测模型训练单元,其用于对所述预测模型进行训练,并确定最终的校园人际关系预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210843611.7A CN115204496B (zh) | 2022-07-18 | 2022-07-18 | 一种校园人际关系数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210843611.7A CN115204496B (zh) | 2022-07-18 | 2022-07-18 | 一种校园人际关系数据分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115204496A true CN115204496A (zh) | 2022-10-18 |
CN115204496B CN115204496B (zh) | 2023-06-20 |
Family
ID=83581841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210843611.7A Active CN115204496B (zh) | 2022-07-18 | 2022-07-18 | 一种校园人际关系数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204496B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423406A (zh) * | 2017-07-27 | 2017-12-01 | 电子科技大学 | 一种校园学生关系网络的构建方法 |
CN111341418A (zh) * | 2020-02-25 | 2020-06-26 | 成都寻道科技有限公司 | 一种根据社交网络评估学生心理的方法、系统及装置 |
CN112364255A (zh) * | 2020-11-05 | 2021-02-12 | 天津大学 | 基于社交网络的学生风险预警模型建立技术 |
-
2022
- 2022-07-18 CN CN202210843611.7A patent/CN115204496B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423406A (zh) * | 2017-07-27 | 2017-12-01 | 电子科技大学 | 一种校园学生关系网络的构建方法 |
CN111341418A (zh) * | 2020-02-25 | 2020-06-26 | 成都寻道科技有限公司 | 一种根据社交网络评估学生心理的方法、系统及装置 |
CN112364255A (zh) * | 2020-11-05 | 2021-02-12 | 天津大学 | 基于社交网络的学生风险预警模型建立技术 |
Non-Patent Citations (2)
Title |
---|
曲洋等: "基于通联数据的人际关系网络构建与挖掘", 《信息网络安全》 * |
江家龙等: "C4.5算法在大学生心理健康分析中的应用", 《现代计算机(专业版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115204496B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hill et al. | Modelling student progress in studies of educational effectiveness | |
Kessler et al. | Unemployment and health in a community sample | |
Neff | A confirmatory factor analysis of a measure of “machismo” among Anglo, African American, and Mexican American male drinkers | |
Walters et al. | Motivational interviewing as a supervision strategy in probation: A randomized effectiveness trial | |
Culotta | Reducing sampling bias in social media data for county health inference | |
CN112598184B (zh) | 一种戒毒人员复吸风险预测的方法和装置 | |
Allen-Meares | Content analysis: It does have a place in social work research | |
Clark et al. | What if they are all high-risk for attrition? Correlates of retention in a longitudinal study of reentry from prison | |
Zheng | [Retracted] Cluster Analysis Algorithm in the Analysis of College Students’ Mental Health Education | |
Jordan et al. | Heterogeneous impacts of sentencing decisions | |
CN115204496A (zh) | 一种校园人际关系数据分析方法及装置 | |
Pullenayegum et al. | Latent class models reveal poor agreement between discrete-choice and time tradeoff preferences | |
Wowczko | A case study of evaluating job readiness with data mining tools and CRISP-DM methodology | |
Yu et al. | Data mining technology in the analysis of college students’ psychological problems | |
CN111767367A (zh) | 一种学生心情跟踪和提取情绪特征的方法及系统 | |
KR102563244B1 (ko) | 빅데이터에 기반한 메타 인지 향상을 위한 일상 정보 피드백 방법 및 시스템 | |
CN114238448B (zh) | 一种基于行为数据的特定群体自控力数据获取系统及方法 | |
Dahlhamer et al. | Modeling interviewer effects in the national health interview survey | |
Devraj et al. | The dynamics of exemplar and prototype representations depend on environmental statistics | |
Koroleva et al. | Modeling and evaluating the residential urban environment perception | |
Iurasov | New e-business model: undergraduate study program search system | |
MacGregor et al. | Implementing your sampling strategy in an Educational Setting | |
Bui et al. | An Analysis of the Impacts of Social Media on COVID-19 Vaccine Hesitancy in the US | |
Flaherty et al. | Latent class and latent profile models. | |
Cui | Predicting text features of social temporal point process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |