CN115204496A

CN115204496A - 一种校园人际关系数据分析方法及装置

Info

Publication number: CN115204496A
Application number: CN202210843611.7A
Authority: CN
Inventors: 李舵文; 严鹤; 王俊; 胡琦
Original assignee: Yunqi Intelligent Technology Co ltd
Current assignee: Yunqi Intelligent Technology Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-10-18
Anticipated expiration: 2042-07-18
Also published as: CN115204496B

Abstract

本发明涉及一种校园人际关系数据分析方法及装置，其包括如下步骤：学生数据采集；对所述学生数据进行预处理；生成预测模型；模型训练；以及根据模型训练的最终评估结果确定最终的校园人际关系预测模型。本发明根据预处理的学生数据进行轨迹预分类，使其能够更有效的提取特征值，提高模型准确率，且最终预测模型所输出的学生校园人际关系预测结果准确。

Description

一种校园人际关系数据分析方法及装置

技术领域

本发明涉及数据分析技术领域，尤其涉及一种校园人际关系数据分析方法及装置。

背景技术

社会交往是学生社会化的基本途径，也是学生健康成长的根本保证。通过交往建立起来的人际关系，包括体现亲密关系的友谊以及青年学生向往的爱情等，其对学生心理、道德、思想观念的发展均有重要影响。

但学生在校期间，老师无法长期保持对学生动态(尤其是日常生活以及人际交往方面)的细致关注，因此往往无法发现学生在人际交往过程中出现的问题和心里障碍。

虽然现有技术中已出现通过聚类算法将学生人群进行划分，进而认为被群体独立出来的个体具有性格孤僻、存在人际交往障碍等问题的方案，但聚类算法是一种无监督学习，无法确保结果的准确性，可解释性差。

发明内容

本发明的目的在于提供一种校园人际关系数据分析方法及装置，其根据预处理的学生数据进行轨迹预分类，使其能够更有效的提取特征值，提高模型准确率，且最终预测模型所输出的学生校园人际关系预测结果准确。

为实现上述目的，本申请提供了一种校园人际关系数据分析方法，其包括如下步骤：

学生数据采集；

对所述学生数据进行预处理；

生成预测模型；

模型训练；

以及根据模型训练的最终评估结果确定最终的校园人际关系预测模型。

优选的，对所述学生数据进行预处理包括如下步骤：

筛选学生共现记录，并确定特征值；所述共现的定义为在预定时间内，两个学生是否出现在校园内的同一地点；所述特征值包括：高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数、专业排名差距、性别是否相同、是否同班；

对所述学生共现记录进行分类，以获得共现记录分类结果，所述共现记录分类结果包括：高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数；

获取有共现记录的学生的学生成绩信息；

确定有共现记录的学生是否同班以及性别是否相同；

将学生之间的人际关系划分为若干类型，并对每一类型进行对应编号；

以及以学号为主索引，将上述学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联，以获得已完成预处理的数据集。

优选的，生成预测模型包括如下步骤：

从已完成预处理的数据集中采用随机有放回的方式抽取n个训练样本，并进行k轮抽取操作，以得到k个数据集；

遍历k个数据集，并从每一数据集中随机选择g个特征值，并根据每一数据集中的g个特征值生成与该数据集对应的关系分类树；

将k个关系分类树形成一个集成分类模型，按照对k个关系分类树投票的方式选取票数最多的关系分类树作为预测模型。

优选的，根据每一数据集中的g个特征值生成与该数据集对应的关系分类树包括如下步骤：

从g个特征值中选取一个特征值，并假设该特征值作为与该特征值所在数据集对应的关系分类树的节点，并根据公式(1)获取该特征值作为分支点时的信息熵差异：

其中，GAP(E，div)为信息熵差异，E为信息熵，D为该特征值所在数据集，div为假设该特征值作为待生成的关系分类树的节点，y代表该特征值的值域，x代表该特征值的取值，m代表人际关系类型，n代表m中的一类；p为人际关系n的数量在所有人际关系类型总数中所占的比例；

重复上述步骤，获得g个信息熵差异，并将其中信息熵差异的最大值所对应的特征值确定为待生成的关系分类树的节点；

重复上述步骤，通过递归迭代直至g个特征值的信息熵差异小于预设值或没有特征值可供选择为止，以确定若干个待生成的关系分类树的节点，并根据所有节点生成与该数据集对应的关系分类树；

重复上述过程，以获得k个关系分类树。

优选的，模型训练包括如下步骤：

使用Spark分布式计算引擎从分布式文件系统中获取已完成预处理的数据集，并将数据集中的数据转换成数据框；

对所述预测模型进行训练；

使用DictVectorizer对所述预测模型进行字典特征提取；

设置关系分类树以及关系分类树深度的初始值范围，再对所述预测模型进行训练；

将已完成预处理的数据集分为k份，每次选择其中一份作为测试集，剩余的k-1份作为训练集，重复训练k次并计算评估指标，计算k组评估指标结果的平均值，即为交叉检验下所述预测模型的最终评估结果。

优选的，所述评估指标包括精准率precision、召回率recall、F1-score中的一种或几种。

优选的，所述精准率计算公式如下：

其中y_i为人际关系类型，T和F分别代表预测正确的样本数和错误样本数，precision(y_i)为人际关系类型y_i的预测精准率，即，预测为人际关系类型y_i且预测正确的样本占预测为人际关系类型y_i的样本比例。

优选的，所述召回率计算公式如下：

其中y_i为类型人际关系，T代表预测正确的样本数，A代表实际的样本数，recall(y_i)为人际关系类型y_i的预测召回率，即，预测为人际关系类型y_i且预测正确的样本占实际为人际关系类型y_i样本的比例。

优选的，所述F1-score计算公式如下：

还提供一种校园人际关系数据分析装置，其包括：

学生数据存储单元，其用于存储学生数据；

共现记录获取单元，其连接所述学生数据存储单元，用于从所述学生数据中筛选学生共现记录，对所述学生共现记录进行分类，以获得共现记录分类结果，以及确定特征值；

数据集预处理单元，其用于以学号为主索引，将学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联，以获得已完成预处理的数据集；

预测模型生成单元，其用于根据已完成预处理的数据集生成预测模型；

预测模型训练单元，其用于对所述预测模型进行训练，并确定最终的校园人际关系预测模型。

综上所述，本发明与现有技术相比具有以下有益效果：

本发明根据预处理的学生数据进行轨迹预分类(即按照共现记录进行分类，且按照高峰期和非高峰期进行区分)，使其能够更有效的提取特征值，提高模型准确率；进一步的，本发明通过建立关系分类树来获取预测模型，且从信息熵的角度形成新的关系分类树分支，并采用集成算法来获取最终的预测模型，所获得模型精度高于通过单棵关系分类树所获得模型的精度，且由最终预测模型所输出的学生校园人际关系预测结果准确。

附图说明

图1为本发明中校园人际关系数据分析方法的步骤示意图；

图2为本发明中根据特征值生成关系分类树的示意图；

图3为本发明中校园人际关系数据分析装置的步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供了一种校园人际关系数据分析方法，其包括如下步骤：

S1、学生数据采集，且所述学生数据包括如下信息中的一种或几种：

学生个人信息，如所在班级信息、性别等，其可以通过学校学生学籍管理系统获取；

在校活动轨迹信息，如出现在学校内食堂、宿舍楼、超市、图书馆等场所的记录，其可以通过校园卡等与学生身份绑定的设备获取；

学生成绩信息，如专业排名、各科考试成绩等，其可以通过学校学生成绩管理系统获取；

以及人际关系信息，如朋友数量、是否有恋人等，其可以通过问卷调查等方式获取；

S2、对所述学生数据进行预处理，其具体包括：

S201、筛选学生共现记录，并确定特征值；本实施例中所述共现的定义为在预定时间(如30秒)内，两个学生是否出现在校园内的同一地点，所述地点包括学校内的食堂、宿舍楼、超市、图书馆等场所中的一种或几种；

对所述学生共现记录进行分类，以获得共现记录分类结果，所述共现记录分类结果包括：高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数，进一步的，所述高峰期为周一至周五每天的11-12时以及17-18时，非高峰期为周六全天和周日全天；需要注意的是，周一至周五每天的11-12时以及17-18时分别对应上午课程结束和下午课程结束后的时间段，该时间段内若两个学生关系密切，则共同出现在食堂、宿舍楼的可能性较高，如上午/下午课程结束后一起去食堂吃饭、回宿舍楼等，而在非高峰期，如周六全天和周日全天，由于是周末，即使两个学生关系密切，但两者仍然会安排各自的活动，由此使得两者的共现记录较少，因此，区分高峰期和非高峰期的意义在于，可以更加精准的获取学生的共现记录，以佐证其人际关系是否密切；

获取有共现记录的学生的学生成绩信息；

确定有共现记录的学生是否同班以及性别是否相同；

将学生之间的人际关系划分为若干类型，并对每一类型进行对应编号，所述类型包括：第一类型(编号：路人0)、第二类型(编号：浅交1)、第三类型(编号：密友2)、第三类型(编号：情侣3)；

所述特征值包括：高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数、非高峰期食堂共现次数、图书馆共现次数、专业排名差距、性别是否相同、是否同班；

S202、以学号为主索引，使用Spark算法将上述学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联，以获得已完成预处理的数据集；

S3、生成预测模型，其包括如下步骤：

S301、从已完成预处理的数据集中采用随机有放回的方式抽取n个训练样本，并进行k轮抽取操作，以得到k个数据集(k为正整数，如k＝10)；由此通过有放回的随机采样，一方面均匀取样保证样本权重一致，另一方面确保模型的泛化能力；

S302、遍历k个数据集(如本实施例中k＝3，即为3个数据集：数据集1、数据集2、数据集3)，并从每一数据集中随机选择g个(g为大于或等于3的正整数)特征值(如从数据集中随机选择专业排名差距、性别是否相同、是否同班3个特征值，从数据集2中随机选择非高峰期食堂共现次数、图书馆共现次数、专业排名差距3个特征值，从数据集3中随机选择高峰期宿舍楼共现次数、高峰期食堂共现次数、非高峰期宿舍楼共现次数3个特征值)，并根据每一数据集中的g个特征值生成与该数据集对应的关系分类树；

具体的，如图2所示，根据每一数据集中的g个特征值生成与该数据集对应的关系分类树包括如下步骤：

S3021、从g个特征值中选取一个特征值，并假设该特征值作为与该特征值所在数据集对应的关系分类树的节点，并根据公式(1)获取该特征值作为分支点时的信息熵差异：

其中，GAP(E，div)为信息熵差异，E为信息熵，D为该特征值所在数据集，div为假设该特征值作为待生成的关系分类树的节点(例如将是否同班作为关系分类树节点)，y代表该特征值的值域(例如同班、不同班)，x代表该特征值的取值(例如同班)，m代表人际关系类型(如路人、浅交、密友、情侣)，n代表m中的一类(例如路人)，p为人际关系n的数量在所有人际关系类型总数中所占的比例，例如，路人、浅交、密友、情侣四种人际关系类型的数量分别为10个、30个、40个、20个，则所有人际关系类型总数为100个，其中n为路人人际关系，其数量为10个，则p＝10/100＝0.1；

S3022、重复上述步骤S3021，由此获得g个信息熵差异，并将其中信息熵差异的最大值所对应的特征值确定为待生成的关系分类树的节点；

S3023、重复步骤S3021-3022，通过递归迭代直至g个特征值的信息熵差异小于预设值或没有特征值可供选择为止，由此确定若干个待生成的关系分类树的节点，并根据所有节点生成与该数据集对应的关系分类树；

S3024、重复上述过程，以获得k个关系分类树；

S303、将k个关系分类树形成一个集成分类模型，按照对k个关系分类树投票的方式选取票数最多的关系分类树作为预测模型；

S4、模型训练，其具体包括如下步骤：

S401、使用Spark分布式计算引擎从分布式文件系统(HDFS)中获取已完成预处理的数据集，并将数据集中的数据转换成数据框(即DataFrame)；

S402、使用Sklearn框架对所述预测模型进行训练，例如，本实施例中因为内置了数据划分、交叉验证以及分类器等，因此可采用算法中自带的oob数据作为测试数据，以进行预测模型训练，其中oob数据的数据量p为：

S403、使用DictVectorizer(一种特征工程的方法)对所述预测模型进行字典特征提取，如本实施例中使用one-hot编码将路人、浅交、密友、情侣转换成[‘0001’,’0010’,’0100’,’1000’]，进一步进行特征提取；

S404、设置关系分类树以及关系分类树深度等关键参数的初始值范围，再对所述预测模型进行训练；

S405、将已完成预处理的数据集分为k份，每次选择其中一份作为测试集，剩余的k-1份作为训练集，重复训练k次并计算评估指标，计算k组评估指标结果的平均值，即为交叉检验下所述预测模型的最终评估结果；

S5、根据模型训练的最终评估结果确定最终的校园人际关系预测模型；

以及S6、将待预测的、包含特征值的数据集(即需要进行人际关系预测的数据集，其人际关系类型未知)输入最终的校园人际关系预测模型，以得到校园人际关系预测结果，并进行存储。

由此，本实施例根据预处理的学生数据进行轨迹预分类(即按照共现记录进行分类)，使其能够更有效的提取特征值，提高模型准确率；进一步的，通过建立关系分类树来获取预测模型，且从信息熵的角度形成新的关系分类树分支，避免单纯从距离的角度进行分类而产生的缺点(如各个特征值的维度不同导致权重和量纲不统一，使得后续分类结果不准确)，此外，本实施例采用集成算法来获取最终的预测模型，所获得模型精度高于通过单棵关系分类树所获得模型的精度。

在此基础上，由最终预测模型所输出的学生校园人际关系预测结果准确，有助于管理方(如学校、家长等)准确获取具有社交障碍的学生，且在出现学生失联等突发情况时，学校管理人员能够第一时间确定与该学生有日常密切接触的其他学生，及时了解情况并采取应急方案。

实施例2：

本实施例与实施例1的不同之处仅在于，为了提高模型的泛化能力，在执行步骤S4的过程中可实时进行核心参数调整，所述核心参数包括如下参照中的一种或几种：

关系分类树个数，默认值为100；

分类树的最大深度，默认值为5，以防止过拟合和欠拟合；

分支节点训练样本的阈值，默认指为2，防止过拟合和欠拟合。

此外，所述步骤S405中的评估指标包括精准率、召回率、F1-score中的一种或几种；

具体的，所述精准率计算公式如下：

其中y_i为人际关系类型(例如密友)，T和F分别代表预测正确的样本数和错误样本数，precision(y_i)为人际关系类型y_i的预测精准率，即，预测为人际关系类型y_i且预测正确的样本占预测为人际关系类型y_i的样本比例；

所述召回率计算公式如下：

其中y_i为类型人际关系(例如密友)，T代表预测正确的样本数，A代表实际的样本数，recall(y_i)为人际关系类型y_i的预测召回率，即，预测为人际关系类型y_i且预测正确的样本占实际为人际关系类型y_i样本的比例；

所述F1-score计算公式如下：

其中F1-score的计算结果范围为0～1，结果越大则说明预测模型的预测精度越高。

实施例3：

本实施例提供了一种用于实现实施例1或2所述校园人际关系数据分析方法的校园人际关系数据分析装置，如图3所示，其包括：

学生数据存储单元1，其用于存储学生数据；

共现记录获取单元2，其连接所述学生数据存储单元1，用于从所述学生数据中筛选学生共现记录，对所述学生共现记录进行分类，以获得共现记录分类结果，以及确定特征值；

数据集预处理单元3，其用于以学号为主索引，使用Spark算法将学生共现记录、共现记录分类结果、有共现记录的学生成绩信息、有共现记录的学生是否同班以及性别是否相同以及人际关系类型进行关联，以获得已完成预处理的数据集；

预测模型生成单元4，其用于根据已完成预处理的数据集生成预测模型，其具体步骤与步骤S3相同，不再赘述；

预测模型训练单元5，其用于对所述预测模型进行训练，并确定最终的校园人际关系预测模型，其具体步骤与步骤S4-S5相同，不再赘述。

综上所述，本发明根据预处理的学生数据进行轨迹预分类(即按照共现记录进行分类，且按照高峰期和非高峰期进行区分)，使其能够更有效的提取特征值，提高模型准确率；进一步的，本发明通过建立关系分类树来获取预测模型，且从信息熵的角度形成新的关系分类树分支，并采用集成算法来获取最终的预测模型，所获得模型精度高于通过单棵关系分类树所获得模型的精度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种校园人际关系数据分析方法，其特征在于，包括如下步骤：

学生数据采集；

对所述学生数据进行预处理；

生成预测模型；

模型训练；

2.如权利要求1所述的校园人际关系数据分析方法，其特征在于，对所述学生数据进行预处理包括如下步骤：

获取有共现记录的学生的学生成绩信息；

确定有共现记录的学生是否同班以及性别是否相同；

3.如权利要求2所述的校园人际关系数据分析方法，其特征在于，生成预测模型包括如下步骤：

4.如权利要求3所述的校园人际关系数据分析方法，其特征在于，根据每一数据集中的g个特征值生成与该数据集对应的关系分类树包括如下步骤：

重复上述过程，以获得k个关系分类树。

5.如权利要求3所述的校园人际关系数据分析方法，其特征在于，模型训练包括如下步骤：

对所述预测模型进行训练；

使用DictVectorizer对所述预测模型进行字典特征提取；

6.如权利要求5所述的校园人际关系数据分析方法，其特征在于，所述评估指标包括精准率precision、召回率recall、F1-score中的一种或几种。

7.如权利要求6所述的校园人际关系数据分析方法，其特征在于，所述精准率计算公式如下：

8.如权利要求6所述的校园人际关系数据分析方法，其特征在于，所述召回率计算公式如下：

9.如权利要求6所述的校园人际关系数据分析方法，其特征在于，所述F1-score计算公式如下：

10.一种校园人际关系数据分析装置，其特征在于，包括：

学生数据存储单元，其用于存储学生数据；