CN109241146A

CN109241146A - 集群环境下的学生智助方法和系统

Info

Publication number: CN109241146A
Application number: CN201811109429.9A
Authority: CN
Inventors: 朱晓军; 吕士钦; 娄圣金
Original assignee: Taiyuan Taigong Tianyu Education Technology Co Ltd
Current assignee: Taiyuan Taigong Tianyu Education Technology Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-01-18
Anticipated expiration: 2038-09-21
Also published as: CN109241146B

Abstract

本发明公开了集群环境下的学生智助方法和系统，从贫困生的信息挖掘出发，根据贫困生信息特征如生源地，家庭成员数，餐均消费额，消费总额，刷卡次数，学生成绩相对排名，图书馆进出次数，首先将数据集中贫困生和非贫困生有效分离，运用信息熵获取属性权值，消除了人为主观性因素，在此基础上，并行化计算每个候选对象的距离和，排序，输出前Top‑N个数据对象，定义为贫困生。该系统包括：属性归一化模块，属性权值自动获取模块和并行计算模块。该智助方法和系统，准确性较高、性能优越，避免在学生贫困评定中出现的主观性和随机性，具有受人为因素小、伸缩性强和精度高等优点，进而使学校能够更加科学、公平、方便、高效地评判贫困生。

Description

集群环境下的学生智助方法和系统

技术领域

本发明集群环境下的学生智助方法和系统，属于大数据应用技术领域。

背景技术

贫困大学生一直以来都是我国民生关注的重点，帮扶是高校和相关部门的一项人文关怀政策，如何落地最考验这份人文关怀的诚意与智慧。虽说目前各高校的认定标准已充分细化，可以体现认定的严格，但现有的贫困生判别方法较少考虑属性重要性对判别的影响，准确性较低，由此带来的“误伤”却不容忽视。

如今既有学生的家庭信息档案，又有校园卡的消费记录，如何通过学生在校的客观数据和表现对学生的贫困状态进行综合考量，避免在学生贫困状态评定中出现的主观性和随机性，提供一种结构简单、准确性较高、性能优越的智助系统是值得研究和探索的新的应用领域。

发明内容

为解决现有技术存在的不足，本发明公开了集群环境下的学生智助方法和系统，该智助方法和系统结构简单、准确性较高、性能优越，避免在学生贫困评定中出现的主观性和随机性，具有受人为因素小、伸缩性强和精度高等优点，进而使学校能够更加科学、公平、方便、高效地评判贫困生。

本发明通过以下技术方案实现：

集群环境下的学生智助方法，包括以下步骤：

a)以学校为单位，根据学生自愿申请原则，将学生数据集分为贫困生候选集DSC和非贫困生数据集DSN；

b)利用学校确定的贫困生名额与非贫困生名额比例，计算TOP-N的值；

c)数据特征量的提取，根据数据库包含的字段名称，抽取数据特征量及特征个数，提取待分析学生行为数据的维度特征，并将每维特征归一化；

d)采用信息熵自动获取每维特征的属性权值w_l；

e)集群环境下，引入属性权值w_l，针对候选集DSC中的每个对象，利用map-reduce框架并行计算候选集DSC中每个对象与数据集DSN中每个对象间的权值欧式距离d_ij，形成距离矩阵D；

f)通过对距离矩阵D进行累加和分析并排序，得出前Top-N名学生数据，定义为贫困生。

所述特征归一化的计算公式为：

式中，x_il表示第i个对象x_i在第l维属性上的取值，min(x_il)表示数据集中x_il的最小值，max(x_il)表示数据集中x_il的最大值，x′_il表示标准化后的结果，该方法实现对原始数据的等比例缩放。该方法实现对原始数据的等比例缩放。

所述特征量为学号，生源地，家庭成员数，餐均消费额，消费总额，刷卡次数，学生成绩相对排名，图书馆进出次数。

所述信息熵自动获取每维特征的属性权值的方法，包括以下步骤：

设属性集x_i＝{x_i1,x_i2,x_i1,…,x_iL}

假设x_il是第i个对象x_i的第l维属性上的取值，w_l是第l维属性的权值，且0≤w_l≤1，

1)首先对数据集中每维属性取均值，低于均值的就视为没有发生，高于均值的视为发生，根据样本发生个数与样本总数的频度比值依次计算属性集x_i中各属性的概率值p(x_il)；

2)设U是论域，X₁，X₂…，X_L是论域U的一个划分，其上有概率分布：

则称为信息源X的信息熵，其中对数取2为底，而某个p_i为零时，则理解为0·log0＝0；

3)在步骤2)的基础上，计算H(X)并且归一化，从而得到各维属性权值w_l，归一化计算方法为：

其中，H(X_l)表示某对象X在第l维的信息熵；w_l为属性的权值。

权值欧式距离计算函数采用计算方法为：

式中，x_il,x_jl分别是对象i和j在第l维属性上的取值，w_l是第l维属性的权值，且0≤w_l≤1。

所述距离矩阵D为：

令

式中，D_k是矩阵D中第k行的和。

所述利用map-reduce框架并行计算候选集DSC中每个对象与数据集DSN中每个对象间的权值欧式距离d_ij，形成距离矩阵D的方法包括以下步骤：

Map阶段：

1)首先通过sqoop将学生数据集导入HDFS；

2)读取HDFS中的文件，每一行解析成一个<k,v>，k为行号，v为对象，每一个键值对调用一次map函数，所覆写map函数调用权重距离计算函数；

3)对不同分区中的数据进行排序、分组。分组指的是相同key的value放到一个集合中；

4)对分组后的数据进行按照value中的学号进行归约；

Reduce阶段：

1)接收的是分组后的数据，然后计算D_k，处理后，产生新的<k,v>输出；

2)对新的<k,v>按照D_k排序，按照D_k排序后的前Top-N个对象，定义为贫困生，并写入HDFS中。

所述Top-N的个数动态可调。

集群环境下的学生智助系统，包括：

属性归一化模块，抽取学生数据特征并归一化；

属性权值自动获取模块，运用信息熵获取每维特征的属性权值；

并行计算模块，利用map-reduce框架并行化计算每个候选对象的距离，排序后输出前Top-N个数据对象，定义为贫困生。

本发明与现有技术相比具有以下有益效果：

本方法充分利用现有的大数据分析技术，从贫困生的信息挖掘出发，根据贫困生信息特征包括生源地，家庭成员数，餐均消费额，消费总额，刷卡次数，学生成绩相对排名，图书馆进出次数，首先将数据集中贫困生和非贫困生有效分离，运用信息熵获取属性权值，消除了人为主观性因素，在此基础上，并行化计算每个候选对象的距离和，排序，输出前Top-N个数据对象，定义为贫困生。从而避免在学生贫困评定中出现的主观性和随机性，具有受人为因素小、伸缩性强和精度高等优点，进而使学校能够更加真实、公平、方便、高效地评判贫困生。

本系统重新定义了贫困生，引入D_k，D_k越大，判定为贫困生的可能性越大；本系统在计算对象之间距离的时候，又引入属性权值，在缺乏先验知识时，运用信息熵自动获取属性权值，消除了人为主观性因素的影响；在计算量较大的距离矩阵D的过程中，采用基于map-reduce计算框架并行处理，极大的提高运算效率；根据学校确定的贫困生名额与非贫困生名额比例，Top-N个数动态可调，人为因素影响小、伸缩性强。

附图说明

下面结合附图对本发明做进一步的说明。

图1为本发明方法流程图。

图2为基于map-reduce的并行计算模型图。

具体实施方式

下面结合具体实施例对本发明做进一步的详细说明，但是本发明的保护范围并不限于这些实施例，凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。

实施例

图1所示为本发明方法流程图，在本实施例中，如图1所述，本发明集群环境下的学生智助方法，包括以下步骤：

1.以学校为单位，按照学生自愿申请原则，将学生数据集分为贫困生候选集DSC和非贫困生数据集DSN；

2.利用学校确定的贫困生名额与非贫困生名额比例，计算TOP-N的值；

3.数据特征量的提取，根据数据库包含的字段名称，抽取数据特征量及特征个数，数据特征量包括但不限于：学号，生源地，家庭成员数，餐均消费额，消费总额，刷卡次数，学生成绩相对排名，图书馆进出次数；

提取待分析学生行为数据的维度特征，并将每维特征归一化，

所述特征归一化的计算公式为：

式中，x_il表示第i个对象x_i在第l维属性上的取值，min(x_il)表示数据集中x_il的最小值，max(x_il)表示数据集中x_il的最大值，x′_il表示标准化后的结果，该方法实现对原始数据的等比例缩放。

4.在缺乏先验知识时，采用信息熵自动获取每维特征的属性权值w_l；

包括以下步骤：

设属性集x_i＝{x_i1,x_i2,x_i1,…,x_iL}

5.集群环境下，引入属性权值w_l，针对候选集DSC中的每个对象，利用map-reduce框架并行计算候选集DSC中每个对象与数据集DSN中每个对象间权值欧式距离d_ij，形成距离矩阵D；采用基于map-reduce计算框架并行处理，极大的提高了运算效率。

所述权值欧式距离计算函数采用计算方法为：

所述距离矩阵D为：

令

式中，D_k是矩阵D中第k行的和，D_k越大说明对象i与DSN数据集中其他对象距离越远，贫困程度越高。

如图2所示，为基于map-reduce的并行计算模型图，所述利用map-reduce框架并行计算候选集DSC中每个对象与数据集DSN中每个对象间的权值欧式距离d_ij，形成距离矩阵D的方法包括以下步骤：

Map阶段：

1)首先通过sqoop将学生数据集导入HDFS；

3)对不同分区中的数据进行排序、分组，分组指的是相同key的value放到一个集合中；

4)对分组后的数据进行按照value中的学号进行归约；

Reduce阶段：

6.通过对距离矩阵进行计算分析排序，得出前Top-N名学生数据，定义为贫困生。

集群环境下的学生智助系统，包括：

属性归一化模块，抽取学生数据特征并归一化；

属性权值自动获取模块，运用信息熵获取属性权值；

本发明从贫困生的信息挖掘出发，根据贫困生信息特征(生源地，家庭成员数，餐均消费额，消费总额，刷卡次数，学生成绩相对排名，图书馆进出次数)，首先将数据集中贫困生和非贫困生有效分离，运用信息熵获取属性权值，消除了人为主观性因素，在此基础上，并行化计算每个候选对象的距离和，排序后输出前Top-N个数据对象，定义为贫困生。从而避免在学生贫困评定中出现的主观性和随机性，具有受人为因素小、伸缩性强和精度高等优点，进而使学校能够更加科学、公平、方便、高效地评判贫困生。

应用示例：

假设学校拥有学生31000人，1000人提出申请，学校今年的政策名额为0.25％，则{DSN数据集}＝30000，{DSC数据集}＝1000，Top-N＝78，矩阵D的大小为：1000*30000,DSN数据集的情况如表1所示，DSC数据集的情况如表2所示。

表1 DSN数据集

表2 DSC数据集

按照说明书中属性权值自动获取的方法，计算得到表3数据，通过和数据集对比分析，数据集在Test-1维度上偏离很小，可视作没有发生偏离，而仅仅是在其他维属性有偏离，这表明表3中计算所得的权值数据符合客观实际，能准确体现出属性的重要程度，在计算对象之间的距离的时候，较小的权值可减弱这两维属性对分析目标的影响，具有合理性，因此在指导挖掘时更为精确。

表3属性权值自动获取方法

X	P(X)	H(X)	归一化H(X)	W
					餐均消费额	0.58	0.456	0.251	0.25
月消费总额	0.5	0.5	0.275	0.28
					刷卡次数	0.58	0.456	0.251	0.25
成绩相对排名	0.08	0.292	0.160	0.16
					…
Test-1	0.92	0.111	0.061	0.06

更进一步，设N＝{DSN}，M＝{DSC}，L＝{属性维度}，则总的时间复杂度为O(M×N×L)通常此计算规模很大，单机很难一次性处理全部数据，为此，本方法采用集群并行处理，集群环境为：3个计算节点，每个计算节点为双路Intel E5 8核处理器，64GB内存，150G固态硬盘，480G固态硬盘*2，4T SATA 7200RPM企业盘*2，1+1冗余电源。软件平台选用hadoop2.x，通过map-reduce计算模型，输出Top-N个学生，定义为贫困生。

本发明不会限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖性特点相一致的最宽范围。

Claims

1.集群环境下的学生智助方法，其特征在于，包括以下步骤：

d)采用信息熵自动获取每维特征的属性权值w_l；

2.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述特征归一化的计算公式为：

式中，x_il表示第i个对象x_i在第l维属性上的取值，min(x_il)表示数据集中x_il的最小值，max(x_il)表示数据集中x_il的最大值，x_i′_l表示标准化后的结果，该方法实现对原始数据的等比例缩放。

3.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述特征量为学号，生源地，家庭成员数，餐均消费额，消费总额，刷卡次数，学生成绩相对排名，图书馆进出次数。

4.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述信息熵自动获取每维特征的属性权值的方法，包括以下步骤：

设属性集x_i＝{x_i1,x_i2,x_i1,…,x_iL}

式中，H(X_l)表示某对象X在第l维的信息熵；w_l为属性的权值。

5.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述权值欧式距离计算函数采用计算方法为：

6.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述距离矩阵D为：

令

式中，D_k是矩阵D中第k行的和。

7.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述利用map-reduce框架并行计算候选集DSC中每个对象与数据集DSN中每个对象间的权值欧式距离d_ij，形成距离矩阵D的方法包括以下步骤：

Map阶段：

1)首先通过sqoop将学生数据集导入HDFS；

4)对分组后的数据进行按照value中的学号进行归约；

Reduce阶段：

8.根据权利要求1所述的集群环境下的学生智助方法，其特征在于，所述Top-N的个数动态可调。

9.集群环境下的学生智助系统，其特征在于，包括：

属性归一化模块，抽取学生数据特征并归一化；