CN110097142A

CN110097142A - 针对学生序列化行为的贫困生预测方法

Info

Publication number: CN110097142A
Application number: CN201910401107.XA
Authority: CN
Inventors: 吴和俊; 王敏康; 李振
Original assignee: Hangzhou China Network Information Technology Co Ltd
Current assignee: Hangzhou China Network Information Technology Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-08-06

Abstract

本发明公开了一种针对学生序列化行为的贫困生预测方法，包括如下步骤：采集学生在校行为数据，以学生个体作为分类标签，以固定周期作为数据统计内容的时长，形成固定周期内的一组数据，并以矩阵形式表示，记为单组数据；对同一个学生的单组数据进行归一化处理后，对单组数据的所有特征进行重要度的构建并进行筛选，得到有效特征数据矩阵；构建many2one形式的长短时记忆网络模型，将同一学生当前时间段之前的连续的若干个有效特征数据带入模型，得到学生的贫困类别。本发明所达到的有益效果：本方案使用的数据能够较为全面的涵盖了学生在校内期间的各种行为，采用深度学习中的递归神经网络，来对学生的贫困等级实现精确地评判。

Description

针对学生序列化行为的贫困生预测方法

技术领域

本发明涉及一种针对学生序列化行为的贫困生预测方法。

背景技术

随着我国的经济发展以及对高等教育的投入加大，越来越多的贫困生能够进入高校完成学业，贫困生的比例也在不断扩大。贫困生评定也成为了一项重要的工作。如何精准、高效的做到进行贫困生评定，拒绝“虚假贫困”，发现“隐性贫困”则是这项工作的重心所在。

目前，贫困生评定的方式有两种，主流的方式仍然是通过学生选举，老师人工审核来完成贫困生的评定。该种方式的评定流程较长，花费时间多，评定结果难以把握，学生的申请材料存在着滞后性与不可靠性。同时评定过程中会有申请人当众述说自己家庭情况这一流程，涉及到个人隐私问题，以及一些实际贫困，但是性格内向，内心脆弱的同学则会选择放弃申请资格。这样就容易导致评定结果不准确，无法做到精准扶贫。另外一种方式则是利用大数据的数据挖掘技术来进行贫困生的评定。尽管这种方式解决了第一种方式的时间花费问题，但是现有的解决方案中存在使用的数据维度不够全面，没有充分利用行为数据的时间信息等问题。

如：“基于学生上网行为的贫困生预测方法和装置”只使用了学生的上网行为，以及对指标简单的统计排序来完成贫困生的预测；“一种基于深度学习的贫困生认定方法”中尽管使用了学生一卡通消费数据、成绩数据、图书馆借阅数据的特征，但是却不包括学生的上网行为与校园活动行为数据如校园任职，勤工俭学，实习情况等。同时的方法并没有考虑学生行为数据与时间之间的相关性。因此上述方式评定得到的贫困生极有可能是不准确的。

发明内容

为解决前述问题，本发明提供了一种针对学生序列化行为的贫困生预测方法，包括如下步骤：

采集学生在校行为数据，以学生个体作为分类标签，以固定周期作为数据统计内容的时长，形成固定周期内的一组数据，并以矩阵形式表示，记为单组数据；

对同一个学生的单组数据中的同一维度数据进行最大值与最小值差值的归一化处理后，对单组数据的所有特征进行重要度的构建并进行筛选，得到有效特征数据矩阵；

构建many2one形式的长短时记忆网络模型，将同一学生当前时间段之前的连续的若干个有效特征数据带入模型，得到学生的贫困类别。

进一步地，学生在校行为数据包括：

上网行为数据、一卡通数据、宿舍出入数据、图书馆出入与借阅数据、课堂数据、校园活动数据、基本信息数据、贫困标签。

进一步地，上网行为数据包括：

上网内容，上网行为流量，上网时长；

一卡通数据包括：食堂消费金额，食堂消费类目，食堂消费时间；超市消费金额，超市消费类目，超市消费时间；打水时间；淋浴消费金额，淋浴消费时间；一卡通卡内余额；

宿舍出入数据包括：

宿舍出入时间，宿舍出入地点；

图书馆出入与借阅数据包括：

图书馆出入时间，图书借阅名称，图书借阅时间；

课堂相关数据包括：

每学期课程成绩，课堂打卡时间；

校园活动数据包括：

校内组织任职情况，班级任职情况；勤工俭学时间，勤工俭学工资；每学期奖惩情况；课外活动积分值；实习单位，实习工资，实习时间；

基本信息数据包括：

家庭所在地、性别、专业、年龄、籍贯、兴趣爱好；

贫困标签按照学生的贫困等级分成：

无贫困、一般贫困，中度贫困，严重贫困；对贫困等级进行one-hot编码，作为贫困生标签；

进一步地，单组数据以矩阵形式表示，每个固定周期形成一个矩阵形式的数据

每个学生的贫困标签形成列向量矩阵其中t＝1,2…T，表示不同月份对应的特征矩阵。

进一步地，对特征矩阵X中的每个月份特征X^(t)进行最大-最小值归一化，得到其中内的i行j列的元素i＝1,2…m j＝1,2…n，其中表示更新后的特征值，x_min表示该列特征的最小值，x_max表示该列特征的最大值。

进一步地，对单组数据的所有特征进行重要度的构建并进行筛选包括：

构建随机森林模型，获取每个特征的重要性，通过交叉验证的方式给定删除比例与最终剩余特征数量dim_r，对特征矩阵中的每个固定周期的特征进行特征选择。

进一步地，对单组数据的所有特征进行重要度的构建并进行筛选包括如下步骤：

对特征矩阵中的每个特征进行重要性计算；

依据每个特征重要性的数值进行降序排列；

根据实现设定的比例进行特征的筛选，形成新的特征数据集。

进一步地，特征的筛选采用循环方式，以实现设定的比例不断地进行筛选，直到所剩下的特征个数与实现设定的目标个数一致。

进一步地，长短时记忆网络模型以有效特征数据矩阵作为输入，列向量矩阵作为输出，训练模型；

长短时记忆网络模型中的损失函数采用交叉熵损失函数，优化器采用随机梯度下降算法，并且在输入与输出处加入dropout层，获取LSTM的隐层单元值。

进一步地，固定周期以月为单位。

进一步地，对同一学生的贫困类别进行认定时，采集该学生当前时间段之前的连续6组单组数据作为分析数据。

本发明所达到的有益效果：本方案使用的数据能够较为全面的涵盖了学生在校内期间的各种行为，采用深度学习中的递归神经网络，来对学生的贫困等级实现精确地评判。

附图说明

图1是本方案的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本方案使用的数据能够较为全面的涵盖学生在校内期间的各种行为，通过随机森林进行特征选择，再按照数据的时间特性，构建递归神经网络模型，进行贫困生预测，用于辅助认定。

本方案的基本流程为：

步骤1)采集学生在校行为数据，以学生个体作为分类标签，以固定周期作为数据统计内容的时长，形成固定周期内的一组数据，并以矩阵形式表示，记为单组数据；

具体形式为：

步骤1-1)通过收集学生的各种类型的行为数据主要包括：

上网行为数据：上网内容，上网行为流量，上网时长。

一卡通数据：食堂消费金额，食堂消费类目，食堂消费时间；超市消费金额，超市消费类目，超市消费时间；打水时间；淋浴消费金额，淋浴消费时间；一卡通卡内余额。

宿舍出入数据：宿舍出入时间，宿舍出入地点。

图书馆出入与借阅数据：图书馆出入时间，图书借阅名称，图书借阅时间。

课堂相关数据：每学期课程成绩，课堂打卡时间。

校园活动数据：校内组织任职情况，班级任职情况；勤工俭学时间，勤工俭学工资；每学期奖惩情况；课外活动积分值；实习单位，实习工资，实习时间。

基本信息数据：性别、专业、年龄、籍贯、兴趣爱好等。

并按照学生的贫困等级分成四类：无贫困、一般贫困，中度贫困，严重贫困。

步骤1-2)对每个学生的上述数据以月为单位进行特征提取，得到如下特征：

上网行为数据：对上网时长和上网流量数据求和得到每月上网总时长、每月上网总流量；对上网时长从时间上进行判断得到每月连续上网天数，计算每月日上网时长的统计量包括均值、方差、最大值、最小值、中位数、一阶差分的均值、方差等；对上网内容分类目统计主要统计每月消费类应用浏览次数、每月网购次数(支付页面)、每月游戏类应用浏览次数、时长、流量；通过每日上网时间来判断是否迟睡从而获得每月迟睡次数。

一卡通数据：根据一卡通数据记录获得学生在校天数，对食堂消费数据进行求和得到每月食堂消费次数、金额，对食堂消费时间划分，定义三餐时间与点心、夜宵，进行统计得到每月三餐消费次数与金额、每月点心，夜宵消费次数与金额，结合在校天数计算得到食堂用餐匹配率，对食堂消费金额计算均值获得每月食堂每次消费金额，对该特征在整体上进行比较得到每月食堂每次消费金额在全校中所处水平，计算每日食堂消费金额的统计量包括均值、方差、最大值、最小值、中位数、一阶差分的均值、方差等；对超市购物数据同样处理，可以得到每月超市购物次数与金额，每月超市消费金额在全校中所处水平；对淋浴数据进行求和得到每月淋浴次数与金额；对打水数据进行求和得到每月打水次数，最常打水时间段；对一卡通卡内余额计算相应统计量得到每日卡内余额的均值、方差、中位数。

宿舍出入数据：根据上课时间与寝室熄灯时间，定义早出与晚归，对宿舍出入数据进行统计得到每月上课日、周末早出次数，每月上课日、周末晚归次数，每月连续早出天数，每月连续晚归天数。

图书馆出入与借阅数据：定义单次在图书馆时长超过2小时为有效自习，对图书关出入时间进行统计，得到每月图书馆有效自习次数，根据图书馆出入数据得到每月在图书馆时长，结合有效自习的定义得到每月有效自习时长；对图书馆借阅数据进行统计得到每月借书数量；根据图书借阅名称，筛选关于时尚杂志与购物相关方面数据，统计每月时尚杂志、购物相关数据的借阅数量。

课堂相关数据：对课堂打卡时间进行统计得到每月上课迟到次数，每月上课早退次数，每月上课旷课次数；对每学期课程成绩进行统计得到加权综合平均成绩，按照课程性质进行区分后统计选修、必修的成绩优秀率，及格率，不及格率。

校园活动数据：对校内组织任职情况，班级任职情况统计得到任职个数；根据勤工俭学数据得到每月勤工俭学时长，每月勤工俭学工资，是否勤工俭学；根据每学期奖惩情况进行统计得到奖学金获得次数，奖学金获得总金额，是否受过处分及严重程度；根据实习数据得到是否实习，实习工资；课外活动积分值。

基本信息数据：根据家庭住址获得家庭所在城市情况(几线城市)，性别、专业、年龄、兴趣爱好。

并将学生的贫困等级进行one-hot编码，作为贫困生标签；

最终从原始数据上提取了几百维特征用以描述学生的在校活动情况，设得到的特征矩阵为X，学生贫困生标签为Y，具体如下：

其中t＝1,2…T，表示不同月份对应的特征矩阵，m表示学生的个数，n表示每一个学生所采用的特征量的个数，即维数，T表示收集的周期组数。

步骤2)对同一个学生的单组数据的同一维度数据进行最大值与最小值差值的归一化处理后，对单组数据的所有特征进行重要度的构建并进行筛选，得到有效特征数据矩阵；

步骤2-1)对特征矩阵X中的每个月份特征X^(t)进行最大-最小值归一化，得到具体归一化公式如下：

i＝1,2…m j＝1,2…n

其中表示更新后的特征值，x_min表示该i列特征的最小值，x_max表示该i列特征的最大值。

步骤2-2)构建随机森林模型，获取每个特征的重要性，通过交叉验证的方式给定删除比例与最终剩余特征数量dim_r，对特征矩阵X中的每个月份特征进行特征选择；

具体步骤如下：

Step1.特征重要性计算：

Step1-1.对中任意一维特征k＝1…n,在随机森林中每一棵决策树上，使用袋外数据计算其对应的袋外误差记为

Step1-2.对所有袋外数据加入随机噪声，再次计算该维度特征对应的袋外误差记为

Step1-3.特征对应的特征重要度记为VI_k,具体计算公式如下：

其中Ntree为森林中的决策树数量。

Step2.特征选择：

Step2-1.对所有特征变量按照特征重要性VI的取值大小进行降序排列。

Step2-2.根据事先定义的删除比例，去除特征重要性排序在删除比例之外的特征，剩余特征构成一个新的特征数据集。

Step2-3.用Step2-2中得到的新的数据集，重新构建随机森林，并按照Step1中步骤重新计算新的特征数据集中每个特征重要度VI。

Step2-4.重复上述过程，直到剩下dim_r个特征。

Step3.根据Step2中得到的每个特征集及其对应的随机森林，计算对应的袋外误差率，取袋外误差率最小的特征数据集作为最后的特征选择结果，记为X_d ^(t)。

步骤3)构建many2one形式的长短时记忆网络模型，将同一学生当前时间段之前的连续的若干个有效特征数据带入模型，得到学生的贫困类别。

步骤3-1)构建many2one形式的长短时记忆网络模型(LSTM)，以每个月份特征X_d ^(t)作为输入，Y作为输出，训练模型；损失函数采用交叉熵损失函数，优化器采用随机梯度下降算法(SGD)，并且在输入与输出处加入dropout层，获取LSTM的隐层单元值具体损失函数如下：其中Y表示实际输出，表示预测输出。

并采用时间反向传播算法(BPTT)来极小化损失函数，来获得网络参数Θ_x＝{W_xf,W_xi,W_xC,W_xo}，Θ_h＝{W_hf,W_hi,W_hC,W_ho,W_hy}和Θ_b＝{b_f,b_i,b_C,b_o,b_y}。

其中Θ_x中参数W_xf,W_xi,W_xC,W_xo分别代表输入层X_d ^(t)与遗忘门f^(t)之间的权重，输入层X_d ^(t)与输入门i^(t)之间权重，输入层X_d ^(t)与输入门之间权重，输入层X_d ^(t)与输出门o^(t)之间权重；

其中Θ_h中参数W_hf,W_hi,W_hC,W_ho,W_hy分别代表输出门h^(t)与遗忘门f^(t)之间的权重，输出门h^(t)与输入门i^(t)之间权重，输出门h^(t)与输入门之间权重，输出门h^(t)与输出门o^(t)之间权重，输出门h^(t)与网络预测输出之间权重；

其中Θ_b中参数b_f,b_i,b_C,b_o,b_y分别代表遗忘门f^(t)位置的偏置，输入门i^(t)位置的偏置，输入门位置的偏置，输出门h^(t)位置的偏置，网络预测输出位置的偏置；并采用Xavier初始化方法进行权重的初始化。

具体如下：

Step1.前向传播，输入时间序列数据获取隐层输出与网络预测输出具体如下：

更新遗忘门输出：f^(t)＝σ(W_hf×h^(t-1)+W_xf×X_d ^(t)+b_f)

更新输入门的输出：

i^(t)＝σ(W_hi×h^(t-1)+W_xi×X_d ^(t)+b_i)

更细细胞状态：

更新输出门输出：

o^(t)＝σ(W_ho×h^(t-1)+W_xo×X_d ^(t)+b_o)

h^(t)＝o^(t)⊙tanh(C^(t))

网络预测输出：

其中×表示矩阵相乘，⊙表示矩阵对应元素相乘，σ为sigmoid函数，tanh为双曲正切函数，f^(t)为遗忘门输出，i^(t)和为输入门输出，C^(t)为细胞状态，o^(t)和h^(t)为输出门输出，为网络预测输出。

Step2.反向传播：

输出门梯度：

细胞状态梯度：

输入门梯度：

遗忘门梯度：

输出门权重梯度：

细胞状态权重梯度：

输入门权重：

遗忘门权重：

网络输出权重梯度：

对应的t-1时刻的h^(t-1)与C^(t-1)梯度：

步骤3-1)在进行贫困生预测时，收集学生当前时间节点之前的6个月的相应数据，按照2)中的方式进行归一化，按照1)中流程获取特征，作为输入放入训练完成的网络模型，得到网络预测结果，即学生的贫困类别对应每个学生的预测结果为用于辅助认定。

下面结合具体实施例进行说明：

按照步骤1)中描述的数据种类，进行相应的数据收集，取2018-2019-1学期的贫困生名单作为标签，2017-2018-1和2017-2018-2两个学期，总共12个月的数据作为训练样本数据。其中根据每个学生的助学金补助情况进行贫困生等级分类，具体如下：助学金为0的学生的贫困等级定义为无贫困，助学金为1000的学生的贫困等级定义为低贫困，助学金为1500的学生的贫困等级定义为中度贫困，助学金为2000的学生的贫困等级定义为严重贫困。

按照步骤(1)中描述对每个学生的上述数据以月为单位进行特征提取，获取用来反映学生校园活动的各种行为。对学生贫困等级进行one-hot编码具体如下：y_i∈{Y₁,Y₂,Y₃,Y₄}i＝1,2…m，Y₁＝[0 0 0 1]表示无贫困，Y₂＝[0 0 1 0]表示一般贫困，Y₃＝[0 1 0 0]表示中度贫困，Y₄＝[1 0 0 0]表示严重贫困。最终得到学生特征矩阵X的大小为10156×321，即总共学生人数10156人，提取得到特征为321维，标签矩阵Y为10156×4。

按照步骤2)中的归一化公式对特征矩阵X的每一个元素进行归一化。

构建随机森林模型，其中随机森林模型参数如下：使用的决策树数量Ntree＝3200，每棵树使用的特征个数为80％，即每棵树随机选择原始特征的80％进行训练；通过交叉验证的方式确定最终剩余特征数量为dim_r＝87，通过特征选择后得到每月特征数据集为X_d ^(t)。。

按照步骤3)中描述，构建many2one形式的LSTM网络，以每个月份特征X_d ^(t)作为输入，Y作为输出，训练模型；损失函数采用交叉熵损失函数，优化器采用随机梯度下降算法(SGD)。此时输入网络的序列长度为6(6个月份)，输入维度为87。通过网格搜索方式获得的最优参数如下：批输入为batch_size＝64，网络隐藏层层数为hidden_layer＝1，网络隐层单元为hidden_unit＝128，学习率设置为learning_rate＝1×10^-3，SGD中的动量参数为sgd_momentum＝0.8，dropout层的丢弃比率为dropout＝0.5。

收集测试数据取2017-2018-2和2018-2019-1学期数据，来预测2018-2019-2学期可能的贫困生名单。按照上述过程进行特征提取，归一化，特征选择，然后输入训练完成的网络中，最终输出每个学生预测的贫困等级。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种针对学生序列化行为的贫困生预测方法，其特征在于：

所述针对学生序列化行为的贫困生预测方法包括如下步骤：

2.根据权利要求1所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述学生在校行为数据包括：

3.根据权利要求2所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述上网行为数据包括：

上网内容，上网行为流量，上网时长；

所述一卡通数据包括：食堂消费金额，食堂消费类目，食堂消费时间；超市消费金额，超市消费类目，超市消费时间；打水时间；淋浴消费金额，淋浴消费时间；一卡通卡内余额；

所述宿舍出入数据包括：

宿舍出入时间，宿舍出入地点；

所述图书馆出入与借阅数据包括：

图书馆出入时间，图书借阅名称，图书借阅时间；

所述课堂相关数据包括：

每学期课程成绩，课堂打卡时间；

所述校园活动数据包括：

所述基本信息数据包括：

家庭所在地、性别、专业、年龄、籍贯、兴趣爱好；

所述贫困标签按照学生的贫困等级分成：

无贫困、一般贫困，中度贫困，严重贫困。

4.根据权利要求1所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述单组数据以矩阵形式表示，每个固定周期形成一个矩阵形式的数据；

每个学生的贫困标签形成列向量矩阵。

5.根据权利要求1所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述对单组数据的所有特征进行重要度的构建并进行筛选包括：

6.根据权利要求5所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述对单组数据的所有特征进行重要度的构建并进行筛选包括如下步骤：

对特征矩阵中的每个特征进行重要性计算；

依据每个特征重要性的数值进行降序排列；

7.根据权利要求6所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述特征的筛选采用循环方式，以实现设定的比例不断地进行筛选，直到所剩下的特征个数与实现设定的目标个数一致。

8.根据权利要求1所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述长短时记忆网络模型以有效特征数据矩阵作为输入，所述列向量矩阵作为输出，训练模型；

所述长短时记忆网络模型中的损失函数采用交叉熵损失函数，优化器采用随机梯度下降算法，并且在输入与输出处加入dropout层，获取LSTM的隐层单元值。

9.根据权利要求1所述的针对学生序列化行为的贫困生预测方法，其特征在于：

所述固定周期以月为单位。

10.根据权利要求1所述的针对学生序列化行为的贫困生预测方法，其特征在于：

对同一学生的贫困类别进行认定时，采集该学生当前时间段之前的连续6组单组数据作为分析数据。