CN106557846A

CN106557846A - 基于大学生在校数据的毕业去向预测方法

Info

Publication number: CN106557846A
Application number: CN201611082411.5A
Authority: CN
Inventors: 聂敏; 连德富; 孙俊
Original assignee: Chengdu Xundao Technology Co Ltd
Current assignee: Chengdu Xundao Technology Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-04-05

Abstract

本发明公开了一种基于大学生在校数据的毕业去向预测方法，包括训练步骤和预测步骤；所述的训练步骤包括：S11：获取已经具有毕业去向的在校/毕业大学生的多维度在校数据；S12：提取在校数据的各个维度的特征；S13：根据提取到的特征和毕业去向，训练并选择合适的模型；所述的预测步骤包括：S21：获取将要预测的大学生的多维度在校数据；S22：提取在校数据的各个维度的特征；S23：根据提取到的特征和训练步骤选择的模型，进行毕业去向的预测。本发明基于大学生在校园产生在校数据，提取出多个维度的特征，利用这些特征建立分类模型，借助分类模型预测学生的毕业去向。

Description

基于大学生在校数据的毕业去向预测方法

技术领域

本发明涉及一种基于大学生在校数据的毕业去向预测方法。

背景技术

根据艾里克森关于青少年人格发展的理论，青少年职业认同的形成是青春期的主要任务，同时也被视作一个更大任务—认同发展的一部分。预示着一个人对于目标，兴趣，才能，职业认的清晰而稳定的图景有可能来自于上大学前充足的职业探索和随后的在大学的求索。在这一职业认同形成的时期，许多青少年会在他们的职业发展道路上面临多次犹豫不决的时期。因此在高校中提供职业咨询服务帮助学生做职业规划是至关重要的，所以很多高校甚至建立了专门的职业咨询中心。

从心理学的角度来看，对于职业规划优柔寡断的大学生提供的职业咨询通常是一个基于认知的方法，该方法将逻辑处理应用于对相关的职业和个人信息的收集、筛选和评估过程当中。具体来讲，如职业生涯决策困难问卷(CDDQ)是最早被用来精确诊断学生的职业规划困惑的原因，对学生从缺少准备到缺乏对自身认识，职业信息，获取信息的渠道的进行排名。根据诊断结果,职业顾问就能够制定一个干预学生的职业方向犹豫不决的“治疗”计划。

为了能够对自己的职业规划做出决策，学生首先应该在自我概念上培养自己的能力和技巧。因为个人动机不同，想法各异，人们很难了解自己。根据自我感知理论，从他们的行为推断他们的内部状态是自我概念的主要来源。例如，如果学生注意到他们经常上课迟到，他们可能正确的推断出他们其实并不像自己认为的那样认真。因为许多学生的外在表现是被那些“虚弱、模棱两可、无法解释”的内部状态所驱动的，所以人们可以使用学生的行为作为判断他们隐藏性格的线索。

随着信息技术的发展，越来越多先进的信息管理和监控系统已经在各大院校建立起来。这些系统通过智能卡使得学生的生活和学习更加方便和高效。当学生不断的在这个网络物理空间中交互时，他们在校园的行为(如吃饭、购物、借书、上课)就被实时的积累起来了。这些行为数据可以捕获不同的行为模式,这些行为模式反映了学生独特的习惯,能力,偏好和精神状态。这些数据的爆炸式增长恰好为我们提出的这个帮助学生更好的了解他们自己的数据驱动框架创造了良好的实践机会。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于大学生在校数据的毕业去向预测方法，基于大学生在校园产生在校数据，提取出多个维度的特征，利用这些特征建立分类模型，借助分类模型预测学生的毕业去向。

本发明的目的是通过以下技术方案来实现的：基于大学生在校数据的毕业去向预测方法，包括训练步骤和预测步骤；所述的训练步骤包括：

S11：获取已经具有毕业去向的在校/毕业大学生的多维度在校数据；

S12：提取在校数据的各个维度的特征；

S13：根据提取到的特征和毕业去向，训练并选择合适的模型；

所述的预测步骤包括：

S21：获取将要预测的大学生的多维度在校数据；

S22：提取在校数据的各个维度的特征；

S23：根据提取到的特征和训练步骤选择的模型，进行毕业去向的预测。

所述的多维度在校数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况；对分别提取到的多维特征进行前后拼接。

对于专业技能数据的特征提取，包括以下子步骤：

S31：对成绩数据进行预处理：计算不同老师所上课程得分的平均值，然后将平均值从选择该老师的课程的学生的对应成绩中减去；

S32：构建学生成绩矩阵：其中，成绩矩阵的每一列表示该大学的一门课程，每一行表示一个学生的成绩情况；成绩矩阵用R表示，其中矩阵中的每个元素r_ij代表学生u_i在课程c_j中的成绩；

S33：构建学生选课矩阵：其中，选课矩阵的每一列表示该大学的一门课程，每一行表示一个学生的选课情况；成绩矩阵用I表示，其中矩阵中的每个元素I_ij代表学生u_i是否选上课程c_j，I_ij具有两个值，分别代表选上和没选上；

S34：对成绩矩阵做矩阵分解，通过优化以下的目标函数实现：

式中，p_i表示学生潜在因子，q_j表示课程因子，λ表示预先给定的超参数；参数p_i和q_j通过交替最小二乘法和随机梯度下降法得到，交替最小二乘法利用以下的公式来更新参数：

式中，I_k是一个k*k的单位矩阵，k是预先给定的要提取的特征的维度，即一个学生的专业技能特征是一个k维的向量；

S35：根据步骤S34的计算得到对应到专业技能的特征上的学生潜在因子p_i。

对于行为规律性的特征提取，包括以下子步骤：

S41：计算行为在一个时间间隔内发生的概率：一个行为v将会在t_i时间间隔内发生的概率通过以下公式计算：

式中，n_v(t_i)是行为v在时间间隔t内发生的概率；

S42：计算行为规律性特征，通过计算一个行为的熵实现，公式如下：

对于阅读兴趣的特征提取，包括以下子步骤：

S51：构建图书借阅矩阵和毕业去向矩阵：其中，图书借阅矩阵的每一列表示的一本图书的被借阅情况，每一行表示一个学生的借阅情况，图书借阅矩阵用R表示，其中矩阵中的每个元素r_uv代表学生u是否借阅图书v；毕业去向矩阵用Y表示，其中矩阵中的每个元素y_ui代表学生u是否选择第i个毕业去向，毕业去向共有C个离别；同时，将所有书到这C个类别进行建模；p_u表示学生u的职业偏好，p_ui是学生u在i这个类别上偏好的分数；q_v表示图书v的职业偏好，q_vi是图书v在i这个类别上偏好的分数；潜在因子P＝(p₁，...，p_M)′和Q＝{q₁，...，q_M)′通过图书借阅矩阵用R进行调整；

S52：构造最优化目标函数：

式中，w_uv表示置信度，如果r_uv＞0，那么w_uv＞＞1，如果r_uv≤0，那么w_uv＝1；W表示权重矩阵，w表示是权重矩阵的分量，λ表示预先给定的超参数；

S53：使用梯度下降求解，梯度计算如下：

S54：得到学生u的阅读兴趣p_u就是该学生对应的阅读兴趣特征。

对于家庭经济情况的特征提取，包括以下子步骤：

S61：计算统计量特征，首先将每个短时间内的刷卡都算一次消费，然后计算每天的消费情况，构成一个序列，然后计算序列的最大值、最小值、中位数、平均数、四分位数、标准差、峰值；

S62：计算比例特征，首先计算每天的消费情况，然后计算工作日和周末的交易金额比例；

S63：计算能量特征，首先计算消费序列的平均值，然后将消费序列中每一个值减去平均值进行标准化，接着对消费数据做傅里叶变换，最后用傅里叶变换得到的序列的平方和除序列大小，得到能量特征；

S64：将统计量特征、比例特征和能量特征作为家庭经济情况的特征。

所述的步骤S13包括：

S131：将提取到的特征和毕业去向按照一定关系以一定比例随机分为两份，一份作为训练集，一份作为测试集；

S132：利用所述的训练集分别多个模型；

S133：将测试集分别通过各个模型，然后计算在测试集上的MicroF1值，计算方法如下：

式中，M为毕业去向类别数，TP_i为测试集中预测毕业去向是第i个类别并且实际毕业去向也是第i个类别的学生数量，FP_i为测试集中预测结果是第i个类别但是实际毕业去向不是第i个类别的学生数量，FN_i为测试集中预测结果不是第i个类别但是实际毕业去向是第i个类别的学生数量；

S134：选择Micro-F1值最大的模型作为使用的模型。

所述的多个模型包括训练逻辑回归、支持向量机、决策树、随机森林。

所述的训练逻辑回归采用逻辑回归训练损失函数，公式如下：

式中，N表示训练集中学生数，M表示一个学生的特征数，L表示毕业去向数，表示学生i是否选择了第k个毕业去向，在时取1，其他情况都取0；w_jk表示要训练的权重，f_ij是学生i的第j个特征；使用随机梯度下降训练得到权重W，即得到逻辑回归模型；

所述的支持向量机需要优化的目标函数如下：

式中，w是权重向量，b是一个实数，b和w是要学习的目标，f_i是第i个学生的特征向量；

所述的决策树的模型训练包括以下子步骤：

S71：开始，所有学生特征看作一个节点；

S72：计算每个特征的每一种分割方式对应的基尼系数，选择基尼系数最大的分割方式；

S73：按上一步选择的分割方式，将数据分割成两个节点N1和N2；

S74：对N1和N2分别继续执行S72～S73步骤，直到每个节点的基尼系数足够小为止；

其中，所述的基尼系数的计算公式如下：

式中，p_i表示第i个分类的频率，即用当前节点第i个分类的学生数量，除以当前节点的学生数量，L表示分类的数量，即毕业去向的类别数，N表示当前节点的学生数量；

所述的随机森林的模型训练包括以下子步骤：

S81：给定训练集、测试集和特征维数，并确定参数，包括使用到的决策树的数量、每棵树的深度、每个节点使用到的特征数量f和终止条件；所述的终止条件即节点上最少样本数，节点上最少的信息增益；

S82：从训练集中有放回得抽取大小和训练集一样的训练集S(i)，作为根节点的样本，从根节点开始训练；

S83：如果当前节点上达到终止条件，则设置当前节点为叶子节点，该叶子节点的预测输出为当前节点样本集合中数量最多的那一类，概率为预测分类占当前样本集的比例，然后继续训练其他节点；如果当前节点没有达到终止条件，则从特征中无放回的随机选取f维特征，利用这f维特征，寻找分类效果最好的一维特征k及其阈值th，当前节点上样本第k维特征小于th的样本被划分到左节点，其余的被划分到右节点，继续训练其他节点；

S84：重复步骤S82和S83直到所有节点都训练过了或者被标记为叶子节点；

S85：重复步骤S82、S83和S84直到所有决策树都被训练过。

本发明的有益效果是：

(1)本发明基于大学生在校园产生在校数据，提取出多个维度的特征，利用这些特征建立分类模型，借助分类模型预测学生的毕业去向。

(2)本发明的校园数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况，其中工作所需的专业技能蕴含在课程信息之中，那么选课的历史记录可以用来提取；消费记录是以时间戳的形式记录的，所以可以利用这一点来对规律性的行为进行建模，比如早餐习惯和洗澡时间的规律；由于学生通常会通过借阅书籍来学习专业技能和拓展知识视野，通过他们借阅图书的历史记录来挖掘图书借阅的相关信息同样也会有助于预测；最后，由于每个学生的消费历史记录会反映出该学生家庭的经济情况，通过提取早\中\晚餐和月支出的消费情况，可以用来评估学生的经济情况。

(3)当对阅读兴趣进行特征获取时，由于图书馆的图书馆收藏是巨大的，但每个学生只借用一些书，如果直接使用图书馆频率作为借书的证据会让结果变得很稀疏；另外，图书馆记录的降维后能够和学生的实际职业选择关联。因此，学习过程不仅仅是通过图书馆的记录监督，也由选择的职业来训练。

(4)在对模型训练时，采用多个模型进行同时训练和比较，具体包括训练逻辑回归、支持向量机、决策树、随机森林，最后通过Micro-F1值最大的模型作为使用的模型，可靠性更强。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：

在本实施例中，我们提出了一个基于学生在校行为数据和毕业职业选择数据的监督式的职业选择预测框架。在这个框架中，我们提出了影响学生毕业去向选择的基于行为的代表性因素。这些因素得到了心理学研究的证实，包括从学生成绩数据中学到的学生专业技能/能力，五大人格责任心的行为次序，借书的兴趣和偏好，从智能卡的日常使用消费提取的家庭经济状况估计。很显然的我们将毕业去向预测问题看作一个多分类问题，因此像KNN、决策树、逻辑回归等算法可以被用来预测学生潜在职业选择。这种预测可以使用决定性或者概率方式来表示选择倾向。这些多分类算法本质上是在获取每个在校大学生同已经毕业学生在上述决定性因素上的相似度/距离/散度，恰好同心理学上的社会比较理论一致。社会比较理论的核心命题是“相似性假说”，该命题表明评价人类的能力和上限是通过比较同其相似的个体来实现的，尤其当客观和非社会评价手段均不存在时。自我评价在这种情况也许会变得更加稳定、准确。更重要的是人们特别喜欢向上比较，这种同成功个体比较来评价自己的方式最终更容易使得他们自我完善。

学生在校园的行为被持续记录，例如消费、借阅图书和选课上课。预测学生的毕业情况需要首先将这些行为记录划分为不同的类别集合，然后再以这些类别为依据来进行预测。比如说，由于工作所需的专业技能蕴含在课程信息之中，那么选课的历史记录可以用来提取；消费记录是以时间戳的形式记录的，所以可以利用这一点来对规律性的行为进行建模，比如早餐习惯和洗澡时间的规律等；由于学生通常会通过借阅书籍来学习专业技能和拓展知识视野，通过他们借阅图书的历史记录来挖掘图书借阅的相关信息同样也会有助于预测。最后，由于每个学生的消费历史记录会反映出该学生家庭的经济情况，通过提取早\中\晚餐和月支出的消费情况，可以用来评估学生的经济情况。根据以上四种相关的信息，可以将毕业之后的选择分为四类，即“国外求学”、“国内就业求职”、“国内继续深造”和“其他类别”，我们可以利用多类别分类算法来进行毕业预测。

如图1所示，基于大学生在校数据的毕业去向预测方法，包括训练步骤和预测步骤；所述的训练步骤包括：

S11：获取已经具有毕业去向的在校/毕业大学生的多维度在校数据；在本实施例中，可以为已经毕业的学生的数据或者未毕业但是已经确定毕业去向的学生的数据；

S12：提取在校数据的各个维度的特征；

所述的预测步骤包括：

S21：获取将要预测的大学生的多维度在校数据；

S22：提取在校数据的各个维度的特征；

在本实施例中，所述的多维度在校数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况。具体地，该技术的数据来源为学校收集的学生在校园学习生活产生的数据。主要包括门禁、消费、图书借阅、选课、成绩五个方面的数据。门禁数据是学生出入宿舍和出入图书馆的刷卡数据。消费数据是学生在校园中使用一卡通消费的刷卡数据。图书借阅数据是学生借阅图书的记录。选课数据是学生在选课系统选课的记录数据。成绩数据是学生参加考试获得考试成绩的记录数据。

在本实施例中，对于专业技能数据的特征提取，包括以下子步骤：

S31：对成绩数据进行预处理：由于一个课程可能由几个老师教授，不同老师的上课水平不同，那么这个课程的分数不能直接相互比较，因此计算不同老师所上课程得分的平均值，然后将平均值从选择该老师的课程的学生的对应成绩中减去；

S33：构建学生选课矩阵：其中，选课矩阵的每一列表示该大学的一门课程，每一行表示一个学生的选课情况；成绩矩阵用I表示，其中矩阵中的每个元素I_ij代表学生u_i是否选上课程c_j，I_ij具有两个值，分别代表选上和没选上；换句话说，学生在没有选上的课程上的表现是忽略为零的；

在本实施例中，责任心是一个非常重要的个人品质，同时也和工作/学术的表现息息相关。有责任心的人表现出更加自律，该表现可以通过日常活动的规律性反映出来。因此，行为的规律性在帮助学生选择未来毕业规划会很有用处。我们在此把关注放在早餐、每天首次进入图书馆和洗澡时间这三个日常规律性上。一个行为的规律性可以理解为重复性，并且可以通过特定时间段间隔行为发生的概率的熵来描述。

具体地，对于行为规律性的特征提取，包括以下子步骤：

式中，n_v(t_i)是行为v在时间间隔t内发生的概率；

如果一个行为的熵是比较高的，那么该行为的在不同时间间隔内的概率更倾向于是均匀分布的，那么该行为的规律性就比较低。当计算熵的时候，我们假定相对于这三个行为，每个时间间隔均为半个小时。由于早餐在上午6点到10点这个时间段内，那么时间间隔的数目为8，少于其他两种行为(图书馆，洗澡)的时间间隔数目(48个时间间隔)。总之，可以得到三个信息熵的特征用来反映学生的规律性。

基于一个人的图书馆借阅数据预测未来的职业选择记录有两个挑战：第一，图书馆的图书馆收藏是巨大的，但每个学生只借用一些书。如果直接使用图书馆频率作为借书的证据会让结果变得很稀疏。第二，图书馆记录的降维后能够和学生的实际职业选择关联。因此，学习过程不仅仅是通过图书馆的记录监督，也由选择的职业来训练。

因此，在本实施例中，对于阅读兴趣的特征提取，包括以下子步骤：

S51：构建图书借阅矩阵和毕业去向矩阵：其中，图书借阅矩阵的每一列表示的一本图书的被借阅情况，每一行表示一个学生的借阅情况，图书借阅矩阵用R表示，其中矩阵中的每个元素r_uv代表学生u是否借阅图书v；毕业去向矩阵用Y表示，其中矩阵中的每个元素y_ui代表学生u是否选择第i个毕业去向，毕业去向共有C个离别；同时，将所有书到这C个类别进行建模；p_u表示学生u的职业偏好，p_ui是学生u在i这个类别上偏好的分数；q_v表示图书v的职业偏好，q_vi是图书v在i这个类别上偏好的分数；潜在因子P＝(p₁，...，p_M)′和Q＝(q₁，...，q_M)′通过图书借阅矩阵用R进行调整；

S52：构造最优化目标函数：

S53：使用梯度下降求解，梯度计算如下：

其中，通过设定我们能得到q_v＝(∑_uw_uvp_up′_u+α)^-1∑_uw_uvr_uvp_u。然后我们能用梯度下降去学习p_u和w_c。不建议直接更新q_v，这样做事没有价值的。

where

可以通过问卷去了解学生的家庭经济情况，但学生可能会夸大他们的困难处境，以便获取更大的资助。因此通过学生的消费历史来估计学生家庭经济情况是一个不错的思路。在不同地点的消费可能对分析有着不同的影响，我们比较在意那些在历史消费中去食堂和超市消费占消费总额比较大的人。为此，我们计算了每顿饭和每次购物的消费情况，其中，每个短时间内(可以设10分钟)的刷卡都算一次消费，然后计算每天的消费情况。随后，我们利用一阶和二阶统计量来评估家庭经济情况，包括最大值、最小值、中位数、平均数、四分位数、标准差、峰值等。接下来，我们计算工作日和周末的交易金额比例，并利用快速傅里叶变换(FFT)计算能量。这个能量是由每个FFT分量的平方和构成，用来捕获消费周期，这提供了另一个证据去验证家庭经济情况。

总的来说，我们有7个统计量、一个比例特征、一个能量特征，这九个量作用到每个人的三个消费序列上，最后我们能一共能得到27个特征值。

具体地，对于家庭经济情况的特征提取，包括以下子步骤：

对分别提取到的多维特征进行前后拼接，得到更高维的特征，具体地：

S01：将由专业技能得到的特征，按照学号排列，学生u_i的特征为如下的一个特征：

f(u_i)＝(p_i1...p_im)

S02：将行为规律性中得到的特征按学号拼接到对应的学生特征后面，即得到学生u_i的特征为：

f(u_i)＝(p_i1...p_imE_i1...E_ik)

S03：按照步骤S02的方式，将阅读兴趣和家庭经济情况得到的特征拼接得到更高维的特征。

在本实施例中，对于模型选择，所述的步骤S13包括：

S131：将提取到的特征和毕业去向按照一定关系以一定比例随机分为两份，一份作为训练集，一份作为测试集；在本实施例中，一定关系为学号，一定比例为1：1；

S132：利用所述的训练集分别多个模型；

S134：选择Micro-F1值最大的模型作为使用的模型。

其中，所述的训练逻辑回归采用逻辑回归训练损失函数，公式如下：

所述的支持向量机需要优化的目标函数如下：

使用SMO算法训练模型。对于多分类采用1vs 1的策略实现。

所述的决策树的模型训练包括以下子步骤：

S71：开始，所有学生特征看作一个节点；

其中，所述的基尼系数的计算公式如下：

所述的随机森林的模型训练包括以下子步骤：

S85：重复步骤S82、S83和S84直到所有决策树都被训练过。

Claims

1.基于大学生在校数据的毕业去向预测方法，其特征在于：包括训练步骤和预测步骤；所述的训练步骤包括：

S12：提取在校数据的各个维度的特征；

所述的预测步骤包括：

S21：获取将要预测的大学生的多维度在校数据；

S22：提取在校数据的各个维度的特征；

2.根据权利要求1所述的基于大学生在校数据的毕业去向预测方法，其特征在于：所述的多维度在校数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况；对分别提取到的多维特征进行前后拼接。

3.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法，其特征在于：对于专业技能数据的特征提取，包括以下子步骤：

\min_{P, Q} \underset{i, j}{Σ} I_{i, j} {(r_{i, j} - p_{i}^{'} q_{j})}^{2} + λ (\underset{i}{Σ} | | p_{i} | | + \underset{j}{Σ} | | q_{j} | |)

p_{i} = {({λI}_{k} + \underset{j}{Σ} I_{i, j} q_{j} q_{j}^{'})}^{- 1} (\underset{j}{Σ} I_{i, j} r_{i, j} q_{j})

q_{j} = {({λI}_{k} + \underset{i}{Σ} I_{i, j} p_{i} p_{i}^{'})}^{- 1} (\underset{i}{Σ} I_{i, j} r_{i, j} p_{i})

4.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法，其特征在于：对于行为规律性的特征提取，包括以下子步骤：

P_{v} (T = t_{i}) = \frac{n_{v} (t_{i})}{Σ_{i} n_{v} (t_{i})}

式中，n_v(t_i)是行为v在时间间隔t内发生的概率；

E_{v} = - \underset{i}{Σ} P_{v} (T = t_{i}) \log P_{v} (T = t_{i}) .

5.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法，其特征在于：对于阅读兴趣的特征提取，包括以下子步骤：

S52：构造最优化目标函数：

\min_{P, Q, W} L = \underset{u v}{Σ} w_{u v} (r_{u v} - p_{u}^{'} q_{v}) - λ \underset{u}{Σ} \log p (y_{u} | p_{u}, W) + \frac{α}{2} | | P | |_{F}^{2} + \frac{α}{2} | | Q | |_{F}^{2}

= \underset{u v}{Σ} w_{u v} (r_{u v} - p_{u}^{'} q_{v}) - λ \underset{u}{Σ} (\underset{c}{Σ} y_{u c} w_{c}^{'} p_{u} - \log \underset{c}{Σ} \exp (w_{c}^{'} p_{u})) + \frac{α}{2} | | P | |_{F}^{2} + \frac{α}{2} | | Q | |_{F}^{2}

S53：使用梯度下降求解，梯度计算如下：

\frac{\partial L}{\partial p_{u}} = \underset{v}{Σ} w_{u v} (p_{u}^{'} q_{v} - r_{u v}) q_{v}^{'} - λ \underset{c}{Σ} (y_{u c} - \frac{w_{c}^{'} p_{u}}{Σ_{c^{'}} \exp (w_{c^{'}}^{'} p_{u})}) w_{c}^{'} + {αp}_{u}

\frac{\partial L}{\partial w_{c}} = - λ \underset{u}{Σ} (y_{u c} - \frac{w_{c}^{'} p_{u}}{Σ_{c^{'}} \exp (w_{c^{'}}^{'} p_{u})}) p_{u}

\frac{\partial L}{\partial q_{v}} = Σ_{u} w_{u v} (p_{u}^{'} q_{v} - r_{u v}) p_{u} + {αq}_{v}

6.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法，其特征在于：对于家庭经济情况的特征提取，包括以下子步骤：

7.根据权利要求1所述的基于大学生在校数据的毕业去向预测方法，其特征在于：所述的步骤S13包括：

S132：利用所述的训练集分别多个模型；

M i c r o F 1 = \frac{2 π ρ}{π + ρ}

π = \frac{Σ_{i = 1}^{M} {TP}_{i}}{Σ_{i = 1}^{M} ({TP}_{i} + {FP}_{i})}

ρ = \frac{Σ_{i = 1}^{M} {TP}_{i}}{Σ_{i = 1}^{M} ({TP}_{i} + {FN}_{i})}

S134：选择Micro-F1值最大的模型作为使用的模型。

8.根据权利要求7所述的基于大学生在校数据的毕业去向预测方法，其特征在于：所述的多个模型包括训练逻辑回归、支持向量机、决策树、随机森林。

9.根据权利要求8所述的基于大学生在校数据的毕业去向预测方法，其特征在于：所述的训练逻辑回归采用逻辑回归训练损失函数，公式如下：

L (θ) = - \frac{1}{N} (Σ_{i = 1}^{N} Σ_{j = 1}^{M} Σ_{k = 1}^{L} I {y_{i}^{k} = 1} \log \frac{\exp (w_{j k}^{T} f_{i j})}{Σ_{k = 1}^{L} \exp (w_{j k}^{T} f_{i j})})

所述的支持向量机需要优化的目标函数如下：

{argmax}_{w} \frac{1}{| | w | |}, s . t . y_{i} (w^{T} f_{i} + b) &GreaterEqual; 1, i = 1, 2, ..., N

所述的决策树的模型训练包括以下子步骤：

S71：开始，所有学生特征看作一个节点；

其中，所述的基尼系数的计算公式如下：

g i n i (T) = 1 - Σ_{i = 1}^{L} p_{i}^{2}

{gini}_{s p l i t} (T) = \frac{N 1}{N} g i n i (T 1) + \frac{N 2}{N} g i n i (T 2)

所述的随机森林的模型训练包括以下子步骤：

S85：重复步骤S82、S83和S84直到所有决策树都被训练过。