CN106557846A - 基于大学生在校数据的毕业去向预测方法 - Google Patents

基于大学生在校数据的毕业去向预测方法 Download PDF

Info

Publication number
CN106557846A
CN106557846A CN201611082411.5A CN201611082411A CN106557846A CN 106557846 A CN106557846 A CN 106557846A CN 201611082411 A CN201611082411 A CN 201611082411A CN 106557846 A CN106557846 A CN 106557846A
Authority
CN
China
Prior art keywords
student
feature
sigma
whereabouts
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611082411.5A
Other languages
English (en)
Inventor
聂敏
连德富
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xundao Technology Co Ltd
Original Assignee
Chengdu Xundao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xundao Technology Co Ltd filed Critical Chengdu Xundao Technology Co Ltd
Priority to CN201611082411.5A priority Critical patent/CN106557846A/zh
Publication of CN106557846A publication Critical patent/CN106557846A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大学生在校数据的毕业去向预测方法,包括训练步骤和预测步骤;所述的训练步骤包括:S11:获取已经具有毕业去向的在校/毕业大学生的多维度在校数据;S12:提取在校数据的各个维度的特征;S13:根据提取到的特征和毕业去向,训练并选择合适的模型;所述的预测步骤包括:S21:获取将要预测的大学生的多维度在校数据;S22:提取在校数据的各个维度的特征;S23:根据提取到的特征和训练步骤选择的模型,进行毕业去向的预测。本发明基于大学生在校园产生在校数据,提取出多个维度的特征,利用这些特征建立分类模型,借助分类模型预测学生的毕业去向。

Description

基于大学生在校数据的毕业去向预测方法
技术领域
本发明涉及一种基于大学生在校数据的毕业去向预测方法。
背景技术
根据艾里克森关于青少年人格发展的理论,青少年职业认同的形成是青春期的主要任务,同时也被视作一个更大任务—认同发展的一部分。预示着一个人对于目标,兴趣,才能,职业认的清晰而稳定的图景有可能来自于上大学前充足的职业探索和随后的在大学的求索。在这一职业认同形成的时期,许多青少年会在他们的职业发展道路上面临多次犹豫不决的时期。因此在高校中提供职业咨询服务帮助学生做职业规划是至关重要的,所以很多高校甚至建立了专门的职业咨询中心。
从心理学的角度来看,对于职业规划优柔寡断的大学生提供的职业咨询通常是一个基于认知的方法,该方法将逻辑处理应用于对相关的职业和个人信息的收集、筛选和评估过程当中。具体来讲,如职业生涯决策困难问卷(CDDQ)是最早被用来精确诊断学生的职业规划困惑的原因,对学生从缺少准备到缺乏对自身认识,职业信息,获取信息的渠道的进行排名。根据诊断结果,职业顾问就能够制定一个干预学生的职业方向犹豫不决的“治疗”计划。
为了能够对自己的职业规划做出决策,学生首先应该在自我概念上培养自己的能力和技巧。因为个人动机不同,想法各异,人们很难了解自己。根据自我感知理论,从他们的行为推断他们的内部状态是自我概念的主要来源。例如,如果学生注意到他们经常上课迟到,他们可能正确的推断出他们其实并不像自己认为的那样认真。因为许多学生的外在表现是被那些“虚弱、模棱两可、无法解释”的内部状态所驱动的,所以人们可以使用学生的行为作为判断他们隐藏性格的线索。
随着信息技术的发展,越来越多先进的信息管理和监控系统已经在各大院校建立起来。这些系统通过智能卡使得学生的生活和学习更加方便和高效。当学生不断的在这个网络物理空间中交互时,他们在校园的行为(如吃饭、购物、借书、上课)就被实时的积累起来了。这些行为数据可以捕获不同的行为模式,这些行为模式反映了学生独特的习惯,能力,偏好和精神状态。这些数据的爆炸式增长恰好为我们提出的这个帮助学生更好的了解他们自己的数据驱动框架创造了良好的实践机会。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于大学生在校数据的毕业去向预测方法,基于大学生在校园产生在校数据,提取出多个维度的特征,利用这些特征建立分类模型,借助分类模型预测学生的毕业去向。
本发明的目的是通过以下技术方案来实现的:基于大学生在校数据的毕业去向预测方法,包括训练步骤和预测步骤;所述的训练步骤包括:
S11:获取已经具有毕业去向的在校/毕业大学生的多维度在校数据;
S12:提取在校数据的各个维度的特征;
S13:根据提取到的特征和毕业去向,训练并选择合适的模型;
所述的预测步骤包括:
S21:获取将要预测的大学生的多维度在校数据;
S22:提取在校数据的各个维度的特征;
S23:根据提取到的特征和训练步骤选择的模型,进行毕业去向的预测。
所述的多维度在校数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况;对分别提取到的多维特征进行前后拼接。
对于专业技能数据的特征提取,包括以下子步骤:
S31:对成绩数据进行预处理:计算不同老师所上课程得分的平均值,然后将平均值从选择该老师的课程的学生的对应成绩中减去;
S32:构建学生成绩矩阵:其中,成绩矩阵的每一列表示该大学的一门课程,每一行表示一个学生的成绩情况;成绩矩阵用R表示,其中矩阵中的每个元素rij代表学生ui在课程cj中的成绩;
S33:构建学生选课矩阵:其中,选课矩阵的每一列表示该大学的一门课程,每一行表示一个学生的选课情况;成绩矩阵用I表示,其中矩阵中的每个元素Iij代表学生ui是否选上课程cj,Iij具有两个值,分别代表选上和没选上;
S34:对成绩矩阵做矩阵分解,通过优化以下的目标函数实现:
式中,pi表示学生潜在因子,qj表示课程因子,λ表示预先给定的超参数;参数pi和qj通过交替最小二乘法和随机梯度下降法得到,交替最小二乘法利用以下的公式来更新参数:
式中,Ik是一个k*k的单位矩阵,k是预先给定的要提取的特征的维度,即一个学生的专业技能特征是一个k维的向量;
S35:根据步骤S34的计算得到对应到专业技能的特征上的学生潜在因子pi
对于行为规律性的特征提取,包括以下子步骤:
S41:计算行为在一个时间间隔内发生的概率:一个行为v将会在ti时间间隔内发生的概率通过以下公式计算:
式中,nv(ti)是行为v在时间间隔t内发生的概率;
S42:计算行为规律性特征,通过计算一个行为的熵实现,公式如下:
对于阅读兴趣的特征提取,包括以下子步骤:
S51:构建图书借阅矩阵和毕业去向矩阵:其中,图书借阅矩阵的每一列表示的一本图书的被借阅情况,每一行表示一个学生的借阅情况,图书借阅矩阵用R表示,其中矩阵中的每个元素ruv代表学生u是否借阅图书v;毕业去向矩阵用Y表示,其中矩阵中的每个元素yui代表学生u是否选择第i个毕业去向,毕业去向共有C个离别;同时,将所有书到这C个类别进行建模;pu表示学生u的职业偏好,pui是学生u在i这个类别上偏好的分数;qv表示图书v的职业偏好,qvi是图书v在i这个类别上偏好的分数;潜在因子P=(p1,...,pM)′和Q={q1,...,qM)′通过图书借阅矩阵用R进行调整;
S52:构造最优化目标函数:
式中,wuv表示置信度,如果ruv>0,那么wuv>>1,如果ruv≤0,那么wuv=1;W表示权重矩阵,w表示是权重矩阵的分量,λ表示预先给定的超参数;
S53:使用梯度下降求解,梯度计算如下:
S54:得到学生u的阅读兴趣pu就是该学生对应的阅读兴趣特征。
对于家庭经济情况的特征提取,包括以下子步骤:
S61:计算统计量特征,首先将每个短时间内的刷卡都算一次消费,然后计算每天的消费情况,构成一个序列,然后计算序列的最大值、最小值、中位数、平均数、四分位数、标准差、峰值;
S62:计算比例特征,首先计算每天的消费情况,然后计算工作日和周末的交易金额比例;
S63:计算能量特征,首先计算消费序列的平均值,然后将消费序列中每一个值减去平均值进行标准化,接着对消费数据做傅里叶变换,最后用傅里叶变换得到的序列的平方和除序列大小,得到能量特征;
S64:将统计量特征、比例特征和能量特征作为家庭经济情况的特征。
所述的步骤S13包括:
S131:将提取到的特征和毕业去向按照一定关系以一定比例随机分为两份,一份作为训练集,一份作为测试集;
S132:利用所述的训练集分别多个模型;
S133:将测试集分别通过各个模型,然后计算在测试集上的MicroF1值,计算方法如下:
式中,M为毕业去向类别数,TPi为测试集中预测毕业去向是第i个类别并且实际毕业去向也是第i个类别的学生数量,FPi为测试集中预测结果是第i个类别但是实际毕业去向不是第i个类别的学生数量,FNi为测试集中预测结果不是第i个类别但是实际毕业去向是第i个类别的学生数量;
S134:选择Micro-F1值最大的模型作为使用的模型。
所述的多个模型包括训练逻辑回归、支持向量机、决策树、随机森林。
所述的训练逻辑回归采用逻辑回归训练损失函数,公式如下:
式中,N表示训练集中学生数,M表示一个学生的特征数,L表示毕业去向数,表示学生i是否选择了第k个毕业去向,时取1,其他情况都取0;wjk表示要训练的权重,fij是学生i的第j个特征;使用随机梯度下降训练得到权重W,即得到逻辑回归模型;
所述的支持向量机需要优化的目标函数如下:
式中,w是权重向量,b是一个实数,b和w是要学习的目标,fi是第i个学生的特征向量;
所述的决策树的模型训练包括以下子步骤:
S71:开始,所有学生特征看作一个节点;
S72:计算每个特征的每一种分割方式对应的基尼系数,选择基尼系数最大的分割方式;
S73:按上一步选择的分割方式,将数据分割成两个节点N1和N2;
S74:对N1和N2分别继续执行S72~S73步骤,直到每个节点的基尼系数足够小为止;
其中,所述的基尼系数的计算公式如下:
式中,pi表示第i个分类的频率,即用当前节点第i个分类的学生数量,除以当前节点的学生数量,L表示分类的数量,即毕业去向的类别数,N表示当前节点的学生数量;
所述的随机森林的模型训练包括以下子步骤:
S81:给定训练集、测试集和特征维数,并确定参数,包括使用到的决策树的数量、每棵树的深度、每个节点使用到的特征数量f和终止条件;所述的终止条件即节点上最少样本数,节点上最少的信息增益;
S82:从训练集中有放回得抽取大小和训练集一样的训练集S(i),作为根节点的样本,从根节点开始训练;
S83:如果当前节点上达到终止条件,则设置当前节点为叶子节点,该叶子节点的预测输出为当前节点样本集合中数量最多的那一类,概率为预测分类占当前样本集的比例,然后继续训练其他节点;如果当前节点没有达到终止条件,则从特征中无放回的随机选取f维特征,利用这f维特征,寻找分类效果最好的一维特征k及其阈值th,当前节点上样本第k维特征小于th的样本被划分到左节点,其余的被划分到右节点,继续训练其他节点;
S84:重复步骤S82和S83直到所有节点都训练过了或者被标记为叶子节点;
S85:重复步骤S82、S83和S84直到所有决策树都被训练过。
本发明的有益效果是:
(1)本发明基于大学生在校园产生在校数据,提取出多个维度的特征,利用这些特征建立分类模型,借助分类模型预测学生的毕业去向。
(2)本发明的校园数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况,其中工作所需的专业技能蕴含在课程信息之中,那么选课的历史记录可以用来提取;消费记录是以时间戳的形式记录的,所以可以利用这一点来对规律性的行为进行建模,比如早餐习惯和洗澡时间的规律;由于学生通常会通过借阅书籍来学习专业技能和拓展知识视野,通过他们借阅图书的历史记录来挖掘图书借阅的相关信息同样也会有助于预测;最后,由于每个学生的消费历史记录会反映出该学生家庭的经济情况,通过提取早\中\晚餐和月支出的消费情况,可以用来评估学生的经济情况。
(3)当对阅读兴趣进行特征获取时,由于图书馆的图书馆收藏是巨大的,但每个学生只借用一些书,如果直接使用图书馆频率作为借书的证据会让结果变得很稀疏;另外,图书馆记录的降维后能够和学生的实际职业选择关联。因此,学习过程不仅仅是通过图书馆的记录监督,也由选择的职业来训练。
(4)在对模型训练时,采用多个模型进行同时训练和比较,具体包括训练逻辑回归、支持向量机、决策树、随机森林,最后通过Micro-F1值最大的模型作为使用的模型,可靠性更强。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案:
在本实施例中,我们提出了一个基于学生在校行为数据和毕业职业选择数据的监督式的职业选择预测框架。在这个框架中,我们提出了影响学生毕业去向选择的基于行为的代表性因素。这些因素得到了心理学研究的证实,包括从学生成绩数据中学到的学生专业技能/能力,五大人格责任心的行为次序,借书的兴趣和偏好,从智能卡的日常使用消费提取的家庭经济状况估计。很显然的我们将毕业去向预测问题看作一个多分类问题,因此像KNN、决策树、逻辑回归等算法可以被用来预测学生潜在职业选择。这种预测可以使用决定性或者概率方式来表示选择倾向。这些多分类算法本质上是在获取每个在校大学生同已经毕业学生在上述决定性因素上的相似度/距离/散度,恰好同心理学上的社会比较理论一致。社会比较理论的核心命题是“相似性假说”,该命题表明评价人类的能力和上限是通过比较同其相似的个体来实现的,尤其当客观和非社会评价手段均不存在时。自我评价在这种情况也许会变得更加稳定、准确。更重要的是人们特别喜欢向上比较,这种同成功个体比较来评价自己的方式最终更容易使得他们自我完善。
学生在校园的行为被持续记录,例如消费、借阅图书和选课上课。预测学生的毕业情况需要首先将这些行为记录划分为不同的类别集合,然后再以这些类别为依据来进行预测。比如说,由于工作所需的专业技能蕴含在课程信息之中,那么选课的历史记录可以用来提取;消费记录是以时间戳的形式记录的,所以可以利用这一点来对规律性的行为进行建模,比如早餐习惯和洗澡时间的规律等;由于学生通常会通过借阅书籍来学习专业技能和拓展知识视野,通过他们借阅图书的历史记录来挖掘图书借阅的相关信息同样也会有助于预测。最后,由于每个学生的消费历史记录会反映出该学生家庭的经济情况,通过提取早\中\晚餐和月支出的消费情况,可以用来评估学生的经济情况。根据以上四种相关的信息,可以将毕业之后的选择分为四类,即“国外求学”、“国内就业求职”、“国内继续深造”和“其他类别”,我们可以利用多类别分类算法来进行毕业预测。
如图1所示,基于大学生在校数据的毕业去向预测方法,包括训练步骤和预测步骤;所述的训练步骤包括:
S11:获取已经具有毕业去向的在校/毕业大学生的多维度在校数据;在本实施例中,可以为已经毕业的学生的数据或者未毕业但是已经确定毕业去向的学生的数据;
S12:提取在校数据的各个维度的特征;
S13:根据提取到的特征和毕业去向,训练并选择合适的模型;
所述的预测步骤包括:
S21:获取将要预测的大学生的多维度在校数据;
S22:提取在校数据的各个维度的特征;
S23:根据提取到的特征和训练步骤选择的模型,进行毕业去向的预测。
在本实施例中,所述的多维度在校数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况。具体地,该技术的数据来源为学校收集的学生在校园学习生活产生的数据。主要包括门禁、消费、图书借阅、选课、成绩五个方面的数据。门禁数据是学生出入宿舍和出入图书馆的刷卡数据。消费数据是学生在校园中使用一卡通消费的刷卡数据。图书借阅数据是学生借阅图书的记录。选课数据是学生在选课系统选课的记录数据。成绩数据是学生参加考试获得考试成绩的记录数据。
在本实施例中,对于专业技能数据的特征提取,包括以下子步骤:
S31:对成绩数据进行预处理:由于一个课程可能由几个老师教授,不同老师的上课水平不同,那么这个课程的分数不能直接相互比较,因此计算不同老师所上课程得分的平均值,然后将平均值从选择该老师的课程的学生的对应成绩中减去;
S32:构建学生成绩矩阵:其中,成绩矩阵的每一列表示该大学的一门课程,每一行表示一个学生的成绩情况;成绩矩阵用R表示,其中矩阵中的每个元素rij代表学生ui在课程cj中的成绩;
S33:构建学生选课矩阵:其中,选课矩阵的每一列表示该大学的一门课程,每一行表示一个学生的选课情况;成绩矩阵用I表示,其中矩阵中的每个元素Iij代表学生ui是否选上课程cj,Iij具有两个值,分别代表选上和没选上;换句话说,学生在没有选上的课程上的表现是忽略为零的;
S34:对成绩矩阵做矩阵分解,通过优化以下的目标函数实现:
式中,pi表示学生潜在因子,qj表示课程因子,λ表示预先给定的超参数;参数pi和qj通过交替最小二乘法和随机梯度下降法得到,交替最小二乘法利用以下的公式来更新参数:
式中,Ik是一个k*k的单位矩阵,k是预先给定的要提取的特征的维度,即一个学生的专业技能特征是一个k维的向量;
S35:根据步骤S34的计算得到对应到专业技能的特征上的学生潜在因子pi
在本实施例中,责任心是一个非常重要的个人品质,同时也和工作/学术的表现息息相关。有责任心的人表现出更加自律,该表现可以通过日常活动的规律性反映出来。因此,行为的规律性在帮助学生选择未来毕业规划会很有用处。我们在此把关注放在早餐、每天首次进入图书馆和洗澡时间这三个日常规律性上。一个行为的规律性可以理解为重复性,并且可以通过特定时间段间隔行为发生的概率的熵来描述。
具体地,对于行为规律性的特征提取,包括以下子步骤:
S41:计算行为在一个时间间隔内发生的概率:一个行为v将会在ti时间间隔内发生的概率通过以下公式计算:
式中,nv(ti)是行为v在时间间隔t内发生的概率;
S42:计算行为规律性特征,通过计算一个行为的熵实现,公式如下:
如果一个行为的熵是比较高的,那么该行为的在不同时间间隔内的概率更倾向于是均匀分布的,那么该行为的规律性就比较低。当计算熵的时候,我们假定相对于这三个行为,每个时间间隔均为半个小时。由于早餐在上午6点到10点这个时间段内,那么时间间隔的数目为8,少于其他两种行为(图书馆,洗澡)的时间间隔数目(48个时间间隔)。总之,可以得到三个信息熵的特征用来反映学生的规律性。
基于一个人的图书馆借阅数据预测未来的职业选择记录有两个挑战:第一,图书馆的图书馆收藏是巨大的,但每个学生只借用一些书。如果直接使用图书馆频率作为借书的证据会让结果变得很稀疏。第二,图书馆记录的降维后能够和学生的实际职业选择关联。因此,学习过程不仅仅是通过图书馆的记录监督,也由选择的职业来训练。
因此,在本实施例中,对于阅读兴趣的特征提取,包括以下子步骤:
S51:构建图书借阅矩阵和毕业去向矩阵:其中,图书借阅矩阵的每一列表示的一本图书的被借阅情况,每一行表示一个学生的借阅情况,图书借阅矩阵用R表示,其中矩阵中的每个元素ruv代表学生u是否借阅图书v;毕业去向矩阵用Y表示,其中矩阵中的每个元素yui代表学生u是否选择第i个毕业去向,毕业去向共有C个离别;同时,将所有书到这C个类别进行建模;pu表示学生u的职业偏好,pui是学生u在i这个类别上偏好的分数;qv表示图书v的职业偏好,qvi是图书v在i这个类别上偏好的分数;潜在因子P=(p1,...,pM)′和Q=(q1,...,qM)′通过图书借阅矩阵用R进行调整;
S52:构造最优化目标函数:
式中,wuv表示置信度,如果ruv>0,那么wuv>>1,如果ruv≤0,那么wuv=1;W表示权重矩阵,w表示是权重矩阵的分量,λ表示预先给定的超参数;
S53:使用梯度下降求解,梯度计算如下:
其中,通过设定我们能得到qv=(∑uwuvpup′u+α)-1uwuvruvpu。然后我们能用梯度下降去学习pu和wc。不建议直接更新qv,这样做事没有价值的。
where
S54:得到学生u的阅读兴趣pu就是该学生对应的阅读兴趣特征。
可以通过问卷去了解学生的家庭经济情况,但学生可能会夸大他们的困难处境,以便获取更大的资助。因此通过学生的消费历史来估计学生家庭经济情况是一个不错的思路。在不同地点的消费可能对分析有着不同的影响,我们比较在意那些在历史消费中去食堂和超市消费占消费总额比较大的人。为此,我们计算了每顿饭和每次购物的消费情况,其中,每个短时间内(可以设10分钟)的刷卡都算一次消费,然后计算每天的消费情况。随后,我们利用一阶和二阶统计量来评估家庭经济情况,包括最大值、最小值、中位数、平均数、四分位数、标准差、峰值等。接下来,我们计算工作日和周末的交易金额比例,并利用快速傅里叶变换(FFT)计算能量。这个能量是由每个FFT分量的平方和构成,用来捕获消费周期,这提供了另一个证据去验证家庭经济情况。
总的来说,我们有7个统计量、一个比例特征、一个能量特征,这九个量作用到每个人的三个消费序列上,最后我们能一共能得到27个特征值。
具体地,对于家庭经济情况的特征提取,包括以下子步骤:
S61:计算统计量特征,首先将每个短时间内的刷卡都算一次消费,然后计算每天的消费情况,构成一个序列,然后计算序列的最大值、最小值、中位数、平均数、四分位数、标准差、峰值;
S62:计算比例特征,首先计算每天的消费情况,然后计算工作日和周末的交易金额比例;
S63:计算能量特征,首先计算消费序列的平均值,然后将消费序列中每一个值减去平均值进行标准化,接着对消费数据做傅里叶变换,最后用傅里叶变换得到的序列的平方和除序列大小,得到能量特征;
S64:将统计量特征、比例特征和能量特征作为家庭经济情况的特征。
对分别提取到的多维特征进行前后拼接,得到更高维的特征,具体地:
S01:将由专业技能得到的特征,按照学号排列,学生ui的特征为如下的一个特征:
f(ui)=(pi1...pim)
S02:将行为规律性中得到的特征按学号拼接到对应的学生特征后面,即得到学生ui的特征为:
f(ui)=(pi1...pimEi1...Eik)
S03:按照步骤S02的方式,将阅读兴趣和家庭经济情况得到的特征拼接得到更高维的特征。
在本实施例中,对于模型选择,所述的步骤S13包括:
S131:将提取到的特征和毕业去向按照一定关系以一定比例随机分为两份,一份作为训练集,一份作为测试集;在本实施例中,一定关系为学号,一定比例为1:1;
S132:利用所述的训练集分别多个模型;
S133:将测试集分别通过各个模型,然后计算在测试集上的MicroF1值,计算方法如下:
式中,M为毕业去向类别数,TPi为测试集中预测毕业去向是第i个类别并且实际毕业去向也是第i个类别的学生数量,FPi为测试集中预测结果是第i个类别但是实际毕业去向不是第i个类别的学生数量,FNi为测试集中预测结果不是第i个类别但是实际毕业去向是第i个类别的学生数量;
S134:选择Micro-F1值最大的模型作为使用的模型。
所述的多个模型包括训练逻辑回归、支持向量机、决策树、随机森林。
其中,所述的训练逻辑回归采用逻辑回归训练损失函数,公式如下:
式中,N表示训练集中学生数,M表示一个学生的特征数,L表示毕业去向数,表示学生i是否选择了第k个毕业去向,时取1,其他情况都取0;wjk表示要训练的权重,fij是学生i的第j个特征;使用随机梯度下降训练得到权重W,即得到逻辑回归模型;
所述的支持向量机需要优化的目标函数如下:
式中,w是权重向量,b是一个实数,b和w是要学习的目标,fi是第i个学生的特征向量;
使用SMO算法训练模型。对于多分类采用1vs 1的策略实现。
所述的决策树的模型训练包括以下子步骤:
S71:开始,所有学生特征看作一个节点;
S72:计算每个特征的每一种分割方式对应的基尼系数,选择基尼系数最大的分割方式;
S73:按上一步选择的分割方式,将数据分割成两个节点N1和N2;
S74:对N1和N2分别继续执行S72~S73步骤,直到每个节点的基尼系数足够小为止;
其中,所述的基尼系数的计算公式如下:
式中,pi表示第i个分类的频率,即用当前节点第i个分类的学生数量,除以当前节点的学生数量,L表示分类的数量,即毕业去向的类别数,N表示当前节点的学生数量;
所述的随机森林的模型训练包括以下子步骤:
S81:给定训练集、测试集和特征维数,并确定参数,包括使用到的决策树的数量、每棵树的深度、每个节点使用到的特征数量f和终止条件;所述的终止条件即节点上最少样本数,节点上最少的信息增益;
S82:从训练集中有放回得抽取大小和训练集一样的训练集S(i),作为根节点的样本,从根节点开始训练;
S83:如果当前节点上达到终止条件,则设置当前节点为叶子节点,该叶子节点的预测输出为当前节点样本集合中数量最多的那一类,概率为预测分类占当前样本集的比例,然后继续训练其他节点;如果当前节点没有达到终止条件,则从特征中无放回的随机选取f维特征,利用这f维特征,寻找分类效果最好的一维特征k及其阈值th,当前节点上样本第k维特征小于th的样本被划分到左节点,其余的被划分到右节点,继续训练其他节点;
S84:重复步骤S82和S83直到所有节点都训练过了或者被标记为叶子节点;
S85:重复步骤S82、S83和S84直到所有决策树都被训练过。

Claims (9)

1.基于大学生在校数据的毕业去向预测方法,其特征在于:包括训练步骤和预测步骤;所述的训练步骤包括:
S11:获取已经具有毕业去向的在校/毕业大学生的多维度在校数据;
S12:提取在校数据的各个维度的特征;
S13:根据提取到的特征和毕业去向,训练并选择合适的模型;
所述的预测步骤包括:
S21:获取将要预测的大学生的多维度在校数据;
S22:提取在校数据的各个维度的特征;
S23:根据提取到的特征和训练步骤选择的模型,进行毕业去向的预测。
2.根据权利要求1所述的基于大学生在校数据的毕业去向预测方法,其特征在于:所述的多维度在校数据包括专业技能、行为规律性、阅读兴趣、家庭经济情况;对分别提取到的多维特征进行前后拼接。
3.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法,其特征在于:对于专业技能数据的特征提取,包括以下子步骤:
S31:对成绩数据进行预处理:计算不同老师所上课程得分的平均值,然后将平均值从选择该老师的课程的学生的对应成绩中减去;
S32:构建学生成绩矩阵:其中,成绩矩阵的每一列表示该大学的一门课程,每一行表示一个学生的成绩情况;成绩矩阵用R表示,其中矩阵中的每个元素rij代表学生ui在课程cj中的成绩;
S33:构建学生选课矩阵:其中,选课矩阵的每一列表示该大学的一门课程,每一行表示一个学生的选课情况;成绩矩阵用I表示,其中矩阵中的每个元素Iij代表学生ui是否选上课程cj,Iij具有两个值,分别代表选上和没选上;
S34:对成绩矩阵做矩阵分解,通过优化以下的目标函数实现:
min P , Q Σ i , j I i , j ( r i , j - p i ′ q j ) 2 + λ ( Σ i | | p i | | + Σ j | | q j | | )
式中,pi表示学生潜在因子,qj表示课程因子,λ表示预先给定的超参数;参数pi和qj通过交替最小二乘法和随机梯度下降法得到,交替最小二乘法利用以下的公式来更新参数:
p i = ( λI k + Σ j I i , j q j q j ′ ) - 1 ( Σ j I i , j r i , j q j )
q j = ( λI k + Σ i I i , j p i p i ′ ) - 1 ( Σ i I i , j r i , j p i )
式中,Ik是一个k*k的单位矩阵,k是预先给定的要提取的特征的维度,即一个学生的专业技能特征是一个k维的向量;
S35:根据步骤S34的计算得到对应到专业技能的特征上的学生潜在因子pi
4.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法,其特征在于:对于行为规律性的特征提取,包括以下子步骤:
S41:计算行为在一个时间间隔内发生的概率:一个行为v将会在ti时间间隔内发生的概率通过以下公式计算:
P v ( T = t i ) = n v ( t i ) Σ i n v ( t i )
式中,nv(ti)是行为v在时间间隔t内发生的概率;
S42:计算行为规律性特征,通过计算一个行为的熵实现,公式如下:
E v = - Σ i P v ( T = t i ) log P v ( T = t i ) .
5.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法,其特征在于:对于阅读兴趣的特征提取,包括以下子步骤:
S51:构建图书借阅矩阵和毕业去向矩阵:其中,图书借阅矩阵的每一列表示的一本图书的被借阅情况,每一行表示一个学生的借阅情况,图书借阅矩阵用R表示,其中矩阵中的每个元素ruv代表学生u是否借阅图书v;毕业去向矩阵用Y表示,其中矩阵中的每个元素yui代表学生u是否选择第i个毕业去向,毕业去向共有C个离别;同时,将所有书到这C个类别进行建模;pu表示学生u的职业偏好,pui是学生u在i这个类别上偏好的分数;qv表示图书v的职业偏好,qvi是图书v在i这个类别上偏好的分数;潜在因子P=(p1,...,pM)′和Q=(q1,...,qM)′通过图书借阅矩阵用R进行调整;
S52:构造最优化目标函数:
min P , Q , W L = Σ u v w u v ( r u v - p u ′ q v ) - λ Σ u log p ( y u | p u , W ) + α 2 | | P | | F 2 + α 2 | | Q | | F 2
= Σ u v w u v ( r u v - p u ′ q v ) - λ Σ u ( Σ c y u c w c ′ p u - log Σ c exp ( w c ′ p u ) ) + α 2 | | P | | F 2 + α 2 | | Q | | F 2
式中,wuv表示置信度,如果ruv>0,那么wuv>>1,如果ruv≤0,那么wuv=1;W表示权重矩阵,w表示是权重矩阵的分量,λ表示预先给定的超参数;
S53:使用梯度下降求解,梯度计算如下:
∂ L ∂ p u = Σ v w u v ( p u ′ q v - r u v ) q v ′ - λ Σ c ( y u c - w c ′ p u Σ c ′ exp ( w c ′ ′ p u ) ) w c ′ + αp u
∂ L ∂ w c = - λ Σ u ( y u c - w c ′ p u Σ c ′ exp ( w c ′ ′ p u ) ) p u
∂ L ∂ q v = Σ u w u v ( p u ′ q v - r u v ) p u + αq v
S54:得到学生u的阅读兴趣pu就是该学生对应的阅读兴趣特征。
6.根据权利要求2所述的基于大学生在校数据的毕业去向预测方法,其特征在于:对于家庭经济情况的特征提取,包括以下子步骤:
S61:计算统计量特征,首先将每个短时间内的刷卡都算一次消费,然后计算每天的消费情况,构成一个序列,然后计算序列的最大值、最小值、中位数、平均数、四分位数、标准差、峰值;
S62:计算比例特征,首先计算每天的消费情况,然后计算工作日和周末的交易金额比例;
S63:计算能量特征,首先计算消费序列的平均值,然后将消费序列中每一个值减去平均值进行标准化,接着对消费数据做傅里叶变换,最后用傅里叶变换得到的序列的平方和除序列大小,得到能量特征;
S64:将统计量特征、比例特征和能量特征作为家庭经济情况的特征。
7.根据权利要求1所述的基于大学生在校数据的毕业去向预测方法,其特征在于:所述的步骤S13包括:
S131:将提取到的特征和毕业去向按照一定关系以一定比例随机分为两份,一份作为训练集,一份作为测试集;
S132:利用所述的训练集分别多个模型;
S133:将测试集分别通过各个模型,然后计算在测试集上的MicroF1值,计算方法如下:
M i c r o F 1 = 2 π ρ π + ρ
π = Σ i = 1 M TP i Σ i = 1 M ( TP i + FP i )
ρ = Σ i = 1 M TP i Σ i = 1 M ( TP i + FN i )
式中,M为毕业去向类别数,TPi为测试集中预测毕业去向是第i个类别并且实际毕业去向也是第i个类别的学生数量,FPi为测试集中预测结果是第i个类别但是实际毕业去向不是第i个类别的学生数量,FNi为测试集中预测结果不是第i个类别但是实际毕业去向是第i个类别的学生数量;
S134:选择Micro-F1值最大的模型作为使用的模型。
8.根据权利要求7所述的基于大学生在校数据的毕业去向预测方法,其特征在于:所述的多个模型包括训练逻辑回归、支持向量机、决策树、随机森林。
9.根据权利要求8所述的基于大学生在校数据的毕业去向预测方法,其特征在于:所述的训练逻辑回归采用逻辑回归训练损失函数,公式如下:
L ( θ ) = - 1 N ( Σ i = 1 N Σ j = 1 M Σ k = 1 L I { y i k = 1 } log exp ( w j k T f i j ) Σ k = 1 L exp ( w j k T f i j ) )
式中,N表示训练集中学生数,M表示一个学生的特征数,L表示毕业去向数,表示学生i是否选择了第k个毕业去向,时取1,其他情况都取0;wjk表示要训练的权重,fij是学生i的第j个特征;使用随机梯度下降训练得到权重W,即得到逻辑回归模型;
所述的支持向量机需要优化的目标函数如下:
argmax w 1 | | w | | , s . t . y i ( w T f i + b ) ≥ 1 , i = 1 , 2 , ... , N
式中,w是权重向量,b是一个实数,b和w是要学习的目标,fi是第i个学生的特征向量;
所述的决策树的模型训练包括以下子步骤:
S71:开始,所有学生特征看作一个节点;
S72:计算每个特征的每一种分割方式对应的基尼系数,选择基尼系数最大的分割方式;
S73:按上一步选择的分割方式,将数据分割成两个节点N1和N2;
S74:对N1和N2分别继续执行S72~S73步骤,直到每个节点的基尼系数足够小为止;
其中,所述的基尼系数的计算公式如下:
g i n i ( T ) = 1 - Σ i = 1 L p i 2
gini s p l i t ( T ) = N 1 N g i n i ( T 1 ) + N 2 N g i n i ( T 2 )
式中,pi表示第i个分类的频率,即用当前节点第i个分类的学生数量,除以当前节点的学生数量,L表示分类的数量,即毕业去向的类别数,N表示当前节点的学生数量;
所述的随机森林的模型训练包括以下子步骤:
S81:给定训练集、测试集和特征维数,并确定参数,包括使用到的决策树的数量、每棵树的深度、每个节点使用到的特征数量f和终止条件;所述的终止条件即节点上最少样本数,节点上最少的信息增益;
S82:从训练集中有放回得抽取大小和训练集一样的训练集S(i),作为根节点的样本,从根节点开始训练;
S83:如果当前节点上达到终止条件,则设置当前节点为叶子节点,该叶子节点的预测输出为当前节点样本集合中数量最多的那一类,概率为预测分类占当前样本集的比例,然后继续训练其他节点;如果当前节点没有达到终止条件,则从特征中无放回的随机选取f维特征,利用这f维特征,寻找分类效果最好的一维特征k及其阈值th,当前节点上样本第k维特征小于th的样本被划分到左节点,其余的被划分到右节点,继续训练其他节点;
S84:重复步骤S82和S83直到所有节点都训练过了或者被标记为叶子节点;
S85:重复步骤S82、S83和S84直到所有决策树都被训练过。
CN201611082411.5A 2016-11-30 2016-11-30 基于大学生在校数据的毕业去向预测方法 Pending CN106557846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611082411.5A CN106557846A (zh) 2016-11-30 2016-11-30 基于大学生在校数据的毕业去向预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611082411.5A CN106557846A (zh) 2016-11-30 2016-11-30 基于大学生在校数据的毕业去向预测方法

Publications (1)

Publication Number Publication Date
CN106557846A true CN106557846A (zh) 2017-04-05

Family

ID=58445957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611082411.5A Pending CN106557846A (zh) 2016-11-30 2016-11-30 基于大学生在校数据的毕业去向预测方法

Country Status (1)

Country Link
CN (1) CN106557846A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991187A (zh) * 2017-04-10 2017-07-28 武汉朱雀闻天科技有限公司 一种校园数据的分析方法及装置
CN107515339A (zh) * 2017-08-24 2017-12-26 广东电网有限责任公司电力科学研究院 一种基于直流电流分布情况的风险识别方法及系统
CN107944674A (zh) * 2017-11-10 2018-04-20 华中科技大学 一种利用线上线下数据评估商业规划的方法
CN108108455A (zh) * 2017-12-28 2018-06-01 广东欧珀移动通信有限公司 目的地的推送方法、装置、存储介质及电子设备
CN108170765A (zh) * 2017-12-25 2018-06-15 合肥城市云数据中心股份有限公司 基于在校行为数据多维分析的贫困生资助推荐方法
CN108197664A (zh) * 2018-01-24 2018-06-22 北京墨丘科技有限公司 模型获取方法、装置、电子设备及计算机可读存储介质
CN108304974A (zh) * 2018-02-26 2018-07-20 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN108763459A (zh) * 2018-05-28 2018-11-06 王春宁 基于心理测试及dnn算法的专业倾向分析方法及系统
CN109241139A (zh) * 2018-08-31 2019-01-18 联想(北京)有限公司 数据处理方法、逻辑模型系统以及数据处理系统
CN109347903A (zh) * 2018-08-28 2019-02-15 浙江工业大学 一种基于gis系统的校园消息推送优化方法
CN109584020A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 一种信息处理方法和电子设备
CN109711482A (zh) * 2019-01-07 2019-05-03 东华大学 一种毕业生去向信息管理及推荐系统
CN110009536A (zh) * 2019-03-15 2019-07-12 张天昊 一种基于物联网的学生职业规划系统
CN110059883A (zh) * 2019-04-22 2019-07-26 青岛科技大学 一种在线预测大学生就业的方法、装置、系统及存储介质
CN110555459A (zh) * 2019-07-24 2019-12-10 四川大学 基于模糊聚类和支持向量回归的成绩预测方法
CN111079083A (zh) * 2019-11-22 2020-04-28 电子科技大学 基于学生行为的分析方法
CN112101787A (zh) * 2020-09-15 2020-12-18 广东工贸职业技术学院 基于大数据的教学数据获取方法、装置及计算机设备
CN113222315A (zh) * 2020-12-10 2021-08-06 成都寻道科技有限公司 大学生在校数据管理系统

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991187A (zh) * 2017-04-10 2017-07-28 武汉朱雀闻天科技有限公司 一种校园数据的分析方法及装置
CN107515339A (zh) * 2017-08-24 2017-12-26 广东电网有限责任公司电力科学研究院 一种基于直流电流分布情况的风险识别方法及系统
CN107944674A (zh) * 2017-11-10 2018-04-20 华中科技大学 一种利用线上线下数据评估商业规划的方法
CN108170765A (zh) * 2017-12-25 2018-06-15 合肥城市云数据中心股份有限公司 基于在校行为数据多维分析的贫困生资助推荐方法
CN108170765B (zh) * 2017-12-25 2021-11-12 合肥城市云数据中心股份有限公司 基于在校行为数据多维分析的贫困生资助推荐方法
CN108108455B (zh) * 2017-12-28 2020-06-16 Oppo广东移动通信有限公司 目的地的推送方法、装置、存储介质及电子设备
CN108108455A (zh) * 2017-12-28 2018-06-01 广东欧珀移动通信有限公司 目的地的推送方法、装置、存储介质及电子设备
CN108197664A (zh) * 2018-01-24 2018-06-22 北京墨丘科技有限公司 模型获取方法、装置、电子设备及计算机可读存储介质
CN108304974A (zh) * 2018-02-26 2018-07-20 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN108304974B (zh) * 2018-02-26 2022-02-08 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN108763459A (zh) * 2018-05-28 2018-11-06 王春宁 基于心理测试及dnn算法的专业倾向分析方法及系统
CN108763459B (zh) * 2018-05-28 2022-03-01 王春宁 基于心理测试及dnn算法的专业倾向分析方法及系统
CN109347903B (zh) * 2018-08-28 2021-02-26 浙江工业大学 一种基于gis系统的校园消息推送优化方法
CN109347903A (zh) * 2018-08-28 2019-02-15 浙江工业大学 一种基于gis系统的校园消息推送优化方法
CN109241139A (zh) * 2018-08-31 2019-01-18 联想(北京)有限公司 数据处理方法、逻辑模型系统以及数据处理系统
CN109241139B (zh) * 2018-08-31 2023-05-26 联想(北京)有限公司 数据处理方法、逻辑模型系统以及数据处理系统
CN109584020A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 一种信息处理方法和电子设备
CN109711482A (zh) * 2019-01-07 2019-05-03 东华大学 一种毕业生去向信息管理及推荐系统
CN110009536A (zh) * 2019-03-15 2019-07-12 张天昊 一种基于物联网的学生职业规划系统
CN110059883A (zh) * 2019-04-22 2019-07-26 青岛科技大学 一种在线预测大学生就业的方法、装置、系统及存储介质
CN110555459A (zh) * 2019-07-24 2019-12-10 四川大学 基于模糊聚类和支持向量回归的成绩预测方法
CN111079083A (zh) * 2019-11-22 2020-04-28 电子科技大学 基于学生行为的分析方法
CN112101787A (zh) * 2020-09-15 2020-12-18 广东工贸职业技术学院 基于大数据的教学数据获取方法、装置及计算机设备
CN113222315A (zh) * 2020-12-10 2021-08-06 成都寻道科技有限公司 大学生在校数据管理系统

Similar Documents

Publication Publication Date Title
CN106557846A (zh) 基于大学生在校数据的毕业去向预测方法
Nagy et al. Predicting dropout in higher education based on secondary school performance
Nieto et al. Supporting academic decision making at higher educational institutions using machine learning-based algorithms
Ogor Student academic performance monitoring and evaluation using data mining techniques
Sikder et al. Predicting students yearly performance using neural network: A case study of BSMRSTU
Raga et al. Early prediction of student performance in blended learning courses using deep neural networks
Chanlekha et al. Student performance prediction model for early-identification of at-risk students in traditional classroom settings
Dole et al. A decision support system for predicting student performance
Lakshmi et al. An analysis of students performance using genetic algorithm
Neogi et al. A cascaded fuzzy inference system for university non-teaching staff performance appraisal
Sebastian et al. Evaluating students performance by artificial neural network using weka
Prasanalakshmi et al. Classification and prediction of student academic performance in king khalid university-a machine learning approach
Suvon et al. Masters and doctor of philosophy admission prediction of Bangladeshi students into different classes of universities
Wu et al. Student achievement analysis and prediction based on the whole learning process
Jayanthi et al. Research contemplate on educational data mining
Kaynak et al. Adaptive neuro-fuzzy inference system in predicting the success of student’s in a particular course
Pavlin-Bernardić et al. The application of artificial neural networks in predicting children's giftedness
Khadilkar et al. Predictive model on employability of applicants and job hopping using machine learning
CN116340815A (zh) 一种基于卷积神经网络的高校异常行为学生识别方法
Sethi et al. Machine learning based performance evaluation system based on multi-categorial factors
OROZOVA et al. Generalized net model for dynamic decision making and prognoses
Sghir et al. Using learning analytics to improve students' enrollments in higher education
Liu et al. A hybrid method based on MLFS approach to analyze students' academic achievement
Rafiq et al. A data science approach to Predict the University Students at risk of semester dropout: Bangladeshi University Perspective
Deepika et al. Analyze and predicting the student academic performance using data mining tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405

RJ01 Rejection of invention patent application after publication