CN111709575A

CN111709575A - 基于c-lstm的学业成绩预测方法

Info

Publication number: CN111709575A
Application number: CN202010551141.8A
Authority: CN
Inventors: 李小勇; 张勇; 尹宝才; 周菲菲
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-25

Abstract

本发明提出了一种基于深度学习技术的成绩分类预测方法，整体分为数据汇集、数据预处理、数据建模三个阶段。数据汇集阶段负责将学生的多源异构数据进行汇集，包括基础信息、一卡通消费数据、进入图书馆的记录数据、上网日志数据；数据预处理阶段主要对数据进行标准化、去重或合并操作。数据建模阶段则首先分别对不同的行为数据提取特征，然后联合所有的行为特征以及基础信息特征进行分类预测。本发明汇集学生的多源行为数据，经过数据预处理后，直接利用深度学习模型自主学习特征并进行成绩的分类预测，无需人工提取特征，预测分析的结果具有较高的准确率。

Description

基于C-LSTM的学业成绩预测方法

技术领域

本发明涉及一种基于深度学习技术，利用学生的基础信息和校园行为数据对学业成绩进行分类预测的方法。该技术可以广泛应用于利用基本的先验知识和多源序列数据进行分类预测的场景，本发明涉及的是教育领域中学生成绩的分类。

背景技术

教育部在2018年印发了《教育信息化2.0行动计划》，其中要求深化教育大数据应用，全面提升教育管理信息化支撑业务管理、政务服务、教学管理等工作的能力；大力推进智能教育，开展以学习者为中心的智能化教学支持环境建设，推动人工智能在教学、管理等方面的全流程应用，加快推动人才模式培养、教学方法改革等，实现公平而有质量的教育，促进人的全面发展。那么，如何落实该行动计划则是教育领域必须面对的挑战之一。

为了应对该挑战，通过分析和挖掘教育相关的数据可以获取知识，以解决教育中的各类问题，即教育数据挖掘。常见的应用包括学生学业分析、学生行为建模、心理分析、社交关联分析以及异常行为分析等，其中，学业相关的应用得到了广泛的关注。研究表明，学业分析是一项复杂的工作，面临很多的困难：(1)影响成绩的因素有很多，包括智力、家庭情况、生活规律程度、体质情况、心理状态等，而现实生活中无法全面获取这些数据进行分析；(2)特征提取困难，从大量的数据中提取和学业密切相关的特征，不仅需要丰富的领域知识，而且耗时耗力；(3)影响成绩的因素是动态变化的，需要实时分析行为变化对成绩的影响；(4)样本类别不平衡，成绩优异和成绩差的样本数较少。

随着以“互联互通、信息共享、业务协同”为目标的智慧校园的建设，可以应用的学生相关的数据越来越丰富，包括学生的基本信息、日常消费数据、上网行为数据、图书借阅数据、图书馆门禁数据、课程成绩数据、获奖数据、心理测评数据、体侧数据等，呈现出“多源、异构、高维、实时”的特点，这为学生学业相关的研究提供了坚实的基础。同时，随着计算机算力的大幅提升，深度学习凭借其强大的非线性表达能力和特征自学习能力已经在工业、金融、医疗、交通等领域得到了广泛的应用。那么，通过深度学习技术分析学生的行为数据以解决学业分析过程中遇到的困难是值得期待的事情。

目前，关于学生成绩预测的相关研究方法可以归纳为三大类：(1)基于在线学习平台中的学生学习行为预测特定课程的成绩，行为包括观看教学视频、论坛发言、提交作业、作业互评等，主要采用决策树、逻辑回归、支持向量机等传统机器学习方法进行。由于不同课程的线上教学方式不同，该类方法建立的模型仅适用于特定课程或者相似课程，普适性较差。同时，目前主流的教学方式仍然是线下的教学方式，无法基于线上学习行为预测绝大数学生的学业成绩。(2)基于学生的日常生活行为进行成绩预测，首先采用统计学的方法提取一卡通消费行为、图书借阅行为等的特征，通过相关性分析选择和成绩密切相关的特征，然后基于这些特征，采用支持向量机、决策树、朴素贝叶斯等方法预测成绩。该类方法的主要困难是如何从大量的行为数据中提取合适的特征，这不仅需要有丰富的领域知识，而且需要随着时间的变化对特征进行动态更新。(3)通过调查问卷的方式了解学生的学习兴趣、态度和行为习惯等，采用统计学的方法分析影响学习成绩的主要因素。该方法主要面临样本少、部分反馈不真实等问题，会导致一定的分析误差。

发明内容

基于上述方法存在的局限性和困难，本发明提出了基于深度学习技术的成绩分类预测方法，首先汇集学生的多源行为数据，包括一卡通消费行为数据、进入图书馆行为数据和上网行为数据，经过数据预处理后，直接利用深度学习模型自主学习每种行为的特征并联合学生的基础信息进行成绩的分类预测。由于绝大数的学生都生活在校园内，尤其是中国高校的学生，我们可以获取大量的生活行为数据作为分析基础，同时深度学习模型可以根据数据的分布自主学习特征，无需人工提取特征。另外，生活行为可以客观、实时地反映学生的状态，预测分析的结果具有较高的准确率。本发明有以下创新：1.搭建了校园大数据分析框架，对多源数据进行汇聚、清洗和管理，为后续各类应用分析提供了基础平台。2.成绩分类预测应用中，无需手工提取特征，利用深度学习技术进行特征自学习。3.除了常见的一卡通消费行为和进入图书馆的行为之外，加入了学生的上网行为，并利用词向量的原理学习网址域名的向量表达，无需人工对网址域名的类型进行标注。

本发明整体可以分为数据汇集、数据预处理和数据建模三个阶段。数据汇集阶段将学生的多源异构数据进行汇集，包括基础信息(人口统计学信息和学籍信息)、一卡通消费数据、进入图书馆的记录数据、上网日志数据，以尽可能全面地描述学生，为后续精准预测学业成绩奠定基础。其中，学生上网日志属于半结构化数据，通过搭建hadoop平台存储并解析，使得可以采用SQL语句直接查询；学生基础数据、一卡通消费数据、进入图书馆的记录数据属于关系型数据，采用数据抽取转换工具从不同的信息管理系统按指定频率定时抽取，进行集中存储，方便关联分析。由于数据的多源异构性，存在数据不一致和冗余等问题，在数据预处理阶段对数据进行清洗以解决此类问题。数据建模阶段则首先分别对不同的行为数据提取特征，然后联合所有的行为特征和基础信息进行分类预测。本发明使用的学生基础信息经过ONE-HOT编码或者数据标准化后可以作为模型的输入特征；而一卡通消费数据、进入图书馆的记录数据以及上网日志数据属于时序数据，为了捕捉行为时序数据的相关性，该发明采用长短期记忆网络(LSTM,Long Short-Term Memory)分别对每种行为序列进行特征提取。但是由于上网日志时间戳密集，体量较大，直接采用LSTM模型会占用大量的计算资源，因此，首先采用一维卷积神经网络(1D-CNN，One Dimension ConvolutionalNeural Network)提取局部特征，以降低上网日志的时间序列长度，然后再输入到LSTM模型提取序列特征。待提取了各种行为的特征后，将联合所有的行为特征和基础信息特征，并利用全连接层进行分类输出。基于对上网日志时序数据的处理方式，我们将该发明的模型称为“C-LSTM”模型，其中C代表1D-CNN。

有益效果

本发明汇集学生的多源行为数据，经过数据预处理后，直接利用深度学习模型自主学习特征并进行成绩的分类预测，深度学习模型可以根据数据的分布自主学习特征，无需人工干预。另外，生活行为可以客观地反映学生的状态，预测分析的结果具有较高的准确率。

附图说明

图1校园大数据分析平台架构图

图2基于C-LSTM模型的成绩预测模型

图3预测分类模型准确率折线图

图4预测分类模型损失函数折线图

具体实施方式

1.校园大数据分析平台

该平台是学业成绩预测的支撑框架，主要用于多源异构数据的汇集、解析和管理，自下至上可以分为五层，分别是数据源层、数据采集层、数据存储与解析层、数据管理层、数据分析与可视化层。整体框架如图1。

(1)数据源层。该层主要用于对接各个业务系统的数据，数据可以分为结构化数据、半结构化数据以及非结构化数据三种类型，例如学生的人工统计学信息、学籍信息等属于结构化数据，可以直接采用关系数据库存储；学生的上网日志数据属于半结构化数据，一般采用文件的方式存储，可以通过固定的规则将其转化为结构化数据；而教室等公共场合的监控视频属于非结构化数据，无法将其转化为结构化数据存储。半结构化和非结构化数据一般是动态的，体量会随着时间的增长而增长。

(2)数据采集层。该层通过特定工具将各个业务系统产生的数据存储至集中的数据库，方便后续关联处理。对于结构化数据，采用数据抽取转化工具(ETL，Extract-Transform-Tools)按指定频率定时从各个业务系统中抽取数据；对于半结构化数据，则通过Flume组件收集至Hadoop集群；对于非结构化数据，则直接将业务系统生成的数据流按特定协议传输至集中存储器，并按指定格式生成文件。

(3)数据存储与解析层。该层的主要功能是对汇聚的数据进行清洗、解析和关联，形成多维度的学生数据。对于结构化的业务数据，首先将从各个业务系统抽取的数据直接存储至镜像库；然后依据数据标准，对不同的业务数据进行治理，解决数据不一致、不完整、冗余等问题，将处理后的数据按主题存储至基础库；针对不同应用的数据需求，对基础库中的数据进行关联，为每个学生形成多维度数据并存储至共享库。结构化数据虽然体量小，但是信息丰富，在整个数据处理过程中，采用了数据质量监控体系实时监控数据质量。对于半结构化的日志数据，首先通过定义日志模板，将日志解析转化为结构化数据，虽然半结构化数据体量较大，但是信息密度较低，可以通过Spark-SQL进行统计处理，然后将统计结果导出至关系数据库，再和结构化数据进行关联，形成完整的描述学生的数据集。

(4)数据管理层。该层支持数据接口的定义、申请和审核，将数据提供给数据分析层。同时，为了保证数据使用安全，该层对数据的使用过程进行监控和追踪，并进行必要的脱敏处理。

(5)数据分析与可视化层。基于前四层提供的数据，该层可以根据实际应用需求进行多方面的分析，包括学生学业分析、学生画像、心理预警、社交关联分析以及异常行为分析等。学校管理者和教师可以根据分析的结果采取合适的措施为学生提供精准化的服务；而学生可以参考分析结果不断地完善自己的生活和学习状态。同时，为了提升用户体验，可以采用可视化的方式展现分析的结果。

2.基于C-LSTM的学业成绩预测

基于校园大数据分析平台，本发明进行学业成绩的预测，其建模过程如图2所示，具体说明如下：

2.1.数据源

(1)学生的基础信息，包括人口统计学信息(性别、政治面貌、民族、户口类别、身高、体重)和学籍信息(学院、专业、年级、生源地、毕业中学、是否应届生)，采用

表示第i个学生的基础信息，其中A_I表示基础信息的属性数量。

(2)一卡通消费数据，包含日期、时间、地点、消费金额和消费类型五个属性，本发明采集了食堂就餐和超市购物两种消费类型的数据。采用

表示第i个学生的一卡通消费记录集合，其中，A_c表示一卡通消费记录的属性数，

表示第i个学生的一卡通消费记录数，不同的学生具有不同的消费记录数。

(3)进入图书馆的记录数据，包含进入日期和进入时间两个属性，采用

表示第i个学生的进入图书馆的记录，其中，A_L表示图书馆门禁记录的属性数，

表示第i个学生进入图书馆的次数。

(4)上网日志，包含日期、时间、网址域名、上网地点四个属性，采用

表示第i个学生的上网日志，其中，A_W表示上网日志的属性数；

表示第i个学生的上网日志记录数。

(5)成绩数据，包含课程成绩和课程学分两个属性，采集学生在一个学期内的所有课程的成绩信息。采用yⁱ表示第i个学生的成绩等级。

基于上述标识，数据集D可以表示为{(C¹,L¹,W¹,I¹,y¹),…,(Cⁱ,Lⁱ,Wⁱ,Iⁱ,yⁱ),…,(C^N,L^N,W^N,I^N,y^N)}，其中，N表示学生人数。

2.2.数据预处理

(1)学生基础信息预处理。对于学生基础信息中的名词属性，包括性别、政治面貌、民族、户口类别、学院、专业、年级、生源地、毕业中学、是否应届生，采用ONE-HOT编码方式进行编码。其中，在ONE-HOT编码前，对民族、生源地、毕业中学三个属性进行处理，所述民族的值域合并为汉族和少数民族两个值；所述毕业中学属性转化为三个属性，具体包括毕业中学所在城市的行政级别(省级、市级、县级)，毕业中学的办学性质(公办、民办)，以及毕业中学的办学水平(国家级重点、省级重点、市级重点、县级重点、一般)；所述生源地的值域合并为34个省级行政区。ONE-HOT编码前的处理是为了解决部分属性值域较多且样本稀疏的问题，例如一所高校的学生的毕业中学可能有上千所，但毕业于同一所中学的人数则较少，直接采用ONE-HOT编码方式会导致数据维度灾难，影响模型性能，因此，必须对类似的属性进行了值域的合并以减少维度。以毕业中学为例，对转化后的涉及毕业中学的三个属性进行ONE-HOT编码仅产生10个特征，极大地减少了数据维度。

对基础信息中的身高和体重属性，则按下述等式进行标准化处理：

其中，x⁽ⁱ⁾是某个样本的身高或者体重，

是标准化的身高或者体重，μ_x是身高或体重的样本均值，σ_x是身高或者体重的标准方差。

(2)行为序列预处理。数据源包含一卡通消费数据、图书馆门禁数据以及上网日志数据三种行为数据，每种行为中的每次记录视为一次事件，例如一次一卡通刷卡记录、一条上网日志、一次图书馆门禁刷卡记录，连续的事件形成时序数据。行为数据由用户主动触发，存在数据冗余或者噪声的问题，例如学生在一次就餐过程中可能多次刷卡；在很短的时间内反复进出图书馆；或者某个时间周期内频繁访问同域名的不同网址，因此，有必要进行适当的去重或合并操作，具体包括四个步骤：1)按照校历将事件的日期转化为从1开始的整数，即每学期开学第一天对应的日期转化为1，开学第二天对应的日期转化为2，以此类推；2)按照预设的30分钟间隔将一天24小时均匀划分为48个刻度，进而将每次事件的时间转化为对应的时间刻度值；3)对于不同的行为序列采用不同的规则进行去重或合并操作。对于一卡通数据，将具有相同日期、时间和地点的消费记录合并为一条记录，金额等于被合并的消费金额求和；对于相同的多条图书馆门禁记录，仅保留一条记录；对于上网日志数据，首先将网址转化为网址域名，统计网址域名的频次并按其访问频次进行降序排列，然后从1开始依次给每个域名赋索引值，此时，上网行为序列中的网址则可以利用对应域名的索引值代替，最后进行去重操作。4)利用ONE-HOT编码对事件的地点(消费地点、上网地点)进行编码操作，图书馆门禁数据不需要经过本步骤处理。5)标准化处理。对于一卡通消费数据中转化后的日期和时间，以及消费金额分别进行标准化处理；同样，对于图书馆门禁数据中转化后的日期和时间进行标准化处理；对于上网行为数据中转化后的日期和时间进行标准化处理。标准化公式见公式(1)，处理不同数据对象时，将公式中的x赋予对应的数据。

在预处理过程中，提取上网行为特征对于学习成绩预测具有重要的作用，传统的做法是将网址标注为学习、游戏、新闻等类别，但是该方法面临几个主要挑战：一是确定分类标准困难，二是如何进行自动标注。如果靠人工标注，则需要非常巨大的工作量。本发明不再对网址的类别进行标注，而是借鉴自然语言处理中词向量的基本思想将网址利用向量进行表达。因此，在预处理过程中，将上网行为序列中的网址全部转化为整数值。

(3)成绩数据预处理。由于不同类型的课程会采用不同的计分方式，包括百分制、等级制等，本发明首先将非百分制的成绩转化为百分制，然后采用公式(2)计算平均成绩，最后将平均成绩划分为三段:0～65,66～95,95～100，对应差、中、优三个等级。预处理后的成绩等级数据作为分类预测模型的标签，为了方便模型的训练，分别采用0、1、2三个数字代表差、中、优三个成绩等级。

2.3.数据建模

(1)解决类别不平衡问题。在分类模型的训练过程中，不同类别的训练样本数量应该基本相同。如果不同类别的样本数差别较大，即类别不平衡时，则会直接影响模型的学习过程以及分类结果的准确性。在本发明的数据集中，成绩差和成绩优的学生人数远少于成绩中等的学生，因此，必须解决类别不平衡的问题。技术上一般有三类做法：第一类是欠采样，即从样本数量多的类别中去除一些样本使得各类别样本数量接近；第二类是过采样，即增加样本较少的类别中的样本；第三类则是基于原始训练集进行学习，在利用学习好的分类器进行预测时，通过调整阈值提升模型的预测能力。由于深度学习模型需要大量的样本，本发明采用BorderlineSMOTE算法对数据集进行过采样，其作为过采样代表性算法SMOTE的一种改进算法，仅使用边界上的少数类样本来合成新样本，从而改善样本的类别分布。

(2)一卡通消费数据特征提取。学生的一卡通消费数据具有很强的邻近性、周期性和趋势性，例如学生相邻两天的食堂就餐行为很相似，每周的就餐行为呈现一定的规律性，同时随着季节的变化学生就餐行为则呈现一定的趋势，为了捕捉行为的时间相关性，本发明采用长短期记忆网络(LSTM，Long Short-Term Memory)提取一卡通消费数据的特征。LSTM作为一种改进的循环神经网络(RNN，Recurrent Neural Network)，它不仅将当前信息作为输入，而且将过去长时间内的信息作为输入，因此可以捕捉学生长时间行为序列的特征。LSTM模型的数学表达如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，f_t，i_t，o_t分别代表忘记门，输入门和输出门；x_t是当前时间步的输入，h_t-1是前一个LSTM单元的输出，C_t-1是前一个单元的记忆，h_t是当前LSTM单元的输出，C_t是当前单元的记忆；σ代表sigmoid函数。在本步骤中，x_t表示学生的一次一卡通消费记录，通过多对一类型的LSTM输出行为序列的特征。

(3)进入图书馆的行为序列特征提取。采用和一卡通消费行为特征提取一样的方法提取该序列的特征，其中，x_t表示一次进入图书馆的记录。

(4)上网行为序列特征提取。和一卡通消费行为序列以及进入图书馆的行为序列相比，上网行为序列存在两个主要特点：一是网址索引值非常多，如果采用ONE-HOT编码则导致数据稀疏且无法表达网址间的相关性；二是上网行为序列较长，根据采集的数据统计，学生在一个学期内的一卡通消费次数的众数是173次，而上网行为记录数的众数则达到3.8万条，直接采用LSTM模型则对计算资源的要求非常高，且模型难以收敛。因此，在利用LSTM提取行为特征之前，首先采用自然语言处理中词向量思想，将网址索引值利用稠密的向量进行表达，使得相似的域名具有相近的向量。其次，利用1D-CNN捕获时序数据的局部相关性，其中，卷积层利用卷积核学习局部的关联特征，激励层采用relu函数进行非线性表达，池化层则在保留主要特征的前提下降低时间维度，通过多组1D-CNN逐步将上网行为序列降低至预定的长度。最后，将1D-CNN的输出作为两层堆叠LSTM的输入以提取上网行为序列的特征。

(5)模型输出。将提取的三种行为特征和学生的基础信息进行联结，采用全连接层进一步学习，将学生的成绩等级作为标签训练模型，输出层的神经元个数等于成绩类别数3，采用softmax函数计算学生成绩属于三个类别的概率。

(6)模型训练。本模型采用Adam作为优化器；采用交叉熵作为损失函数；采用Dropout机制避免过拟合问题。此外，为了提升整个模型的训练性能，在模型训练过程中，还可以对三种行为序列特征学习的分支分别利用交叉熵作为辅助损失函数，此处设置三种行为对总的损失函数具有相同的权重。当然也可以不加入辅助损失函数。

2.4.模型结构详细说明

前三小节对数据源、数据预处理以及建模的关键步骤进行了介绍，本节介绍网络结构的详细配置，具体见表1。

1)上网日志数据特征学习。具体步骤如下：

第一步：首先获取网址域名索引序列作为输入层(No.1)，输入到嵌入层(No.3)将索引转化为域名向量，然后将该向量和上网日志的日期、时间以及上网地点(No.2)按列联结形成嵌入表达后的上网行为序列(No.4)。具体序列的长度和嵌入向量的维度见表1.

第二步：采用一维卷积对域名嵌入表达的上网行为序列进行卷积操作，一方面可以捕捉相邻行为的相关性，同时降低序列的长度。受到VGG模型的启发，基本结构块由连续两个卷积层和一个最大池化层组成(例如，No.5,No.6,No.7),连续采用了4个这样的结构块，卷积核数分别是64,128,256,512，卷积核大小均采是3*3大，填充模式是“valid”，激活函数采用relu函数，具体见表1的No.5～No.16。

第三步：经过一维卷积操作，上网行为序列转化为高层次的特征序列，长度也减少了很多，此时采用叠加的LSTM层进一步进行特征学习(No.17,No.18)。No.18层的输出表达了学生整个上网行为的特征。

2)一卡通消费行为特征学习。相比上网行为序列数据，一卡通消费行为序列的长度较短，直接将一卡通消费序列(No.19)输入到LSTM层(No.20)进行特征学习。

3)进入图书馆的序列特征学习。和一卡通消费行为特征学习一样，直接将进入图书馆的行为序列(No.21)输入到LSTM层(No.22)学习特征。

4)将学生基础信息(No.23)和三种行为序列的特征(No.18,No.20,No.22)进行连接(No.24)，然后采用全连接层和Dropout层输出分类结果，具体配置见No.25～No.32。

需要注意的是，No.33,No.34,No.35分别针对三种行为序列特征添加的辅助损失函数，使得LSTM层和嵌入层能够平稳地训练。

表1基于C-LSTM的成绩预测网络结构配置详情

为了验证所提方案的有效性，我们采集了某高校2017至2018学年第2学期中成绩差和成绩优的学生，以及2018至2019学年第2学期所有成绩类别的学生，合共计9204人，其中，1329人属于成绩差的类别，6226人的成绩中等，1649人的成绩优秀。利用BorderlineSMOTE算法进行过采样，使得各类别的人数均达到6226人，然后将过采样后的数据集按0.75和0.25的比例划分为训练集(14008人)和测试集(4670人)，经过50次迭代训练，模型在测试集的最佳准确率达到88.69％，损失函数值达到0.3173，预测分类模型准确率折线图如图3，预测分类模型损失函数折线图如图4。

表2测试集的混淆矩阵

经过计算，查准率是0.887，查全率是0.887，F1值是0.887。

需要说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.基于C-LSTM的学业成绩预测方法，其特征在于包括以下步骤：

1.1.数据采集

本发明采集的数据如下：

(1)学生的基础信息，包括人口统计学信息和学籍信息，采用

(2)一卡通消费数据，包含日期、时间、地点、消费金额和消费类型五个属性，采用

(3)进入图书馆的记录数据，包含日期和时间两个属性，采用

表示第i个学生进入图书馆的次数。

表示第i个学生的上网日志，其中，A_W表示上网日志的属性数，

表示第i个学生的上网日志记录数。

(5)成绩数据包含课程成绩、课程学分两个属性，采集学生在一个学期内的所有课程的成绩信息，采用yⁱ表示第i个学生的成绩等级。

1.2.数据预处理

(1)学生基础信息预处理

对于学生基础信息中的名词属性采用经典的ONE-HOT编码方式进行编码；

对数值属性进行标准化处理，具体公式如下：

其中，x⁽ⁱ⁾是第i个样本的数值属性数据，

是第i个样本的标准化的数值属性数据，μ_x是数值属性的样本均值，σ_x是数值属性的标准方差。

(2)一卡通消费数据预处理

第一步：按照校历将消费日期转化为整数，即每学期开学第一天对应的日期用数字1表示，开学第二天对应的日期用数字2表示，依次类推。

第二步：按照预设分钟间隔将一天24小时均匀划分为多个刻度，将每次消费的时间转化为对应的时间刻度值。

第三步：对于消费日期和时间转化后的消费数据，将消费日期、时间和地点相同的记录合并为一条记录，其消费金额等于被合并的消费记录的金额求和。

第三步：将消费地点进行ONE-HOT编码。

第四步：将转化后的消费日期和时间，以及合并后的消费金额按公式(1)进行标准化处理。

(3)进入图书馆的记录数据预处理。其预处理过程和一卡通消费数据的处理类似，具体如下：

第一步：按照校历将日期转化为从1开始的整数值。

第二步：将学生进入图书馆的具体时间按预设分钟间隔转化为数值刻度，对于同一天相同时间刻度内多次进入图书馆的情况仅保留一条记录。

第三步：将日期和时间刻度按公式(1)进行标准化处理。

(4)上网日志数据预处理。上网日志数据记录了学生的WEB浏览记录，具体处理步骤如下：

第一步：将网址简化为网址域名，统计所有域名的访问频次，并对域名按频次降序排列，然后从1开始依次给每个域名赋索引值，访问频次越高，索引值越低。然后将学生上网日志中的网址域名采用索引值表示。

第二步：将网页浏览日期按照校历转化为整数，浏览时间按预设分钟间隔转化为数值刻度。

第三步：对于日期、时间、上网地点以及网址索引值相同的多条记录进行去重操作，仅保留一条记录。

第四步：将上网地点进行ONE-HOT编码。

第五步：将上网日期、时间刻度按公式(1)进行标准化处理。

(5)成绩数据预处理。预处理后的成绩等级数据作为分类预测模型的标签，对模型进行训练。

第一步：将非百分制的成绩转化为百分制。通过和不通过的成绩类型分别对应60分和0分；满分是150分的成绩则按公式(2)进行转化；成绩是优、良、中、差的成绩则分别对应90分、80分、70分、60分。

第二步：采用公式(3)计算平均成绩。

第三步：将平均成绩划分为三段:0～65,66～95,95～100，并分别赋予类别等级0,1,2。

1.3.数据建模

(1)采用BorderlineSMOTE算法对数据集进行过采样，使得各个成绩类别的学生样本均衡，用于解决类别不平衡的问题。

(2)提取行为序列特征。本发明包含一卡通消费行为序列、进入图书馆的行为序列以及WEB浏览行为序列三种时序数据，对于这三种行为序列，分别提取其特征，具体方法如下：

1)提取一卡通消费行为序列特征，步骤如下：

第一步：统计数据集中所有样本的一卡通消费行为序列的最大长度，对于长度小于该值的样本的一卡通消费行为序列，在首部用0值填充至该长度。

第二步：为了捕获行为的时间相关性，将单次消费记录视为一个输入，采用多对一类型的长短期记忆网络Long Short-Term Memory,LSTM提取一卡通消费行为特征。

2)提取进入图书馆的行为序列特征，其提取步骤同一卡通消费行为序列。

3)提取WEB浏览行为序列特征，步骤如下：

第一步：计算所有样本的WEB浏览行为序列的长度并统计其众数，然后以该数值为准，对长度小于该数的WEB浏览行为序列，在首部用0值填充至该长度；对长度大于该数的序列，则对首部进行截断。

第二步：将WEB浏览行为序列按属性分离为两个序列，一是网址域名索引形成的序列，二是日期、时间、上网地点形成的序列。

第三步：采用自然语言处理中词嵌入思想，将网址索引序列输入嵌入层，利用稠密的向量表达网址索引，使得相似的域名具有相近的向量。

第四步:将经过嵌入层处理的网址域名索引序列和WEB浏览行为的日期时间地点序列合并，形成新的WEB浏览行为序列。

第五步：采用一维卷积神经网络捕获新的WEB浏览行为序列的局部相关性，降低序列的时间长度。

第六步：将经过一维卷积神经网络处理后的序列输入到两层堆叠的LSTM模型，提取特征。

(3)行为特征以及基础信息特征融合，输出预测结果。将提取的三种行为序列特征和学生基础信息特征进行联合，然后采用全连接层学习并输出，输出的单元数和成绩类别数一致，采用softmax函数计算学生成绩属于三个类别的概率。

1.4.将待预测学生预处理之后的数据输入训练完成的模型中进行成绩预测。

2.根据权利要求1所述的基于C-LSTM的学业成绩预测方法，其特征在于：提取WEB浏览行为序列特征过程中，所述采用1D-CNN降维，然后再利用LSTM对降维后的数据进行特征提取的方式可以扩展到任意的行为序列，用于解决长度较长行为序列特征提取困难的问题。

3.根据权利要求1所述的基于C-LSTM的学业成绩预测方法，其特征在于：所述的人口统计学信息包括性别、政治面貌、民族、户口类别、身高、体重，所述的学籍信息包括学院、专业、年级、生源地、毕业中学、是否应届生。

4.根据权利要求3所述的基于C-LSTM的学业成绩预测方法，其特征在于：学生基础信息预处理过程中所述的名词属性包括性别、政治面貌、民族、户口类别、学院、专业、年级、生源地、毕业中学、是否应届生。

5.根据权利要求4所述的基于C-LSTM的学业成绩预测方法，其特征在于：名词属性在ONE-HOT编码前，对民族、生源地、毕业中学三个属性进行处理，所述民族的值域合并为汉族和少数民族两个值，所述毕业中学属性转化为三个属性，具体包括毕业中学所在城市的行政级别，即省级、市级、县级，毕业中学的办学性质，即公办、民办，以及毕业中学的办学水平，即国家级重点、省级重点、市级重点、县级重点、一般，所述生源地的值域合并为34个省级行政区。

6.根据权利要求3所述的基于C-LSTM的学业成绩预测方法，其特征在于：学生基础信息预处理过程中所述的数值属性指身高和体重。

7.根据权利要求1所述的基于C-LSTM的学业成绩预测方法，其特征在于：数据建模之后的模型训练采用Adam作为优化器；采用交叉熵作为损失函数；采用Dropout机制避免过拟合问题，同时，在模型训练过程中，还可以给三种行为序列数据特征学习的分支分别利用交叉熵作为辅助损失函数，以提升整个模型的训练性能，此处设置三种行为对总的损失函数具有相同的权重。