CN113705679A

CN113705679A - 一种基于超图神经网络的学生成绩预测方法

Info

Publication number: CN113705679A
Application number: CN202110999765.0A
Authority: CN
Inventors: 张勇; 李孟燃; 李小勇; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-26
Anticipated expiration: 2041-08-30
Also published as: CN113705679B

Abstract

本发明提供了一种基于超图神经网络的学生成绩预测方法，用于解决现有技术无法对学生多源异构行为数据进行分析，进而无法准确预测学业成绩的问题。本方法首先根据学生多源异构数据提取多源行为特征，然后，对所有学生的多源行为特征进行敏感性分析得到每种行为的影响力特征，接下来，利用影响力特征构建多源行为超图；最后，将学生的多源超图H及由四种行为的影响力特征拼接而成的多元影响力特征X输入到深度网络，预测学生成绩。本发明提出的Ms‑HGNN方法，从群体的角度考虑了多源行为特征构建的行为模式对学生成绩的影响，灵活地表示了学生行为多元关联，在提高模型预测准确性的同时赋予了一定的可解释性。

Description

一种基于超图神经网络的学生成绩预测方法

技术领域

本发明主要涉及教育数据挖掘，超图神经网络和深度学习领域，具体是一种基于多源超图神经网络的学生成绩预测技术。

背景技术

利用行为数据，对学生行为进行建模，并实现学习成效的分析评价在学界已有不少的研究成果。传统学习行为理论研究由于技术与工具的限制，只能探讨那些能直接测量的、可观察的行为，而对于学习行为内隐关联的研究，一直缺乏一手事件数据，尚未形成系统的理论分析体系。近年来，随着校园信息系统的建设，逐渐积累了大量学生学习相关的数据，为大数据条件下学习行为分析和建模提供了数据基础，使得数据驱动的学习行为建模分析工作也越来越受到学界的重视。但目前大多研究工作是基于单一数据源进行的，未考虑学生个体间的差异性和多样性，忽略学生行为数据隐含的高阶关联性，导致其研究的普适性较差。

经研究表明，心理健康、文化信仰、体育活动、网络使用、饮食习惯等因素都与学生学业成绩有着紧密的关联。详细来说，由诸如早餐时间、进入图书馆频次、购物消费金额等多种行为反映的特征，在不同程度上或积极或消极地影响着学生成绩。因此，如何利用学生在校园中多源异构行为数据预测学业成绩，并分析不同行为特征构建的行为模式，对学生管理是非常重要的。

随着深度学习的发展，神经网络凭借强大的自适应学习能力在计算机视觉，自然语言处理等方向取得了突破性进展。尤其是图神经网络在节点划分、连接预测等领域上取得了良好的进展。与传统的卷积神经网络不同，图卷积能够使用神经网络模型对不同输入数据的图形结构进行编码。在学习节点特征的同时，捕获异构图的拓扑结构信息。相比于普通卷积神经网络只能更新权重，图神经网络的学习包括对节点、边以及全局信息的更新。图神经网络更适合非结构化数据的学习，也非常适合多种行为间关系的挖掘。

根据图的定义，普通图只能表示成对节点的关系。对于复杂的多对多关系，简单图将会丢失很多有用的信息。因此，对于多元高阶关系反映出的数据结构，传统的图在表述方面存在局限性。学生行为关联作为典型的多对多关系，需要一种新的拓扑结构来表示这种关系。相关论文研究表明，超图作为一种广义的图，不同于普通图结构，超图的一条超边可以连接多个节点。因此可以更加准确的描述存在多元关联的对象之间的关系，更容易表示多模态和异构的数据关联。同时，在节点嵌入特征表示学习上，超图神经网络相对于图神经网络对于高阶的非结构性数据的处理更加灵活。

超图在对高阶关系的处理上具有良好的性能，超图神经网络在多个领域的研究也取得了阶段性的进展。但尚未发现将超图引入到学习行为建模领域中的研究工作。本发明引入超图将有助于提升成绩预测效果，并在一定程度上解决模型可解释性的问题。

发明内容

为了解决现有技术无法对学生多源异构行为数据进行分析，进而无法准确预测学业成绩的问题，本发明提供了一种基于多源超图神经网络的学生行为模式分析的成绩预测方法，将超图引入到学习行为建模领域中，通过提取学生行为特征构建超图来捕获学生多源异构行为数据中隐含的高阶关联关系，通过神经网络训练节点嵌入特征，以达到预测成绩的目的。本发明的具体步骤如下：

1)根据学生多源异构数据提取多源行为特征:学生行为数据分为学生基本信息、消费行为、进出图书馆行为以及网关登录行为四个来源，其中，除学生基本信息外，其余行为均为典型的时序数据，每条记录都有明确的时间信息，根据时间信息提取多源行为特征；

进一步的，学生基本信息为学生记录在册的信息；消费行为为参考学校的作息时间以及每个地点的功能划分，细分为多种类型的消费行为。

进一步的，学生基本信息包括性别、学院、专业、年级、生源地、毕业中学、是否应届生、课程成绩，学生生源信息和学生的课程成绩，学生生源信息包括毕业中学属性，毕业中学属性利用三个属性进行表达，分别是毕业中学所在城市的行政级别，即省级、市级、县级，毕业中学的办学性质，即公办、民办，以及毕业中学的办学水平，即国家级重点、省级重点、市级重点、县级重点、普通中学；学生的课程成绩选择课程信息和历史成绩作为特征，学生成绩在预处理的过程中将非百分制的成绩转化为百分制；消费行为包括早餐行为、午餐行为、晚餐行为、购物行为，根据每种类型提取日期、时间、地点、消费金额和消费类型五个特征；进出图书馆行为包括进入的时间、图书馆名称、学生在图书馆预约座位、借还书的信息；网关登录行为包括学生上网时间、网址域名、上网地点和浏览网页类型信息。

学生多源行为数据的特征用于描述不同学生行为的时间地点分布集中情况以及规律性，特征分为定性和定量两种结构，

学生基本信息特征为定性特征，采用one-hot编码表示学生基本信息；

其他为定量特征，分别计算平均值、范围、众数以表达其分行为的集中趋势，采用最小值、第一分位数、中位数、第三分位数以及最大值表达其行为的分散情况，同时，分别计算时间和地点两个属性的香农熵以表达行为的规律性。

2)对所有学生的多源行为特征进行敏感性分析得到每种行为的影响力特征：分别计算每组行为的特征影响力，并保留影响力高的特征；

具体的，采用决策树分类模型，将学生作为节点，把学生的每组单行为特征输入到模型中进行分类，引入了信息熵去量化特征影响力，选择对分类结果影响力高的特征作为对应单行为的影响力特征。

3)利用影响力特征构建多源行为超图：在构建超图时，本发明提出了DBKNN方法，具体如下，

首先，通过单行为的影响力特征对学生进行聚类，每个学生作为一个节点，学生被分为不同的类别或者不属于任意类别，不属于任意类别的情况称为噪声；若某学生不属于任何类别，则以该节点为中心构成超边的邻居节点为该节点本身；若某学生节点属于类别z，则运用k近邻在类别z的集合中选择距离当前学生节点最近的前k个邻居节点；

构建单行为超图：选择每一个学生节点作为超边的中心点，每条超边由中心点与相同类别的k个最近邻学生节点连接而成；

最后，将4个单行为超图进行拼接合并，形成学生的多源超图H；

4)为了学习到高维数据的隐含特征，将学生的多源超图H及由四种行为的影响力特征拼接而成的多元影响力特征X输入到深度网络，预测学生成绩，深度网络包括第一超边卷积HGNN_conv_1，第二超边卷积HGNN_conv_2，Dropout，激活函数Relu，全连接层Linear，具体连接关系为HGNN_conv_1→Relu→Dropout→HGNN_conv_2Relu→Dropout→Linear，具体预测过程为：

输入H和X到HGNN_conv_1层，并通过激活函数Relu学习嵌入特征X1，输入到Dropout解决过拟合问题得到X2，接下来采取相同操作：输入H和X2到HGNN_conv_2层，并通过激活函数Relu学习嵌入特征X3，输入到Dropout解决过拟合问题得到X4，最后通过全连接层Linear得到成绩类别y，模型搭建后经过交叉熵损失函数进行梯度下降训练。

有益效果

基于校园中多源异构行为数据，本发明提出了一种基于超图神经网络的学生成绩预测方法。相比于传统的方法，本文的方法具有更好的预测准确率。该方法利用超图表示学生不同行为特征间的关联关系，提升性能的同时也使模型具有一定的可解释性：利用敏感性分析更好的提取到对成绩影响力更大的特征；利用DBKNN优化超图构建更好地捕捉到学生群体网络结构信息。

附图说明

图1本发明整体流程图

图2多行为超图可视化

图3(a)早餐午餐晚餐行为分析，(b)网关，图书馆，购物行为分析

图4(a)早餐行为聚类图，(b)午餐行为聚类图，(c)晚餐行为聚类图，(d)网关行为聚类图，(e)购物行为聚类图，(f)图书馆行为聚类图，

图5行为和学业成绩的相关性,(a)ARI,(b)NMI,(c)FMI,(d)同质性)

图6多源超图与单行为超图的结果对比,(a)poor，(b)medium，(c)excellent，(d)all)

图7本发明与其他方法的成绩预测结果图

具体实施方式

下面结合附图对本发明做更进一步的说明。

1.模型框架

多源超图神经网络方法框架如附图1所示。模型的输入为学生不同行为模式(包括学习，上网、就餐，购物，淋浴等，包括前文描述的内容，但不局限于此。)构建的多源行为矩阵。多源行为矩阵按照行为模式被分割处理成多个单行为矩阵(学习矩阵，就餐矩阵等)。单行为矩阵分别进行特征敏感性分析，将影响因子高的特征筛选出，影响因子低的特征删除。经过敏感性分析后得到的特征我们称之为影响力特征，矩阵称之为影响力矩阵。将每个影响力矩阵依照DBKNN构建单行为超图，并将多个单行为超图生成合并多源超图，每个节点具有多源影响力特征。最后，多源超图及多源影响力特征经过深度网络预测学生学习成绩。

下面进行详述描述：

根据学生行为数据提取特征，来描述不同学生行为的时间地点分布集中情况以及规律性。特征分为定性和定量两种。定性特征如班级，年龄，籍贯等基本信息采用one-hot编码表示。对于消费、进出图书馆、网关登录这些定量特征，分别计算平均值、范围、众数以表达其分行为的集中趋势；采用最小值、第一分位数、中位数、第三分位数以及最大值表达其行为的分散情况；同时，分别计算时间和地点两个属性的香农熵以表达行为的规律性。

2)特征影响力分析：对多源行为特征进行敏感性分析得到每种行为的影响力特征。为了降低数据维度，减少噪声影响，分别计算每组行为的特征影响力，保留影响力高的特征。由于不同行为间相互独立，因此需要将四种行为分别考虑分析。具体操作为：采用了一个决策树分类模型[Geurts P,Ernst D,Wehenkel L.Extremely randomized trees[J].Machine learning,2006,63(1):3-42.]，将学生作为节点，把学生的每组单行为特征输入到模型中进行分类。引入了信息熵去量化特征影响力，选择对分类结果影响力高的特征作为影响力特征。

具体计算时将提取的多行为特征作为输入按照不同行为类别分割为m个单行为特征，分别对每个单行为特征进行敏感性分析。特征敏感性分析是一个独立的分类任务，通过计算特征信息增益遍历决策树分类器选择出影响力较高的特征。

3)多行为超图生成：本模块提出了DBKNN方法，基于该方法，依据影响力特征构建多行为超图。DBKNN方法是一种动态群体构建超图的方法。通过DBSCAN对节点进行聚类，然后在该类别中利用KNN算法寻找中心节点的邻居节点，改善了超边类别的单一性。将单行为超图耦合成多行为超图。

DBKNN首先采用DBSCAN聚类算法[Ester M,Kriegel H P,Sander J,et al.Adensity-based algorithm for discovering clusters in large spatial databaseswith noise[C]//kdd.1996,96(34):226-231.]对学生节点进行聚类。DBSCAN不需要事先知道要形成的簇类的数量并且可以发现任意形状的簇类。同时，DBSCAN能够识别出噪声点，对离群点有较好的鲁棒性，甚至可以检测离群点，因此更容易找到某些不太擅长社交的学生。经过DBSCAN算法对单行为特征聚类后，学生节点被分为类别和噪声两种情况。对于噪声我们认为以该节点构成的超边只和自己相关。若学生节点属于某个类别，则只在该类别中运用k近邻选择前k个邻居节点。选择每一个学生节点作为超边的中心点，每一个超边由中心点与k个最近邻连接而成。比如k＝5则超边由中心点与其特征相似度(欧式距离)最近的前5个节点组成。根据同一类别的单行为节点特征相似度构建超边，因为不同行为模式的差异，节点间的连接会根据行为源而区别。将4个单行为超图合并，形成多源超图。

4)为了学习到高维数据的隐含特征，将学生的多源超图H及由四种行为的影响力特征拼接而成的多元影响力特征X输入到深度网络，预测学生成绩，深度网络包括第一超边卷积HGNN_conv_1，第二超边卷积HGNN_conv_2，Dropout，激活函数Relu，全连接层Linear，具体连接关系为HGNN_conv_1→Relu→Dropout→HGNN_conv_2Relu→Dropout→Linear.

本模块利用深度网络构建超图特征传播机制进行训练。通过学习多行为超图隐含的高阶关系，得到节点特征嵌入表示，通过交叉熵损失函数进行梯度下降训练，最终输出成绩类别标签。

符号定义：定义超图

其中V＝{v₁,v₂,...,v_N}为学生节点集合,E＝{ε₁,ε₂,...,ε_M}为超边集合,

表示超边权重的对角矩阵。超图

可以用关联矩阵

来表示，一条超边ε∈E可以连接多个节点，如果节点v_i被ε_∈连接，则h(i,∈)＝1,否则为0，节点度矩阵

被定义为：

超边度矩阵

被定义为：

定义多元影响力特征

C为特征维度。

下面利用深度网络构建超图特征传播机制进行训练。

深度网络的组成为：HGNN_conv_1→Relu→Dropout→HGNN_conv_2Relu→Dropout→Linear

网络计算公式为：

X1＝Relu(HGNN_conv_1(X,H))

X2＝Dropout(X1)

X3＝Relu(HGNN_conv_2(X2,G))

X3＝Dropout(X2)

y＝Linear(X3)

模型搭建后经过交叉熵损失函数(cross-entropy loss function)进行梯度下降训练，此时y即为学生成绩类别。

其中，超图卷积层(HGNN_conv)负责学习多源超图隐含的高阶关系，得到节点特征嵌入表示，通过交叉熵损失函数进行梯度下降训练，超图卷积层信息传递公式为：

其中

是超图卷积l层网络的输入,σ(·)是一个非线性激活函数，

是第(l)层和第(l+1)层之间的权重矩阵。

2.解释模型对成绩预测效果提高因素

(1)超图行为模式分析

为了探析多行为超图对构建多行为间关联推断行为模式的可解释性。对超图中的节点进一步分析，依据中心节点所属成绩类别将超边分类，令每个超边的节点标签均与中心节点相同。进而，超边按照成绩类别被分为三类，如图2所示，图中展示了9个中心节点组成的多行为超图。选择超参数k＝2，因此每个超边有3个节点，9条超边划分为①，②，③三个簇。其中Stu_1,Stu_2,Stu_3为成绩优秀学生节点，Stu_4,Stu_5,Stu_6为成绩中等学生节点，Stu_7,Stu_8,Stu_9为成绩较差学生节点。其余节点为中心节点的邻居节点。选择了各行为具有代表性的影响力特征来挖掘行为模式。将这三个簇中学生节点行为特征进行统计，结果展示在图3。从图3(a)中可以看出成绩优秀簇中的学生节点用餐时间分布比成绩较差簇中的学生节点规律，且早餐最为明显。从图3(b)中可以看出三种等级区别最大的特征为图书馆进入时间方差和购物时间均值。成绩优秀簇中的学生节点的图书馆进入时间较为分散，且购物时间较短。反之成绩较差簇中的学生节点的图书馆进入时间较为集中，且购物时间较长。通过以上分析可以得到两种行为模式：(1)用餐规律，多次不同时间段进入图书馆且购物时间较短是一个较好的行为模式；(2)用餐不规律，进入图书馆时间单一且购物时间较长是一个较差的行为模式。

(2)行为特征聚类分析

多行为超图中超边通过DBKNN算法生成，包括聚类和链接两个步骤。根据DBKNN算法，多行为超图每个超边的中心点的邻居均属于同一类别。基于此，图4展示了6种不同行为聚类后的可视化结果，单行为影响力特征使用主成分分析(Principal ComponentAnalysis,PCA)降至两维分别作为x，y轴。图中可以看见(a)(b)(c)作为用餐行为，学生群体划分大致相同，且每个类别节点数大致相同，(d)(e)(f)三种行为分布代表网关登录，进入图书馆，购物，可以看出这三种行为划分的类别样式为：一个节点数极多的大类以及少部分节点构成的小类。

为了验证学生的行为类别和学业成绩的相关性，假设不同的学业成绩等级可以代表不同的行为模式。将学生的学业成绩作为弱标签，然后采用兰德系数(adjusted randindex,ARI)、标准化交互信息(Normalized Mutual Information,NMI)、Fowlkes-Mallows指数(Fowlkes-Mallows Index,FMI)以及同质性这四个评价指标衡量聚类结果的有效性。这些评价指标在一定程度上也可以表达不同行为和学生成绩等级的相关性。具体结果如图5所示，综合观察可以发现，基本信息与成绩的相关性最大，主要包括：课程数量，毕业中学所在城市的行政级别，毕业中学办学性质，办学水平，家庭是否城镇等特征。除此之外，图书馆与购物行为和学生成绩的相关性也比较高。因此，在学生的日常管理中，应对这些行为进行重点关注。

(3)多行为超图有效性验证

为了证明多源超图预测行为的效果，我们设计了一组实验。通过使用单行为和单行为耦合后的多行为作为输入。注意此时多行为只构成一个超图。实验效果如附图6所示。可以看出单行为耦合后的多行为在四种类别的评价指标上效果最优，平均提高30％以上。这证明了从学生整体行为模式上分析预测成绩的效果最优。

3.成绩预测效果对比

为了证明本方法的先进性，选取了5中机器学习和2中深度学习的主流方法进行对比试验。机器学习方法为：逻辑回归，K近邻，决策树，以及集成算法随机森林和AdaBoost；深度学习为GCN和HGNN分别为深度图卷积和深度图卷积的经典模型。

·逻辑回归：根据现有数据对分类边界线(Decision Boundary)建立回归公式，以此进行分类

·K近邻：采用测量不同特征之间的距离决定样本的类别，周围k个样本中出现最多的类别为新样本类别

·决策树：通过决定性特征学习数据集中的规则，对未知数据集进行划分的算法；其中叶子节点为决策(分类)结果，非叶子节点为选择进行划分的特征(决定性特征、最优特征)。

·随机森林：用有放回采样的样本训练多棵决策树，训练决策树的每个节点是只用了无放回抽样的部分特征，预测时用这些树的预测结果进行投票

·AdaBoost：集成算法，从弱学习算法出发，反复学习，得到一系列弱分类器；然后组合这些弱分类器，构成一个强分类器

·GCN：采用卷积操作的图神经网络，可以应用于图嵌入GE

·HGHN：采用卷积操作的超图神经网络

·MHGNN：本文提出基于多行为超图神经网络的成绩预测方法

同时对本文方法设置了消融试验，设置了两种消融方法MHGNN(in),和MHGNN(mu)。其中MHGNN(in)为敏感性分析提取特征但未建立多行为超图的模型，MHGNN(mu)为构建了多行为超图但未进行敏感分析提取特征。MHGNN为敏感性分析提取特征后建立多行为超图进行成绩预测的模型即本文提出的方法。实现结果如图7所示，其中加粗为最优结果。从结果可以看出，本文方法在所有成绩类别样本上的查准率，查全率和F1系数上均优于对比方法。并且在成绩类别为优和差两个样本上准确率更高，成绩中等样本的查全率更高。这说明成绩较好或较差的学生更容易被预测到。对比两组消融实验可以发现，多行为超图(MHGCN(mu))与敏感性分析(MHGCN(in))对结果均有提升，但多行为超图的提升更大。

Claims

1.一种基于超图神经网络的学生成绩预测方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于超图神经网络的学生成绩预测方法，其特征在于：

进一步的，

学生基本信息为学生记录在册的信息；

消费行为为参考学校的作息时间以及每个地点的功能划分，细分为多种类型的消费行为。

3.根据权利要求2所述的一种基于超图神经网络的学生成绩预测方法，其特征在于：

进一步的，

学生基本信息包括性别、学院、专业、年级、生源地、毕业中学、是否应届生、课程成绩，学生生源信息和学生的课程成绩，学生生源信息包括毕业中学属性，毕业中学属性利用三个属性进行表达，分别是毕业中学所在城市的行政级别，即省级、市级、县级，毕业中学的办学性质，即公办、民办，以及毕业中学的办学水平，即国家级重点、省级重点、市级重点、县级重点、普通中学；学生的课程成绩选择课程信息和历史成绩作为特征，学生成绩在预处理的过程中将非百分制的成绩转化为百分制；

消费行为包括早餐行为、午餐行为、晚餐行为、购物行为，根据每种类型提取日期、时间、地点、消费金额和消费类型五个特征；

进出图书馆行为包括进入的时间、图书馆名称、学生在图书馆预约座位、借还书的信息；

网关登录行为包括学生上网时间、网址域名、上网地点和浏览网页类型信息。

4.根据权利要求1所述的一种基于超图神经网络的学生成绩预测方法，其特征在于：

5.根据权利要求1所述的一种基于多源超图神经网络的学生成绩预测方法，其特征在于：步骤2)具体包括，

采用决策树分类模型，将学生作为节点，把学生的每组单行为特征输入到模型中进行分类，引入了信息熵去量化特征影响力，选择对分类结果影响力高的特征作为对应单行为的影响力特征。

6.根据权利要求1所述的一种基于超图神经网络的学生成绩预测方法，其特征在于：步骤3)k个邻居节点的选择具体如下，

k近邻算法进行节点连接中，具有D维单行为影响力特征的学生节点i表示为X_i＝(x₁，x₂，...，x_D)^T，根据两个节点之间的特征相似度，即欧氏距离，选取最近的k个节点。