CN114943275A - 一种基于多源稀疏注意力卷积网络的学生成绩预测方法 - Google Patents

一种基于多源稀疏注意力卷积网络的学生成绩预测方法 Download PDF

Info

Publication number
CN114943275A
CN114943275A CN202210400584.6A CN202210400584A CN114943275A CN 114943275 A CN114943275 A CN 114943275A CN 202210400584 A CN202210400584 A CN 202210400584A CN 114943275 A CN114943275 A CN 114943275A
Authority
CN
China
Prior art keywords
course
student
learning
data
courses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210400584.6A
Other languages
English (en)
Inventor
张育培
尚学群
安蕊
刘树慧
崔嘉琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210400584.6A priority Critical patent/CN114943275A/zh
Publication of CN114943275A publication Critical patent/CN114943275A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多源稀疏注意力卷积神经网络的学生成绩预测方法,属于计算机技术领域。该方法将学生知识水平动态发展整合到学生特征,采用多尺度卷积神经网络挖掘课程结构化特征,采用稀疏注意力网络挖掘课程间的关联关系,整合多源信息实现个性化预测,实现了预测任意学生在任意课程成绩的泛化建模。相比于基线方法,本发明具有更高的预测准确率,且在各种冷启动情况下都能取得比基线方法更高预测准确率。另外,通过分析注意力层权重可以解释模型预测结果,挖掘课程间关联关系,构造专业课程关联图。

Description

一种基于多源稀疏注意力卷积网络的学生成绩预测方法
技术领域
本发明属于计算机技术(智慧教育)领域,具体涉及一种基于多源稀疏注意力卷积神经网络的成绩预测方法。
背景技术
现有学生成绩预测研究工作主要可以分为:基于矩阵分解的方法、基于相似性度量的方法和基于映射的方法。
矩阵分解的方法旨在通过学生特征矩阵和课程特征矩阵的乘积近似成绩矩阵,学生成绩通常被形式化为“学生-课程”矩阵。然而,基于矩阵分解的方法存在数据冷启动问题,即无法预测训练集中未出现过的学生的成绩或训练集中未出现过的课程的成绩。
相似性度量的方法基于在历史表现类似的学生在未来的表现也会相似的假设,算法旨在发现学生记录中类似的模式,即在训练集中寻找与测试样本相似的学生样本。然而,基于相似性度量的方法存在距离度量不确定和预测成本高的问题。
基于映射的方法旨在构建从“学生-课程”特征到成绩的映射。基于映射的方法又可以分为传统机器学习方法和深度神经网络。基于映射的传统机器学习方法无法建模课程之间的关联关系与课程组织的层次结构。基于映射的深度神经网络多集中于使用在线学习平台记录的学生行为数据,预测时序课程成绩。例如Aljohani等人基于学生与在线学习平台进行交互时产生的点击流信息,利用长短期记忆网络进行成绩预测;Kim等人将课程按照时序关系组织,提出了一种基于双向长短期记忆网络的GritNet;Ma等人使用行为数据来预测学生课程成绩,提出了双路径卷积神经网络DPCNN。
然而,传统线下教育中课程并不是按照严格的时序关系组织。课程根据先修关系安排在多个学期,同一学期内课程并行开展,课程组织呈现出层次结构。学生的知识水平随修课数量增多逐渐增长。现有的基于深度神经网络的方法忽略了传统线下教育中课程组织的层次结构以及学生的知识水平动态变化的问题,且只能预测特定的课程或学生,缺乏泛化建模。因此,基于传统课堂教育数据,利用深度学习进行学生成绩预测的工作尚待探索。
发明内容
要解决的技术问题
学生成绩预测的核心任务是评估学生知识水平。从学生角度来说,学习是一个循序渐进的过程,学生的知识状态随着修课数量的增多动态变化,学生的知识水平影响着其学习表现,在其掌握程度较高的课程上通常表现出较好的成绩。从课程角度来说,课程间的关联关系影响着学生成绩,学生在有相似知识或强关联关系的课程中可能会取得近似的成绩。此外,课程组织结构反映了学科的知识体系,线下传统教育的课程按照先修关系安排在不同学期,且在低年级安排基础内容教学,高年级安排逻辑内容教学,课程的组织呈现出层次结构。相关研究表明,卷积神经网络不但可以学习有效的样本表征,而且在捕捉数据的细粒度局部结构和数据空间的结构信息上也有很强的能力,同时易于泛化。
因此,本发明针对现有研究缺乏课程结构层次建模、缺乏对学生知识水平动态增长建模、课程间关联关系建模以及缺乏预测任意学生、任意课程的泛化建模等问题,提出了一种基于多源稀疏注意力卷积神经网络的成绩预测方法。本发明从学生对于课程知识掌握程度研究学生知识水平,可以帮助教学过程所有参与者理解学生学习表现,优化课程结构,提高课程质量,制定合理的课程计划或教学安排。
技术方案
一种基于多源稀疏注意力卷积网络的学生成绩预测方法,其特征在于步骤如下:
步骤1:构建数学模型
采用
Figure BDA0003599926370000031
表示学生i的人口统计特征,
Figure BDA0003599926370000032
表示第j门课程的特征,gij表示学生i在第j门课程上的成绩;由于数据集中每一个预测目标gij代表了学生不同的知识水平,因此假设每一条学习记录对应于一个独立的个体,即数据集中所有学习记录独立同分布;在这样的假设下,将学生在所有课程中的成绩作为学生当前的知识水平特征整合到学生特征中
Figure BDA0003599926370000033
其中gi=(gi1;gi2;...gik),k是数据集包含的课程数量,如果学生i未修过课程t(1≤t≤k),则git=0;
基于以上假设,一条学习记录表示为{xi,yi},其中
Figure BDA0003599926370000034
yi=gij;学生成绩预测问题被定义为:给定n条遵循独立同分布的成绩记录
Figure BDA0003599926370000035
寻找一个映射函数
Figure BDA0003599926370000036
使得
Figure BDA0003599926370000037
从而预测学生在未知课程上的成绩
Figure BDA0003599926370000038
步骤2:构建目标函数
从成绩特征gi和背景特征
Figure BDA0003599926370000039
中分别提取特征,模型的目标函数来自于最小化两部分数据的损失函数;
步骤2-1:第一部分数据gi与课程间的关联关系和课程组织的局部结构化特征有关,定义成绩特征gi的映射函数
Figure BDA00035999263700000310
Figure BDA00035999263700000311
式中,
Figure BDA00035999263700000312
用于学习课程全局关系特征,
Figure BDA00035999263700000313
用于挖掘课程局部结构化特征,f1(xi)是结果特征;通过最小化损失函数
Figure BDA00035999263700000314
学习第一部分数据gi的特征映射函数
Figure BDA00035999263700000315
Figure BDA00035999263700000316
步骤2-2:第二部分数据
Figure BDA00035999263700000317
包括描述学生和课程的背景信息,定义映射函数
Figure BDA00035999263700000318
Figure BDA00035999263700000319
通过最小化损失
Figure BDA00035999263700000320
学习第二部分数据
Figure BDA00035999263700000321
的特征映射函数
Figure BDA00035999263700000322
Figure BDA00035999263700000323
步骤2-3:令f(xi)=(f1(xi);f2(xi)),结合公式(2)和(4),得到最终的目标函数:
Figure BDA0003599926370000041
步骤3:基于神经网络学习全局课程关系映射函数
Figure BDA0003599926370000042
局部结构化特征映射函数
Figure BDA0003599926370000043
和分类映射函数
Figure BDA0003599926370000044
步骤3-1:稀疏注意力网络学习全局课程关系映射函数
Figure BDA0003599926370000045
引入稀疏注意力网络识别与预测目标课程关联性较强的课程子集:
Figure BDA0003599926370000046
式中,SFC是稀疏全连接层,hi是稀疏全连接层的第i个元素,权重为wi,SFC定义为:
Figure BDA0003599926370000047
式中,λ是稀疏连接参数,使用softmax函数将注意力权重归一化:
Figure BDA0003599926370000048
最后为成绩特征gi加权:
Figure BDA0003599926370000049
式中,
Figure BDA00035999263700000410
Figure BDA00035999263700000411
表示向量内积;
步骤3-2:多尺度卷积神经网络学习课程局部结构化特征映射函数
Figure BDA00035999263700000412
将课程成绩数据根据{学期{课程结束时间{课程类别}}}组织为3层层次结构,然后使用多尺度一维卷积从层次结构的课程成绩中提取潜在的时序特征:
Figure BDA00035999263700000413
式中,
Figure BDA0003599926370000051
表示第l层中第q个一维特征图的第t个元素;
Figure BDA0003599926370000052
表示第l层中第q个卷积核向量的第j个元素;a是卷积核大小;1≤t≤T,T是
Figure BDA0003599926370000053
的长度;CNN的输入层l=1,
Figure BDA0003599926370000054
卷积操作后,在特征图上使用一维最大池化:
Figure BDA0003599926370000055
式中,
Figure BDA0003599926370000056
是一维池化核向量,其中第t个到第(t+a-1)个元素为1,其它为0;ReLU(xi)=(x)+;max(xi)获取xi中所有元素最大值;经过L层卷积和L层池化后,将数据展平:
Figure BDA0003599926370000057
式中,m是每层特征图的数量,
Figure BDA0003599926370000058
表示特征图串联;此外,令公式(1)中
Figure BDA0003599926370000059
Figure BDA00035999263700000510
至此,完成了第一部分成绩数据gi的特征提取,获得课程成绩特征f1(xi);步骤3-3:全连接神经网络学习分类映射函数
Figure BDA00035999263700000511
将学生人口统计特征和课程背景特征拼接,令公式(3)中
Figure BDA00035999263700000512
得到:
Figure BDA00035999263700000513
综合考虑所有特征,将第一部分课程成绩特征和第二部分背景特征拼接:
Figure BDA00035999263700000514
步骤3-4:使用全连接网络学习所有特征f(xi)的分类映射函数
Figure BDA00035999263700000515
在输出层中使用softmax函数计算学生i在第j门课程上的成绩
Figure BDA00035999263700000516
将预测课程成绩y分为以下五个等级:
Figure BDA00035999263700000517
综上所述,基于多源稀疏注意力卷积神经网络的学生成绩预测方法可以表述为:
Figure BDA0003599926370000061
通过计算最小化分类概率pj(xi)和真实标签yij的交叉损失训练网络参数:
Figure BDA0003599926370000062
式中,X是批量数据样本,
Figure BDA0003599926370000063
N是批次大小;C=5为类别数;yi=[yi1,yi2,...,yiC]T是标签的独热编码向量;pj(xi)表示xi被预测到第j类的概率。
一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
一种计算机程序,其特征在于包括计算机可执行指令,所述指令在被执行时用于实现上述的方法。
有益效果
本发明提出了一种基于多源稀疏注意力卷积神经网络的学生成绩预测方法,该方法利用稀疏注意力网络学习课程之间的关联关系,提升预测性能的同时也使模型具有一定的可解释性:利用一维卷积神经网络学习课程层次结构;利用多源输入捕捉学生个性化特征。相比于基线方法,本发明具有更高的预测准确率,且在各种冷启动情况下都能取得比基线方法更高预测准确率。另外,通过分析注意力层权重可以解释模型预测结果,挖掘课程间关联关系,构造专业课程关联图。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1是本发明整体流程图。
图2是本发明模型框架图。
图3是本发明与基线方法预测结果对比图。
图4是本发明为预测结果提供解释示意图。
图5是本发明构造的计算机专业核心课程关联图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出一种基于多源稀疏注意力卷积神经网络的学生成绩预测方法,如图1所示,展示了本发明的整体流程图。该方法将学生知识水平动态发展整合到学生特征,采用多尺度卷积神经网络挖掘课程结构化特征,采用稀疏注意力网络挖掘课程间的关联关系,整合多源信息实现个性化预测,实现了预测任意学生在任意课程成绩的泛化建模。具体包括以下步骤:
步骤1:构建数学模型。
本发明用
Figure BDA0003599926370000071
表示学生i的人口统计特征,
Figure BDA0003599926370000072
表示第j门课程的特征,gij表示学生i在第j门课程上的成绩。由于数据集中每一个预测目标gij代表了学生不同的知识水平,因此本发明假设每一条学习记录对应于一个独立的个体,即数据集中所有学习记录独立同分布。在这样的假设下,我们将学生在所有课程中的成绩作为学生当前的知识水平特征整合到学生特征中
Figure BDA0003599926370000073
其中gi=(gi1;gi2;...gik),k是数据集包含的课程数量,如果学生i未修过课程t(1≤t≤k),则git=0。
基于以上假设,一条学习记录表示为{xi,yi},其中
Figure BDA0003599926370000081
yi=gij。本发明中,学生成绩预测问题被定义为:给定n条遵循独立同分布的成绩记录
Figure BDA0003599926370000082
寻找一个映射函数
Figure BDA0003599926370000083
使得
Figure BDA0003599926370000084
从而预测学生在未知课程上的成绩
Figure BDA0003599926370000085
步骤2:构建目标函数。
本发明从成绩特征gi和背景特征
Figure BDA0003599926370000086
中分别提取特征,模型的目标函数来自于最小化两部分数据的损失函数。
步骤2-1:第一部分数据gi与课程间的关联关系和课程组织的局部结构化特征有关,定义成绩特征gi的映射函数
Figure BDA0003599926370000087
Figure BDA0003599926370000088
式中,
Figure BDA0003599926370000089
用于学习课程全局关系特征,
Figure BDA00035999263700000810
用于挖掘课程局部结构化特征,f1(xi)是结果特征。通过最小化损失函数
Figure BDA00035999263700000811
学习第一部分数据gi的特征映射函数
Figure BDA00035999263700000812
Figure BDA00035999263700000813
步骤2-2:第二部分数据
Figure BDA00035999263700000814
包括描述学生和课程的背景信息,定义映射函数
Figure BDA00035999263700000815
Figure BDA00035999263700000816
通过最小化损失
Figure BDA00035999263700000817
学习第二部分数据
Figure BDA00035999263700000818
的特征映射函数
Figure BDA00035999263700000819
Figure BDA00035999263700000820
步骤2-3:令f(xi)=(f1(xi);f2(xi)),结合公式(2)和(4),得到最终的目标函数:
Figure BDA00035999263700000821
步骤3:基于神经网络学习全局课程关系映射函数
Figure BDA00035999263700000822
局部结构化特征映射函数
Figure BDA00035999263700000823
和分类映射函数
Figure BDA00035999263700000824
步骤3-1:稀疏注意力网络学习全局课程关系映射函数
Figure BDA00035999263700000825
课程包含的知识往往是重叠的且相关的,与预测目标课程有相似知识或强关联关系的课程可以为目标课程成绩预测做出较大的贡献。因此,本发明引入稀疏注意力网络识别与预测目标课程关联性较强的课程子集:
Figure BDA0003599926370000091
式中,SFC是稀疏全连接层,hi是稀疏全连接层的第i个元素,权重为wi,SFC定义为:
Figure BDA0003599926370000092
式中,λ是稀疏连接参数,使用softmax函数将注意力权重归一化:
Figure BDA0003599926370000093
最后为成绩特征gi加权:
Figure BDA0003599926370000094
式中,
Figure BDA0003599926370000095
Figure BDA0003599926370000096
表示向量内积。
步骤3-2:多尺度卷积神经网络学习课程局部结构化特征映射函数
Figure BDA0003599926370000097
传统课堂教育中,课程按照先修关系分布在多个学期,通常在低年级安排基础内容教学,高年级安排逻辑内容教学,课程组织呈现层次结构。从先修课程层次结构中挖掘成绩时序特征可以反映学生的知识状态演变。本发明将课程成绩数据根据{学期{课程结束时间{课程类别}}}组织为3层层次结构,然后使用多尺度一维卷积从层次结构的课程成绩中提取潜在的时序特征:
Figure BDA0003599926370000098
式中,
Figure BDA0003599926370000099
表示第l层中第q个一维特征图的第t个元素;
Figure BDA00035999263700000910
表示第l层中第q个卷积核向量的第j个元素;a是卷积核大小;1≤t≤T,T是
Figure BDA00035999263700000911
的长度。CNN的输入层l=1,
Figure BDA00035999263700000912
卷积操作后,在特征图上使用一维最大池化:
Figure BDA0003599926370000101
式中,
Figure BDA0003599926370000102
是一维池化核向量,其中第t个到第(t+a-1)个元素为1,其它为0;ReLU(xi)=(x)+;max(xi)获取xi中所有元素最大值。经过L层卷积和L层池化后,将数据展平:
Figure BDA0003599926370000103
式中,m是每层特征图的数量,
Figure BDA0003599926370000104
表示特征图串联。此外,令公式(1)中
Figure BDA0003599926370000105
至此,完成了第一部分成绩数据gi的特征提取,获得课程成绩特征f1(xi)。
步骤3-3:全连接神经网络学习分类映射函数
Figure BDA0003599926370000106
将学生人口统计特征和课程背景特征拼接,令公式(3)中
Figure BDA0003599926370000107
得到:
Figure BDA0003599926370000108
综合考虑所有特征,将第一部分课程成绩特征和第二部分背景特征拼接:
Figure BDA0003599926370000109
步骤3-4:使用全连接网络学习所有特征f(xi)的分类映射函数
Figure BDA00035999263700001010
在输出层中使用softmax函数计算学生i在第j门课程上的成绩
Figure BDA00035999263700001011
本发明将预测课程成绩y分为以下五个等级:
Figure BDA00035999263700001012
综上所述,本发明提出的基于多源稀疏注意力卷积神经网络的学生成绩预测方法可以表述为:
Figure BDA00035999263700001013
本发明通过计算最小化分类概率pj(xi)和真实标签yij的交叉损失训练网络参数:
Figure BDA0003599926370000111
式中,X是批量数据样本,
Figure BDA0003599926370000112
N是批次大小;C=5为类别数;yi=[yi1,yi2,...,yiC]T是标签的独热编码向量;pj(xi)表示xi被预测到第j类的概率。
实施例:
步骤1:本实施实例使用某大学2012-2018年计算机科学与技术(CST),软件工程(SE),电子信息工程(EIE)三个专业的数据,收集的数据包括成绩记录、学生人口统计数据和课程描述性数据。
步骤2:原始数据有许多数据缺失和噪声,本实施实例按如下方式进行数据预处理:
步骤2-1:对于成绩记录,本实施实例删除预测目标成绩低于10分的记录和二值成绩记录(通过或失败)。以年级为单位,把每科课程的成绩归一化到[0,1]范围内。通过归一化,去除了各年级,各科课程成绩分布不一致所带来的影响。
步骤2-2:对于课程记录,本实施实例删除注册人数少于100的课程、缺少课程描述的课程、直观上与学科专业课关联性不强的课程(如:体育、艺术鉴赏等),删除与学科专业无关的选修课程,可以使模型更专注于利用课程关联性进行建模,并且在一定程度上避免了数据噪声的影响。
步骤2-3:学生人口统计特征包括年龄,班级,专业,性别,民族,院系和年级等;课程背景特征包括课程总时长,每周课程时长、学分、课程类别、课程单元、教师资历、教师年龄、教师职称、教师国籍、教学任务数量等,特征均采用one-hot编码。
步骤3:训练集测试集划分。
本实施实例以学生为单位按照5:5,6:4,7:3和8:2的比例划分为训练集和测试集。每种划分比例随机划分十次,预测结果计算平均指标进行评估。
步骤4:设置模型超参数,学习目标函数。
如图2所示,展示了本发明的模型框架图。本实施实例设置注意力网络稀疏化参数λ=0.01,卷积层数Lcnn=2,每层卷积核个数m=30,多尺度一维卷积核的大小{2,3,4,…,k-1};池化层Lpooling=2,两层池化层的核大小分别为a=(2,4),批次大小设定为N=128,迭代次数epochs=200。使用Adam优化器,其中lr=0.001,β1=0.9,β2=0.999,epsilon=1e-8。实验在2个Nvidia RTX 2080Ti GPU上运行。
步骤5:模型开始训练,判断当前迭代次数是否小于epochs,若是,随机打乱样本开始当前训练迭代;若否,到步骤13。
步骤6:判断当前训练批次是否小于batches,若是,到步骤7;若否,到步骤5。
步骤7:判断当前训练样本是否小于batchsize,若是,到步骤8;若否,到步骤12。
步骤8:根据公式(6)(7)(8)(9)学习全局课程关系映射函数
Figure BDA0003599926370000121
得到课程全局关系特征
Figure BDA0003599926370000122
步骤9:根据公式(10)(11)(12)学习课程局部结构化特征映射函数
Figure BDA0003599926370000123
得到课程成绩特征f1(xi)。
步骤10:根据公式(13)(14)将课程成绩特征f1(xi)和背景特征f2(xi)拼接,得到所有特征f(xi)。
步骤11:根据公式(15)学习分类映射函数
Figure BDA0003599926370000124
得到最终输出yi;回到步骤7。
步骤12:根据公式(17)计算网络损失,并通过反向传播更新网络参数;回到步骤6。
步骤13:模型训练完成,在测试集进行测试,最终得到学生在预测目标课程上的成绩等级。
实施例结果:
如图3所示,展示了本发明(MsaCNN)与基线方法在3个真实教育数据集上的评估结果,可知本发明在所有评价指标上均取得了最好的预测结果。消融实验(虚线分割)说明了本发明受益于稀疏注意力层,一维卷积层和多源特征输入。
如图4所示,展示了本发明中稀疏注意力层权重可以为模型预测结果提供解释。某学生在《计算机网络原理》课程上的真实成绩是34分,预测成绩在0到60分之间,本发明预测正确。图4展示了在预测《计算机网络原理》时注意力权重大小排序在top-10的课程和该学生在这10门课程对应的分数。可以看出该学生在与《计算机网络原理》密切相关的7门课程中均不及格。另外3门课程的成绩都接近60分。说明该生对重要的先修课程知识存在一定程度的欠缺,导致后续课程学习困难。
如图5所示,展示了本发明通过统计分析所有学习记录的稀疏注意力权重,构建了计算机专业核心课程的课程关联关系图。图中节点代表课程;边连接两门关联课程,边越粗表示关联系数越大;节点的入度越大说明该课程是越多课程重要的先修课,课程节点根据入度由大至小从中心至半径扩散。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于多源稀疏注意力卷积网络的学生成绩预测方法,其特征在于步骤如下:
步骤1:构建数学模型
采用
Figure FDA0003599926360000011
表示学生i的人口统计特征,
Figure FDA0003599926360000012
表示第j门课程的特征,gij表示学生i在第j门课程上的成绩;由于数据集中每一个预测目标gij代表了学生不同的知识水平,因此假设每一条学习记录对应于一个独立的个体,即数据集中所有学习记录独立同分布;在这样的假设下,将学生在所有课程中的成绩作为学生当前的知识水平特征整合到学生特征中
Figure FDA0003599926360000013
其中gi=(gi1;gi2;...gik),k是数据集包含的课程数量,如果学生i未修过课程t(1≤t≤k),则git=0;
基于以上假设,一条学习记录表示为{xi,yi},其中
Figure FDA0003599926360000014
yi=gij;学生成绩预测问题被定义为:给定n条遵循独立同分布的成绩记录
Figure FDA0003599926360000015
寻找一个映射函数
Figure FDA0003599926360000016
使得
Figure FDA0003599926360000017
从而预测学生在未知课程上的成绩
Figure FDA0003599926360000018
步骤2:构建目标函数
从成绩特征gi和背景特征
Figure FDA0003599926360000019
中分别提取特征,模型的目标函数来自于最小化两部分数据的损失函数;
步骤2-1:第一部分数据gi与课程间的关联关系和课程组织的局部结构化特征有关,定义成绩特征gi的映射函数
Figure FDA00035999263600000110
Figure FDA00035999263600000111
式中,
Figure FDA00035999263600000112
用于学习课程全局关系特征,
Figure FDA00035999263600000113
用于挖掘课程局部结构化特征,f1(xi)是结果特征;通过最小化损失函数
Figure FDA00035999263600000114
学习第一部分数据gi的特征映射函数
Figure FDA00035999263600000115
Figure FDA00035999263600000116
步骤2-2:第二部分数据
Figure FDA00035999263600000117
包括描述学生和课程的背景信息,定义映射函数
Figure FDA00035999263600000118
Figure FDA00035999263600000119
通过最小化损失
Figure FDA0003599926360000021
学习第二部分数据
Figure FDA0003599926360000022
的特征映射函数
Figure FDA0003599926360000023
Figure FDA0003599926360000024
步骤2-3:令f(xi)=(f1(xi);f2(xi)),结合公式(2)和(4),得到最终的目标函数:
Figure FDA0003599926360000025
步骤3:基于神经网络学习全局课程关系映射函数
Figure FDA0003599926360000026
局部结构化特征映射函数
Figure FDA0003599926360000027
和分类映射函数
Figure FDA0003599926360000028
步骤3-1:稀疏注意力网络学习全局课程关系映射函数
Figure FDA0003599926360000029
引入稀疏注意力网络识别与预测目标课程关联性较强的课程子集:
Figure FDA00035999263600000210
式中,SFC是稀疏全连接层,hi是稀疏全连接层的第i个元素,权重为wi,SFC定义为:
Figure FDA00035999263600000211
式中,λ是稀疏连接参数,使用softmax函数将注意力权重归一化:
Figure FDA00035999263600000212
最后为成绩特征gi加权:
Figure FDA00035999263600000213
式中,
Figure FDA00035999263600000214
Figure FDA00035999263600000215
表示向量内积;
步骤3-2:多尺度卷积神经网络学习课程局部结构化特征映射函数
Figure FDA00035999263600000216
将课程成绩数据根据{学期{课程结束时间{课程类别}}}组织为3层层次结构,然后使用多尺度一维卷积从层次结构的课程成绩中提取潜在的时序特征:
Figure FDA00035999263600000217
式中,
Figure FDA0003599926360000031
表示第l层中第q个一维特征图的第t个元素;
Figure FDA0003599926360000032
表示第l层中第q个卷积核向量的第j个元素;a是卷积核大小;1≤t≤T,T是
Figure FDA0003599926360000033
的长度;CNN的输入层l=1,
Figure FDA0003599926360000034
卷积操作后,在特征图上使用一维最大池化:
Figure FDA0003599926360000035
式中,
Figure FDA0003599926360000036
是一维池化核向量,其中第t个到第(t+a-1)个元素为1,其它为0;ReLU(xi)=(x)+;max(xi)获取xi中所有元素最大值;经过L层卷积和L层池化后,将数据展平:
Figure FDA0003599926360000037
式中,m是每层特征图的数量,
Figure FDA0003599926360000038
表示特征图串联;此外,令公式(1)中
Figure FDA0003599926360000039
Figure FDA00035999263600000310
至此,完成了第一部分成绩数据gi的特征提取,获得课程成绩特征f1(xi);
步骤3-3:全连接神经网络学习分类映射函数
Figure FDA00035999263600000311
将学生人口统计特征和课程背景特征拼接,令公式(3)中
Figure FDA00035999263600000312
得到:
Figure FDA00035999263600000313
综合考虑所有特征,将第一部分课程成绩特征和第二部分背景特征拼接:
Figure FDA00035999263600000314
步骤3-4:使用全连接网络学习所有特征f(xi)的分类映射函数
Figure FDA00035999263600000315
在输出层中使用softmax函数计算学生i在第j门课程上的成绩
Figure FDA00035999263600000316
将预测课程成绩y分为以下五个等级:
Figure FDA00035999263600000317
综上所述,基于多源稀疏注意力卷积神经网络的学生成绩预测方法可以表述为:
Figure FDA0003599926360000041
通过计算最小化分类概率pj(xi)和真实标签yij的交叉损失训练网络参数:
Figure FDA0003599926360000042
式中,X是批量数据样本,
Figure FDA0003599926360000043
N是批次大小;C=5为类别数;yi=[yi1,yi2,...,yiC]T是标签的独热编码向量;pj(xi)表示xi被预测到第j类的概率。
2.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1所述的方法。
3.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。
4.一种计算机程序,其特征在于包括计算机可执行指令,所述指令在被执行时用于实现权利要求1所述的方法。
CN202210400584.6A 2022-04-16 2022-04-16 一种基于多源稀疏注意力卷积网络的学生成绩预测方法 Pending CN114943275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210400584.6A CN114943275A (zh) 2022-04-16 2022-04-16 一种基于多源稀疏注意力卷积网络的学生成绩预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210400584.6A CN114943275A (zh) 2022-04-16 2022-04-16 一种基于多源稀疏注意力卷积网络的学生成绩预测方法

Publications (1)

Publication Number Publication Date
CN114943275A true CN114943275A (zh) 2022-08-26

Family

ID=82906676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210400584.6A Pending CN114943275A (zh) 2022-04-16 2022-04-16 一种基于多源稀疏注意力卷积网络的学生成绩预测方法

Country Status (1)

Country Link
CN (1) CN114943275A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757807A (zh) * 2022-10-12 2023-03-07 北京雪杉教育科技发展有限公司 课程标准关联性图谱生成方法、装置、电子设备和介质
CN117763361A (zh) * 2024-02-22 2024-03-26 泰山学院 一种基于人工智能的学生成绩预测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757807A (zh) * 2022-10-12 2023-03-07 北京雪杉教育科技发展有限公司 课程标准关联性图谱生成方法、装置、电子设备和介质
CN115757807B (zh) * 2022-10-12 2023-09-12 北京雪杉教育科技发展有限公司 课程标准关联性图谱生成方法、装置、电子设备和介质
CN117763361A (zh) * 2024-02-22 2024-03-26 泰山学院 一种基于人工智能的学生成绩预测方法及系统
CN117763361B (zh) * 2024-02-22 2024-04-30 泰山学院 一种基于人工智能的学生成绩预测方法及系统

Similar Documents

Publication Publication Date Title
Francis et al. Predicting academic performance of students using a hybrid data mining approach
Fok et al. Prediction model for students' future development by deep learning and tensorflow artificial intelligence engine
Aleem et al. Educational data mining methods: A survey
CN114943275A (zh) 一种基于多源稀疏注意力卷积网络的学生成绩预测方法
CN112687374B (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
Elayidom et al. A generalized data mining framework for placement chance prediction problems
Wu MOOC learning behavior analysis and teaching intelligent decision support method based on improved decision tree C4. 5 algorithm
Nabil et al. Predicting students' academic performance using machine learning techniques: a literature review
Gafarov et al. Analysis of students’ academic performance by using machine learning tools
Wang Analysis and prediction of CET4 scores based on data mining algorithm
CN113935869A (zh) 一种学生主客观因素结合的成绩预测方法及系统
Ali Educational data mining for predicting academic student performance using active classification
Zhao et al. Hybrid fuzzy rule-based classification system for MOODLE LMS system
Yan et al. Application and Analysis of Computer Data Mining Technology in Intelligent Teaching System for Urban Residents
Ngo et al. Exploration and integration of job portals in Vietnam
Triayudi et al. New Framework of Educational Data Mining to Predict Student Learning Performance
Mathye A theoretical model to predict undergraduate attrition based on background and enrollment characteristics
Galimyanov et al. Research and forecasting of educational process parameters by using artificial intelligence
Raju Predicting student graduation in higher education using data mining models: A comparison
Mi Data-driven student learning performance prediction based on RBF neural network
Demeke et al. Data Mining Approach to Predict Students' Performance
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
Susanto et al. Application for the Active Selection of New Members of UKM Niphaz Diploma Club with the Fuzzy Tsukamoto Method
Nirmala et al. Student Academic Performance Prediction under Various Machine Learning Classification Algorithms
Mikhnev et al. Digital technologies for searching and processing unstructured Information in modern higher education

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination