CN111291940B

CN111291940B - 一种基于Attention深度学习模型的学生辍课预测方法

Info

Publication number: CN111291940B
Application number: CN202010133647.7A
Authority: CN
Inventors: 常亮; 张艳; 刘铁园; 古天龙
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2022-06-07
Anticipated expiration: 2040-03-02
Also published as: CN111291940A

Abstract

本发明公开了一种基于Attention深度学习模型的学生辍课预测方法，包括对行为记录进行编码和时间窗口化分处理，生成多个时间片行为向量矩阵；基于CNN网络改进的卷积层对多个时间片行为向量矩阵进行处理得到多个具有局部关联关系的特征向量矩阵；基于BI‑GRU模型对多个具有局部关联关系的特征向量矩阵进行时序特性的特征提取，生成多个具有时间序列关系的行为特征向量矩阵；基于Attention机制对各时刻隐层特征赋予不同的权值，将不同时刻的隐层状态与权重进行加权求和，生成行为特征表示向量，并输入分类层，通过Sigmoid函数进行预测，得到预测结果。通过考虑到学生学习行为之间的关系和不同行为特征对于辍课预测的影响程度实现预测，提高辍课预测的精准度。

Description

一种基于Attention深度学习模型的学生辍课预测方法

技术领域

本发明涉及机器学习、深度学习及数据挖掘技术领域，尤其涉及一种基于Attention深度学习模型的学生辍课预测方法。

背景技术

随着互联网的飞速发展，教育模式开始发生变化，越来越多不同人群对教育质量以及教育内容的需求程度不一样，因此大量的网络课程学习平台开始应运而生。MOOC这种大型在线学习平台自2012年来开始出现以来，包括了来自世界各地的名校在MOOC上发布课程。学习平台跨越了时间和空间甚至身份的局限，只要是愿意学习的人群，不论从事任何职业都可以通过注册账号进行网上在线学习，但是这也带来严重的问题，辍课率非常高，已经高达90％以上。如何保障在线教育的资源的合理利用，保证在线学生能真正学到知识，因为许多的学生进行了网络课程注册但是却没有参与课程学习，这严重影响了在线教育质量，以及在线教育资源的浪费。如何帮助这些在线平台降低辍课率，提高学习资源的利用率对于教育平台的发展是至关重要的。传统的关于MOOC辍课预测的相关研究，大多数都是对学生学习行为信息特征的简单抽取，利用传统的机器学习方法进行预测，没有考虑到学习行为的序列关系，以及学习行为彼此之间的影响，对于辍课预测的精确度产生影响。因此提高学生辍课预测方法的精准度的问题亟待解决。

发明内容

本发明的目的在于提供一种基于Attention深度学习模型的学生辍课预测方法，旨在解决传统辍课预测方法的精准度低的问题。

为实现上述目的，本发明提供了一种基于Attention深度学习模型的学生辍课预测方法，包括：

获取原始在线学习行为相关数据的数据集进行筛选和预处理；

对筛选和预处理后的行为记录进行编码和时间窗口化分处理，生成多个时间片行为向量矩阵；

基于CNN网络改进的卷积层对多个所述时间片行为向量矩阵进行处理得到多个具有局部关联关系的特征向量矩阵；

基于BI-GRU模型对多个所述具有局部关联关系的特征向量矩阵进行时序特性的特征提取，生成多个具有时间序列关系的行为特征向量矩阵；

基于Attention机制自适应地对各时刻隐层特征赋予不同的权值，将不同时刻的隐层状态与权重进行加权求和，生成行为特征表示向量；

将所述行为特征表示向量输入分类层，通过Sigmoid函数进行预测，得到预测结果。

在一实施方式中，获取原始在线学习行为相关数据的数据集进行筛选和预处理，具体包括：

获取原始在线学习行为相关数据的数据集；

将所述数据集进行筛选，选择enrollment_id、time、source、event、course_id五个属性形成一个实例新的行为记录；

重新划分训练集和测试集。

在一实施方式中，对筛选和预处理后的行为记录进行编码和时间窗口化分处理，生成多个时间片行为向量矩阵，具体包括：

对于一个实例按照时间轴选取行为记录的三个属性source、event、course_id进行one-hot编码；

对于没有行为记录的时间点，使用零向量进行填充；

以小时为单位，将每一个时间点的行为向量，通过拼接和叠加形成一个48维的行为向量；

对于每一个实例的所有记录以天为单位划分为多个时间窗口，每一个时间窗口是每小时的行为向量按时间顺序形成的一个时间片行为向量矩阵，大小为24*48。

在一实施方式中，基于CNN网络改进的卷积层对多个所述时间片行为向量矩阵进行处理得到多个具有局部关联关系的特征向量矩阵，具体包括：

抽离CNN网络中的卷积层，舍去池化层，标定一个局部序列向量，所述局部序列向量保持与原始记录对应的时间序列；

标定不同大小的过滤器提取不同未知的局部特征表示，并通过相应维度的卷积层过滤器进行特征映射和卷积操作得到具有局部关联关系的特征向量矩阵。

基于BI-GRU模型对多个所述具有局部关联关系的特征向量矩阵进行时序特性的特征提取，生成多个具有时间序列关系的行为特征向量矩阵，具体包括：

将具有局部特征性的行为特征矩阵分别输入至前向的GRU神经网络和后向的GRU神经网络，分别得到前向和后向的各个时刻隐层状态表示向量矩阵，并进行拼接，得到多个具有局部关联关系的特征向量矩阵。

在一实施方式中，基于Attention机制自适应地对各时刻隐层特征赋予不同的权值，将不同时刻的隐层状态与权重进行加权求和，生成行为特征表示向量，具体包括：

通过Attention层，计算不同时刻隐层状态对于模型预测的影响权重；

将BI-GRU模型不同时刻隐层状态的特征向量和影响权重，进行加权求和得到行为特征表示向量。

在一实施方式中，对于一个实例按照时间轴选取行为记录的三个属性source、event、course_id进行one-hot编码，具体包括：

转换各个属性为one-hot向量，将一个one-hot向量标定为一对二元组Enc(r_i,q)∈{0,1}^L，L表示一个行为向量的长度，r_i表示第i条记录，q表示某个行为事件。

本发明的一种基于Attention深度学习模型的学生辍课预测方法，通过学生的学习行为记录日志信息，进行预处理和特征提取，并且对提取到的特征向量通过增加权重，达到准确预测的目的。考虑到前后行为之间的彼此的双向影响，以及模型本身的影响，本发明使用BI-GRU模型进行时间序列关系特征提取，从模型本身参数设置上，减少了一个“门”，既可以减少训练时间而且也不容易产生过拟合问题，最重要的是也能解决学习行为之间的双向影响的时间序列问题；考虑到提取到的不同行为特征对于辍课影响程度的不同，使用Attention网络机制为提取出的不同特征向量分配不同的影响权重，使用sigmod分类器进行最后的预测任务，以此来提高辍课预测的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于Attention深度学习模型的学生辍课预测方法的流程示意图；

图2是本发明实施例步骤S101的具体流程示意图；

图3是本发明实施例步骤S102的具体流程示意图；

图4是本发明实施例步骤S103的具体流程示意图；

图5是本发明实施例步骤S105的具体流程示意图；

图6是本发明实施例模型的框架图；

图7是本发明实施例one-hot编码规则的示意图；

图8是本发明实施例辍课预测的过程的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，图1是本发明提供的一种基于Attention深度学习模型的学生辍课预测方法的流程示意图。具体的，所述基于Attention深度学习模型的学生辍课预测方法可以包括以下步骤：

S101、获取原始在线学习行为相关数据的数据集进行筛选和预处理；

本发明实施例中，请参阅图2，获取在KDD官网下载的KDD CPU2015比赛的数据集，所述数据集包括学堂在线39门课程信息，每一个课程包含不同课程开课时间以及持续的30天记录，所述数据集还包括每一个学生的注册每门课程并进行学习的行为信息，以及在30天学习结束后10天是否辍课的行为标签等数据。对所述数据集进行初步处理，清洗掉无用的数据，因为官网下载的数据集已经划分了训练集和测试集，但测试集是没有标签的，因此选用有标签的训练集用于整个模型实验。已选的训练集中，log_train.csv文件，包含了学生学习行为记录。Enrollment_train.csv文件，包含了学生注册选课信息。学生的行为记录都是结构化的按时间戳的顺序排列，由不同的属性组成，这些属性有不同的意义。例如在数据集中，enrollment_id表示学生注册号，time表示学生相应学习行为事件发生的时间，source表示学生发生学习行为的事件源，包含2种(server,browser),event表示学生的具体行为事件，包含7种(access，navigate，problem，page_close，video，discussion，wiki),object表示学生通过access或者navigate行为访问或者导航到的对象(具体指一个课程的某个章节模块)，course_id表示学生所学的课程(总共有39门)。所述训练集包含有39门课程，120542个注册课程信息，30天的学习行为记录数据和一个未来10天是否辍课的行为标签。如果某一个学生在30天学习课程后的未来10天没有行为记录被标注为“辍课”，用“1”表示。在学习课程后的未来10天至少有一个行为记录被标注为“不辍课”，用“0”表示。本发明中“辍课”为正样例，“不辍课”为负样例。120542个实例中有95581个学生在未来辍课，24961个学生没有辍课。选择enrollment_id、time、source、event、course_id五个属性形成一个实例新的行为记录。

S102、对筛选和预处理后的行为记录进行编码和时间窗口化分处理，生成多个时间片行为向量矩阵；

本发明实施例中，请参阅图3和图7，经过S101处理后的原始数据记录是文本格式，不能直接用作模型的输入，为了符合模型输入要求，需要将上述经过筛选的数据进行编码，转换为能由深度网络处理的格式。将每一个行为记录转换为one_hot编码。因为考虑到所用数据对于辍课预测的有效性，对于一个实例按照时间轴选取行为记录的三个属性source、event、course_id进行one-hot编码，即本发明选择了行为记录相关的三个属性：source(2个事件源),event(7种事件),course_id(39门课程)，组成一个有效地行为记录，然后将其进行one_hot编码。对一个实例并不是每一个时间点都有行为记录，因此对于没有行为记录的时间点，使用零向量进行填充。对于每一个点的行为记录生成一个48维行为向量。为了解决数据的稀疏性问题，本发明以小时为单位，将每一个时间点的行为向量，通过叠加形成一个48维的行为向量。对于每一个实例的所有记录以天为单位划分为多个时间窗口，每一个时间窗口是每小时的行为向量按时间顺序拼接形成的一个大小为24*48的时间片行为向量矩阵，作为模型的输入。其中，one_hot编码的具体规则为：

对于筛选处理后的一条文本格式的记录，转换属性为one-hot向量，将一个one-hot向量标定为一对二元组Enc(r_i,q)∈{0,1}^L，L表示一个行为向量的长度，r_i表示第i条记录，q表示某个行为事件，即：

将这些属性向量连接成一个长向量来表示该记录。

记录期间并不是每个时间点都有学习行为，因此对于没有行为记录的时间段，将其行为向量置为0向量即可。

考虑到数据稀疏性的问题，将每一天的一个小时内的行为向量按照对应位置相加，形成一个小时的一个行为记录，用一个1*48的行为向量矩阵表示。比如2014-06-14T09:38:29的一个48维的行为向量[1,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]和2014-06-14T09:39:27的一个48维的行为向量[1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]，通过相加，我们得到[2,0,0,0,0,0,0,1,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]。

所述数据集中39门课程的持续时间均为30天，因此将30天的行为记录，按照天数划分为不重叠的30个时间窗口，每一个时间窗口包括一天的行为记录，每一条行为记录用one-hot编码形成一个行为向量。将每个小时的行为向量按时间顺序拼接形成的一个大小为24*48的行为向量矩阵。这样一天的行为记录也就是一个时间窗口的行为记录，通过Ont-hot编码生成一个24*48的行为向量矩阵。对于实例有30个24*48的行为向量矩阵表示不同时间段的记录，用{V₁,V₂,......,V_n}表示，将其作为特征提取模块的输入。

S103、基于CNN网络改进的卷积层对多个所述时间片行为向量矩阵进行处理得到多个具有局部关联关系的特征向量矩阵；

本发明实施例中，请参阅图4，抽离CNN网络中的卷积层，舍去池化层，标定一个局部序列向量P，所述局部序列向量P保持与原始记录对应的时间序列；

标定不同大小的过滤器提取不同未知的局部特征表示，并通过相应维度的卷积层过滤器进行特征映射和卷积操作得到具有局部关联关系的特征向量矩阵。其中v_i,j是V_i的一个分分量，v_i,j∈R^D表示第i天的行为记录中第j个小时的行为记录的D维向量表示，V∈R^L ^*D表示长度为L的行为记录表示，f∈R^K*D表示过滤器，过滤器的维度和定义的局部序列向量维度一样。局部序列向量P_i,j，第i天的行为记录中第j个小时的开始的连续k个行为向量表示组成，如下公式：

P_j＝[v_i,j,v_i,j+1,......,v_i,j+k-1]

对于每一天的行为记录中j处的区域序列向量P_i，分别取不同长度的多个局部特征表示，例如令k＝{2,3,4}，然后通过相应维度的卷积层过滤器对其进行处理，产生多个关于j处的不同抽象特征映射c_i∈R^L-K+1，映射转换过程如下公式：

c_i＝ReLu(P_i,j*f+b)；

其中，*表示对应位置相乘，b∈R表示ReLu激活函数的偏置，ReLu是一种非线性激活函数。在这个过程中，因为不同尺寸的卷积核产生的卷积维度不同，不利于后面的特征提取，因此对此作如下改进：在维度L*D的一天行为向量序列中，分别使用K*D，(K+1)*D,(K+2)*D尺寸的卷积核进行卷积，为了使不同维度的卷积核在卷积操作后产生相同维度的特征表示，在卷积前，先将每一天的行为向量矩阵通过补0操作，分别转化为L*D，(L+1)*D，(L+2)*D的维度表示，这样通过上述卷积操作之后均产生相同维度的特征表示，这些特征表示组合成为一个新的行为向量矩阵。对于每一天的行为向量矩阵通过卷积层的操作均产生一个具有局部关系的新的行为向量矩阵，如下所示：

C矩阵中，列向量表示通过第n个过滤器产生的特征向量映射，行向量表示第n个过滤器产生的关于位置j处行为向量的抽象特征表示，且多行向量构成的抽象特征序列与原始的行为记录时序关系一致，矩阵中所有行向量构成了作为输入向量继续输入到BI-GRU模型中，进行特征提取。通过上述对卷积层的改进，一方面是对位置j处行为记录的行为向量表示，利用多个不同尺寸的过滤器产生了综合多个局部特征的抽象表示，另一方面新生成的抽象特征序列依然保持着和原始行为记录中的序列关系，充分考虑到了行为之间的的时序关系对于辍课预测的重要影响，并且还将抽象的特征序列作为BI-GRU模型的标准输入，使得卷积层和BI-GRU模型统一结合起来。并且BI-GRU模型输入要求是序列特征，不使用池化层，是因为池化层会破坏行为记录之间的时序关系。

S104、基于BI-GRU模型对多个所述具有局部关联关系的特征向量矩阵进行时序特性的特征提取，生成多个具有时间序列关系的行为特征向量矩阵；

本发明实施例中，将具有局部特征性的行为特征矩阵分别输入至前向的GRU神经网络和后向的GRU神经网络，分别得到前向和后向的各个时刻隐层状态表示向量矩阵，并进行拼接，得到多个具有局部关联关系的特征向量矩阵。其中对于每一个时刻n,GRU神经网络中更新门z_n和重置门r_n，计算公式如下：

z_n＝β(w_zx_n+u_zh_n-1)；

r_n＝β(w_rx_n+u_rh_n-1)；

h'_n＝tanh(w+u(r_n*h_n-1))；

h_n＝(1-z_n)*h_n-1+z_n*h'_n；

其中，*表示两个向量矩阵对应元素的乘积，又叫点积。x_n为输入GRU神经网络的的行为特征向量矩阵，r_n为n时刻输入的行为特征向量矩阵时的更新门，β是激活函数，z_n为n时刻输入的行为特征向量矩阵时的重置门，h_n-1代表n-1时刻的隐层状态，h_n表示n时刻的隐层状态，w_z,w_r，w，u_z，u_r，u是GRU神经网络模型的参数，h'_n表示未更新时n时刻的隐层状态，h_n表示n时刻隐层状态。

对于BI-GRU模型，前向的GRU按照序列顺序读取(V1，V2，...,Vn)的各个向量矩阵并计算每一个时刻的隐层状态。后向的GRU按照序列顺序读取(Vn,Vn-1,....，V1)的各个矩阵并计算每一个时刻的隐层状态，然后将前向和后向获得的各个时刻特征进行拼接得到各个时间窗口的组合向量特征Hi(i＝1,2...n)，Hn表示前向GRU神经网络，n时刻下隐层状态hn和后向GRU神经网络隐层状态h1拼接，计算公式如下：

H_n＝[h_n,h₁]；

BI-GRU层通过多个逻辑单元完成特征提取过程，并且获得具有时间序列的特征表示Hn向量矩阵。在卷积层之后，使用BI-GRU模型，两者共同构成特征提取模块。

通过上述步骤，一般都会直接使用最终状态的行为特征向量矩阵经过全连接层后，直接用于分类预测。但是，学生每一个时间段的行为记录对于最终预测是否辍课具有不同程度的影响。为了表示学生学习行为的多样化，本发明提出使用Attention网络机制来建模学生不同时段历史学习行为记录的不同影响程度。

S105、基于Attention机制自适应地对各时刻隐层特征赋予不同的权值，将不同时刻的隐层状态与权重进行加权求和，生成行为特征最终的表示向量；

本发明实施例中，请参阅图5和图6，通过Attention层，计算不同时刻隐层状态对于模型预测的影响权重；

将BI-GRU模型不同时刻隐层状态的特征向量和影响权重，进行加权求和得到行为特征最终的表示向量。

即不同时刻的特征矩阵考虑到不同时刻的学习行为序列对最终辍课预测的影响程度不同，通过注意力机制自适应地对各时刻隐层特征赋予不同的权值，最后将不同时刻的隐层状态与权重进行加权求和，获得行为特征最终的表示向量。

将BI-GRU模型中，得到多个时刻的行为向量序列H_i，且i＝{1,2,…,n}，作为Attention层的输入，通过将行为向量乘以权重加上偏置项,再通过tanh激活后利用softmax归一化输出影响权重，n时刻下BI-GRU的隐层状态Hn对于最终状态的影响权重a_n，计算公式如下：

u_n＝tanh(wH_n+b)；

N表示v1,v2,....,vn输入数据的个数n，R表示BI-GRU模型的最终状态，是通过BI-GRU中正向和反向的最终隐藏层状态值拼接的得到的，a为各个时刻下隐层状态对于最终状态的注意力概率分布，a的各个分量an表示n时刻下BI-GRU的状态Hn对于最终状态的概率分布，Hn由n时刻，正向和反向状态拼接得到。W为权重矩阵,u_n是经过激活函数的一个向量。

通过得到影响权重后，将BI-GRU层提取到的各个时刻的特征行为向量加权求和,得到基于注意力分布的学生历史行为特征的最终表示向量H，计算公式如下：

N表示输入元素的个数，W为权重矩阵，Hn表示n时刻下正向状态hn和反向状态h1的拼接，an表示n时刻下BI-GRU的状态Hn对于最终状态的概率分布。

经过上述步骤后，得到了表示学生历史行为的特征向量H，将特征向量输入到全连接层，通过sigmoid函数得到最终学生是否会在未来10天辍课的概率y，计算公式如下：

H表示Attention层的输出的最终行为特征表示向量，Q是权重矩阵，b是偏置，分类层的输出y'表示辍课概率，且y'∈[0,1]。

训练模型的损失函数使用负对数似然均值，计算公式如下：

其中，N表示训练实例的个数(也就是注册课程的学生数量)，y′_i表示第i个实例的辍课概率，且y′_i∈[0,1]；L表示损失值，且L∈R。

根据得到的损失值，采用梯度下降的方法优化模型，进行参数调整，得到经过优化的深度网络，经过多次操作，得到多个损失值，当损失值趋收敛时结束操作，将此模型作为最终的预测模型。卷积层，BI-GRU层中的所有参数都是通过反向传播的算法进行训练并更新，损失函数的优化运用随机梯度下降法。

S106、将所述行为特征表示向量输入分类层，通过Sigmoid函数进行预测，得到预测结果。

本发明实施例中，请参阅图8，根据前述的模型输入要求，将测试集行为记录使用one-hot编码分别生成前30天，每一天的学习行为特征矩阵，将其输入模型，预测未来十天是否辍课。预测问题实际上是一个二值分类问题，“辍课”表示为1，将“不辍课”表示为0，sigmoid的输出是一个0-1之间的表示分类为“1”的概率值。

本发明提供的一种基于Attention深度学习模型的学生辍课预测方法，在生成输入数据方面，考虑到时间序列数据的进行了细粒度划分，并使用One-hot编码，构建行为特征向量矩阵，有助于提高预测的准确性；特征提取方面，通过使用CNN模型改进的卷积层，进行特征提取；考虑到行为关系之间的在双向影响，以及模型本身的影响，使用BI-GRU模型由一个前向的GRU网络和一个后向的GRU网络构成，共同提取具有时序关系的行为特征；从模型本身参数设置上，GRU模型比LSTM模型少了一个“门”，既可以减少模型训练时间而且也不容易产生过拟合问题，最重要的是还能将解决行为之间的彼此关联的关系问题；考虑到不同学习行为特征以及不同时间段的学习行为对于最终的辍课预测的影响程度不一样，在BI-GRU模型中引入Attention层，通过分配权重来决定哪些行为特征以及哪个时间段的行为特征对于辍课预测有决定性作用。Attention的得分确定行为记录序列构建过程中，隐藏层状态特征重要性，从而提高模型的性能，进而提供了辍课预测的精准度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于Attention深度学习模型的学生辍课预测方法，其特征在于，包括：

具体方式为：通过Attention层，计算不同时刻隐层状态对于模型预测的影响权重；

将BI-GRU模型不同时刻隐层状态的特征向量和影响权重，进行加权求和得到行为特征最终的表示向量；

通过注意力机制对各时刻隐层特征赋予不同的权值，最后将不同时刻的隐层状态与权重进行加权求和，获得行为特征最终的表示向量；

u_n＝tanh(wH_n+b)；

N表示v1,v2,....,vn输入数据的个数n，R表示BI-GRU模型的最终状态，是通过BI-GRU中正向和反向的最终隐藏层状态值拼接的得到的，a为各个时刻下隐层状态对于最终状态的注意力概率分布，a的各个分量an表示n时刻下BI-GRU的状态Hn对于最终状态的概率分布，Hn由n时刻，正向和反向状态拼接得到；w为权重矩阵,u_n是经过激活函数的一个向量；

N表示输入元素的个数，Hn表示n时刻下正向状态hn和反向状态h1的拼接，an表示n时刻下BI-GRU的状态Hn对于最终状态的概率分布；

将特征向量H输入到全连接层，通过sigmoid函数得到最终学生是否会在未来10天辍课的概率y′，计算公式如下：

H表示Attention层的输出的最终行为特征表示向量，Q是权重矩阵，b是偏置，分类层的输出y'表示辍课概率，且y'∈[0,1]；

训练模型的损失函数使用负对数似然均值，计算公式如下：

其中，N表示训练实例的个数，y′_i表示第i个实例的辍课概率，且y′_i∈[0,1]；L表示损失值，且L∈R；

根据得到的损失值，采用梯度下降的方法优化模型，进行参数调整，得到经过优化的深度网络，经过多次操作，得到多个损失值，当损失值趋收敛时结束操作，将此模型作为最终的预测模型；卷积层，BI-GRU层中的所有参数都是通过反向传播的算法进行训练并更新，损失函数的优化运用随机梯度下降法；

2.如权利要求1所述的基于Attention深度学习模型的学生辍课预测方法，其特征在于，获取原始在线学习行为相关数据的数据集进行筛选和预处理，具体包括：

获取原始在线学习行为相关数据的数据集；

重新划分训练集和测试集。

3.如权利要求2所述的基于Attention深度学习模型的学生辍课预测方法，其特征在于，对筛选和预处理后的行为记录进行编码和时间窗口化分处理，生成多个时间片行为向量矩阵，具体包括：

对于没有行为记录的时间点，使用零向量进行填充；

4.如权利要求3所述的基于Attention深度学习模型的学生辍课预测方法，其特征在于，基于CNN网络改进的卷积层对多个所述时间片行为向量矩阵进行处理得到多个具有局部关联关系的特征向量矩阵，具体包括：

5.如权利要求4所述的基于Attention深度学习模型的学生辍课预测方法，其特征在于，基于BI-GRU模型对多个所述具有局部关联关系的特征向量矩阵进行时序特性的特征提取，生成多个具有时间序列关系的行为特征向量矩阵，具体包括：

6.如权利要求3所述的基于Attention深度学习模型的学生辍课预测方法，其特征在于，对于一个实例按照时间轴选取行为记录的三个属性source、event、course_id进行one-hot编码，具体包括：