CN114021721A

CN114021721A - 一种基于学习过程片段的时空注意力知识追踪方法

Info

Publication number: CN114021721A
Application number: CN202111266619.3A
Authority: CN
Inventors: 黄涛; 杨华利; 陈彬; 耿晶; 张�浩; 喻涛; 刘三女牙; 杨宗凯
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-08

Abstract

本发明属于知识追踪技术领域，提供一种基于学习过程片段的时空注意力知识追踪方法，包括以下步骤：(1)知识跟踪问题定义和数据预处理；(2)时空注意力模型的构建；(3)模型的训练与预测。本发明方法从学习过程片段的角度建模知识追踪问题，使得模型可以同时建模答题者学习速率和知识状态，可适应不同答题者之间的差异，并加入基于时序注意力的遗忘机制，考虑答题者学习过程中的遗忘过程，更加符合人类的学习规律，对学习过程更好的建模。

Description

一种基于学习过程片段的时空注意力知识追踪方法

技术领域

本发明属于知识追踪技术领域，更具体的涉及一种基于学习过程片段的时空注意力知识追踪方法。

背景技术

知识追踪是利用计算机技术对答题者的知识状态进行建模，以便能够跟踪答题者对于知识点的掌握程度，进一步可以预测答题者在下一次答题时的表现。知识追踪能捕捉到答题者当前做题的真实情况，是学习者建模中的核心任务。知识追踪广泛应用在智能教育领域中，例如可以根据知识追踪预测情况自动推荐学习资源等。

知识追踪领域有多个经典的模型，例如深度知识跟踪模型(Deep KnowledgeTracing,DKT)、动态关键值记忆网络知识追踪模型(Dynamic Key-Value MemoryNetworks,DKVMN)、卷积知识追踪模型(Convolutional Knowledge Tracing,CKT)。其中CKT中科大版本(Convolutional Knowledge Tracing:Modeling Individualization inStudent Learning Process)模型考虑了学习速率和先验知识，根据答题者的答题记录首先计算答题者的先验知识，考虑到每个答题者学习某一个知识点的速率是不同的，利用CKT模型相比于DKT、DKVMN等现有的一些模型，预测精确度等性能有所提升。CKT华东师范大学版(Deep Knowledge Tracing with Convolutions)，考虑长期和短期特征，选用LSTM建模长期特征，3D卷积建模短期特征，在预测精确度上相比于DKT、DKVMN等现有的一些模型有所提升。

但是两个版本的CKT皆存在以下问题：1)没有考虑到不同的学习者之间的差异，使用固定卷积核大小进行学习率建模。2)对历史试题相关性建模的处理上没有考虑遗忘特性，即当前试题与最近进行的练习具有很大的相关性大，与较远的练习相关性小。在预测准确性上，CKT中科大版在公开的真实数据集ASSIST2009上的ROC曲线下的面积(AUC)值为0.8252，CKT华东师大版本为0.8254，预测精确率，皆还存在提升的空间。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供一种基于学习过程片段的时空注意力知识追踪方法，能够有效提升知识追踪的预测精确度。

为实现上述目的，本发明采用以下技术方案。

一种基于学习过程片段的时空注意力知识追踪方法，包括以下步骤：

(1)知识跟踪问题定义和数据预处理；

(1-1)问题定义：给定一个学生包括T个学习交互的学习序列I_T＝(i₁，i₂，…，i_t)，然后评估学生每次学习交互后的知识状态。在学习序列中，i_t是一个有序数对{e_t，a_t}，代表一次学习交互，其中e_t表示在第t个练习，a_t∈{0，1}用来表示练习e_t答对或答错，其中，1表示答对，0表示答错。知识追踪表示为如下公式：

p_t＝f(h_t) h_t＝g(h_t-1)

p_t∈{0，1}，通过模型g(·)以及t-1时刻的知识状态h_t-1得到答题者后一个时刻t知识状态h_t，再通过f(·)以及h_t预测该题答对的概率p_t。

(1-2)数据采集：数据来源于真实公开数据，包含了答题者历史答题记录。每个答题者的答题记录包括练习的编号、该练习包含的技能编号以及答题者对该练习的答题结果。

(1-3)数据预处理：将每一位答题者历史记录处理成三行数据，第一行是该答题者的编号和答题数量，第二行是该答题者的答题历史记录中题目的编号，第三行为对应题目的答题结果，其长度与第二行一致，即答题结果与练习编号一一对应。

(2)时空注意力模型的构建；

模型分为四个模块：编码器、片段特征提取模块、空间注意力模块、输出模块。片段特征提取模块和编码器模块中均存在时序注意力模块，时序注意力模块与空间注意力模块共同构成时空注意力。各个模块具体如下：

编码器：编码器由3个时序多头注意力模块组合而成。将练习序列E＝{e₁，e₂，…，e_t}首先进行Embedding得到E_e，然后输入到其中一个时序多头注意力模块T，得到Encoder_e＝MultiHeadAttention(E_e，E_e，E_e)；将答题序列A＝{a₁，a₂，…，a_t}首先进行Embedding得到A_e，然后输入另一个时序多头注意力模块T，得到Encoder_a＝MultiHeadAttention(A_e，A_e，A_e)；最后将得到的Encoder_e和Encoder_a作为第三个时序多头注意力模块T的输入，得到最后的输出X＝{x₁，x₂，…，x_t}，即有：

X＝MultiHeadAttention(Encoder_e，Encoder_e，Encoder_a)，

此时X同时包含了练习和答题信息。

片段特征提取模块：该模块由N×M个基于片段的时序注意力模块组合而成，

基于片段的时序注意力模块由深度因果卷积网络C和时序多头注意力T组成。因果卷积网络层数为M，每一层有N个不同卷积核大小的C，每一个C连接着一个T，组成C-T模块；编码器输出的练习-答题结果表示X将会首先输入到第一层的N个C中，每个C计算完成后除了将计算后的数据传递给下一层的C，还会作为T的输入。令每一个C的输出为C_ij，则每个C-T的输出s_ij＝MutiHeadAttention(C_ij，C_ij，C_ij)，i∈N，j∈M。

空间注意力模块：将片段特征提取模块输出s_ij进行压栈操作得到高维向量U，

然后将U作为输入依次通过全局池化层、全连接层、ReLU激活层、全连接层、Sigmoid激活函数层得到每个s_ij的权重W，其中W＝{w₁₁，w₁₂，…，w_ij}，然后通过将其加权求和得到最终的输出S_out。空间注意力模块与基于片段的时序注意力模块共同组成基于学习过程片段的时空注意力机制。

输出模块：将空间注意力模块输出S_out通过一个前馈传播网络得到最后的输出H_out，其中H_out＝{h₁，h₂，…，h_t}，h_t表示t时刻答题者的知识状态。

(3)模型的训练与预测；数据输入通过模型获得答题者的t时刻的学习状态h_t，下一题的预测值用公式表示为：p_t＝σ(h_t-1·ε_t)，其中ε_t为e_t的独热编码，p_t为下一题即e_t答对的概率，σ为Sigmoid()函数，使得p_t∈{0，1}，损失函数为二元交叉熵损失函数，优化器使用Adam，学习率选择{0.001，0.0003，0.00001}。

本发明与现有技术相比，具有更好的效果。本发明方案从学习过程片段的角度建模知识追踪问题，使得模型可以同时建模答题者学习速率和知识状态，可适应不同答题者之间的差异，并加入基于时序注意力的遗忘机制，考虑答题者学习过程中的遗忘过程，更加符合人类的学习规律，对学习过程更好的建模。具体来说：对练习和答题使用单独编码，保证了模型具备良好的初始化效果；在片段特征信息提取过程中使用因果卷积，保证了答题者未来的表现不会泄漏，同时使用不同宽度的卷积核来适应不同答题者差异性，避免了固定的卷积核的局限；在深度方面，每一层卷积核均不相同，在深度抽象级别不断增强，提高了模型的泛化能力；空间注意力机制可以自动的根据答题者历史答题记录聚合不同卷积核下获得的学习过程片段特征，进而实现自适应不同的答题者。空间注意力机制与时序注意力机制结合起来成为时空注意力。该模型不仅充分考虑了答题者学习规律，对答题者学习过程通过时序注意力机制进行时序上的建模，同时还通过空间注意力机制考虑了不同答题者能力的差异，共同构成了时空注意力，能够有效提升知识追踪预测精确度，具有十分重要的应用价值，比如可以分析学生知识点掌握情况、习题推荐和学习路径分析。

附图说明

图1是本发明实施例的基于学习过程片段的时空注意力知识追踪方法流程示意图；

图2是本发明实施例的基于学习过程片段的时空注意力知识追踪方法模型原理图；

图3是本发明实施例的多头时序注意力原理图；

图4是本发明实施例的因果卷积示意图；

图5是本发明实施例的基于学习过程片段的时空注意力知识追踪模型的分类能力(AUC)变化示意图；

图6是本发明实施例的基于学习过程片段的时空注意力知识追踪模型的损失(LOSS)变化示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例的基于学习过程片段的时空注意力知识追踪方法，包括以下步骤：

S1：获取答题者的历史答题数据集，该历史答题数据集中包括多条答题记录，每条答题记录包括一个练习的练习编号信息、该练习包含的技能编号信息以及答题者对该题目的答题结果信息。

将原始数据集中每一个答题者所做的练习编号信息e、练习中包含的技能s答题者在这些题目中的答题结果信息(答对或答错)a取出来，得到历史答题数据集D：

D＝{(e₁，s₁，a₁)，(e₂，s₂，a₂)，…，(e_t，s_t，a_t)}

其中e_i表示练习编号信息，s_i表示练习中技能编号信息，a_i表示对应题目的答题结果信息，1表示正确，0表示错误。

S2：从历史答题数据集提取每个答题者的练习序列、答题序列并进行嵌入表示；

步骤S2包括步骤：

S2-1：获取题目原始序列。每个答题者具有唯一的答题者编号信息，按照答题者编号信息对历史答题数据集中的数据进行分组，获取每个答题者答题的练习原始序列E：

其中

表示第i个答题者所做的第j个练习，第n个答题者答题个数为t_n个。

S2-2：获取答题结果原始序列。在S2-1的基础上，获取答题者答题原始序列所对应的结果原始序列A：

其中

表示第i个答题者回答第j个题目所对应的答题结果信息，第n个答题者回答问题所对应的结果的数量与练习数量相同，为t_n个。

S3：数据准备就绪之后，将数据输入到模型，模型的示意图如图2所示，总体由四大模块组成：编码器、片段特征提取模块、空间注意力模块、输出模块。编码器用来编码输入数据；片段特征提取模块用来提取片段特征信息；空间注意力模块用来聚合片段特征；输出模块用来将特征映射成答题者各个时刻的知识状态。步骤S3具体包含以下步骤：

S3-1：对练习原始序列和答题结果原始序列按照固定长度L进行划分，少于L的用0填充，超过L部分作为新的答题序列，然后分别进行嵌入编码成向量

E_e＝Embedding(E)

A_e＝Embedding(A)

E_e为练习嵌入后的表示，

L表示序列长度，D表示嵌入的维度大小，同理有

S3-2：在S3-1基础上分别将练习嵌入编码E_e和答题嵌入编码A_e输入编码器，编码器由多头注意力机制模块构成，其基本结构如图3所示，公式如下：

在计算试题之间的权重，采用如图3(c)所示的指数衰减函数来减小与当前问题较远的问题的权重，Mask为上三角矩阵，如图3(b)所示，上三角矩阵保证计算权重时，未来的答题信息不会被泄露。带有遗忘行为的注意力机制如公式所示：

其中s_t，τ表示为：

其中d(t，τ)＝|t-τ|，表示序列元素之间的时间间隔，d越大，表示时间间隔越远，权重越小，反之亦然。如图2(a)所示，编码器最终的输出为X＝{x₁，x₂，x₃，…，x_t-1，x_t}，其中

X的计算步骤如下：

练习编码器：

Encoder_e＝MultiHeadAttention(Q＝E_e，K＝E_e，V＝E_e)

答题编码器：

Encoder_a＝MultiHeadAttention(Q＝A_e，K＝A_e，V＝A_e)

则最后的输出X为：

X＝MultiHeadAttention(Q＝Encoder_e，K＝Encoder_e，V＝Encoder_a)

S3-3：由S3-1编码器模块输出之后的得到答题交互表示X，然后将X输入到片段特征提取模块，特征提取模块如图2(b)所示，该模块由多个因果卷积和多头注意力模块构成。一个因果卷积与一个多头注意力模块连接组成一个基于片段的时序注意力模块C-T，C表示因果卷积模块，T表示多头注意力模块。

因果卷积满足两个定义：

1)输入与输出等长

2)未来的信息不会泄漏

因果卷积的基本结构如图4所示，基于因果卷积的两个定义可知因果卷积适合处理序列数据，故将其用来提取片段特征。每一个C-T模块的卷积核大小均不相同，共有N×M个，N表示每一层有N个不同卷积核，M表示深度卷积网络的层数，令每个C的输出为C_ij，每个C-T模块的输出s_ij＝MutiHeadAttention(C_ij，C_ij，C_ij)，其中i∈N，j∈M。

S3-4：通过S3-2得到了所有的特征s_ij，在该模块中将所有的s_ij打包层三维向量

其中P＝N×M。

S3-5：通过空间注意力机制计算s_ij的权重W，其原理图部分如图2(c)所示，则：

FC为全连接层，

为每个s_ij的权重，r为缩放系数，

说明该全连接层的输出大小为

则空间注意力最终输出：

其中

S4：在S3所有步骤之后，得到输出S_out，即为最后的片段特征信息，则最后的知识状态H_out可由S_out通过前向传播网络FFN得到，如图2(d)所示。则：

H_out＝FFN(S_out)

其中

O表示输出的维度大小，大小等于练习总数。

S5：在S4步骤后，获取到答题者的各个时刻知识状态H_out，其中H_out＝{h₁，h₂，h₃，…，h_t}，

则对于t时刻预测t+1答对的概率表示为：

p_t＝σ(h_t-1·ε_t)

其中

为e_t的独热编码，O为知识点总数，则编码模型的目标函数设计为：

模型使用Adam优化器进行训练，学习率选择0.001，通过Adam优化器不断的训练优化损失函数的值，尽量减小预测值与真实值之间的差距，最终得到最优的结果。

图5是本发明实施例的基于学习过程片段的时空注意力知识追踪模型的曲线下面积(AUC)值变化示意图，图6是相应的损失(LOSS)变化示意图。可以看出随着训练次数的增加，AUC值在逐渐升高，与损失函数的变化趋势大致相似。模型的预测性能与CKT相比，有一定的提升，AUC值为0.841，这表明，本技术方案可以达到预期的效果。

必须说明的是，上述实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

Claims

1.一种基于学习过程片段的时空注意力知识追踪方法，其特征在于该方法包括以下步骤：

(1)知识跟踪问题定义和数据预处理；

(1-1)问题定义：给定一个学生包括T个学习交互的学习序列I_T＝(i₁,i₂,…,i_t)，评估学生每次学习交互后的知识状态；在学习序列中,i_t是一个有序数对{e_t,a_t}，代表一次学习交互，其中e_t表示在第t个练习，a_t∈{0,1}用来表示练习e_t答对或答错，其中，1表示答对，0表示答错；知识追踪表示为如下公式：

p_t＝f(h_t)h_t＝g(h_t-1)

其中p_t∈{0,1}，即通过模型g(·)以及t-1时刻的知识状态h_t-1得到答题者后一个时刻t知识状态h_t,再通过f(·)以及h_t预测该题答对的概率p_t；

(1-2)数据采集：数据来源包含了答题者历史答题记录，每个答题者的答题记录包括练习的编号、该练习包含的技能编号信息以及答题者对该练习的答题结果信息；

(1-3)数据预处理：将每一位答题者历史记录处理成三行数据，第一行是该答题者的编号和答题数量，第二行是该答题者的答题历史记录中题目的编号，第三行为对应题目的答题结果，其长度与第二行一致，即答题结果与练习编号一一对应；

(2)时空注意力模型的构建；

模型分为四个模块：编码器、片段特征提取模块、空间注意力模块、输出模块，其中，片段特征提取模块和编码器模块中均存在时序注意力模块，时序注意力模块与空间注意力模块共同构成时空注意力；各个模块具体如下：

编码器：编码器由3个时序多头注意力模块组合而成；将练习序列E＝{e₁,e₂,…,e_t}首先进行Embedding得到E_e,然后输入到其中一个时序多头注意力模块T,得到Encoder_e＝MultiHeadAttention(E_e,E_e,E_e)；将答题序列A＝{a₁,a₂,…,a_t}首先进行Embedding得到A_e,然后输入另一个时序多头注意力模块T,得到Encoder_a＝MultiHeadAttention(A_e,A_e,A_e)；最后将得到的Encoder_e和Encoder_a作为第三个时序多头注意力模块T的输入，得到最后的输出X＝{x₁,x₂,…,x_t}，即有：

X＝MultiHeadAttention(Encoder_e,Encoder_e,Encoder_a)，

此时X同时包含了练习和答题信息；

基于片段的时序注意力模块由深度因果卷积网络C和时序多头注意力T组成；因果卷积网络层数为M,每一层有N个不同卷积核大小的C，每一个C连接着一个T,组成C-T模块；编码器输出的练习-答题结果表示X将会首先输入到第一层的N个C中，每个C计算完成后除了将计算后的数据传递给下一层的C,还会作为T的输入；令每一个C的输出为C_ij,则每个C-T的输出s_ij＝MutiHeadAttention(C_ij,C_ij,C_ij)，i∈N,j∈M；

空间注意力模块：将片段特征提取模块输出s_ij进行压栈操作得到高维向量U,

然后将U作为输入依次通过全局池化层、全连接层、ReLU激活层、全连接层、Sigmoid激活函数层得到每个s_ij的权重W,其中W＝{w₁₁,w₁₂,…,w_ij}，然后通过将其加权求和得到最终的输出S_out；

输出模块:将空间注意力模块输出S_out通过一个前馈传播网络得到最后的输出H_out,前馈传播网络由3个全连接网络组成。H_out＝{h₁,h₂,…,h_t},h_t表示t时刻答题者的知识状态；

(3)模型的训练与预测；数据输入通过模型获得答题者的t时刻的学习状态h_t,下一题的预测值用公式表示为：p_t＝σ(h_t-1·ε_t),其中ε_t为e_t的独热编码，p_t为下一题即e_t答对的概率，σ为Sigmoid()函数，使得p_t∈{0,1},损失函数为二元交叉熵损失函数，优化器使用Adam，学习率选择{0.001，0.0003，0.00001}。

2.根据权利要求1所述的基于学习过程片段的时空注意力知识追踪方法，其特征在于步骤(3)中学习率选择0.001。