CN111695779A

CN111695779A - 一种知识追踪方法、装置及存储介质

Info

Publication number: CN111695779A
Application number: CN202010406055.8A
Authority: CN
Inventors: 朱佳; 郑泽涛
Original assignee: Guangdong Neuron Intelligent Technology Co ltd; South China Normal University
Current assignee: Guangdong Neuron Intelligent Technology Co ltd; South China Normal University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-09-22
Anticipated expiration: 2040-05-14
Also published as: CN111695779B

Abstract

本发明公开了一种基于多头注意力机制长短期记忆网络的知识追踪方法、装置及存储介质；通过构建基于多头注意力机制长短期记忆网络的知识追踪模型，用于知识追踪，所述模型具有更好的预测性能；其中，多头注意力机制能够捕获更多的输入序列数据之间的依赖关系，包括长距离依赖关系，进而能够获取输入序列数据的内部结构；在计算方面，并行进行注意力计算，不依赖前一时刻的计算，具有更快的计算速度；利用长短期记忆网络对输入序列数据并行处理，能够获得输入序列数据的信息，多头注意力机制与长短期记忆网络相结合，能够提供更好的预测，利用知识追踪还可以进行智能辅导、布置个性化的作业、生成学习计划和评价报告等。本发明广泛应用于知识追踪领域。

Description

一种知识追踪方法、装置及存储介质

技术领域

本发明涉及知识追踪领域，尤其涉及一种基于多头注意力机制长短期记忆网络的知识追踪方法、装置及存储介质。

背景技术

在教育领域中，科学地、有针对性地对学生的知识状态进行有效追踪具有十分重要的意义。根据学生的历史学习轨迹，可以对学生与习题的交互过程进行建模。在此基础上，能够自动地对学生各个阶段的知识状态进行追踪，进而预测学生表现，实现个性化导学和自适应学习。

随着互联网教育的迅猛发展，智能教学系统(Intelligent Tutoring System,ITS)和大规模在线开放课程(Massive Open Online Course,MOOC)等平台日益普及，这为学生自主学习以及辅助教学提供了可能。然而，在线教育系统在提供便利的同时，由于学习平台上的学生人数远远超过教师数量，导致平台提供自主学习服务和个性化教学存在诸多困难。研究人员试图利用人工智能技术来提供类似教师的指导服务，具体来说，基于学生的学习记录，准确地对学生的学习状态进行分析，进而为学生提供个性化导学服务。如何让在线教育系统做到因材施教，已成为当前智慧教育领域中的重要研究课题。知识追踪的目标在于可以根据学生的个人需求向他们推荐资源，并且可以跳过或延迟那些被预测为太容易或太难的内容，让学生可以花更多的时间研究适合他们理解水平的问题；知识追踪技术与知识图等技术结合起来，可以用于优化学生的知识结构；利用知识追踪还可以进行智能辅导、布置个性化的作业、生成学习计划和评价报告，从而辅助学生规划学习生涯，实现个性化发展。另外，通过对学生知识状态的评估，教师在教学过程中可以更好地了解学生，并相应地调整教学方案。

知识追踪是个性化导学中的关键问题，特点是自动化和个性化，其任务是根据学生的历史学习轨迹来自动追踪学生的知识水平随时间的变化过程，以便能够准确地预测学生在未来的学习中的表现，从而提供相应的学习辅导。在这个过程中，知识空间被用来描述学生知识的掌握程度，知识空间是一些概念的集合，学生掌握概念集合中的一部分，即构成该学生掌握的知识集合，有教育学研究者认为，习题会考查一组特定的、相关联的知识点，学生对于习题所考察知识点的掌握程度会影响其在习题上的表现，即学生掌握的知识集合和其外在的做题表现密切相关。通常，知识追踪任务可以形式化为：给定一个学生在特定学习任务上的历史学习交互序列Xt＝(x1,x2,…,xt)，预测该学生在下一个交互xt+1的表现，问答交互是知识追踪中最常见的类型，因此xt通常表示为一个有序对(qt,at)，该有序对表示学生在时间t回答了问题qt，得分情况用at表示。在许多情况下，知识追踪试图预测学生在下一个时间步正确回答问题的概率，即P(at+1＝1|qt+1,Xt)；由于知识追踪对于学习过程的重要意义，业界已经出现了很多相关的模型，如贝叶斯知识追踪(Bayesian knowledgetracing,BKT)，循环神经网络(Recurrent Neural Network,RNN)等；其中，RNN被应用于一种称为深度知识追踪(Deep knowledge tracing,DKT)的方法中，实验结果表明，DKT方法在不需要人工选取大量特征的情况下，优于传统方法；但是，DKT方法依然存在一些不足：(1)模型没法重构当前的输入结果，导致即使学生在之前的知识状态中表现良好，也会导致对知识状态的预测失败；(2)在时间序上学生对知识点的掌握度不是连续一致，而是波动的，导致跨时间步长的知识状态的预测性能不一致；而导致这些不足的根本原因在于，DKT方法不能很好地处理长序列输入问题。

发明内容

为解决上述至少一个问题，本发明的目的在于提供一种基于多头注意力机制长短期记忆网络的知识追踪方法、装置及存储介质。

本发明所采取的技术方案是：一方面，本发明实施例包括一种基于多头注意力机制长短期记忆网络的知识追踪方法，包括：

将多头注意力机制与长短期记忆网络相结合，构建知识追踪模型；

构建训练集，所述训练集为历史学习交互序列数据；

获取所述训练集以对所述知识追踪模型进行训练；

利用训练好的知识追踪模型进行知识追踪。

进一步地，所述知识追踪模型包括热编码嵌入模块、注意力机制模块、长短期记忆网络模块和特征集合模块；

所述热编码嵌入模块用于将所述历史学习交互序列数据转化为实值向量，并分别输入所述注意力机制模块和所述长短期记忆网络模块中；

所述注意力机制模块用于捕获输入的实值向量之间的依赖关系，并输出到特征集合模块；

所述长短期记忆网络模块用于捕获输入的实值向量信息，并输出至特征集合模块；

所述特征集合模块存储所述注意力机制模块的输出结果和所述长短期记忆网络模块的输出结果。

进一步地，所述多头注意力机制模块包括多个特征提取块，每个所述特征提取块包括第一子层、第二子层和正则化层，所述第一子层与第二子层之间通过残差网络结构进行连接，所述第一子层依次连接到所述第二子层和所述正则化层；各所述第一子层为多头自我注意力机制，各所述第二子层为全连接前馈神经网络。

进一步地，所述多头自我注意力机制是通过以下步骤执行的：

对输入的实值向量进行多次线性变换；

对每一次进行线性变换后的实值向量并行进行注意力计算得到多个注意力值；

将所述多个注意力值进行拼接得到第一输出值；

将所述第一输出值进行线性变换得到第二输出值。

进一步地，述注意力计算是通过以下公式执行的：

式中，Q、K、V组成输入序列，其中查询向量矩阵Q∈Rn×d，关键词矩阵K∈Rn×d和值矩阵V∈Rn×d，

为缩放因子，T表示转置的意思。

进一步地，全连接前馈神经网络接收所述第二输出值，并作前向传播计算，其计算公式具体为：

FFN(X)＝max(0，XW₁+b₁)W₂+b₂，

式中，X为所述第一子层的输出，W₁、W₂、b₁和b₂为可训练的参数。

进一步地，对知识追踪模型进行训练这一过程，具体包括：

获取训练集，所述训练集为历史学习交互数据；

将所述训练集输入所述知识追踪模型，进行知识追踪训练；

所述知识追踪预测知识点被掌握的程度；

用损失函数计算预测值与真实值之间的差值；

最小化损失函数。

进一步地，所述损失函数为：

式中，n为输入实值向量的数量，t表示时刻，l为交叉熵损失，a_t+1是目标输出，M_t为多头注意力机制模块的输出，W_t和b_t是可训练的参数，H_t为长短期记忆网络模块的输出。

另一方面，本发明实施例还包括一种装置，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行实施例所述知识追踪的方法。

另一方面，本发明实施例还包括一种计算机可读存储介质，其中，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所述知识追踪的方法。

本发明的有益效果是：通过构建基于多头注意力机制长短期记忆网络的知识追踪模型，用于知识追踪，所述模型具有更好的预测性能；其中，多头注意力机制能够捕获更多的输入序列数据之间的依赖关系，包括长距离依赖关系，进而能够获取输入序列数据的内部结构；在计算方面，并行进行注意力计算，不依赖前一时刻的计算，具有更快的计算速度；利用长短期记忆网络对输入序列数据并行处理，能够获得输入序列数据的信息，多头注意力机制与长短期记忆网络相结合，能够提供更好的预测，进而可以根据学生的个人需求向他们推荐资源，并且可以跳过或延迟那些被预测为太容易或太难的内容，让学生可以花更多的时间研究适合他们理解水平的问题；利用知识追踪还可以进行智能辅导、布置个性化的作业、生成学习计划和评价报告，从而辅助学生规划学习生涯，实现个性化发展；另外，通过对学生知识状态的评估，教师在教学过程中可以更好地了解学生，并相应地调整教学方案。

附图说明

图1为实施例中所述基于多头注意力机制长短期记忆网络模型的结构示意图；

图2为实施例中所述多头注意力机制模块的结构示意图；

图3为实施例中所述多头自我注意力机制处理数据的流程示意图；

图4为实施例中所述长短期记忆网络模块处理数据的流程示意图；

图5为所述对模型DKT、模型KTA和模型KTA-LSTM预测性能的可视化图。

具体实施方式

本实施例中，主要使用经过训练的基于多头注意力机制长短期记忆网络模型来进行知识追踪，该过程包括以下步骤：

构建训练集，所述训练集为历史学习交互序列数据；

获取所述训练集以对所述知识追踪模型进行训练；

利用训练好的知识追踪模型进行知识追踪。

其中，构建的知识追踪模型包括包括热编码嵌入模块、注意力机制模块、长短期记忆网络模块和特征集合模块；

本实施例中，采用实时反馈的用户交互建模，获取历史交互序列数据；所述实时反馈的用户交互建模具体为：在现实中的某些情况下，学生完成一道习题后需要立刻更新模型中学生对于知识点的掌握情况信息；比如在日常练习中，学生完成一道习题后可以立即得到反馈，学生的知识点掌握情况也随之发生变化；显然，在追踪当前时刻的知识点掌握情况时，我们应该考虑之前的所有练习；给定学生在特定学习任务上的历史学习记录X_t＝(x₁，x₂，…x_t)，预测学生在下一个练习x_t+1的表现；其中x_t通常表示为一个有序对(q_t，a_t)，该有序对表示该学生在时间t回答了问题q_t，a_t表示该问题是否被正确回答；每个问题q_t将会包含问题的文本描述E_q，题目设计的知识点k_q。本实施例中，相输入历史交互数据至热编码嵌入模块中，其输入为x_t＝(q_t，a_t)，其中q_t表示题目编号,a_t表示反馈结果(1表示正确,0表示错误)，热编码嵌入模块将所述历史学习交互序列数据转化为实值向量，并分别输入所述注意力机制模块和所述长短期记忆网络模块中。

本实施例中，如图1所示，所述知识追踪模型包括热编码嵌入模块、注意力机制模块、长短期记忆网络模块和特征集合模块；

其中，如图2所示，所述多头注意力机制模块包括多个特征提取块，每个所述特征提取块包括第一子层、第二子层和正则化层，所述第一子层与第二子层之间通过残差网络结构进行连接后，再与所述正则化层连接；各所述第一子层为多头自我注意力机制，各所述第二子层为全连接前馈神经网络。

参照图3，所述多头自我注意力机制处理数据的过程为：

P1.对输入的实值向量进行多次线性变换；

P2.对每一次进行线性变换后的实值向量并行进行注意力计算得到多个注意力值；

P3.将所述多个注意力值进行拼接得到第一输出值；

P4.将所述第一输出值进行线性变换得到第二输出值。

步骤P2中所述的注意力计算公式如(式1)所示，注意力计算公式的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射，在进行注意力计算时主要分为三步：第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；第二步一般是使用一个softmax函数对这些权重进行归一化；第三步将权重和相应的键值value进行加权求和得到最后的注意力值。本实施例中，多头自我注意力机制中使用了缩放点积注意力机制，也就是通过向量点积进行相似度计算得到注意力值，式1中的

为缩放因子，用于调节，防止Q、K的内积太大。式1的表达方式具体如下：

本实施例中，所述多头注意力机制模块采用了编码器-解码器架构，Q、K、V分别是编码器的层输出(这里K＝V)和解码器中多头注意力机制的输入，然后在编码器和解码器中都使用了自注意力(self-attention)来学习文本的表示，自注意力，即K＝V＝Q，例如输入一个句子，那么里面的每个词都要和该句子中的所有词进行注意力计算，目的是学习句子内部的词依赖关系，捕获句子的内部结构。

多头注意力机制的目的是为了从多方面捕获输入序列的关键信息，多头注意力(Multi-head attention)机制模型的结构如图2所示，Query、Key、Value首先进过一个线性变换，然后输入第一子层，也就是多头自我注意力机制中，并行进行缩放点积注意力计算，注意这里要做h次，其实也就是所谓的多头，每一次算一个头；而且每次Q，K，V进行线性变换的参数W是不一样的，然后将h次的放缩点积注意力计算的结果进行拼接，再进行一次线性变换得到的值作为多头自我注意力机制的结果，其具体过程如公式(2)、(3)所示，其中由于每个head的尺寸减少，算法的计算成本与具有全维度的单头注意力相似，其中公式(2)和(3)的表示具体如下：

head_i＝SDA(QW_i ^Q，KW_i ^K，VW_i ^V) (式2)

head＝MultiHead(Q，K，V)＝Concat(head₁，…head_i)W^O (式3)

其中，SDA表示缩放点积注意力，相当于式1中的Attention的计算，不同的是，需要并行进行多头缩放点积注意力计算，且每次Q，K，V进行线性变换的参数W是不一样的。当Q＝K＝V＝X_t时，为多头自我注意力，X_t＝(x₁，x₂，…x_t)为输入的序列数据，本实施例中，假设输入的为文本输入序列，其本质就是将x_t与X_t序列中的各个词进行对比，最后计算出每个词的权重信息，即在序列内部做注意力计算，进而获取输入序列的内部结构。

进一步地，本实施例中，多头注意力机制模块中的第二子层，也就是全连接前馈神经网络接收第一子层输出的结果，并作前向传播计算，其计算公式具体为：

FFN(X)＝max(0，XW₁+b₁)W₂+b₂，

本实施例中，多头注意力机制模块在从输入的序列数据中提取到依赖关系特征之后，根据所提取的特征，会执行一系列的操作来得到目标预测，根据预测输出和目标输出a_t+1，多头注意力机制模块的损失函数Г可以表示为：

虽然多头注意力机制模块可以获取到输入序列数据的依赖关系，但却丧失了捕获输入序列数据局部特征的能力，因此需要引入长短期记忆网络模块对输入的历史学习交互数据作并行处理。

本实施例中，长短期记忆网络模块接收到实值向量后的处理过程如下：

长短期记忆网络模块的数据处理框架如图4所示，长短期记忆网络模块中按公式(4)执行处理，其中f_t用于决定是否丢弃之前记忆单元存放的信息，i_t用于确定更新t时刻的更新信息,C～_t为t时刻获取得到的消息,C_t中存放的信息综合考虑到了长期记忆f_t与短期记忆i_t的影响,最终根据C_t与输出控制门o_t计算长短期记忆网络(LSTM)在t时刻的输出h_t；其中公式(4)如下所示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中,tanh为tanh函数，σ为sigmoid函数。

通过使用长短期记忆网络(LSTM)处理，可以综合考虑学生较长时间前通过的题目情况与近期通过的题目情况，用以确定当前时刻学生对于知识点的掌握程度，其中遗忘门f_t的设计符合学生随着时间的流逝，对之前学习的知识点的掌握程度逐渐降低这一特点。长短期记忆网络模块的输出y_t表示学生完成各个题目的正确率，其中y_t的维度等于题目的数量；需要特殊说明的是；x_t+1＝{q_t+1，a_t+1}，其中a_t+1＝y_t(q_t+1)。最后，长短期记忆网络模块优化目标如公式(5)所示，长短期记忆网络模块通过使用随机梯度下降算法来最小化了该目标函数，公式(5)如下所示：

利用长短期记忆网络模块可以追踪学生对知识点掌握程度随着时间动态变化的过程，并从输入数据中直接学习学生对于知识点掌握程度的潜在向量表示，也就是说可以捕获输入序列的信息。

本实施例中，将多头注意力机制与长短期记忆网络相结合，构建知识追踪模型；并利用训练好的知识追踪模型进行知识追踪，能够追踪得到学生对知识点的掌握程度随着时间动态的变化，进而能够预测学生在未来练习中的表现。

本实施例中，对知识追踪模型进行训练的过程包括：

D1.获取训练集，所述训练集为历史学习交互数据；

D2.将训练集输入知识追踪模型，进行知识追踪训练；

D3.所述知识追踪模型预测知识点被掌握的程度；

D4.用损失函数计算预测值与真实值之间的差值；

D5.最小化损失函数。

进一步作为可选地实施方式，所述损失函数为：

式中，n为输入实值向量的数量，t表示时刻，为交叉熵损失，是目标输出，为多头注意力机制模块的输出，是可训练的参数，为长短期记忆网络模块的输出。

本实施例中，用反向传播时间算法最小化损失函数，以便修正参数，提高预测准确率；

综上所述，本发明实施例中的基于多头注意力机制长短期记忆网络的知识追踪方法具有以下优点：

通过构建基于多头注意力机制长短期记忆网络的知识追踪模型，用于知识追踪，所述模型具有更好的预测性能；其中，多头注意力机制能够捕获更多的输入序列数据之间的依赖关系，包括长距离依赖关系，进而能够获取输入序列数据的内部结构；在计算方面，并行进行注意力计算，不依赖前一时刻的计算，具有更快的计算速度；利用长短期记忆网络对输入序列数据并行处理，能够获得输入序列数据的信息，多头注意力机制与长短期记忆网络相结合，能够提供更好的预测，进而可以根据学生的个人需求向他们推荐资源，并且可以跳过或延迟那些被预测为太容易或太难的内容，让学生可以花更多的时间研究适合他们理解水平的问题；利用知识追踪还可以进行智能辅导、布置个性化的作业、生成学习计划和评价报告，从而辅助学生规划学习生涯，实现个性化发展；另外，通过对学生知识状态的评估，教师在教学过程中可以更好地了解学生，并相应地调整教学方案。

本实施例还包括一种装置该装置可以包括处理器和存储器。其中，

存储器用于存储程序指令；

处理器用于读取存储器中的程序指令，并根据存储器中的程序指令执行实施例所示的基于多头注意力机制长短期记忆网络的知识追踪方法。

所述存储器还可以单独生产出来，并用于存储与所述基于多头注意力机制长短期记忆网络的知识追踪方法相应的计算机程序。当这个存储器与处理器连接时，其存储的计算机程序将被处理器读取出来并执行，从而实施所述基于多头注意力机制长短期记忆网络的知识追踪方法，达到实施例中所述的技术效果。

本实施例还包括一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所示的基于多头注意力机制长短期记忆网络的知识追踪方法。

此外，还经过实验对构建得到的基于多头注意力机制长短期记忆网络模型进行了进一步地评估，其实验过程具体如下：

(1)采集历史学习交互数据，采集得到的数据集如表1所示，其中，所有数据都被视为有序对(q，a)，q表示一个问题带有技能标记，a表示该问题是否被正确回答。

其中，表1的前三行行数据集来自ASSISTments在线辅导平台，并且已在多种知识追踪(KT)模型中广泛使用。表1的第一行数据集(ASSIST2009)的原始数据集由于记录重复而被处理，处理后的数据集包含4417名学生来自124个技能的328291个问答互动。表1中的第二行数据集(ASSIST2015)包含19917名学生对100项技能的回答，总计708631个问答互动；和数据集ASSIST2009相比，它包含更多互动，但平均每个技能和学生的记录数较小，因为学生人数更多。表1中的第三行数据集(ASSISTChall)对于每个学生的记录数平均值更丰富，有686名学生942816个互动和102个技能。表1的第四行数据集(Statics2011)由工程统计课程提供，改数据来自333名学生的189927次互动的数据集，其中有1223技能标签。表1的第五行数据集(Simulated-5)模拟2000名虚拟学生学习虚拟概念得到，五个虚拟概念，每个学生按相同的顺序回答50个问题，最后得到100000的回答。

表1历史学习交互序列数据

Dataset	Students	Tags	Answers
				ASSIST2009	4417	124	328,291
ASSIST2015	19,917	100	708,631
				ASSISTChall	686	102	942,816
Statics2011	333	1223	189,927
				Simulated-5	2000	5	100,000

(2)实验设定

遵循(Yeung and Yeung 2018)的实验设定，应用5倍交叉验证应用到训练集以获得超参数配置。测试集用于评估模型并提前停止(Prechelt 1998)。我们使用Xavier统一初始化程序(Glo-rot和Bengio 2010)初始化模型的权重，学习率和丢弃率分别设置为0.01和0.5。此外，额外的LSTM层具有200隐藏单元被用作基于基于多头注意力机制长短期记忆网络的知识追踪模型(KTA-LSTM)的关键部分，这是基于多头注意力机制模型(KTA)和模型KTA-LSTM不同的地方；使用AUC进行评估量度，并使用F1分数，一种经典的分类指标，以评估各个模型的效果。

参与比较的用于知识追踪的模型包括绩效因素分析PFA(Pavlik，Cen和Koedinger，2009年)，贝叶斯知识追踪BKT(Corbett和An-derson(1995)，深度知识跟踪DKT(Piech et al，2015b)，深度知识跟踪DKT+(Yeung and杨2018)，基于多头注意力机制模型(KTA)和基于，表2如下：

表2表测试数据集对应的模型的AUC结果和Fl分数

根据表2可知，基于多头注意力机制长短期记忆网络的知识追踪模型(KTA-LSTM)在前四个训练集上达到了很好的结果，在数据集Simulated-5上的两个评估指标也达到了很好的效果，例如，在数据集(ASSIST2015)上，模型KTA-LSTM比模型DKT+在AUC评估结果中提升10％；F1分数也发生了同样的状况，此外，我们注意到在知识追踪(KT)任务中，模型KTA-LSTM的性能比模型KTA更胜一筹，在Simulated-5数据集上，模型KTA-LSTM的性能不是很出色，一个原因是数据集中没有长序列，我们的模型无法表现出捕获长序列中的特征的优势；另一个原因是所有数据有相同的问题序列，每个问题都只出现一次；因此，数据之间的依赖性不如与其他数据一样强大。

进一步，增加多头注意力机制模块中的头数从2到4和从4到8列出了表3，根据表3可知，随着头数的增加，AUC分数略有增加。头数越多，有用的特征将被提取并为模型KTA-LSTM带来跟好的性能，这个观察结果也与前人的工作(Vaswani et al.2017)相符合。在表3中，我们还比较了使用不同数量的块和头的训练时间，其中的块为特征提取块，作为多头注意力可以在GPU中并行使用高度优化的运算代码，训练时间并不随着头和块的增加而急剧增加当然，模型KTA-LSTM与模型KTA相比，模型KTA-LSTM消耗时间更长，这是因为长短期记忆网络(LSTM)结构需要更多的计算来捕获输入序列的信息。

表3

id	model	block	head	AUC	time/epoch
						1	KTA	1	2	0A	28s
2	KTA	2	2	0.811	32s
						3	KTA	4	2	0.657	43s
4	KTA	1	4	0.810	29s
						5	KTA	1	8	0.811	34s
6	KTA-LSTM	1	2	0.829	158s
						7	KTA-LSTM	2	2	0.817	157s
8	KTA-LSTM	4	2	0.733	168s
						9	KTA-LSTM	1	4	0.829	162s
10	KTA-LSTM	1	8	0.830	166s

最后，还提供预测可视化，如图5所示，该图显示了问题的数量的变化对技能预测影响。具体地，对模型DKT来说，它显示了知识跨时间步长的相对波动状态。对于模型KTA和模型KTA-LSTM两个模型来说，它们与模型DKT相比，多头自注意力机制更顺畅将全局依赖项考虑在内，这可以显著防止预测的波浪过渡。此外，模型KTA-LSTM与模型KTA相比，具有更高的预测概率；因为模型KTA-LSTM包含输入序列信息。

(3)结论

模型DKT无法处理长时间序列的输入，而模型KTA和模型KTA-LSTM，它们都可以直接捕获在输入项的每个项目之间的全局依赖关系而不管输入序列的长度如何；另外，模型KTA-LSTM可以进一步捕获输入序列的信息，这会带来更好的预测性能。实验已经在几种著名的语料库上进行，全部结果表明，模型KTA-LSTM比现有模型可以提供更好的预测。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种基于多头注意力机制长短期记忆网络的知识追踪方法，其特征在于，包括：

构建训练集，所述训练集为历史学习交互序列数据；

获取所述训练集以对所述知识追踪模型进行训练；

利用训练好的知识追踪模型进行知识追踪。

2.根据权利要求1所述的方法，其特征在于，所述知识追踪模型包括热编码嵌入模块、注意力机制模块、长短期记忆网络模块和特征集合模块；

3.根据权利要求2所述的方法，其特征在于，所述多头注意力机制模块包括多个特征提取块，每个所述特征提取块包括第一子层、第二子层和正则化层，所述第一子层与第二子层之间通过残差网络结构进行连接，所述第一子层依次连接到所述第二子层和所述正则化层；各所述第一子层为多头自我注意力机制，各所述第二子层为全连接前馈神经网络。

4.根据权利要求3所述的方法，其特征在于，所述多头自我注意力机制是通过以下步骤执行的：

对输入的实值向量进行多次线性变换；

将所述多个注意力值进行拼接得到第一输出值；

将所述第一输出值进行线性变换得到第二输出值。

5.根据权利要求4所述的方法，其特征在于，所述注意力计算是通过以下公式执行的：

为缩放因子，T表示转置的意思。

6.根据权利要求4所述的方法，其特征在于，全连接前馈神经网络接收所述第二输出值，并作前向传播计算，其计算公式具体为：

FFN(X)＝max(0，XW₁+b₁)W₂+b₂，

7.根据权利要求6所述的方法，其特征在于，对知识追踪模型进行训练这一过程，具体包括：

获取训练集，所述训练集为历史学习交互数据；

将所述训练集输入所述知识追踪模型，进行知识追踪训练；

所述知识追踪预测知识点被掌握的程度；

用损失函数计算预测值与真实值之间的差值；

最小化损失函数。

8.根据权利要求7所述的方法，其特征在于，所述损失函数为：

9.一种知识追踪装置，其特征在于，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行权利要求1～8任一项所示的知识追踪方法。

10.一种计算机可读存储介质，其特征在于，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行权利要求1～8任一项所示的知识追踪方法。