CN114117033A

CN114117033A - 知识追踪方法及系统

Info

Publication number: CN114117033A
Application number: CN202210096742.3A
Authority: CN
Inventors: 马玉玲; 韩鹏; 崔超然; 郭杰; 聂秀山; 尹义龙; 李振
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-03-01
Anticipated expiration: 2042-01-25
Also published as: CN114117033B

Abstract

本发明涉及专门适用于预测目的的数据处理技术领域，公开了知识追踪方法及系统，方法包括：获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分；对所有已做试题进行编码得到试题初始表征，对试题初始表征进行特征提取，得到试题的第一试题嵌入表征；对已做试题对应的知识点进行编码得到试题对应的知识点初始表征，对试题对应的知识点初始表征进行特征提取，得到试题对应的知识点嵌入表征；对试题的第一试题嵌入表征和试题对应的知识点嵌入表征进行关联，得到试题的第二试题嵌入表征；根据试题的第二试题嵌入表征和已做试题得分，确定学生对不同知识点的掌握度。本发明显著提高知识追踪模型的准确率。

Description

知识追踪方法及系统

技术领域

本发明涉及专门适用于预测目的的数据处理技术领域，特别是涉及知识追踪方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

因材施教作为提高学习效率和教育产出的主要手段之一，一直备受教育工作者的关注。然而，因材施教的关键问题是对“材”的精准分析，即需要对学习者的知识掌握水平进行精准的评估、从而为其提供更有针对性的学习资源推荐和个性化指导。传统借助“考试”给出学生得分之类的评估方法，评价粒度较粗，难以凸显学生对具体知识概念的掌握情况。例如，学生甲和学生乙在某次数学测验中均得了80分，但是，有可能存在学生甲答错的试题，学生乙均回答正确的情况，反之亦然。这说明两人虽然得分相同，但知识概念的掌握情况却存在较大差异。如何自动、精确、细粒度地建模出学生在每一个知识概念上的掌握水平是因材施教、个性化教学工作高质量开展的基本前提。

知识追踪KT（Knowledge Tracing）可以借助机器学习和大数据技术根据学生以往学习轨迹实现对学生知识水平的实时评估与跟踪，以便能够准确地预测学生未来的学习与答题表现，从而为学生个性化和自适应的学习提供技术支撑，已成为大规模在线学习系统的核心技术之一。一般来讲，教师在制定考试题目的时候，首先要考虑的基本问题是考哪些知识点，然后设计出最能体现这些知识点的试题。知识追踪问题可以形式化为：给定一个学生在特定学习任务上的以往答题序列

，其中，有序对

表示学生在时间

作答了试题

，其作答情况（得分）为

。多数情况下，每个问题

会包含对应考核的知识点信息，学生对该学习任务包含的所有知识点有着不同的掌握程度，便构成了该学生的知识水平。知识追踪的任务是基于学生以往答题序列信息

对其知识水平进行建模，并预测该学生在下一时刻试题

上的作答表现

。目前，比较流行的知识追踪模型有贝叶斯知识追踪模型BKT（Bayesian Knowledge Tracing）和深度知识追踪模型DKT（Deep Knowledge Tracing）。其中，BKT通过建模与学生答题表现密切相关的四个参数，包括：学生初始知识水平、学生经过一次答题掌握对应知识概念的能力、猜测和粗心等，并根据学习到的参数利用贝叶斯公式实时地对学生的知识掌握水平进行更新。但是，该模型受到诸多因素的制约而影响了评估结果的精准性，例如：采用一个二值向量表示学生的知识掌握水平，1/0表示掌握/未掌握某个知识概念，这种非0即1的表示形式难以准确表示学生的知识状态。此外，BKT模型假设学生一旦掌握某个知识概念便不会遗忘，这在一定程度上影响了模型的准确性。

近年来，基于深度神经网络的知识追踪方法得到了广泛的关注，研究者于2015年提出了深度知识追踪模型DKT，并首次将循环神经网络RNN（Recurrent Neural Network）用在知识追踪任务上。相比于传统BKT模型，DKT在Assistments数据集上AUC值（一种衡量模型准确率的指标，值越大，模型性能越好）高出近25个百分点。自此以后，深度学习成为受关注的建模方法之一。

得益于深度神经网络函数自身的复杂性，深度知识追踪模型因为可以捕捉人类学习的复杂表现而取得了优于传统方法的性能。但是，发明人发现基于深度神经网络的方法大多采用“独热表示”方法对试题、知识点、回答表现等信息进行编码。该编码方式简单、易于理解，但是无法利用到试题之间的关系、知识点之间的关系、以及试题与知识点之间的关系。然而这些关系客观存在，若不能加以利用，则会在很大程度上限制了模型性能的进一步提升。

发明内容

为了解决现有技术的不足，本发明提供了知识追踪方法及系统；通过对两个带有自注意力的Bert网络进行预训练得到试题、知识点的嵌入表征向量，然后利用一个自注意力层建模提取到试题与知识点之间的关系以及试题难度信息，接着将试题间的关系、知识点间的关联关系、以及试题与知识点之间的关系这三部分信息进行融合，并最终输入到深度知识追踪网络DKVMN以建模预测学生的答题表现，从而提高模型的预测准确性。

第一方面，本发明提供了知识追踪方法；

知识追踪方法，包括：

获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分；

将获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分，输入到训练后的知识追踪模型中，得到学生对不同知识点的掌握度；

其中，训练后的知识追踪模型；工作原理包括：

对所有已做试题进行编码得到试题初始表征，对每个试题初始表征进行特征提取，得到每个试题的第一试题嵌入表征；

对所有已做试题对应的知识点进行编码得到每个试题对应的知识点初始表征，对每个试题对应的知识点初始表征进行特征提取，得到每个试题对应的知识点嵌入表征；

对每个试题的第一试题嵌入表征和每个试题对应的知识点嵌入表征进行关联，得到每个试题的第二试题嵌入表征；

根据每个试题的第二试题嵌入表征和每个已做试题得分，确定学生对不同知识点的掌握度。

第二方面，本发明提供了知识追踪系统；

知识追踪系统，包括：

获取模块，其被配置为：获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分；

知识追踪模块，其被配置为：将获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分，输入到训练后的知识追踪模型中，得到学生对不同知识点的掌握度；

其中，训练后的知识追踪模型；工作原理包括：

与现有技术相比，本发明的有益效果是：

本发明通过一种预训练的Bert深度网络来学习试题的嵌入表征向量，相比于传统独热编码表示方法，本发明方法可以利用试题所含有的丰富信息。

本发明通过一种预训练的Bert深度网络来学习知识点的嵌入表征向量，相比于传统独热编码表示方法，本发明方法可以利用知识概念所含有的丰富信息。

本发明可以建模提取到试题与知识点之间的关系、知识点间的关联关系以及试题与试题难度之间的关系，并对三项表征向量进行了融合，从而充分利用了学生以往答题表现轨迹数据中的辅助信息，与已有方法相比，可显著提高知识追踪模型的准确率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一中知识追踪方法示意图；

图2是本发明实施例一中提出的预训练网络框架图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

术语解释：

动态键值对记忆网络DKVMN（Dynamic Key-Value Memory Networks）模型是一类较为新颖的知识追踪模型，它基于用一个静态矩阵存贮所有的知识概念和一个动态的矩阵存储以及更新学习者对于概念的掌握程度，已有研究表明DKVMN模型在多个真实数据集上获得优于传统深度知识追踪模型的性能。

实施例一

本实施例提供了知识追踪方法；

如图1所示，知识追踪方法，包括：

S101：获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分；

S102：将获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分，输入到训练后的知识追踪模型中，得到学生对不同知识点的掌握度；

其中，训练后的知识追踪模型；工作原理包括：

S1021：对所有已做试题进行编码得到试题初始表征，对每个试题初始表征进行特征提取，得到每个试题的第一试题嵌入表征；

S1022：对所有已做试题对应的知识点进行编码得到每个试题对应的知识点初始表征，对每个试题对应的知识点初始表征进行特征提取，得到每个试题对应的知识点嵌入表征；

S1023：对每个试题的第一试题嵌入表征和每个试题对应的知识点嵌入表征进行关联，得到每个试题的第二试题嵌入表征；

S1024：根据每个试题的第二试题嵌入表征和每个已做试题得分，确定学生对不同知识点的掌握度。

进一步地，所述方法，还包括：

S103：根据学生对不同知识点的掌握度，给学生个性化推荐掌握度低的知识点对应的试题。

进一步地，所述S101：获取待知识追踪学生的若干个已做试题、每个已做试题对应的知识点及每个已做试题的得分之后，所述S1021：对所有已做试题进行编码得到试题初始表征，对每个试题初始表征进行特征提取，得到每个试题的第一试题嵌入表征之前；还包括：

S101-2：对答题序列长度小于设定阈值的数据和数据不全的数据予以剔除。

示例性地，学生答题轨迹数据往往存在短答题序列（答题数量小于10个）、空缺值（试题缺乏知识点或者知识点无对应试题）等情况。对于序列较短的学生样本数据、以及数据不全的信息在预处理阶段需要进行去除。

应理解地，所述每个已做试题对应的知识点，其中教师在制定考试题目的时候，首先考虑的基本问题是准备考的知识点，然后，根据所述准备考的知识点来设计试题；所以，当一个试题是已知的前提下，其对应的知识点也是已知的。

进一步地，所述知识追踪模型，包括：

相互连接的预训练网络和深度知识追踪网络DKVMN；

所述预训练网络，包括：依次连接的第一深度神经网络Bert、第二深度神经网络Bert、第三深度神经网络Bert；

其中，第一深度神经网络Bert的输入端用于输入试题初始表征，第一深度神经网络Bert的输出端与第三深度神经网络Bert的输入端连接；第一深度神经网络Bert用于预测试题所包含的知识点，从而建立试题与知识点之间的关系；

其中，第二深度神经网络Bert的输入端用于每个试题对应的知识点初始表征，第二深度神经网络Bert的输出端与第三深度神经网络Bert的输入端连接；第二深度神经网络Bert用于建模知识点之间的关系；

第三深度神经网络Bert的输出端用于输出每个试题的第二试题嵌入表征；第三深度神经网络Bert用于预测试题的难易程度，从而建立试题之间的相似性关系；

第三深度神经网络Bert的输出端，与深度知识追踪网络DKVMN的输入端连接；深度知识追踪网络DKVMN的输出端用于输出学生对各个知识点掌握情况。

进一步地，所述训练后的知识追踪模型，训练过程包括：

首先，对预训练网络进行训练，得到训练后的预训练网络；

然后，将训练后的预训练网络的输出作为深度知识追踪网络DKVMN的输入，对DKVMN网络进行训练，得到训练后的知识跟踪模型。

进一步地，所述对预训练网络进行训练，得到训练后的预训练网络；具体包括：

构建第一训练集；所述第一训练集为已知试题所包含知识点标签、已知知识点前后位置关系标签以及已知试题难易程度标签的学生已做试题；

将第一训练集输入到预训练网络中，对预训练网络进行训练，设定第一深度神经网络Bert对应第一损失函数；第二深度神经网络Bert对应第二损失函数；第三深度神经网络Bert对应第三损失函数；将第一、第二和第三损失函数进行加权求和，得到总损失函数；

当总损失函数值不再降低时，停止训练，得到训练后的预训练网络。

进一步地，将训练后的预训练网络的输出作为深度知识追踪网络DKVMN的输入，对DKVMN网络进行训练，得到训练后的知识跟踪模型，具体包括：

将训练后的预训练网络与深度知识追踪网络DKVMN进行连接，得到连接后的网络；

构建第二训练集；其中，所述第二训练集为已知得分信息的学生已做试题；

将第二训练集输入到连接后的网络中，对网络进行训练，得到训练后的知识跟踪模型。

进一步地，所述S1021：对所有已做试题进行编码得到试题初始表征，具体包括：

采用独热编码的形式，对所有已做试题进行编码得到试题初始表征。

示例性地，从学生答题轨迹数据

中提取出试题编号序列

，以及考核知识点序列

等，并利用“独热编码”进行表示。本发明利用

和

分别表示试题

和知识点

的独热编码向量，作为初始表征输入到下一阶段的预训练网络。

进一步地，所述S1021：对每个试题初始表征进行特征提取，得到每个试题的第一试题嵌入表征；具体包括：

采用训练后的知识追踪模型的第一深度神经网络Bert，对每个试题初始表征进行特征提取，得到每个试题的第一试题嵌入表征。

进一步地，所述S1022：对所有已做试题对应的知识点进行编码得到每个试题对应的知识点初始表征，具体包括：

采用独热编码的形式，对所有已做试题对应的知识点进行编码得到每个试题对应的知识点初始表征。

进一步地，所述S1022：对每个试题对应的知识点初始表征进行特征提取，得到每个试题对应的知识点嵌入表征；具体包括：

采用训练后的知识追踪模型的第二深度神经网络Bert，对每个试题对应的知识点初始表征进行特征提取，得到每个试题对应的知识点嵌入表征。

进一步地，所述S1023：对每个试题的第一试题嵌入表征和每个试题对应的知识点嵌入表征进行关联，得到每个试题的第二试题嵌入表征；具体包括：

采用训练后的知识追踪模型的第三深度神经网络Bert，对每个试题的第一试题嵌入表征和每个试题对应的知识点嵌入表征进行关联，得到每个试题的第二试题嵌入表征。

进一步地，所述第一深度神经网络Bert、第二深度神经网络Bert和第三深度神经网络Bert，内部结构是一样的。

进一步地，所述第一深度神经网络Bert，包括：

依次连接的多头注意力机制层、第一归一化层、前馈神经网络和第二归一化层；

其中，所述第一归一化层的输入端与多头注意力机制层的输入端进行残差连接；

其中，所述第二归一化层的输入端与前馈神经网络的输入端进行残差连接；

多头注意力机制层的输入端为第一深度神经网络Bert的输入端；

第二归一化层的输出端为第一深度神经网络Bert的输出端。

所述多头注意力机制层，用于针对当前输出信息，获取输入信息中不同位置数据的权重，权重大的数据在预测输出时相应的会占较大的比重。

所述第一归一化层，用于将输入数据归一化成均值为0，标准差为1的数据，以消除数据不同尺度的影响。

所述前馈神经网络，用于通过使用非线性激活函数让模型具有非线性能力。

所述第二归一化层，用于将输入数据归一化成均值为0，标准差为1的数据，以消除数据不同尺度的影响。

示例性地，所述第一深度神经网络Bert、第二深度神经网络Bert和第三深度神经网络Bert，共同组成了预训练网络。

示例性地，建立预训练网络，如图2所示，预训练网络，包括三个Bert网络：

第一深度神经网络Bert用来学习更抽象和有效的试题嵌入表征，记为

；

第二深度神经网络Bert用来学习更抽象和有效的知识点嵌入表征，记为

；

第三深度神经网络Bert利用中间过程获得的嵌入表征

和

，得到融合试题难度和试题关系的综合试题表征向量

。

进一步地，所述总损失函数，是指：

；公式（1）

其中，

为超参数，表示多任务学习中的每一个任务的权重系数；

表示总损失函数；

；公式（2）

其中，

和

分别表示试题数量和知识点的数量；

为模型所预测的试题

包含第

个知识点的概率,而

为真实值，值为1表示试题

包含第

个知识点，否则为0；

表示二值交叉熵损失函数；

为第一损失函数；

；公式（3）

其中，

表示预测结果，

表示被Mask的知识点，

表示交叉熵损失函数，

为第二损失函数；

；公式（4）

其中，

为试题

的实际难度值，该值通过计算正确作答试题

的学生人数在学生总人数中所占的比例得到；

表示所预测的试题

的难度，

表示均方差损失函数，

为第三损失函数。

示例性地，（1）利用第一深度神经网络Bert，构建试题的第二嵌入表征

。

把 “独热编码”后的试题原始表征

输入第一深度神经网络Bert，通过预训练得到上下文感知的试题嵌入表征

，这一过程通过建模试题与知识点之间的关系来实现。

一般来讲，教师在制定考试题目的时候，首先要考虑的基本问题是考哪些知识点，然后设计出最能体现这些知识点的试题。

给定知识点

，利用公式（5）所示的线性函数建模试题与知识点

之间关系：

；公式（5）

其中，

为试题初始表征向量；

为预测值，表示试题

包含知识点

的概率；

和

为网络参数，

表示权重向量，

为偏置；

为向量的转置操作，

为sigmoid函数。

此外，考虑到存在单个试题对应多个知识点的情况，本发明通过转化为多标记学习问题来解决，如公式（2）所示，通过最小化二值交叉熵损失来实现试题与知识点间关系的建模预测。该步骤通过建模 “试题—知识点”之间的对应关系，对Bert网络模块进行优化，从而得到试题

的更抽象的表征

。

示例性地，假设共有M道试题，涉及到N个知识点的考核，则试题与知识点之间的关系为一个已知的M行N列的二值矩阵（1或者0），若试题

包含知识点

，则矩阵对于位置元素

的值为1，否则为0。给定知识点

，首先利用公式（5）得到试题

包含知识点

的预测概率

，若

的值与真实关系值

相等，则不产生损失，否则产生相应的损失。本发明利用二值交叉熵对产生的损失进行衡量，即通过优化公式（2）所示的交叉熵损失函数求解模型参数。

（2）利用第二深度神经网络Bert，构建知识点的第二嵌入表征

。把“独热编码”后的知识点的原始表征

输入第二深度神经网络Bert，然后通过预训练得到上下文感知的知识点的嵌入表征向量

。

本发明利用Bert网络Mask 机制来学习

，具体实施为：

随机地选择一定比例的知识点进行Mask（掩盖），然后利用该知识点的上下文信息（其余部分的知识点信息）对其进行预测。令

表示预测结果，

表示被Mask的知识点，本发明利用最小化交叉熵损失学习到知识点的嵌入表征，损失函数如公式（3）所示。

示例性地，输入长度为5的知识点序列

，假设随机地掩盖了知识点

，则后续过程中，把序列

作为第二深度网络模型Bert的输入信息，网络输出值作为被掩盖部分的预测值，被掩盖的知识点

作为真实值，然后，通过最小化如公式（3）所示的交叉熵损失函数来获得模型参数。直观上，学生答题过程中，所答试题对应知识点的顺序在一定程度上体现了所考核知识点的前驱或后继关系，例如：“加减乘除基本运算”是“复合运算”的前驱知识点。学生对前驱知识点的掌握程度会对其后继的知识点的答题情况产生影响。

（3）利用第三深度神经网络Bert，融合试题和知识点信息建模预测试题的难度，并输出最终含有两者关系信息的试题嵌入表征向量

。

具体实施如下：

将得到的试题嵌入表征

和知识点嵌入表征

输入到第三深度神经网络Bert，其中，

作为查询部分（Query）的输入，而键（Key）和值（Value）部分均采用知识点的嵌入表征

作为输入，输出则为试题的最终嵌入表征向量

。

本发明通过重构试题难度信息来训练第三深度神经网络Bert，从而学习到试题嵌入表征

。为了更有效地重构试题难度信息，本发明利用一个函数

来实现试题与试题难度之间的映射关系，其中，

和

为第三深度神经网络Bert的参数，

表示权重向量，

为偏置；

为向量的转置操作，

为sigmoid函数。本发明通过最小化公式（4）所示的均方差损失得到

。

示例性地，试题

的难度系数利用试题的错误率进行定义，即错误作答的学生人数在学生总数中所占的比例，比值越大，题目难度系数越高。假设共有100个学生作答了试题

，而其中30个学生回答错误，则该题的难度系数为0.3。

进一步地，所述S1024：根据每个试题的第二试题嵌入表征和每个已做试题得分，确定学生对不同知识点的掌握度；具体包括：

根据每个试题的第二试题嵌入表征和每个已做试题得分，采用训练后的深度知识追踪网络DKVMN进行处理，预测出学生对不同知识点的掌握度。

本发明采用预训练Bert深度网络得到的试题以及知识点的嵌入表征，然后作为输入对深度知识追踪网络DKVMN进行训练；具体包括：

（1）预训练网络。

该网络有三个Bert网络组成，第一深度神经网络Bert用来获取包含试题与知识点关系信息的浅层嵌入表征；第二深度神经网络Bert用来获取包含知识点与知识点关联关系信息的嵌入表征；第三深度神经网络Bert通过建模试题与试题难易程度的对应关系来获得第二试题嵌入表征；

（2）深度知识追踪网络DKVMN。将预训练获得的试题嵌入表征（包含试题与知识点间的关系、试题难度等信息）输入到深度知识追踪网络DKVMN，建模学生知识状态并预测未来的答题表现。

将预训练得到的试题嵌入表征

，输入到传统深度知识追踪网络DKVMN中，实现学生知识水平的评估以及答题表现的预测。

对本实施例方法进行仿真验证，表1为本发明在公开数据集ASSIST2009、ASSIST2012和EdNet上的性能，并与现有的4种深度知识追踪建模方法（分别记为DKVMN、DKVMN-Q、DKVMN-R、DKVMN-PEBG）进行了比较，可以看出本发明的方法性能较好。

本发明利用AUC指标来衡量各方法的性能，其中， AUC（Area Under Curve）是衡量模型方法性能的一种常用指标，它的含义是ROC曲线下与坐标轴围成区域的面积。

各方法的AUC指标值，如表1所示。

表1

实施例二

本实施例提供了知识追踪系统；

知识追踪系统，包括：

其中，训练后的知识追踪模型；工作原理包括：

此处需要说明的是，上述获取模块和知识追踪模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.知识追踪方法，其特征是，包括：

其中，训练后的知识追踪模型；工作原理包括：

2.如权利要求1所述的知识追踪方法，其特征是，所述知识追踪模型，包括：

相互连接的预训练网络和深度知识追踪网络DKVMN；

3.如权利要求2所述的知识追踪方法，其特征是，所述训练后的知识追踪模型，训练过程包括：

首先，对预训练网络进行训练，得到训练后的预训练网络；

4.如权利要求3所述的知识追踪方法，其特征是，所述对预训练网络进行训练，得到训练后的预训练网络；具体包括：

5.如权利要求3所述的知识追踪方法，其特征是，将训练后的预训练网络的输出作为深度知识追踪网络DKVMN的输入，对DKVMN网络进行训练，得到训练后的知识跟踪模型，具体包括：

6.如权利要求2所述的知识追踪方法，其特征是，对所有已做试题进行编码得到试题初始表征，具体包括：

采用独热编码的形式，对所有已做试题进行编码得到试题初始表征；

对每个试题初始表征进行特征提取，得到每个试题的第一试题嵌入表征；具体包括：

7.如权利要求2所述的知识追踪方法，其特征是，对所有已做试题对应的知识点进行编码得到每个试题对应的知识点初始表征，具体包括：

采用独热编码的形式，对所有已做试题对应的知识点进行编码得到每个试题对应的知识点初始表征；

对每个试题对应的知识点初始表征进行特征提取，得到每个试题对应的知识点嵌入表征；具体包括：

采用训练后的知识追踪模型的第二深度神经网络Bert，对每个试题对应的知识点初始表征进行特征提取，得到每个试题对应的知识点嵌入表征；

对每个试题的第一试题嵌入表征和每个试题对应的知识点嵌入表征进行关联，得到每个试题的第二试题嵌入表征；具体包括：

8.如权利要求2所述的知识追踪方法，其特征是，所述第一深度神经网络Bert、第二深度神经网络Bert和第三深度神经网络Bert，内部结构是一样的；

所述第一深度神经网络Bert，包括：

第二归一化层的输出端为第一深度神经网络Bert的输出端；

所述多头注意力机制层，用于针对当前输出信息，获取输入信息中不同位置数据的权重，权重大的数据在预测输出时相应的会占较大的比重；

所述第一归一化层，用于将输入数据归一化成均值为0，标准差为1的数据，以消除数据不同尺度的影响；

所述前馈神经网络，用于通过使用非线性激活函数让模型具有非线性能力；

9.如权利要求4所述的知识追踪方法，其特征是，所述总损失函数，是指：

；公式（1）

其中，

为超参数，表示多任务学习中的每一个任务的权重系数；

表示总损失函数；

；公式（2）

其中，

和

分别表示试题数量和知识点的数量；

为模型所预测的试题

包含第

个知识点的概率，而

为真实值，值为1表示试题

包含第

个知识点，否则为0；

表示二值交叉熵损失函数，

为第一损失函数；

；公式（3）

其中，

表示预测结果，

表示被Mask的知识点，

表示交叉熵损失函数；

为第二损失函数；

；公式（4）

其中，

为试题

的实际难度值，该值通过计算正确作答试题

的学生人数在学生总人数中所占的比例得到；

表示所预测的试题

的难度，

表示均方差损失函数，

为第三损失函数。

10.知识追踪系统，其特征是，包括：

其中，训练后的知识追踪模型；工作原理包括：