CN113610235B

CN113610235B - 一种基于深度知识追踪的适应性学习支持装置及方法

Info

Publication number: CN113610235B
Application number: CN202110885129.5A
Authority: CN
Inventors: 万寒; 唐俪娜; 刘康旭; 钟梓皓; 高小鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-06-27
Anticipated expiration: 2041-08-03
Also published as: CN113610235A

Abstract

本发明提供了一种基于深度知识追踪的适应性学习支持装置及方法，通过改进的知识追踪模型，实现比较准确、符合实际地实时追踪学习者当前的知识状态。本发明装置包括改进的深度知识追踪模型，已掌握知识点题目推荐模块以及知识水平跃迁资源推荐模块。本发明将学生的学习行为融合进知识追踪模型，基于MANN提出了改进的知识追踪模型。本发明方法基于知识追踪模型可获得学生的知识掌握程度，基于训练好的知识追踪模型，实现为学生推荐与已掌握知识点关联的未完成的题目，以及推荐基于知识水平跃迁轨迹的资源。本发明提高了知识追踪模型的准确性，实现了基于协同过滤实现为学生推荐学习资源的目的。

Description

一种基于深度知识追踪的适应性学习支持装置及方法

技术领域

本发明涉及知识追踪技术领域，特别涉及一种基于改进的知识追踪模型来为学生提供适应性学习支持的装置及方法。

背景技术

知识追踪(Knowledge Tracing)是根据学生过去的答题情况对学生的知识掌握情况进行建模，从而得到学生当前知识状态表示的一种技术。知识追踪能捕捉到学习者当前真实的需求，是学习者建模中的核心任务。但由于知识的多样性和人脑的复杂性，人类的学习过程就是复杂多变的，这也是知识追踪非常困难的原因。

近年来，随着互联网的普及与发展，线上教学得到了广泛应用。小规模限制性在线课程(Small Private Online Course，SPOC)为学习者提供了交互式学习环境，改善了传统课堂教学难以规模化扩展的弊端。但由于学生在知识水平、学习方法、学习能力及学习习惯等方面存在个体差异，随着教学过程的推进，这些因素均可能影响到学生学习效果。适应性教学能够以学生为中心，根据学生的个人特点、已有知识水平及学习风格，向其提供更为适合的学习内容和方案，从而提高学习效率。因此，追踪学生知识掌握情况的变化以及其学习行为特点对于为每个学生提供个性化的学习内容是非常重要的。知识追踪能够利用学生在课程中与题目的交互行为，来评估学生的知识掌握水平。目前的知识追踪模型有很多种。

贝叶斯知识追踪(BKT)模型使用一组二元变量来建模学习者的知识状态，每个变量表示是否掌握对应概念或知识点。根据学生在题目上作答的正误，使用隐马尔科夫模型(Hidden Markov Model，HMM)来更新其知识状态。可以看出，该模型对知识的学习过程进行了简化，假定学生一旦习得了某一项知识，该知识便不会被遗忘，这一假设在实际学习过程中显然是不成立的。此外，BKT模型没有考虑到不同题目间难度差异和学生个体间差异对学习过程的影响，知识点与题目间的映射关系则需要依靠领域专家进行标注，若标注粒度过粗将导致大量题目中隐含的信息被忽略，同时也无法应对单个题目与多个知识点相关联的情况。

深度知识追踪(DKT)，使用长短期记忆(Long Short-Term Memory，LSTM)单元作为隐藏层节点，输入序列是学习者在各个时刻的答题交互行为及交互结果，输出序列则是学生在各个时刻答对题库中任意题目的概率。DKT模型利用神经网络中的高维连续向量空间模拟知识状态，输入到状态、状态到状态的转换是非线性的，这就使得面对复杂的知识掌握状态转换时，DKT模型具有比BKT模型更强的表达能力。但是，DKT模型的输入只包含学习者的题目作答情况，有研究人员认为只考虑题目的知识组成部分而忽略其它信息将对知识追踪效果产生负面影响，并且DKT模型无法显式地提取学生的知识状态和题目的知识点向量表示，缺乏可解释性。

动态键值对记忆网络(DKVMN)在DKT的基础上增加了外部记忆模块以提取学生的知识点掌握情况和题目的知识点向量表示，但是依然没有考虑到学生的学习行为等其他信息对学生知识掌握状态的影响。

自注意力知识追踪(SAKT)和基于上下文的注意力知识追踪模型(AKT)等基于注意力机制的模型能够提取重要的特征，捕捉长距离的依赖，并且相对于循环神经网络来说训练速度较快，但是目前的模型均不能显式提取学生的知识状态，缺乏可解释性。

综上所述，现存的知识追踪模型或多或少都存在一定的缺陷。

发明内容

在现有技术中，知识追踪模型大多依据答题轨迹来模拟学生的知识状态变化过程，仅根据学生的答题结果来完全反映学生对知识的掌握情况，进而进行建模；然而，学生的答题行为除了结果正误之外，还包含了作答用时、尝试次数等可供分析的细粒度信息，忽视这些信息将降低模型对学生学习行为的建模能力。此外，学生在SPOC中除需要完成题目外，还会以观看教学视频、阅读图文讲义、参与论坛讨论等多种形式参与在线学习，当知识追踪模型应用在SPOC场景下时，将这些细粒度信息融合在知识追踪模型中能够提高模型的准确性。本发明的目的是提供一种面向SPOC隐含知识点信息提取的深度知识追踪模型，实现基于该深度知识追踪模型的适应性学习支持装置及方法，以实现比较准确、符合实际地实时追踪学习者当前的知识状态。

本发明提供的一种深度知识追踪模型，包括：

(1)输入题目编号q_t，先与嵌入矩阵A相乘得到向量k_t，再将k_t与动态记忆矩阵M₁的每个记忆槽内积，内积结果通过Softmax激活函数后得到题目q_t与知识点i的相关程度，i∈[1，N]，N表示知识点数量；所述矩阵M₁用于存储每个知识点的嵌入表示，矩阵M₁中初始值随机设置；所述矩阵A的维度为Q×d₁，Q为题目总数，初始矩阵A符合均值为0，方差为1的标准正太分布；d₁为正整数；

将得到的题目q_t与各知识点的相关程度向量w_t与动态记忆矩阵M₂相乘，得到知识状态r_t；矩阵M₂用于存储学生的知识点掌握状态，矩阵M₂初始为零矩阵；基于知识状态r_t预测学生对题目q_t的答题正确概率；

(2)每一个时间步中，输入答题反应a_t和学习行为特征f₁-f₁₂更新矩阵M₂，更新采用先擦除后追加的方式，具体如下：

将学生在当前时间步作答的题目编号和答题正误结果进行独热编码，得到维数为2Q的答题反应a_t；再针对当前题目提取学习行为特征f₁-f₁₂，将a_t与学习行为特征顺序拼接后通过与嵌入矩阵B相乘获得维数为d₂的知识状态的变化量v_t；对v_t应用Sigmoid激活函数获得维数为d₂的擦除向量e_t如下：

e_t＝Sigmoid(C^T×v_t+b_c)

其中，C和b_c是需要训练的参数；初始矩阵B符合均值为0，方差为1的标准正太分布；d₂为正整数；对M₂的擦除由相关程度矩阵w_t和e_t共同控制，表示如下：

M′₂(i)＝M₂(i)*(1-w_t(i)×e_t)

其中，对矩阵M₂中第i行元素M₂(i)擦除后的更新为M′₂(i)；w_t(i)是知识点i与题目q_t的相关程度；

对v_t应用Tanh激活函数获得维数为d₂的追加向量m_t如下：

m_t＝Tanh(D^T×v_t+b_d)

其中，D和b_d是需要训练的参数；对于M′₂(i)执行追加过程，由w_t和m_t共同控制，表示如下：

M″₂(i)＝M′₂(i)+w_t(i)·m_t

对M′₂(i)追加后更新为M″₂(i)。

本发明的一种基于深度知识追踪的适应性学习支持装置，包括：所述的深度知识追踪模型，已掌握知识点题目推荐模块以及知识水平跃迁资源推荐模块；利用历史学生在线学习数据训练所述的深度知识追踪模型，获取题目-知识点的映射关系；

已掌握知识点题目推荐模块将目标学生的答题序列及答题相关的学习行为特征输入所述的深度知识追踪模型进行推理，根据得到的学生知识点掌握状态的矩阵以及预先设置的阈值，判断出学生已掌握的知识点，再根据目标学生已掌握的知识点以及题目-知识点映射关系，向目标学生推荐与已掌握知识点关联的未完成题目；

知识水平跃迁资源推荐模块提取学生的知识水平向量-学习资源评分的映射关系，再根据知识水平向量的相似度计算找到与目标学生的知识水平向量相似度最高的k组知识水平向量-学习资源评分数据，预测目标学生对所找到的各个学习资源的评分，并按照评分由大到小顺序将学习资源排序推荐给学生；k为正整数；所述的知识水平跃迁资源推荐模块提取学生的知识水平向量-学习资源评分的映射关系时，获取学生的知识水平迁移序列和学习资源访问足迹，计算学生在访问学习资源前后知识水平的变化量，并作为学习资源的评分，建立知识水平向量-学习资源评分的映射关系。

本发明的一种基于深度知识追踪的适应性学习支持方法，包括如下步骤：

步骤1，从历史学生在线学习数据中提取答题序列及答题相关的学习行为特征，训练所述的深度知识追踪模型；

步骤2，从训练后的深度知识追踪模型中获取题目-知识点映射关系；对目标学生推荐学习资源时，将目标学生的答题序列及答题相关的学习行为特征输入所述的深度知识追踪模型进行推理，根据得到的学生知识点掌握状态的矩阵以及预先设置的阈值，判断出学生已掌握的知识点；基于目标学生已掌握的知识点以及题目-知识点映射关系，向目标学生推荐与已掌握知识点关联的未完成题目；

步骤3，基于训练后的深度知识追踪模型，以及历史学生在线学习数据，提取学生的知识水平向量-学习资源评分的映射关系；根据知识水平向量的相似度计算找到与目标学生的知识水平向量相似度最高的k组知识水平向量-学习资源评分数据，预测目标学生对所找到的各个学习资源的评分，并按照评分由大到小顺序将学习资源排序推荐给学生；k为正整数；

所述的提取学生的知识水平向量-学习资源评分的映射关系，包括：由深度知识追踪模型与历史学生在线学习数据，获取学生的知识水平迁移序列和学习资源访问足迹，计算学生在访问学习资源前后知识水平的变化量，并作为学习资源的评分，建立知识水平向量-学习资源评分的映射关系。

相对于现有技术，本发明的优点和积极效果在于：(1)本发明装置及方法将学生的学习行为融合进知识追踪模型，并且基于记忆增强神经网络(MANN)提出了改进的知识追踪模型，提高了知识追踪模型的准确性；(2)本发明装置及方法基于知识追踪模型获得学生的知识掌握程度，进而推荐与已掌握知识点关联的未完成的题目，以便帮助学生巩固已掌握的知识点；(3)本发明装置及方法提出了基于协同过滤的学习资源推荐方案，基于当前学生的知识点掌握情况，在历史轮次的学生中寻找与当前学生知识状态相近的学生，并基于历史轮次中学生对学习资源的评分，为当前的学生推荐合适的学习资源，推荐结果更适合。

附图说明

图1是本发明改进的知识追踪模型结构示意图；

图2是本发明对知识追踪模型训练获取题目-知识点的映射关系的示意图；

图3是本发明的基于题目-知识点关系的已掌握知识点相关题目推荐的流程图；

图4是本发明对知识追踪模型训练获取知识水平-学习资源评分的映射关系的示意图；

图5是本发明的基于知识水平跃迁轨迹的资源推荐方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

首先，本发明提出了一种面向SPOC隐含知识点信息提取的深度知识追踪模型，是利用记忆增强神经网络MANN的外部存储机制，对DKT模型进行改进，将所关心的隐含信息转移至相应的外部记忆单元，为实现对网络隐含信息的读取与分析创造条件。下面具体说明本发明改进的知识追踪模型。

针对SOPC场景，本发明将学习行为特征引入知识追踪模型，提高了模型的准确度。本发明引入12种学习行为特征，包括：学生从获取题目到提交所花费的时间、学生尝试回答当前题目的次数、题目所属章节、题目作答场景、学生从获取题目到再次与平台交互的间隔时间、学生获取题目后首次与平台交互的行为类型(访问学习资源、浏览讨论区等)、学生在回答题目前回溯的学习资源数量、学生在回答题目前观看的教学视频数量、学生在回答题目前浏览的讨论贴数量、学生在回答题目前在讨论区的发帖和回复数量、学生上一次尝试当前题目到本次提交的间隔时间、学生上一次尝试任意题目到本次提交的间隔时间。

本发明基于记忆增强神经网络的外部存储机制，对DKT模型进行改进，将所关心的隐含信息转移至相应的外部记忆单元，为实现对网络隐含信息的读取与分析创造条件。本发明的知识追踪模型中包含两个独立的动态记忆矩阵M₁和M₂，矩阵M₁用于存储每个知识点的嵌入表示，矩阵M₂用于存储学生的知识点掌握状态。M₁和M₂的维度分别为N×d₁和N×d₂，其中N表示知识点数量，d₁和d₂分别表示记忆区块M₁和M₂的嵌入维度，d₁和d₂均为正整数。在每一个时间步中，模型根据输入的题目编号q_t，得到题目的嵌入向量k_t，再通过计算k_t和M₁矩阵的每一记忆槽的相似度获取一个对M₂矩阵的索引，即权重向量w_t。基于w_t可从M₂矩阵中获取当前学生对q_t相关知识点的掌握程度向量r_t，进一步地，结合学生当前答题反应a_t以及学习行为相关特征f₁-f₁₂，基于权重向量w_t，计算并更新M₂矩阵中对应单元的记忆值，从而实现对学生知识掌握过程的追踪。学习行为相关特征f₁-f₁₂均为独热码表示。

如图1所示，当模型接受输入的题目编号的独特编码向量q_t后，首先将其与一个维度为Q×d₁的嵌入矩阵A相乘，得到一个维数为d₁的向量k_t，其中Q为题目总数。接下来，计算k_t与维度为N×d₁的记忆区块M₁中每一个记忆槽M₁(i)，i∈[1，N]的内积，所得结果通过Softmax激活函数后即得到题目q_t的相关权重w_t，表示当前题目与每一个知识点的相关程度，具体计算公式如下：

上角标T表示转置。

通过相关权重w_t可对M₂中知识点状态信息进行读取和更新，进而实现对答题正确概率的预测和对学习者知识掌握过程的追踪。对知识点状态的读取通过将w_t与M₂相乘实现，得到维数为d₂的知识状态向量r_t：

r_t＝w_t×M₂ (2)

基于知识状态r_t可预测学生对当前题目q_t的答题正确概率，具体实现方法如下：将知识状态r_t与当前题目的嵌入向量k_t进行拼接(Concatenate)，依次经过一个激活函数为Tanh的全连接层和一个激活函数为Sigmoid的全连接层后，即得到对学生在当前题目上表现的预测p_t：

其中，W₁和b₁是第一个全连接层的参数，W₂和b₂是第二个全连接层的参数，p_t的范围是(0，1)，p_t的值越大表示学生正确解答当前题目q_t的概率越高。上角标T表示转置。

除了输出答题正确概率的预测外，在每个时间步，基于MANN的知识追踪模型还需要根据输入的答题反应a_t和相关学习行为特征f₁-f₁₂来更新M₂中题目相关的知识点状态。知识点状态的更新过程可分为擦除和追加两个步骤，本发明采用了先擦除后追加的方式实现对记忆区块M₂的更新。

首先，将学生在当前时间步作答的题目编号和答题正误结果进行独热编码，得到维数为2Q的答题反应输入a_t；然后，针对当前题目提取上述12个答题相关学习行为特征，进行分箱和独热编码处理后得到特征向量f₁-f₁₂，将a_t与学习行为特征顺序拼接后通过与嵌入矩阵B相乘获得维数为d₂的知识状态的变化量v_t。然后，可对v_t应用Sigmoid激活函数以获得维数为d₂的擦除向量e_t：

e_t＝Sigmoid(C^T×v_t+b_c) (4)

其中，C和b_c是可训练的参数。e_t中各元素值的范围是[0，1]。

嵌入矩阵B的维度为(2Q+12)×d₂。

对M₂的擦除过程由相关权重w_t和e_t共同控制，只有当知识点i对应的相关权重w_t和擦除向量e_t中的元素值均为1时，M₂中对应单元的记忆会被完全擦除为0；若w_t为0或擦除向量e_t中元素值均为0，则M₂中相应单元不会发生任何改变。知识状态记忆单元擦除过程如下：

M′₂(i)＝M₂(i)·(1-w_t(i)e_t) (5)

M′₂为对M₂进行擦除过程后得到的新的矩阵。由公式(5)可知，根据w_t(i)和e_t共同来更新矩阵M₂中第i行元素。“·”代表两向量对应元素进行乘积的操作。公式(5)中的“1”是维度为d₂的行向量。w_t(i)是知识点i与题目q_t的相关权重。

接下来，通过对v_t应用Tanh激活函数，可获得维数为d₂的追加向量m_t：

m_t＝Tanh(D^T×v_t+b_d) (6)

其中，D和b_d是可训练的参数。m_t中各元素值的范围是[-1，1]。

对于擦除后的记忆区块M′₂，其追加过程同样由w_t和m_t共同控制：

M″₂(i)＝M′₂(i)+w_t(i)m_t (7)

在每一个时间步中，记忆区块M₂通过上述先擦除后追加的更新过程，模拟了学生学习过程中遗忘和记忆的生理活动。

本发明的知识追踪模型中，矩阵M₁中初始值随机设置，矩阵M₂初始为零矩阵，初始矩阵A和B均符合均值为0，方差为1的标准正太分布。矩阵M₁、M₂、A和B随着知识追踪模型训练过程更新。

本发明在知识追踪模型中引入了学习行为相关特征f₁-f₁₂，提高了知识追踪模型的性能，因为学生是否正确回答一道题目，不仅与其之前做的题目有关，也与学生的一些学习行为相关，例如，如果学生在做题前浏览了相关的学习资源，则有更高的概率正确回答当前题目，因此，本发明改进的知识追踪模型能更好地贴合SPOC场景中对学生当前知识状态的识别。

训练本发明知识追踪模型时，采集训练样本时，获取某位学生作答的题目编号、答题反应输入、作答该题目时的学习行为特征，学生实际作答题目的正误。在训练时候，样本中的题目编号、答题反应输入和学习行为特征作为知识追踪模型的输入，将模型的输出与学生实际作答题目的正误作比较，不断调整和优化模型中的参数。

本发明基于改进后的深度知识追踪模型，可以在学习过程中实时评估学习者当前的知识状态。这里的知识状态，既可以表示为学生下一次尝试回答各题目时的正确概率，也可以表征为学习者对不同知识点的掌握程度。这样，教师便可根据实际教学需要，通过选择题目或知识点来筛选出存在相应学习问题的学生，对其提供干预或帮助。

基于本发明所改进的知识追踪模型，本发明进一步提供了一种基于深度知识追踪的适应性学习支持方法及装置。本发明基于知识追踪模型所发现的题目-知识点关联及学生知识点掌握程度信息，提出了适应性学习资源推荐方法。一方面，基于学生已掌握的知识点和知识追踪模型学习到的题目-知识点映射关系，向目标学生推荐与已掌握知识点关联的未完成题目。另一方面通过分析历史轮次中知识状态相近学生的学习轨迹，为学习者推荐可能帮助提升其薄弱知识点掌握程度的学习资源，即基于学生的学习轨迹，以及知识追踪模型学习到的学生的知识状态，以学习资源对知识水平提升的贡献值作为资源评分，利用学习者知识掌握程度进行协同过滤的个性化学习资源推荐方法。

本发明实施例的基于深度知识追踪的适应性学习支持方法，主要包括两部分：基于题目-知识点关系的已掌握知识点相关题目推荐，以及基于知识水平跃迁轨迹的资源推荐。

第一部分，基于题目-知识点关系的已掌握知识点相关题目推荐。

如图2所示，本发明实施例中，从历史轮次课程中获取学生的在线学习数据，提取答题序列以及答题相关的学习行为特征，输入本发明改进的知识追踪模型(基于MANN的深度知识追踪模型)中进行训练，在模型训练完成，保存模型参数，提取出题目-知识点的映射关系，并存储在MongoDB数据库中。

如图3所示，首先获取训练好的知识追踪模型以及题目-知识点映射关系。当需要对新课程中学生开展学习资源推荐时，将目标学生的答题序列及答题相关学习行为特征输入知识追踪模型进行推理。

接着，根据知识追踪模型给出的知识掌握程度向量，通过预先设置的阈值判断出学生已掌握的知识点。本发明实施例中，根据预测结果p_t与设置的阈值比较，p_t若大于阈值，表示学生已掌握作答题目所对应的知识点，否则表示未掌握。由上述知识追踪模型可以看出，将题目编号输入模型后，可以得到该题目与各知识点的相关程度，本发明实施例中设置相关程度最大的前L个知识点为题目对应的知识点。L为正整数。

最后，基于学生已掌握的知识点和通过知识追踪模型学习到的题目-知识点映射关系，向目标学生推荐与已掌握知识点关联的未完成题目。

第二部分，基于知识水平跃迁轨迹的资源推荐。

如图4所示，利用历史线学习数据对本发明基于MANN的深度知识追踪模型进行训练，在模型训练完成，保存模型参数，然后提取知识水平迁移序列和学习资源访问足迹，计算学生在访问学习资源前后知识水平的变化量，并作为学习资源的评分，获取知识水平-学习资源评分的映射关系，并存储在MongoDB数据库中。本发明通过分析历史轮次中知识状态相近学生的学习轨迹，为学习者推荐可能帮助提升其薄弱知识点掌握程度的学习资源，即实现基于学生的学习轨迹，以及知识追踪模型学习到的学生的知识状态，以学习资源对知识水平提升的贡献值作为资源评分，利用学习者知识掌握程度进行协同过滤的个性化学习资源推荐。

本发明实施例将2018秋季和2019秋季两学期中采集的课程数据作为实验数据集。利用2018秋季提取的答题序列和相关的学习行为特征训练本发明的基于MANN的知识追踪模型，并在答题序列的基础上提取了学习者在相邻答题活动之间所访问的学习资源列表，包括图文教程、教学视频和论坛讨论贴。然后，针对每一次答题事件，基于已训练的知识追踪模型提取其在各次答题时刻的知识点掌握程度向量。

对于2018秋季课程学生u，基于上述的知识追踪模型，可以获得其在答题时刻t的知识水平，表示为r_u，t，则该学生在t至t+1时刻间访问的学习资源g的评分可表示为其知识水平变化量b_u，t，g＝r_u，t+1-r_u，t，其取值范围为(-1，1)。基于训练好的知识追踪模型，利用学生t时刻的答题反应和学习行为特征更新矩阵M₂，从矩阵M₂中获得对第i个知识点掌握状态M₂(i)，作为知识状态向量r_t(i)，再将r_t(i)与0向量拼接，利用公式(3)计算出概率p_t，i作为t时刻关于知识点i的知识水平r_u，t(i)，如下：

按照这个方法获取学生在t时刻关于各个知识点的知识水平，i＝1，2，...N，即可以得到学生在当前t时刻的知识水平r_u，t。再结合学生访问资源记录，对在t至t+1时刻间访问的学习资源g的评分b_u，t，g，根据学生在两时刻的知识水平差来计算获得。

本发明实施例将2018秋季课程中所有学生各时刻历史知识水平及在该知识水平下对资源的评分以键值对(Key-Value)形式存储在MongoDB数据库中，其中Key为学生的知识水平向量，Value为相应学习资源的ID和评分。对学习资源的评分反映了不同学习资源对于提高学生的知识点掌握程度的作用。

本发明将2019秋季课程中提取的学生答题序列输入预训练的知识追踪模型，并在各个答题时刻提取目标学生的知识水平向量r′_u，t。假设相同学习资源对于不同知识水平学生的帮助作用不同，因此需要根据历史轮次中与目标学生知识状态相近的学生对资源给出的评分实施推荐，即在已知的知识水平向量集合中搜索与目标学生知识水平向量相似度最高的k个结果。本发明实施例使用欧氏距离来表示知识水平向量的相似度

学生u的知识水平为一向量，表示为[u₁，u₂，...u_i，...u_N]，学生v的知识水平向量表示为[v₁，v₂，...v_i，...v_N]。

对于从历史轮次召回的最为相似的k组知识水平向量以及对应的资源评分集合，基于用户邻域预测了目标用户u对各个资源的评分

即资源对目标用户知识水平可能产生的改变量。其中，S(u，k)是与目标用户u知识水平最相近的k个用户的集合，N(g)是与学习资源g发生过交互的用户集合，r_v，g是用户v对资源g的评分，/>

是用户v在该知识水平下对所有资源评分的平均值，d_u，v表示用户u和用户v知识水平向量的欧氏距离。

最后，对于计算出的目标用户u对各学习资源的预测评分，按照由大到小顺序将资源以预测评分中各知识点掌握程度变化量的平均值进行排序，根据实际应用需求，将平均值最高的H个资源推荐给用户。H为正整数。

相应地，本发明实施例实现的基于深度知识追踪的适应性学习支持装置，包括本发明改进的知识追踪模型，已掌握知识点题目推荐模块以及知识水平跃迁资源推荐模块。利用历史学生在线学习数据训练本发明改进的知识追踪模型，获取题目-知识点的映射关系。

已掌握知识点题目推荐模块将目标学生的答题序列及答题相关的学习行为特征输入所述的深度知识追踪模型进行推理，根据得到的学生知识点掌握状态的矩阵以及预先设置的阈值，判断出学生已掌握的知识点，再根据目标学生已掌握的知识点以及题目-知识点映射关系，向目标学生推荐与已掌握知识点关联的未完成题目。具体已掌握知识点题目推荐模块的实现与上述本发明的适应性学习支持方法中的第一部分相同。

知识水平跃迁资源推荐模块提取学生的知识水平向量-学习资源评分的映射关系，再根据知识水平向量的相似度计算找到与目标学生的知识水平向量相似度最高的k组知识水平向量-学习资源评分数据，预测目标学生对所找到的各个学习资源的评分，并按照评分由大到小顺序将学习资源排序推荐给学生；k为正整数；所述的知识水平跃迁资源推荐模块提取学生的知识水平向量-学习资源评分的映射关系时，获取学生的知识水平迁移序列和学习资源访问足迹，计算学生在访问学习资源前后知识水平的变化量，并作为学习资源的评分，建立知识水平向量-学习资源评分的映射关系。具体知识水平跃迁资源推荐模块的实现与上述本发明的适应性学习支持方法中的第二部分相同。

本发明实施例以深度知识追踪(DKT)模型作为基准模型，将本发明改进的知识追踪模型进行实验对比。实验结果显示，仅引入学习行为相关特征能够提升知识追踪任务的AUC(Area Under Curve)，最大提升幅度为0.019，采用本发明改进的知识追踪模型，AUC提升了0.065。

Claims

1.一种深度知识追踪模型的使用方法，用于追踪学生在在线课程学习过程中的知识状态，其特征在于，所述的模型包括：

(1)输入题目编号q_t，先与嵌入矩阵A相乘得到向量k_t，再计算k_t与动态记忆矩阵M₁的每个记忆槽的内积，内积结果通过Softmax激活函数后得到题目q_t与知识点i的相关程度，i∈[1，N]，N表示知识点数量；所述矩阵M₁用于存储知识点的嵌入表示，矩阵M₁中初始值随机设置；所述矩阵A的维度为Q×d₁，Q为题目总数，初始矩阵A符合均值为0，方差为1的标准正态分布；d₁为正整数；

将得到的题目q_t与各知识点的相关程度向量w_t与动态记忆矩阵M₂相乘，得到知识状态r_t；所述矩阵M₂用于存储学生的知识点掌握状态，矩阵M₂初始为零矩阵；基于知识状态r_t预测学生对题目q_t的答题正确概率；

e_t＝Sigmoid(C^T×v_t+b_c)

其中，C和b_c是需要训练的参数；初始矩阵B符合均值为0，方差为1的标准正态分布；d₂为正整数；对M₂的擦除由相关程度矩阵w_t和e_t共同控制，表示如下：

M′₂(i)＝M₂(i)·(1-w_t(i)e_t)

其中，对矩阵M₂中第i行元素M₂(i)擦除后的更新为M′₂(i)；w_t(i)是知识点i与题目q_t的相关程度；对v_t应用Tanh激活函数获得维数为d₂的追加向量m_t如下：

m_t＝Tanh(D^T×v_t+b_d)

M″₂(i)＝M′₂(i)+w_t(i)m_t

对M′₂(i)追加后更新为M″₂(i)。

2.根据权利要求1所述的深度知识追踪模型的使用方法，其特征在于，所述的题目q_t与N个知识点的相关程度向量w_t，如下：

其中，矩阵M₁的维度为N×d₁；q_t为一个列数为Q的行向量；上角标T表示转置。

3.根据权利要求1所述的深度知识追踪模型的使用方法，其特征在于，所述的基于知识状态r_t预测学生对题目q_t的答题正确概率，具体是：将知识状态r_t与向量k_t进行拼接，再依次经过一个激活函数为Tanh的全连接层和一个激活函数为Sigmoid的全连接层后，得到学生对题目q_t的概率p_t，如下：

其中，W₁和b₁是第一个全连接层的参数，W₂和b₂是第二个全连接层的参数，上角标T表示转置。

4.根据权利要求1所述的深度知识追踪模型的使用方法，其特征在于，所述的针对当前题目提取学习行为特征f₁-f₁₂，是指：针对当前题目获取学生从获取题目到提交所花费的时间、学生尝试回答当前题目的次数、题目所属章节、题目作答场景、学生从获取题目到再次与平台交互的间隔时间、学生获取题目后首次与平台交互的行为类型、学生在回答题目前回溯的学习资源数量、学生在回答题目前观看的教学视频数量、学生在回答题目前浏览的讨论贴数量、学生在回答题目前在讨论区的发帖和回复数量、学生上一次尝试当前题目到本次提交的间隔时间、以及学生上一次尝试任意题目到本次提交的间隔时间；对获取的12个学习行为特征信息进行分箱和独热编码处理后得到特征f₁-f₁₂。

5.一种基于权利要求1所述的深度知识追踪模型的适应性学习支持方法，其特征在于，包括如下步骤：

步骤3，基于训练后的深度知识追踪模型，以及历史学生在线学习数据，提取学生的知识水平-学习资源评分的映射关系；根据知识水平的相似度计算找到与目标学生的知识水平相似度最高的k组知识水平-学习资源评分数据，预测目标学生对所找到的各个学习资源的评分，并按照评分由大到小顺序将学习资源排序推荐给学生；k为正整数；

所述的提取学生的知识水平-学习资源评分的映射关系，包括：由深度知识追踪模型与历史学生在线学习数据，获取学生的知识水平迁移序列和学习资源访问足迹，计算学生在访问学习资源前后知识水平的变化量，并作为学习资源的评分，建立知识水平-学习资源评分的映射关系。

6.根据权利要求5所述的方法，其特征在于，所述的步骤3中，计算学生在访问学习资源前后知识水平的变化量，具体是：

获取学生u的历史在线学习数据，基于训练好的深度知识追踪模型，利用该学生t时刻的答题反应和学习行为特征更新矩阵M₂，从矩阵M₂中获得对第i个知识点掌握状态M₂(i)，作为知识状态向量r_t(i)，再将r_t(i)与0向量拼接，进行如下计算获得t时刻关于知识点i的知识水平r_u，t(i)；

计算t时刻学生u对于N个知识点的知识水平，获得学生u的知识水平r_u，t，对于学生u在t至t+1时刻间访问的学习资源g的评分b_u，t，g，用该学生的知识水平变化量表示，即b_u，t，g＝r_u，t+1-r_u，t。

7.根据权利要求5所述的方法，其特征在于，所述的步骤3中，基于用户邻域预测目标学生对各个学习资源的评分，表示为：

其中，u表示目标学生，S(u，k)是与目标学生u知识水平最相近的k个用户的集合，d_u，v表示u和v知识水平的欧氏距离，N(g)是与学习资源g发生过交互的用户集合，r_v，g是用户v对学习资源g的评分，

是用户v在该知识水平下对所有学习资源评分的平均值。

8.一种基于权利要求1所述的深度知识追踪模型的适应性学习支持装置，其特征在于，包括：所述的深度知识追踪模型，已掌握知识点题目推荐模块以及知识水平跃迁资源推荐模块；利用历史学生在线学习数据训练所述的深度知识追踪模型，获取题目-知识点的映射关系；

知识水平跃迁资源推荐模块提取学生的知识水平-学习资源评分的映射关系，再根据知识水平的相似度计算找到与目标学生的知识水平相似度最高的k组知识水平-学习资源评分数据，预测目标学生对所找到的各个学习资源的评分，并按照评分由大到小顺序将学习资源排序推荐给学生；k为正整数；所述的知识水平跃迁资源推荐模块提取学生的知识水平-学习资源评分的映射关系时，获取学生的知识水平迁移序列和学习资源访问足迹，计算学生在访问学习资源前后知识水平的变化量，并作为学习资源的评分，建立知识水平-学习资源评分的映射关系。

9.根据权利要求8所述的装置，其特征在于，所述的知识水平跃迁资源推荐模块为学习资源评分，具体是：获取学生u的历史在线学习数据，基于训练好的深度知识追踪模型，利用该学生t时刻的答题反应和学习行为特征更新矩阵M₂，从矩阵M₂中获得对第i个知识点掌握状态M₂(i)，作为知识状态向量r_t(i)，再将r_t(i)与0向量拼接，进行如下计算获得t时刻关于知识点i的知识水平r_u，t(i)；

计算获得学生t时刻对于N个知识点的知识水平r_u，t，对于该学生在t至t+1时刻间访问的学习资源g的评分b_u，t，g，表示为该学生的知识水平变化量，即b_u，t，g＝r_u，t+1-r_u，t。