CN114021722A

CN114021722A - 一种融合认知刻画的注意力知识追踪方法

Info

Publication number: CN114021722A
Application number: CN202111278587.9A
Authority: CN
Inventors: 黄涛; 杨华利; 喻涛; 胡盛泽; 张�浩; 陈彬; 刘三女牙; 杨宗凯
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-10-30
Filing date: 2021-10-30
Publication date: 2022-02-08

Abstract

本发明属于教育数据挖掘领域，提供一种融合认知刻画的注意力知识追踪方法，包括：(1)数据预处理；(2)特征融合；(3)表现预测；(4)模型训练。本发明提出了一套基于学习者认知画像的注意力知识追踪框架，此框架分别对学习者的记忆、实践和语言三方面特征进行建模，最终根据上述所得三方面特征进行联合建模，综合考虑学习者多方面的信息，以此来提升模型对于学习者知识掌握情况和未来表现预测的表现。

Description

一种融合认知刻画的注意力知识追踪方法

技术领域

本发明属于教育数据挖掘领域，具体涉及一种融合认知刻画的注意力知识追踪方法。

技术背景

随着在线教育的兴起，智能导学系统和大规模开放在线课程等平台逐渐得到发展，活跃在线上的学习者基数越来越大，导致教育者无法根据每位学生的知识掌握情况针对性地提出个性化的学习指导；为了构建出更智能的在线教育自适应系统，解决个性化教与学的一系列问题：习题路径规划、个性化推荐以及知识图谱构建等，知识追踪则成了其中的关键。通过知识追踪技术，系统可以自动追踪学习者的知识点掌握情况。

具体而言，知识追踪的主要任务是根据学生过去的作答记录X＝{x₁,x₂,…x_t-1}，对该生随着时间推移的知识状态变化情况(h₁,h₂,…h_t-1)进行动态建模，从而评估学生当前的知识点掌握程度h_t并预测学习者在下一时刻的反应r_t；其中学生的一条做题记录表示为x_t＝(q_t,a_t)，q_t为学习者在t时刻回答的问题，而a_t表示学生在q_t上的回答情况，回答正确则值为1，反之则为0。

与此同时，在探索和解释学习者学习规律的过程中，教育学者们又分别提出了以下教育理论：桑代克三大学习定律中的练习率表明，当学习者反复练习某一知识点下的试题时，会使学生不断学习和巩固现有的知识；艾宾浩斯遗忘曲线理论表明，学习者在不进行复习的情况下，其知识掌握程度会随着时间的不断推移而呈指数衰减趋势，即时间愈长，忘却的知识愈多；随着心理学的发展，项目反应理论被提出并构建了一整套数学模型来描述学习者能力、题目特性与学习者作答之间的关系。此外，试题文本以及学习者对于相应试题的概念或技能的掌握情况等信息对于学生学习和作答过程有一定程度的影响。此外，基于教育心理学、医学等领域通常将认知刻画分为记忆、实践和语言三部分，本技术方案对应地将学习、遗忘曲线划归为记忆特征一块，学习者做题记录归为实践特征，试题的文本语义则归为语言特征，系统构建学习者的认知画像。如何从学生的历史交互信息中挖掘出上述这些有效信息并对其建模以预测学习者的未来表现存在巨大的挑战；另一方面，如何全面而有效地将学生学习与遗忘、概念或技能掌握情况等认知信息以及试题之间的关系引入到知识追踪任务中去，在技术和领域上同样具有很大的难度。

然而，传统的知识追踪方法主要根据学习者的历史答题记录来动态评估其知识状态变化，却忽视了学生的学习与遗忘行为、知识掌握水平、学生能力、试题困难度以及试题文本信息。目前，有一些研究学者尝试使用长短期记忆网络、记忆增强网络以及多头注意力机制等结构来进行知识追踪任务，但由于学习者学习过程的复杂性和学习资源的多样性，大多研究只考虑到一部分特征，没能关注多维度的信息，导致难以全面地对试题和学习者进行刻画和建模。

具体来说，基于长短期记忆网络的深度知识追踪模型(Deep Knowledge Tracing,DKT)将学习者对于所有知识点的掌握情况用一个隐藏状态向量表示，这使得它难以准确地记忆超过数百个时间步长的序列并且无法解释学生对于每个知识点的掌握水平；而基于记忆增强网络的动态键值记忆网络知识追踪模型(Dynamic Key-Value Memory Networksfor Knowledge Tracing,DKVMN)通过允许网络保留多个隐藏状态向量，并分别对这些向量进行读写来解决上述问题，但没有考虑到不同学生掌握知识点的速度是具有差异的；而基于多头注意力机制的知识追踪模型，如自注意力知识追踪模型(ASelf-Attentive modelfor Knowledge Tracing,SAKT)以及关系感知自注意知识追踪模型(Relation-AwareSelf-Attention for Knowledge Tracing,RKT)得益于自注意力机制的优越性，在结果的可解释性和表现预测上要明显优于先前的研究工作，但学生的学习过程往往是复杂多变的且学习资源也是丰富多样的，目前基于注意力机制的知识追踪研究大多未能全面考虑反映、刻画学生与试题的特征信息，如学生能力、遗忘与学习行为、概念或技能掌握情况、试题困难度以及试题之间关系等。

因此，探索一种深度融合认知刻画的注意力知识追踪方法，运用时下热门的大数据挖掘、多头注意力机制以及深度学习技术对学习者的线上历史学习轨迹进行综合分析，准确评估学习者当前的知识状态并预测其未来的表现，具有重要的研究意义和应用价值。

发明内容

本发明的目的是针对现有学习者知识诊断方法所存在的不足，提供一种深度融合认知刻画的注意力知识追踪方法，综合利用大数据挖掘技术、自然语言处理以及深度学习方法，综合考虑试题关系、试题难度、学生能力、学习与遗忘行为以及学习者技能掌握情况信息来对学习者的知识状态进行联合建模，利用多头注意力机制来学习上述所说的特征信息，科学、全面地对学习者随时间推移地知识点掌握变化情况进行动态诊断和评估并对预测学习者的未来表现，从而对学习成绩不够理想的学生进行个性化教学和资源推荐，进行针对性提升。

为达到发明目的，本发明采用下述技术方案。

一种融合认知刻画的注意力知识追踪方法，包括：(1)数据预处理；(2)特征融合；(3)表现预测；(4)模型训练。

所述步骤(1)数据预处理具体为：采集到相应的数据记录，在此基础上处理成知识追踪模型所需的数据格式，即构建数据模型，为后面的特征融合提供数据准备。

(1-1)数据采集：采集“学习大数据”平台上小学数学科目的学习者历史学习记录，包括用户名、学生作答的题号、回答情况、知识点、时间信息以及试题文本等原始数据；

(1-2)构建数据模型：首先，考虑到保护学生隐私的需求，对原始数据中学生的用户名用数字id进行映射；其次按照学生id对原始数据进行分组并建立按时间升序排列的学习者做题序列集；然后对数据进行清洗，删除少于3个学习者练习的试题以及做题记录数少于3的学生数据；再对清洗后的数据做进一步特征提取，包括统计出学习者所做系列练习属于相应的同一知识点的重复练习次数、基于Rasch模型获取学习者能力和试题难度以及使用Bert模型提取试题文本的文本特征向量并基于这些向量构建试题关系邻接矩阵；最后将上述处理好的数据保存到相应的数据集文件中。

所述步骤(2)特征融合具体为：从记忆维度、实践维度、语言维度这三个方面提取并构建关于学生认知刻画的综合、系统的特征，深入挖掘学习者的学习行为模式及其知识点掌握程度的动态变化过程。

(2-1)问题定义。假设数据集中有H个学生，N个概念以及M个不同问题，N<<M，将学习者回答的问题、该问题所属的概念、作答反应表示为一个元组

其中

表示学生h在t时刻尝试的问题，

为概念索引,

表示答案，然后给定学生h从1到t-1时刻的历史学习记录

目标是预测学生h在下一时刻t正确回答属于概念

的问题

的概率，即

(2-2)问题、概念和交互嵌入。在步骤(2-1)的设定下，嵌入层的输入为试题序列Q＝{q₁,q₂,…,q_t}、概念序列C＝{c₁,c₂,…,c_t}、反应序列R＝{r₁,r₂,…,r_t}，输出为问题嵌入、概念嵌入、问题-反应交互嵌入以及概念-反应交互嵌入；问题嵌入：利用问题嵌入矩阵E_Q∈R^M×d,使得问题集Set_Q中的每一道练习题q_i嵌入到第i行，即

其中d表示嵌入到高维空间的维数；概念嵌入：定义一个概念嵌入矩阵E_C∈R^N×d，用于获取概念集合Set_C中每一个概念c_i的嵌入表示

问题-反应交互嵌入：通过综合考虑试题的困难度、学生的作答反应信息和交互的发生时间先后顺序，将回答情况r_t扩展为d维的向量r_t＝[r_t,r_t,…,r_t]∈R^d，得到单个问题-反应交互嵌入

具体表示为：

其中，δ_qt表示问题困难度，P∈R^l×d为包含交互位置信息的位置嵌入矩阵，

表示拼接；

概念-反应交互嵌入：训练一个概念变化嵌入矩阵E_D∈R^N×d，用于感知、获取同一概念下不同问题的上下文表示。得到单个概念-反应交互嵌入

如下所示：

练习-反应交互嵌入序列表示为

其中

概念-反应交互嵌入序列则表示为

其中

(2-3)认知刻画特征表示。在模型中对应构造了三个特征融合器来获取学生的记忆、实践和语言特征。记忆特征融合器采用问题嵌入序列

问题-反应交互嵌入序列

练习次数N＝{n₁,n₂,…,n_t-1}以及做题时间间隔ΔT＝{Δt₁,Δt₂,…,Δt_t-1}作为输入，并输出使用修改后的记忆感知注意力机制获取的学生记忆相关特征M＝{m₁,m₂,…,m_t}。实践特征融合器则利用概念嵌入

以及概念-反应嵌入

作为输入，并输出由一般注意力机制获取的学生实践特征P＝{p₁,p₂,…,p_t}。语言特征融合器则以问题嵌入序列

问题-反应交互嵌入序列

以及试题关系邻接矩阵R＝{R_t,1,R_t,2,…,R_t,t-1}作为输入，并输出使用修改后的练习关系感知的注意力机制获取的学生语言特征L＝{l₁,l₂,…,l_t}；

在上述步骤(2-3)中获取学生记忆相关特征M、获取学生实践相关特征P、获取学生语言相关特征L的具体方式为

设α_ij是使用一般的缩放点积注意力机制学习到的注意力权重：

再根据所得权重系数对value进行加权求和，得到第i个元素的最终表示,o_i∈R^d：

其中，q_i、k_j和v_j分别表示query、key和value，W^Q∈R^d×d、W^K∈R^2d×d和W^V∈R^2d×d分别是用于query、key和value的投影矩阵；

其中，实践特征融合器采用概念嵌入

以及概念-反应交互嵌入

作为输入，其中概念嵌入序列

作为注意力机制中query，概念-反应交互嵌入序列

则作为key和value矩阵，仅利用一般注意力机制来获取并输出学生的实践相关特征，反映了学生的知识掌握情况；

最终实践相关特征融合器获取并输出学生实践相关特征P＝{p₁,p₂,…,p_t}；

通过纳入学生的能力、学习行为以及遗忘规律，记忆特征融合器利用修改后的记忆感知注意力机制，采用问题嵌入序列

问题-反应交互嵌入序列

作为输入，其中问题嵌入序列

作为注意力机制中query，问题-反应交互嵌入序列

则作为key和value矩阵，以lg(N)函数来建模学生的学习行为，以指数衰减函数e^-ΔT来建模学生遗忘规律，通过调整注意力权重分数得到的记忆相关注意力权重分数为：

其中，θ_h表示第h个学生的能力，这种能力一定程度反映了学生的学习能力，另一方面也反映了学生的遗忘速率；λ1表示该模型的一个可训练参数。再根据所得权重分数β_i对问题-反应交互嵌入进行加权求和，得到记忆相关特征的最终表示,m_i∈R^d：

最终记忆相关特征融合器获取并输出学生记忆相关特征M＝{m₁,m₂,…,m_t}；

语言特征融合器利用修改后的练习关系感知注意力机制，采用问题嵌入序列

问题-反应交互嵌入序列

作为输入，其中问题嵌入序列

作为注意力机制中query，问题-反应交互嵌入序列

则作为key和value；通过基于Bert模型提取的试题文本向量所构建的练习关系邻接矩阵R来修改注意力权重，得到所需的语言相关注意力权重分数：

γ_i＝λ₂*Softmax(R_i)+(1-λ₂)α_i

其中，λ₂同样为该模型的一个可训练参数；再基于权重分数γ_i对问题-反应交互嵌入进行加权求和，得到语言相关特征的最终表示，l_i∈R^d：

最终语言相关特征融合器获取并输出学生语言相关特征L＝{l₁,l₂,…,l_t}。

所述步骤(3)表现预测具体包括：特征融合，利用相对位置注意力机制来构建预测模型，对学生知识掌握情况进行诊断和学习者表现进行预测。

(3-1)特征融合：预测阶段采用相对位置注意力机制进行预测，因此将练习嵌入序列和概念嵌入序列进行拼接和线性变化，将其作为预测模型的query矩阵。同样将对前面所提到的记忆、实践和语言特征融合器所输出学生记忆、实践和语言相关特征进行拼接并进行线性变化，得到最终的嵌入表示,并将其作为key和value矩阵。具体计算如下：

clip(x,k)＝max(-k,min(k,x))

其中，q_i,k_i,v_i∈R^d，

表示元素之间相对位置信息的向量，k为设定的元素之间的最大距离；

然后将模型的输出o传递到前馈层中，具体计算如下：

F＝ReLU(oW⁽¹⁾+b⁽¹⁾)W⁽²⁾+b⁽²⁾

其中，W⁽¹⁾,W⁽²⁾∈R^d×d为权重矩阵，b⁽¹⁾，b⁽²⁾∈R^d为偏置向量；除了上述建模结构外，在自注意层和前馈层之后都加入残差连接、层归一化和随机失活；

(3-2)对于学习者的知识点掌握的诊断结果h_t即为上述前馈层所输出的最终结果F。

(3-3)学习者表现预测：学习者正确回答t时刻的试题概率

为：

所述步骤(4)模型训练，训练的目标是最小化学生反应序列的负对数似然。通过最小化预测学习者正确回答问题的概率

和学习者反应的真实标签r_t之间的交叉熵损失来学习参数。

本发明与现有技术相比，具有如下有益效果：

1、本发明提出了一套基于学习者认知画像的注意力知识追踪框架，此框架分别对学习者的记忆、实践和语言三方面特征进行建模，最终根据上述所得三方面特征进行联合建模，综合考虑学习者多方面的信息，以此来提升模型对于学习者知识掌握情况和未来表现预测的表现。

2、基于认知刻画注意力知识追踪框架，提出了一种建模学习者记忆相关特征的方法。对于学习者的学习行为以lg(x)进行建模，认为10次练习之前提升明显，超过10次练习之后则默认学生掌握该练习；对于学习者的遗忘规律则以e^-ΔT进行建模，其知识掌握程度会随着时间的不断推移而呈指数衰减趋势，即时间愈长，忘却的知识愈多，并考虑到不同学生的能力不同，通过修改后的能够感知记忆的注意力机制对学习者记忆相关特征进行建模。

3、基于认知刻画注意力知识追踪框架，提出了一种建模学习者实践特征的方法，利用项目反应理论测量出的相应试题困难度以及学生的作答序列，基于注意力机制进行联合建模，得到学习者的实践相关特征。

4、基于认知刻画注意力知识追踪，提出了一种建模学习者语言特征的方法，通过构建出文本语义高度相关的试题关系邻接矩阵，利用基于自定义的关系感知注意力机制来挖掘出学习者语言相关特征。

附图说明

图1为本发明融合认知刻画的注意力知识追踪方法框架示意图。

图2本发明融合认知刻画的注意力知识追踪方法模型图。

图3多维特征体系对比图。

具体实施方式

本发明实施例公开了一种基于认知刻画的注意力知识追踪方法(CognitiveProfiles Attentive Knowledge Tracing,CPKT)。具体来说，首先从“学习大数据”平台收集小学数学科目的学习者历史练习记录，然后对上述得到的原始数据进行一定的数据清洗和处理，利用处理后的数据来建模学习者知识状态随着时间推移的一个动态变化过程，设计三个特征融合器，包括记忆特征融合器、实践特征融合器、语言特征融合器来分别获取学习者的记忆、实践以及语言特征，接着在训练过程中利用相对位置注意力机制对学习者的知识状态进行更新并预测学习者下一时刻正确回答问题的概率大小。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，一种融合认知刻画的注意力知识追踪方法，可以有效地评估出学习者知识状态随着不断学习的具体变化和预测学习者的未来表现，其主要包括以下步骤：

(1)数据预处理

(1-1)数据采集：从“学习大数据”平台收集学习者在数学科目上的历史学习记录(至少一个学期的)，如表1、表2所示，具体包括用户名、学生作答的题号、回答情况、知识点、时间信息以及试题文本等原始数据。

表1学生做题记录关键字段说明

表2练习文本关键字段说明

(1-2)构建数据模型：首先，考虑到保护学生隐私的需求，对原始数据中学生的用户名用数字id进行映射，同时也须对问题和知识点进行数值映射；其次按照学生id对原始数据进行分组并建立按时间升序排列的学习者做题序列集；然后对数据进行清洗，删除少于3个学习者练习的试题以及做题记录数少于3的学生数据；再对清洗后的数据做进一步的数据预处理，包括统计出学习者做相应题目的时长、所做系列练习属于相应的同一知识点的重复练习次数，具体计算方式如表3所示、基于Rasch这一简单且可解释的模型获取学习者能力和试题难度以及使用Bert模型提取试题文本的文本特征向量并基于这些向量构建试题关系邻接矩阵；接着考虑到计算机的存储大小以及模型的计算效率，分别将处理后的问题、概念、反应、作答时间以及重复练习次数序列划分成固定长度的子序列S＝{s₁,s₂,…,s_l}，其中l是模型可以处理的最大长度，一般设置为200；当序列长度t小于l时，在问题、概念序列的后面重复填充0，在反应序列后面重复添加-1；当t大于l时，将序列划分为t//n+1个子序列，如果最后一个子序列长度小于3，则为t//n，所有这些子序列都用作模型的输入；最后将上述处理好的数据保存到相应的数据集文件当中。

表3记忆特征的计算方法

(2)特征融合

从记忆、实践、语言这三个维度来提取并构建关于学生认知的系统、综合特征体系。

(2-1)问题定义

假设数据集中有H个学生，N个概念以及M个不同问题，N<<M，将学习者回答的问题、该问题所属的概念、作答反应表示为一个元组

其中

表示学生h在t时刻尝试的问题，

为概念索引,

表示答案，然后给定学生h从1到t-1时刻的历史学习记录

目标是预测学生h在下一时刻t正确回答属于概念

的问题

的概率，即

(2-2)问题、概念和交互嵌入

在步骤(2-1)设定下，本实施例嵌入层的输入为问题序列Q＝{q₁,q₂,…,q_t}、概念序列C＝{c₁,c₂,…,c_t}、反应序列R＝{r₁,r₂,…,r_t}，输出为问题嵌入、概念嵌入、问题-反应交互嵌入以及概念-反应交互嵌入。问题嵌入：利用问题嵌入矩阵E_Q∈R^M×d将问题集Set_Q中的每一道练习题q_i嵌入到第i行，即

其中d表示嵌入到高维空间的维数；概念嵌入：定义一个概念嵌入矩阵E_C∈R^N×d获取概念集Set_C中每一个概念c_i的嵌入表示

问题-反应交互嵌入：将回答情况r_t扩展为d维的向量r_t＝[r_t,r_t,…,r_t]∈R^d，得到单个问题-反应交互嵌入

如下所示：

其中，δ_qt表示学习到的问题困难度，P∈R^l×d为包含交互位置信息的位置嵌入矩阵。

概念-反应交互嵌入：利用概念变化嵌入矩阵E_D∈R^N×d感知、获取同一概念下不同问题的上下文表示，然后得到单个概念-反应嵌入

具体表示为：

练习-反应交互嵌入序列表示为

其中

概念-反应交互嵌入序列则表示为

其中

(2-3)认知刻画特征表示

如图2所示，CPKT模型中分别对应构造了三个特征融合器来获取学生的记忆、实践和语言特征。

(2-3-1)记忆特征融合器模块

该模块主要基于学生的学习行为和遗忘规律来对学习者知识状态进行动态评估，并考虑到不同学生能力不同以实现个性化建模。

首先，提取学习特征，即重复练习次数n：序列中交互对应知识点的重复次数；举例：如表3所示，知识点重复次数则是从序列开端开始计数，遇到和T₂包含一样的知识点的试题就累加1。

其次，提取遗忘特征，即序列时间间隔Δt：序列中直接相邻的两次交互的时间间隔；举例：如表3所示，第一个交互时间间隔默认为0，后续每一次练习的间隔时间计算为：Δt_n＝T_n-T_n-1(如，T₄-T₃)。

最终，记忆特征融合器的输入为问题嵌入序列

问题-反应交互嵌入序列

练习次数N＝{n₁,n₂,…,n_t-1}以及做题时间间隔ΔT＝{Δt₁,Δt₂,…,Δt_t-1}，其中问题嵌入序列

作为多头注意力机制中query，问题-反应交互嵌入序列

则作为key和value矩阵，并输出使用修改后的记忆感知注意力机制获取的学生记忆相关特征。

具体来说，首先记忆特征融合器计算过去问题j对未来问题i的不同影响程度，即权重分数α_ij。

其中，d为嵌入大小，

分别是用于query、key的投影矩阵。

然后基于练习次数N＝{n₁,n₂,…,n_t-1}以及做题时间间隔ΔT＝{Δt₁,Δt₂,…,Δt_t-1}，以对数函数lg(N)来建模学生的学习行为，以指数衰减函数e^-ΔT来建模学生遗忘规律来修改影响权重

最终得到学生h的记忆相关注意力权重分数为：

其中，θ_h表示第h个学生的能力，这种能力一定程度反映了学生的学习能力，另一方面也反映了学生的遗忘速率；λ₁表示该模型的一个可训练参数；再根据所得权重分数

对value矩阵进行加权求和，得到记忆相关特征的最终表示,m_i∈R^d：

其中，

是用于value的投影矩阵。最终记忆相关特征融合器获取并输出学生记忆相关特征M＝{m₁,m₂,…,m_t}。

(2-3-2)实践特征融合器模块

实践相关特征融合器则采用概念嵌入

以及概念-反应交互嵌入

作为输入，其中概念嵌入序列

作为多头注意力机制中query，概念-反应交互嵌入序列

则作为key和value矩阵，再利用一般注意力机制来获取并输出学生的实践相关特征，该特征主要反映学生当前的知识掌握水平。具体计算如下：

其中

和

分别是用于query、key和value的线性投影矩阵，为模型的训练参数。最终实践相关特征融合器获取并输出学生实践相关特征P＝{p₁,p₂,…,p_t}。

(2-3-3)语言特征融合器模块

在提取学习者语言特征过程中，该模块利用Bert模型得到相应试题的文本嵌入向量E_t-1,E_t，然后使用余弦相似度公式计算练习之间的相似度并构建试题关系邻接矩阵R。练习关系邻接矩阵R构建过程具体如下:

其中，K表示试题是否相关的阈值，大小设为0.1*M。

最终，语言特征融合器以问题嵌入序列

问题-反应交互嵌入序列

以及试题关系邻接矩阵R＝{R_t,1,R_t,2,…,R_t,t-1}作为输入，其中问题嵌入序列

作为注意力机制中query，问题-反应交互嵌入序列

则作为key和value矩阵，利用修改后的关系感知的注意力机制获取并输出学生的语言特征。

同记忆融合器一样，首先计算一般注意力权重分数

再利用练习关系R_i调整权重，得到该模块所需的学生语言相关注意力分数γ_i:

其中，λ₂为该模型的一个可调整参数。再基于权重分数

对value矩阵进行加权求和，得到语言相关特征的最终表示，l_i∈R^d：

同样地，

为模型要训练的参数，最终语言相关特征融合器获取并输出学生的语言相关特征L＝{l₁,l₂,…,l_t}。

最后，对比先前的研究工作，并总结一下CPKT模型所构建的多维特征体系，如图3所示。

(3)表现预测

本实施例的预测和应用具体包括：特征融合，利用相对位置注意力机制来构建预测模型，对学生知识掌握情况进行诊断以及对学习者表现进行预测。

(3-1)特征融合

预测阶段采用相对位置注意力机制进行预测，将练习嵌入序列和概念嵌入序列进行拼接和线性变化，作为预测模块的query矩阵。将记忆、实践和语言特征融合器所输出学生记忆、实践和语言相关特征进行拼接并进行线性变化，得到最终的嵌入表示F_pred，然后取其中1到t-1时刻的特征

将其作为key和value矩阵：

其中，

为模型的训练参数，0∈R^d为零向量，

表示拼接。

(3-2)预测模型构建

将输入数据传到相对位置注意力层进行预测：

clip(x,k)＝max(-k,min(k,x))

其中，

表示元素之间相对位置信息的向量，k为设定的元素之间的最大距离。

然后将相对位置注意力层的输出馈送至前馈层中，最终输出：

其中，

为权重矩阵，

和

为偏置向量。除了上述建模结构外，自注意层和前馈层之后都加入残差连接、层归一化和随机失活。

(3-3)知识状态诊断和表现预测

(3-3-1)知识状态诊断：对于学习者的知识点掌握的诊断结果h_t即为上述前馈层所输出的最终结果F。

(3-3-2)学习者表现预测：在诊断学习者的知识掌握情况后，对学习者在未来表现进行预测，即学习者正确回答t时刻的试题概率

为：

(4)模型训练：训练的目标是最小化学生反应序列的负对数似然。

(4-1)损失函数：通过最小化预测学习者正确回答问题的概率

和学习者反应的真实标签r_t之间的交叉熵损失来学习参数。

(4-2)优化函数：通过使用Adam优化算法来更新模型中的参数。

本发明未详细阐述的部分属于本领域公知技术。

应当说明的是，以上包含的本发明实例内容说明，是为了详解释本发明的技术特征。在不脱离本发明的前提下，所做出的若干改进和修饰也受本发明的保护，因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims

1.一种融合认知刻画的注意力知识追踪方法，其特征在于该方法包括以下步骤：

(1)数据预处理；采集相应的数据记录，处理成知识追踪模型所需的数据格式，即构建数据模型，为后面的特征融合提供数据准备；

(1-1)数据采集：采集“学习大数据”平台上学习者的数学科目历史学习记录，至少一个学期的，包括用户名、学生作答的题号、回答情况、知识点、时间信息以及问题文本原始数据；

(1-2)构建数据模型：首先，对原始数据中学生的用户名用数字id进行映射；其次按照学生id对原始数据进行分组并建立按时间升序排列的学习者做题序列集；然后对数据进行清洗，删除少于3个学习者练习的问题以及做题记录数少于3的学生数据；

(2)特征融合；从记忆维度、实践维度、语言维度这三个方面提取并构建关于学生认知刻画的综合、系统的特征，深入挖掘学习者的学习行为模式及其知识点掌握程度的动态变化过程；

(2-1)问题定义：假设数据集中有H个学生，N个概念以及M个不同问题，N<<M，将学习者回答的问题、该问题所属的概念、作答反应表示为一个元组

其中

表示学生h在t时刻尝试的问题，

为概念索引,

表示答案，然后给定学生h从1到t-1时刻的历史学习记录

目标是预测学生h在下一时刻t正确回答属于概念

的问题

的概率，即

(2-2)问题、概念和交互嵌入：在步骤(2-1)的设定下，嵌入层的输入为问题序列Q＝{q₁,q₂,…,q_t}、概念序列C＝{c₁,c₂,…,c_t}、反应序列R＝{r₁,r₂,…,r_t}，输出为问题嵌入、概念嵌入、问题-反应交互嵌入以及概念-反应交互嵌入；问题嵌入：利用问题嵌入矩阵E_Q∈R^M×d将问题集Set_Q中的每一道练习题q_i嵌入到第i行，即

其中d表示嵌入到高维空间的维数；概念嵌入：利用概念嵌入矩阵E_C∈R^N×d获取概念集Set_C中每一个概念c_i的嵌入表示

如下所示：

表示拼接；

概念-反应交互嵌入：利用概念变化嵌入矩阵E_D∈R^N×d感知、获取同一概念下不同问题的上下文表示，得到单个概念-反应嵌入

具体表示为：

练习-反应交互嵌入序列表示为

其中

概念-反应交互嵌入序列则表示为

其中

(2-3)认知刻画特征表示：在模型中对应构造三个特征融合器来获取学生的记忆、实践和语言特征，记忆特征融合器采用问题嵌入序列

问题-反应交互嵌入序列

练习次数N＝{n₁,n₂,…,n_t-1}以及做题时间间隔ΔT＝{Δt₁,Δt₂,…,Δt_t-1}作为输入，并输出使用修改后的记忆感知注意力机制获取的学生记忆相关特征M＝{m₁,m₂,…,m_t}，实践特征融合器利用概念嵌入

以及概念-反应嵌入

作为输入，并输出使用一般注意力机制获取的学生实践相关特征P＝{p₁,p₂,…,p_t}，语言特征融合器以问题嵌入序列

问题-反应交互嵌入序列

以及问题关系邻接矩阵R＝{R_t,1,R_t,2,…,R_t,t-1}作为输入，并输出使用修改后的练习关系感知注意力机制获取的学生语言相关特征L＝{l₁,l₂,…,l_t}；

(3)表现预测；特征融合，利用相对位置注意力机制来构建预测模型，对学生知识掌握情况进行诊断和学习者表现进行预测；

(3-1)特征融合：预测阶段采用相对位置注意力机制进行预测，将练习嵌入序列和概念嵌入序列进行拼接和线性变化操作，将其作为预测模型的query矩阵，同样对记忆、实践和语言特征融合器所输出学生记忆、实践和语言相关特征进行拼接并进行线性变化，得到最终的嵌入表示,并将其作为key和value矩阵，具体计算如下：