CN112182308A

CN112182308A - 基于多热编码的多特征融合深度知识追踪方法及系统

Info

Publication number: CN112182308A
Application number: CN202011056680.0A
Authority: CN
Inventors: 刘三女牙; 孙建文; 张凯; 李卿; 栗大智; 邹睿
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-05
Anticipated expiration: 2040-09-29
Also published as: CN112182308B

Abstract

本发明公开了一种基于多热编码的多特征融合深度知识追踪方法及系统。该方法包括步骤：获取学生的答题数据集；提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt；将提取的6个特征转换为分类变量；将问题编号特征p和技能编号特征s进行多热编码，获得多热技能编码Multi(multi_s)，将其他特征进行独热编码，获得独热编码O，将多热技能编码Multi(multi_s)和独热编码O进行拼接及降维处理后输入到深度知识追踪模型进行知识追踪。本发明可以提高数据集的数据利用率，并且实现多技能的预测。

Description

基于多热编码的多特征融合深度知识追踪方法及系统

技术领域

本发明属于知识追踪技术领域，更具体地，涉及基于多热编码的多特征融合深度知识追踪方法及系统。

背景技术

知识追踪(Knowledge Tracing)任务是利用计算机技术，根据学生过去的答题记录，对学生的知识掌握情况进行建模，进一步得到学生当前知识状态的表示，从而可以准确预测学生在下一次答题时的表现。其中提到的学生过去的答题记录，通常以时间序列的形式呈现出来。由于题目设置和考察能力的综合性，每道问题往往不仅包含一个技能，这也是建立知识追踪模型非常困难的原因。

目前主流知识追踪模型将技能编号(skill id)和答题表现(correct)作为模型的输入，将多个特征引入深度知识追踪模型，对多特征均进行独热编码，拼接成新的特征向量作为模型的输入，预测学生对下一个问题的回答正确率。

但是现有技术存在以下缺点：(1)大多数研究者仅选用技能编号(skill id)和正确性(correct)两个特征，数据利用率低；(2)将多技能问题拆分为多个单技能问题，没有考虑一道题目同时考察多个技能的情况，无法预测多技能问题的表现。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于多热编码的多特征融合深度知识追踪方法及系统，可以提高数据集的数据利用率，并且实现多技能的预测。

为实现上述目的，按照本发明的第一方面，提供了一种基于多热编码的多特征融合深度知识追踪方法，包括步骤：

获取学生的答题数据集，所述答题数据集包括多条答题记录，每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息，所述问题关联多个技能；

从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt；

将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt转换为分类变量；

将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码，获得多热技能编码Multi(multi_s)，将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt进行独热编码，获得独热编码O，将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接，获得输入向量v_t；

将所述输入向量v_t进行降维处理后输入到深度知识追踪模型，所述深度知识追踪模型用于输出每个技能的预测值，根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。

优选的，所述进行多热编码包括步骤：

遍历所述答题数据集，引入一个嵌入矩阵Q，所述嵌入矩阵Q形式为：Q＝{Q_ij}_M×K，其中M为问题总数目，K为技能总数目，在所述嵌入矩阵Q中，每一行对应一个问题，每一列对应一个技能，所述嵌入矩阵Q中的向量表达为Q_es：

获取所述问题编号特征p和所述嵌入矩阵Q的向量积结果Multi(multi_s)。

优选的，所述进行独热编码包括步骤：将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt进行特征交叉并采用独热编码，然后利用交叉验证选取最优特征组合作为独热编码O。

优选的，所述将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt转换为分类变量包括步骤：

将所述问题编号特征p的数值变量直接作为问题分类数，共n₁类；

将所述技能编号特征s的数值变量作为技能分类数，共n₂类；

将所述答题表现特征c分为2类，0表示答错，1表示答对，若存在非0非1的中间值c_i，则以0.5为阈值，

将所述尝试次数特征att分为3类，att＝{0，1，其他}，若学生放弃该问题，则att＝0，若学生一次性答对了该问题则att＝1，若既没有放弃该问题也没有一次性答对了该问题，则att＝其他；

将所述首次操作特征act按数据集具体情况划分为n₃类；

将所述学生首次反应时间特征frt作z分数处理，方法为：

其中，Z是所述学生首次反应时间frt的z分数，

为所述答题数据集中所有学生对某一问题的首次反应时间平均值，s’是学生首次反应时间的标准差，

将所述z分数离散为一个范畴特征，按照预设正确率阈值划分为n₄类；

优选的，所述进行降维处理是采用欠完备自编码器、或主成分分析、或多维尺度分析、或局部线性嵌入方法中的一种。

优选的，所述欠完备自编码器的学习过程是最小化一个损失函数：

L＝(x，g(f(x)))

其中，L是损失函数，计算输入x和经过编码器、解码器后的输出g(f(x))的差异，f(x)表示编码器，g(h)＝g(f(x)表示解码器。

优选的，所述欠完备自编码器采用tanh函数作为神经网络激活函数，公式为：

v′_t＝tanh(W_ih*v_t+b_ih)

其中，v_t是输入的拼接特征，v′_t是所述欠完备自编码器隐含层提取的特征向量，y_t是所述欠完备自编码器的输出，W_ih表示所述欠完备自编码器输入层和隐含层之间的权重系数矩阵，

表示W_ih的转置矩阵，b_ih表示所述欠完备自编码器输入层和隐含层之间的偏差参数矩阵，b_ho表示所述欠完备自编码器隐含层和输出层之间的偏差参数矩阵。

优选的，根据所述深度知识追踪模型的输出确定对下一个问题的预测结果包括步骤：

所述深度知识追踪模型输出的每个技能的预测值记为O_t＝[y_s1，y_s2，...，y_sK]，K为技能总数目，根据下一个问题所包含的技能{s_a，s_b，...，s_i}，读取输出矩阵O_t中对应位置的概率预测值{y_sa，y_sb，...，y_si}，根据以下公式确定下一个问题的预测结果：

其中，num_skills表示该问题所包含的技能的个数，NPC表示下一个问题答对的概率值。

按照本发明的第二方面，提供了一种基于多热编码的多特征融合深度知识追踪系统，包括：

获取模块，用于获取学生的答题数据集，所述答题数据集包括多条答题记录，每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息，所述问题关联多个技能；

特征提取模块，用于从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt；

转换模块，用于将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt转换为分类变量；

编码模块，用于将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码，获得多热技能编码Multi(multi_s)，将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt进行独热编码，获得独热编码O，将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接，获得输入向量v_t；

预测模块，用于将所述输入向量v_t进行降维处理后输入到深度知识追踪模型，所述深度知识追踪模型用于输出每个技能的预测值，根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。

总体而言，本发明与现有技术相比，具有有益效果：从答题数据集中提取多个特征，以提高数据集的数据利用率；此外，针对多技能问题，提供了一种基于多热编码的特征编码方式，可以有效缩短学生答题序列长度，同时保证题目信息的完整性，弥补了一般深度知识追踪模型无法预测多技能问题的短板。

附图说明

图1是本发明实施例的基于多热编码的多特征融合深度知识追踪方法的原理示意图；

图2是本发明实施例的多热编码的嵌入矩阵Q的示意图；

图3是本发明实施例的特征拼接示意图；

图4是本发明实施例的欠完备自编码器示意图；

图5是本发明实施例的基于多热编码的多特征融合深度知识追踪模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明实施例的基于多热编码的多特征融合深度知识追踪方法的原理示意图。该方法包括以下步骤：

S1.获取学生的答题数据集，该数据集包括多条记录，每一条记录包括一个问题信息和一个学生在回答该问题时产生的交互信息。

具体地，可采用以下实现方式。数据集中包含n个问题序列{E₁，E₂，...，E_n}，每个问题序列E_i包含m个问题，E_i＝{e₁，e₂，...，e_m}，e_i是问题序列中一个具体问题，每个问题关联若干个技能，学生对一个问题序列{e₁，e₂，...，e_m}的答题情况生成m条答题记录；若学生数目为N，技能总数目为K，则学生集合Stu＝{stu₁，stu₂，stu₃，......，stu_N}，技能集合S＝{s₁，s₂，s₃，...，s_K}。在知识追踪领域，将技能作为问题标签输入模型中，因此，学生的答题记录可以表示为三元组(stu，s，r)的集合R，其中stu∈Stu，s∈S，r是学生stu在技能s(即问题e)上的表现(1表示答对，0表示答错)。

S2.从答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt6个特征作为输入特征。也可以根据实际需要增加其他特征。

S3.将上述所选6个特征转换为分类变量。

具体地，可采用以下实现方式。具体地，问题编号p作为问题的唯一索引，数值变量直接作为问题分类数，共n₁类；技能编号s作为问题标签直接将数值变量作为技能分类数，共n₂类；答题表现c作为对问题的响应，0表示答错，1表示答对，若存在非0非1的中间值c_i，则以0.5为阈值，

共2类；尝试次数att作为答对问题之前所做的尝试的总次数，存在两个特殊值，若尝试次数att＝0，说明该学生放弃该问题，若尝试次数att＝1，说明该学生一次性答对了该问题，其他情况均为学生对该问题的尝试输入，因此，尝试次数att＝{0，1，其他}，共3类；首次操作act作为学生对该问题的第一个操作，具有提交答案、申请提示、申请脚手架问题等有限的分类数，按数据集具体情况划分为n₃类，其中申请脚手架是指将一个问题拆分成多个子问题；学生首次反应时间frt表示学生从看到该问题到对该问题做出的第一次操作的时间，对该数值特征作z分数处理，方法为：

其中，Z是学生首次反应时间frt的z分数，frt是学生首次反应时间原始值，

是答题数据集中所有学生对某一问题的学生首次反应时间平均值，s’是学生首次反应时间的标准差。

将所述z分数离散为一个范畴特征，按照预设正确率阈值划分为n₄类。例如，将首次反应时间frt的z分数离散为一个范畴特征，以正确率50％(随机正确率)和70％(高正确率)为界，将首次反应时间frt划分为若干类，共n₄类；

S4.将S3处理的6个分类变量特征分别作特征编码。

具体地，可采用以下实现方式。处理技能特征s时，对该问题所涉及的多个技能进行多热编码(multi-hot encoding)，即将问题编号特征p和所述技能编号特征s进行多热编码。具体方法为：遍历数据集，引入一个嵌入矩阵Q。Q矩阵形式为：Q＝{Q_ij}_M×K，其中M为问题总数目，K为技能总数目。如图2所示，在Q矩阵中，每一行对应一个问题，每一列对应一个技能，嵌入矩阵Q中的向量表达为Q_es：

Q矩阵中保存了问题编号p和技能编号s的对应关系，最终关于技能的编码为问题编号p和Q矩阵的向量积结果，即多热技能编码(multi-hot skill id)，记为Multi(multi_s)：

Multi(multi_s)＝p×Q

其中，Multi()表示多热编码格式，multi_s表示一个问题所包含的所有技能，即多技能编号。

此时，一个问题e对应一个多技能multi_s，学生的答题记录可以重新表示为三元组(stu，e，r)的集合，其中stu∈Stu，e∈E。对于技能编号s，以上述处理的多热技能编码Multi(multi_s)作为最终的问题标签输入深度知识追踪模型。

除此以外，对首次操作act、尝试次数att、首次反应时间frt、答题表现c等分类特征进行特征交叉并采用独热编码，最终利用交叉验证选取最优特征组合。

特征交叉是将两个或多个特征编码为一个特征的方法，通过特征交叉可以以一个编码格式同时表示多个特征的并发外观，其本质是对多个特征的取值作笛卡尔积。具体方法为将多个特征随机组合，取其笛卡尔积，如两个特征的取值分别为集合A和集合B，则这两个特征的笛卡尔积A×B＝{(i，j)|i∈A∩j∈B}。若为多个特征交叉，则先进行两个特征的交叉，再与第三个特征进行交叉，以此类推。

交叉验证最常用的方法有K折交叉验证和留一验证，其本质都是将样本分割为F个子样本，选取其中的一个子样本作为验证集，其他的(F-1)个子样本作为训练集，检验模型效果。实验一共进行F次，保证所有的子样本均被当作一次验证集。取F次实验结果的平均值作为本次交叉验证的性能指标。

经过上述的特征交叉过程我们可以得到若干组交叉特征，将所有的交叉特征分别在模型上作交叉验证，最终选择交叉验证效果最好的一组交叉特征作为模型的最终输入特征。

具体地，将上述处理完成的分类特征组合成交叉特征作为模型输入，以首次操作act和答题表现c的交叉特征为例，特征交叉的公式为：

C(act_t，c_t)＝act_t+n₃*c_t

其中，C()表示交叉特征，act_t表示在时间步t时对该问题的首次操作编号，c_t表示在时间步t时的在该问题上的答题表现，n₃是首次操作act的分类个数。

假设经过交叉验证后，最终选择了act和c的交叉特征，frt和multi_s这三个特征，特征交叉后得到的输入向量为：

v_t＝O(C(act_t，c_t))^O(frt_t)^Multi(multi_s_t)

其中，v_t表示输入向量，frt_t表示在时间步t时的学生首次反应时间编号，multi_s_t表示在时间步t时的多技能。O()是独热编码格式，Multi()是多热技能编码格式，^运算符用于表示拼接，示意图如图3所示。图3中的设置仅为示例，可以依据交叉检验得到的具体数据来选取拼接的交叉特征和单个特征。

S5.将拼接得到的向量v_t输入到自编码器(Autoencoder，AE)进行降维，将自编码器的隐含层连接到深度知识追踪模型，作为深度知识追踪模型的输入层参与模型运算，并最终得到模型预测结果；具体地，对于输入的拼接得到的长特征向量v_t，导致输入层维数迅速增加，将向量v_t输入到一个欠完备自编码器(undercomplete Autoencoder)来进行降维，欠完备自编码器包含一个编码器(encoder)和一个解码器(decoder)，其隐层的维度小于输入层的维度，达到降维效果，示意图如图4所示。

欠完备自编码器的学习过程是最小化一个损失函数：

L＝(x，g(f(x)))

在本模型中，该欠完备自编码器采用tanh函数作为神经网络激活函数，公式为：

v′_t＝tanh(W_ih*v_t+b_ih)

其中，v_t是输入的拼接特征，v′_t是欠完备自编码器隐含层提取的特征向量，y_t是欠完备自编码器的输出，W_ih表示欠完备自编码器输入层和隐含层之间的权重系数矩阵，

表示W_ih的转置矩阵，b_ih表示欠完备自编码器输入层和隐含层之间的偏差参数矩阵，b_ho表示欠完备自编码器隐含层和输出层之间的偏差参数矩阵。

在本模型中，去除自编码器的输出层，直接将自编码器隐含层降维得到的v′_t连接到深度知识追踪模型LSTM的输入层，参与模型运算。

当然，欠完备自编码器仅为一个降维具体实现方式的示例，还可以依据主成分分析(Principal Component Analysis，PCA)、多维尺度分析(Multidimensional Scaling，MDS)、局部线性嵌入(Locally Linear Embedding，LLE)等方法进行降维，可依据模型的需要进行相应的调整。

S6.将输入向量v_t进行降维处理后输入到深度知识追踪模型，深度知识追踪模型用于输出每个技能的预测值，根据深度知识追踪模型的输出确定对下一个问题的预测结果。图5为基于多热编码的多特征融合深度知识追踪模型的结构示意图。根据下一个问题的多技能编号，对应深度知识追踪模型的输出矩阵，取多技能对应位置预测概率值的平均作为最终的对于下一个问题是否可以正确回答的预测结果；具体地，深度知识追踪模型的输出O_t＝[y_s1，y_s2，...，y_sK]预测了每种技能的表现，根据下一个问题所包含的技能{s_a，s_b，...，s_i}，读取输出矩阵O_t中对应位置的概率预测值{y_sa，y_sb，...，y_si}，对其取平均，作为最终的对于下一个问题是否可以正确回答的预测结果：

本发明实施例的一种基于多热编码的多特征融合深度知识追踪系统，包括：

转换模块，用于将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt转换为分类变量；

编码模块，用于将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码，获得多热技能编码Multi(multi_s)，将转换为分类变量后的所述答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt进行独热编码，获得独热编码O，将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接，获得输入向量v_t；

基于多热编码的多特征融合深度知识追踪系统的实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，包括步骤：

2.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，所述进行多热编码包括步骤：

3.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，所述进行独热编码包括步骤：将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt进行特征交叉并采用独热编码，然后利用交叉验证选取最优特征组合作为所述独热编码O。

4.如权利要求3所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，所述将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt转换为分类变量包括步骤：

将所述首次操作特征act按数据集具体情况划分为n₃类；

将所述学生首次反应时间特征frt作z分数处理，方法为：

其中，Z是所述学生首次反应时间frt的z分数，

将所述z分数离散为一个范畴特征，按照预设正确率阈值划分为n₄类。

5.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，所述进行降维处理是采用欠完备自编码器、或主成分分析、或多维尺度分析、或局部线性嵌入方法中的一种。

6.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，所述欠完备自编码器的学习过程是最小化一个损失函数：

L＝(x，g(f(x)))

7.如权利要求6所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，所述欠完备自编码器采用tanh函数作为神经网络激活函数，公式为：

v′_t＝tanh(W_ih*v_t+b_ih)

8.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法，其特征在于，根据所述深度知识追踪模型的输出确定对下一个问题的预测结果包括步骤：

9.一种基于多热编码的多特征融合深度知识追踪系统，其特征在于，包括：