CN110377707A

CN110377707A - 基于深度项目反应理论的认知诊断方法

Info

Publication number: CN110377707A
Application number: CN201910676812.0A
Authority: CN
Inventors: 刘淇; 陈恩红; 程松; 黄仔; 黄振亚; 陈玉莹; 马海平
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-25
Anticipated expiration: 2039-07-25
Also published as: CN110377707B

Abstract

本发明公开了一种基于深度项目反应理论的认知诊断方法，包括：获取学生的历史习题数据；对历史习题数据进行预处理，使用深度学习方法并结合预处理结果对学生和习题数据进行建模，获得学生的潜在特质、以及习题难度和区分度；根据学生的潜在特质、以及习题难度和区分度，利用项目反应理论的二参数模型预测学生在习题上的得分。上述方法可以给学生提供更有效、更详细以及更鲁棒的认知诊断结果。

Description

基于深度项目反应理论的认知诊断方法

技术领域

本发明涉及深度学习和教育数据挖掘领域，尤其涉及一种基于深度项目反应理论的认知诊断方法。

背景技术

当前的大数据和数据挖掘技术快速发展，尤其是在教育领域，大量的习题数据被收集，并且被广泛应用于教育相关领域。比如个性化试题推荐可以给学生推荐合适的练习题，来加强学生在知识点或者答题技巧上的熟练度；自适应测试可以根据学生自身的认知情况，给学生提供个性化的测试方案。而对学生的认知情况，也就是学上在知识点或者答题技巧上的掌握程度的准确诊断，是这些应用的基础。

传统的认知诊断方法都基于统计学，仅仅使用学生答题结果的历史数据来对学生进行诊断，对数据敏感，且鲁棒性不好。围绕认知诊断这个问题，很多研究者提出了不少方法，但是这些方法都没能够使用习题文本数据来提升诊断效果，然而，教育领域已经积累了很多习题数据，尤其是文本数据。

因此如何利用习题文本，来增强传统认知诊断模型的有效性以及鲁棒性，是当前教育大数据背景下亟待解决的一个重要问题。

发明内容

本发明的目的是提供一种基于深度项目反应理论的认知诊断方法，可以给学生提供更有效、更详细以及更鲁棒的认知诊断结果，从而能够更有针对性的给学生推荐合适的习题。

本发明的目的是通过以下技术方案实现的：

一种基于深度项目反应理论的认知诊断方法，其特征在于，包括：

获取学生的历史习题数据；

对历史习题数据进行预处理，使用深度学习方法并结合预处理结果对学生和习题数据进行建模，获得学生的潜在特质、以及习题难度和区分度；

根据学生的潜在特质、以及习题难度和区分度，利用项目反应理论的二参数模型预测学生在习题上的得分。

由上述本发明提供的技术方案可以看出，充分利用了习题数据，能够增强认知诊断的有效性和鲁棒性，同时，弥补了传统项目反映理论的单维性和不能冷启动以及大规模训练的弊端。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于深度项目反应理论的认知诊断方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于深度项目反应理论的认知诊断方法，其具体基于深度项目反应理论实现，如图1所示，主要包括如下步骤：

步骤11、获取学生的历史习题数据。

本发明实施例中，所述历史习题数据包含了M个习题，每一习题包括的习题描述文本以及习题包含的知识点集合。同时，还获取学生的答题记录，其中的实际得分将用于训练阶段。

步骤12、对历史习题数据进行预处理，使用深度学习方法并结合预处理结果对学生和习题数据进行建模，获得学生的潜在特质、以及习题难度和区分度。

本步骤主要包括两个阶段：预处理阶段与建模阶段，下面给出各阶段的优选实施方式。

一、预处理阶段。

预处理的目的是使用通信的数学形式来表示相关数据。

1)假设有L个学生和M个习题，则组成了答题记录R＝{R_ij|1≤i≤L，1≤j≤M}；其中R_ij＝<S_i，Q_j，r_ij>是一条答题记录，表示一个学生S_i在一道习题Q_j上的实际得分为r_ij；习题Q_j＝<QT_j，QK_j>，包含习题描述文本QT_j和知识点集合QK_j两个部分；所有习题共包含有P个知识点；初始化学生S_i在每个知识点p上的掌握度记为α_p，所有知识点掌握度组成一个P维的向量α＝(α₁，α₂，…，α_P)。

2)对习题的描述文本和知识点数据进行表征。

假设一道习题Q_j中的习题描述文本QT_j由U个单词组成，通过预训练得到Word2Vec模型将习题描述文本QT_j中的每一个单词表示成向量形式，得到QT_j＝{w₁，w₂，…，w_U}，其中包含，每一个单词u都被表示成一个d₀维的向量

假设一道习题Q_j中的知识点集合QK_j由V个知识点组成，将每一个知识点v表示成一个P维的one-hot向量(独热向量)K_v∈{0，1}^P，得到QK_j＝{K₁，K₂，…，K_V}，再使用一个d₁维的密集层将每一个知识点的one-hot向量K_v转化为一个d₁维的密集向量转换方式为：

k_v＝K_vW_k

其中，是密集层的参数；

转换后的知识点向量集合记为

二、建模阶段。

建模主要包括三个部分：利用深度神经网络建模学生的潜在特质、利用基于注意力机制的长短期记忆网络建模习题难度、以及利用深度神经网络建模习题区分度。

1)利用深度神经网络建模学生的潜在特质。

深度神经网络建模学生潜在特质。学生的潜在特质θ对于学生在习题上的表现具有很强的可解释性，并且与学生在每个知识点上的掌握度有很重要的关系，在每个知识点上都具有很高的掌握度的学生，潜在特质也会比较高，因为对每个知识点的掌握度可以反映学生综合能力。深度学习方法具有很好的数据自动表征和学习的能力，因此使用一个深度神经网络DNN_θ来诊断学生的潜在特质θ。

本发明实施例中，假设一个学生S_i在的知识点掌握度向量为α＝(α₁，α₂，…，α_P)，其中的P为所有历史习题数据中知识点的总数；预处理后的一道习题Q_j的知识点向量集合为

则将知识点向量集合与相应的掌握度对应相乘，得到一个d₁维的向量计算方式为：

本发明实施例中，知识点向量集合的元素数量V小于等于知识点掌握度向量α的元素数量P，上述计算时只考虑与知识点向量具有对应关系的掌握度向量。

将d₁维的向量Φ输入到一个深度神经网络DNN_θ中，得到学生潜在特质θ：

θ＝DNN_θ(Φ)。

区别于传统项目反映理论中的潜在特质保持不变，本发明实施例中得到的学生潜在特质针对不同的的习题是不同的，比传统项目反映理论中的潜在特质具有更强的解释性。

2)利用深度神经网络建模习题区分度。

习题区分度a可以用来分析学生在习题上的表现的分布情况，区分度的建模方法，受到多维项目反映理论中习题区分度和知识点之间关系的启发，习题区分度和习题所包含的知识点之间有很紧密的关系。因此，通过对习题的知识点进行建模来得到习题的区分度，同样，深度学习方法具有很好的数据自动表征和学习的能力，使用一个和DNN_θ结构一样的深度神经网络DNN_a来建模习题区分度a，深度神经网络DNN_a和DNN_θ结构一样，但是他们之间的参数并不共享。

本发明实施例中，预处理后的一道习题Q_j的知识点向量集合为将所有知识点向量累加，得到一个d₁维的向量计算方式为：

将得到的d₁维的向量A输入到一个深度神经网络DNN_a中来确定习题Q_j的区分度；

由于在传统的项目反映理论中，习题区分度的理论范围区间为[-4，4]，因此，对深度神经网络DNN_a的输出值DNN_a(A)进行变换：先通过一个sigmoid函数归一化到区间[0，1]；然后通过平移和放缩变换，将sigmoid函数输出值减去0.5，再乘以8，从而将DNN_a的输出值变换到习题区分度的理论范围区间[-4，4]中，得到习题Q_j的区分度a，变换方式表示为：

a＝8×(sigmoid(DNN_a(A))-0.5)。

3)利用基于注意力机制的长短期记忆网络建模习题难度。

习题难度b决定了一个题目被解决的难易程度。确定习题难度可以从两个角度入手，其一是可以通过习题的描述文本来确定难度，因为习题难度跟描述文本是紧密相关的，比如有些题目的文本难以理解，那么难度就可想而知了，而在处理文本这样的长时间序列数据，长短期记忆网络具有很好的处理这种长时间依赖数据的优势，能够自动的从文本中学习语义信息，从而能够给出现次数少的习题提供更好的鲁棒性，因此使用一个长短期记忆网络从文本的角度来建模难度。另一方面，习题知识点考察的深度和广度，对习题的难度也都有很大的影响，知识点被考察的深度越深广度越广，那么此题的难度也就会越大，显然，知识点的广度和深度可以通过习题文本与每个知识点的相关程度来表示，为了能够捕捉到习题文本和知识点之间的关联性，使用注意力机制来来实现。综合这两个方面，设计了一个基于注意机制的长短期记忆网络，来融合这两个方面对习题难度的影响。

本发明实施例中，将预处理后的一道习题Q_j的习题描述文本QT_j＝{w₁，w₂，…，w_U}以及相应的知识点向量集合经过注意力机制融合得到输入序列x＝(x₁，x₂，…，x_N)，并输入到步长为N的长短期记忆网络中，得到长短期网络输出的隐含状态序列h＝(h₁，h₂，…，h_N)；其中，N≥U；

每一个时刻t的状态h_t定义如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

c_t＝f_tc_t-1+i_t·tanh(W_xcx_t+W_hch_t-1+b_c)

h_t＝o_ttanh(c_t)

其中，i，f，c，o分别表示长短期记忆网络中的输入门、遗忘门、记忆单元和输出门，σ(.)为激活函数，W_*，b_*表示每个门中的可学习参数；

每一个时刻t的输入x_t定义如下：

其中，是放缩因子；ξ_j是习题描述文本QT_j中的单词w_t，和习题知识点集合中知识点的相关性，表示知识点的深度和广度，当U＜t≤N时，w_t用0向量来表示；ξ_j的计算方式如下：

将长短期记忆网络的最后一个时刻N的输出值h_N用均值池化操作得到习题难度，然后通过平移和放缩变换，先将averagePooling函数输出值averagePooling(h_N)减去0.5，再乘以8，从而将输出值变换到区间[-4，4]中，得到习题难度b，变换方式表示为：

b＝8×(sigmoid(averagePooling(h_N))-0.5)。

步骤13、根据学生的潜在特质、以及习题难度和区分度，利用项目反应理论的二参数模型预测学生在习题上的得分，实现认知诊断。

根据学生S_i的潜在特质θ、以及习题Q_j的难度b和区分度a，利用项目反应理论的二参数模型预测学生S_i在习题Q_j上的得分表示为：

其中，D为常数，示例性的，可以设置D＝-1.7。

上述方案，不仅保留了相关参数在传统项目反映理论中的可解释性，并且其诊断结果也得到了深度学习方法的增强。

本发明实施例中上述方案可以构成一个完整的网络模型，为了确保预测结果的准确性，需要进行模型训练在训练阶段针对预处理时的参数以及深度学习方法的参数进行更新，即：文本嵌入word2vec模型的参数W_Q和知识点嵌入的密集层参数W_K，建模学生潜在特质θ、习题难度b、习题区分度a的深度学习方法的参数本发明实施例中，设定目标损失函数为负对数似然函数。在获取学生的历史习题数据时同样获取了学生的实际得分，一个学生S_i在一道习题Q_j上的实际得分为r_ij，训练阶段，学生S_i在一道习题Q_j上的预测得分为则损失函数为：

通过Adam优化器最小化目标损失函数来训练，以更新相应参数。

利用训练好的参数，对于任意一个学生S_i和习题Q_j，通过梯度下降算法更新学生S_i在每个知识点上的掌握度，并且可以利用项目反映理论的二参数模型预测出得分。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于深度项目反应理论的认知诊断方法，其特征在于，包括：

获取学生的历史习题数据；

2.根据权利要求1所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，所述历史习题数据包含了M个习题，每一习题包括的习题描述文本以及习题包含的知识点集合。

3.根据权利要求1或2所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，

假设有L个学生和M个习题，则组成了答题记录R＝{R_ij|1≤i≤L，1≤j≤M}；其中R_ij＝<S_i，Q_j，r_ij>是一条答题记录，表示一个学生S_i在一道习题Q_j上的实际得分为r_ij；

习题Q_j＝<QT_j，QK_j>，包含习题描述文本QT_j和知识点集合QK_j两个部分；所有习题共包含有P个知识点；初始化学生S_i在每个知识点p上的掌握度记为α_p，所有知识点掌握度组成一个P维的向量α＝(α₁，α₂，…，α_P)。

4.根据权利要求1所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，所述对历史习题数据进行预处理包括：

假设一道习题Q_j中的知识点集合QK_j由V个知识点组成，将每一个知识点v表示成一个P维的one-hot向量K_v∈{0，1}^P，得到QK_j＝{K₁，K₂，…，K_V}，再使用一个d₁维的密集层将每一个知识点的one-hot向量K_v转化为一个d₁维的密集向量转换方式为：

k_v＝K_vW_k

其中，是密集层的参数；

转换后的知识点向量集合记为

5.根据权利要求1或4所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，所述使用深度学习方法并结合预处理结果对学生和习题数据进行建模，获得学生的潜在特质、以及习题难度和区分度，包括三个部分：利用深度神经网络建模学生的潜在特质、利用基于注意力机制的长短期记忆网络建模习题难度、以及利用深度神经网络建模习题区分度。

6.根据权利要求5所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，所述利用深度神经网络建模学生的潜在特质包括：

假设一个学生S_i在的知识点掌握度向量为α＝(α₁，α₂，…，α_P)，其中的P为所有历史习题数据中知识点的总数；预处理后的一道习题Q_j的知识点向量集合为

θ＝DNN_θ(Φ)。

7.根据权利要求5所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，利用深度神经网络建模习题区分度包括：

预处理后的一道习题Q_j的知识点向量集合为将所有知识点向量累加，得到一个d₁维的向量计算方式为：

对深度神经网络DNN_a的输出值DNN_a(A)进行变换：先通过一个sigmoid函数归一化到区间[0，1]；然后通过平移和放缩变换，将sigmoid函数输出值减去0.5，再乘以8，从而将DNN_a的输出值变换到习题区分度的理论范围区间[-4，4]中，得到习题Q_j的区分度a，变换方式表示为：

a＝8×(sigmoid(DNN_a(A))-0.5)。

8.根据权利要求5所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，所述利用基于注意力机制的长短期记忆网络建模习题难度包括：

将预处理后的一道习题Q_j的习题描述文本QT_j＝{w₁，w₂，…，w_U}以及相应的知识点向量集合经过注意力机制融合得到输入序列x＝(x₁，x₂，…，x_N)，并输入到步长为N的长短期记忆网络中，得到长短期网络输出的隐含状态序列h＝(h₁，h₂，…，h_N)；其中，N≥U；

每一个时刻t的状态h_t定义如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

c_t＝f_tc_t-1+i_t·tanh(W_xcx_t+W_hch_t-1+b_c)

h_t＝o_ttanh(c_t)

每一个时刻t的输入x_t定义如下：

b＝8×(sigmoid(averagePooling(h_N))-0.5)。

9.根据权利要求1、6、7或8所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，根据学生S_i的潜在特质θ、以及习题Q_j的难度b和区分度a，利用项目反应理论的二参数模型预测学生S_i在习题Q_j上的得分表示为：

其中，D为常数。

10.根据权利要求1、6、7或8所述的一种基于深度项目反应理论的认知诊断方法，其特征在于，

在训练阶段针对预处理时的参数以及深度学习方法的参数进行更新，目标损失函数为负对数似然函数；在获取学生的历史习题数据时同样获取了学生的实际得分，一个学生S_i在一道习题Q_j上的实际得分为r_ij，训练阶段，学生S_i在一道习题Q_j上的预测得分为则损失函数为：