CN112330509B

CN112330509B - 模型无关的自适应测试方法

Info

Publication number: CN112330509B
Application number: CN202011216274.6A
Authority: CN
Inventors: 陈恩红; 刘淇; 毕昊阳; 黄振亚; 阴钰; 马海平
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-06-16
Anticipated expiration: 2040-11-04
Also published as: CN112330509A

Abstract

本发明公开了一种模型无关的自适应测试方法，其特征在于，包括：根据考生的历史答题记录估计考生认知状态，从而预测考生对未测试题目集合中每一道题目答对概率，并通过模型无关的信息量评估函数，量化未测试题目集合中每一道题目的信息量，根据信息量大小选择排名靠前的K_C个题目组成高质量候选集；通过模型无关的题集多样性评估函数，并结合题目中知识点的重要性权重，来量化已测试题集的多样性,从高质量候选集中选择使得多样性的边界增益最大的题目作为本次选题的最终结果。该方法剥离算法对模型底层细节的依赖，使得该方法适用于现有所有认知诊断模型，降低了自适应测试系统的耦合性，提高其灵活性。

Description

模型无关的自适应测试方法

技术领域

本发明涉及机器学习、人工智能和智能教育技术领域，尤其涉及一种模型无关的自适应测试方法。

背景技术

在智能教育中，对考生的知识掌握程度进行测试和诊断是一项基本的任务。在该任务中，如何为考生选择合适的题目是一个核心挑战。

由于传统的纸质考试无法针对每个考生的认知状态进行个性化选题，教育心理学研究目前关注一种自适应的测试形式，即在测试过程中，根据该考生当前的表现，通过认知诊断模型动态地估计考生的认知状态，然后设计选题策略自适应地根据其认知状态进行下一步选题。

现有的选题策略尝试最小化认知诊断模型中表征考生知识水平的相关参数的估计误差，从而利用数理统计等数学工具量化题目的信息量并贪心地选出信息量最大的题目。然而，这些工作多于依赖认知诊断模型对考生的知识水平的表征细节及原理，导致设计出的选题策略只适用于特定的模型。这种策略和模型的强相关性导致自适应测试系统的高耦合性和低灵活性，且使得研究人员在设计策略时不得不考虑过多的底层细节，而不是单纯考虑考生的认知能力。

发明内容

本发明的目的是提供一种模型无关的自适应测试方法，剥离算法对模型底层细节的依赖，使得该方法适用于现有所有认知诊断模型，降低了自适应测试系统的耦合性，提高其灵活性。

本发明的目的是通过以下技术方案实现的：

一种模型无关的自适应测试方法，包括：

根据考生的历史答题记录估计考生认知状态，从而预测考生对未测试题目集合中每一道题目答对概率，并通过模型无关的信息量评估函数，量化未测试题目集合中每一道题目的信息量，根据信息量大小选择排名靠前的K_C个题目组成高质量候选集；

通过模型无关的题集多样性评估函数，并结合题目中知识点的重要性权重，来量化已测试题集的多样性,从高质量候选集中选择使得多样性的边界增益最大的题目作为本次选题的最终结果。

由上述本发明提供的技术方案可以看出，从考生的认知状态角度出发，在不依赖认知诊断模型具体细节的前提下，从题库中为考生选出高质量的测试题候选子集，提高测试的准确性；在同样的前提下，从高质量候选子集中选出多样化的测试题，提高测试的全面性，该方法给众多教育平台提供更快捷、更优质的自适应测试服务。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种模型无关的自适应测试方法的描述图；

图2为本发明实施例提供的一种模型无关的自适应测试方法的框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种模型无关的自适应测试方法(Model-Agnostic AdaptiveTesting,MAAT)。在MAAT中，受机器学习领域中的主动学习技术启发，旨在为考生选出高质量且多样的题目，在每一次选题中，首先在不依赖模型细节的前提下从未测试题目中选择少数质量最高的题目组成高质量候选集，然后从该候选集中选择对已测试题目的多样性增益最大的一道返回为最终结果。将MAAT的选题分为两个步骤：步骤一，根据考生的历史答题记录估计考生认知状态，从而通过自适应测试系统中的认知诊断模型预测考生对未测试题目集合中每一道题目答对概率(所有认知诊断模型都具备得分预测的功能，认知诊断模型可采用目前已有模型)，并通过模型无关的信息量评估函数，量化未测试题目集合中每一道题目的信息量，根据信息量大小选择排名靠前的K_C个题目组成高质量候选集；步骤二、通过模型无关的题集多样性评估函数，并结合题目中知识点的重要性权重，来量化已测试题集的多样性，从高质量候选集中选择使得多样性的边界增益最大的题目作为本次选题的最终结果。MAAT脱离模型的底层细节，综合考虑质量和多样性两个高层次的目标，设计有效的评估函数和优化算法，为考生选出合理的题目，以确保测试效果。

为了便于理解，下面结合图1所示的MAAT描述图，及其框架图进行说明。

一、自适应测试的定义及形式化。

自适应测试任务的目的是根据考生在测试中已有的作答情况，结合当前对考生的认知能力评估，从题库中选择合适的下一道题。给定一组考生E＝{e₁，e₂，...，e_|E|}和一个题库Q＝{q₁，q₂，...，q_|Q|}，当考生e_i(1≤i≤|E|)对题目q_j(1≤j≤|Q|)作答时，其答题结果记为一个三元组r_ij＝<e_i，q_j，a_ij>。另外，假设在该题库上有一个知识点集合K＝{k₁，k₂，...，k_|K|}，题库中的每一道题都关联着一到多个知识点，这种题目-知识点关联可建模成数学上的二元关系

其中，|E|、|Q|、|K|分别为考生总数、题库的题目总数、知识点总数。

如图1所示的描述图，自适应测试任务可以被形式化为：给定一个考生，一个关联着知识点集合K的题库Q，目的是设计一个选题策略(Selection Strategy)，为考生生成一个测试序列

序列中的每一题/>

的选取都是依据观察考生之前t-1个作答结果/>

该测试序列应该满足两个要求：(1)里面的每一道题是高质量的，即对于考生认知能力的信息量大。(2)整个测试序列作为一个题目集合应具备知识点的多样性。

二、数据收集与预处理。

1、数据收集。

本发明实施例中，使用考生在题库上的作答数据作为输入数据集，数据需要含有考生在题目上作答的对错情况，题目需要有知识点关联。此类数据样例如开源数据集(ASSISTment)等。此外，也可以通过网络爬取、教育平台提供支持或线下收集初高中生的作业或考试情况获得输入数据集。

2、数据预处理。

在构建模型之前，需要对收集的数据进行预处理以保证模型的效果。预处理主要包括以下内容：

1)题目过滤。

本发明主要针对自适应测试中的选题策略设计，而认知诊断模型(CognitiveDiagnosis Model)的稳定性和可靠性应得到保证，因此需要输入数据集中的题目有足够量的相关作答记录数据，过滤掉相关记录数过少的题目。

2)知识点过滤。

同样，为保证知识点属性的稳定性和可靠性，过滤掉关联题目过少的知识点。

3)抽样。

在每个数据集中，分别依考生进行随机抽样，选用抽样出的学生对应的答题记录作为训练集来预训练认知诊断模型模型，未抽样出的学生对应的答题记录作为测试集来评估选题策略的有效性。

三、自适应测试方法的框架。

自适应测试方法的关键是将选题目标通过合适的数学函数加以量化，从而将选题问题转化为简单的题目“价值”的排序问题，例如本发明中关注的两个目标：题目质量和题集多样性。现有的研究工作大多将选题目标与认知诊断模型的特定参数关联起来，例如，从统计的角度最小化表征考生能力强度的参数的最大似然估计误差等。这种思路虽取得了可观的效果，但对于认知诊断模型的细节知识依赖过多，严重影响了系统的灵活性。实际上，自适应测试在选题中只需利用认知诊断模型所给出的考生在各知识上的认知诊断结果，而不一定需要知道得出这些结果所具体利用的细节原理。但是，在不依赖关于模型底层的知识的前提下达到高质量和多样性的选题是具有挑战性的。

本发明实施例中，使用图2所示的框架，设置质量模块(Quality Module)设置多样性模块(Diversity Module)并结合重要性模块(Importance Module)。每次选题中，质量模块负责从所有未测试的题目(Untested Question Set)中选择质量最高的少部分题目组成高质量候选集，多样性模块负责从高质量候选集中选择一个题目以使得整体挑选出来的测试题集多样性增益最大，重要性模块负责计算出知识点的重要性权重，以使得多样性模块在优化知识点多样性的同时能够考虑知识点之间重要程度的区别。下面结合上述三个模块对自适应测试方法的实现过程进行介绍：

1、质量模块。

质量模块的目标是从所有未测试题目中挑选质量最高的少部分题目，组成高质量候选集。为了达到这个目标，构造了一个名为“期望模型改变量”(ExpectedModel Change，EMC)的题目信息量评估函数来量化每道题目的质量，进而进行排序择优。EMC函数与传统研究工作中的信息量估计函数最重要的区别是它不依赖认知诊断模型的底层细节。本发明实施例中，将认知诊断模型定义为一个抽象模型，该模型可以输出对考生的认知状态的诊断，并具有一组不包含任何细节和原理上的已知性假设的参数，记作θ。该认知诊断模型的具体构建细节可通过常规技术实现，本发明不做赘述。针对每一道题目，认知诊断模型所获取的信息量体现在考生对该题的作答结果被观察到时，模型相关参数的改变量。如果模型参数几乎没有改变，说明题目的信息量很小，以至于模型的状态几乎保持不变。因此，用模型的改变量定量地刻画题目的信息量，进而比较题目的质量。

记θ(R_i)为抽象模型在观察到考生e_i历史答题记录R_i后的参数状态，对于题目q_j，答题记录r_ij＝<e_i，q_j，a_ij>，其中，a_ij为考生e_i针对题目q_j的答题结果，答对则a_ij为1，答错则a_ij为0；抽象模型在得到答题记录r_ij后，参数更新为为θ(R_i∪{r_ij})，则ΔM(r_ij)＝|θ(R_i∪{r_ij})-θ(R_i)|为答题r_ij造成的模型改变量，也即题目q_j的信息量。

然而，困难在于，对于未测试题目集合，考生的答题记录是未知的。为了克服这个困难，考生作答结果的概率分布来求出期望的模型改变量。而该概率分布来源于抽象模型输出的对考生认知状态的估计，并通过题目答对概率，来估计期望模型改变量，作为题目的信息量，期望模型改变量表示为：

p＝M(e_i，q_j|θ(R_i))

其中，ΔM(<e_i，q_j，a_ij>)表示认知诊断模型在观测到一条新答题记录<e_i，q_j，a_ij>后的参数变化量|Δθ|；M(e_i，q_j|θ(R_i))为认知诊断模型通过历史答题记录R_i训练出的参数θ(R_i)预测出的考生e_i对于题目q_j的答对概率(与上文一样，该认知诊断模型的具体细节，及参数θ的具体形式和训练过程均可通过常规技术实现)；

表示按照概率p求数学期望；EMC(q_j)为题目q_j的期望模型改变量。

通过EMC函数，可以定量计算每个未测试题目的信息量，进而排序选出质量最高的候选集。

2、多样性模块。

多样性模块的目标是从质量模块输出的高质量候选集中挑选一道题目，作为一轮选题的最终选择，选出的题目应使得整个已测试题集的多样性具有最大增益。为了达到这个目标，构造了一个名为“重要性加权知识点覆盖度”(Importance Weighted KnowledgeCoverage，IWKC)的题集多样性评估函数来量化已测试题集的多样性，该函数不依赖认知诊断模型。IWKC函数的具体形式如下：

其中，Q_T是已测试题集；w_k是知识点k的重要性权重，其值由重要性模块计算(具体计算方式将在后文介绍)；IncCov(k，Q_T)是计算知识点k在题集Q_T中的覆盖程度，其数学形式中的cnt(k，Q_T)表示在题集Q_T中，包含知识点k的题目数量。

通过最大化边际增益(Maximum Marginal Gain)的贪心算法选择使得多样性的边界增益最大题目：

其中，Q_C是高质量候选集，q为高质量候选集Q_C中的任一道题目，q^*表示本次选题的最终结果。

本发明证明，从整个题库中挑选一个使得IWKC函数的值最大的已测试题集是一个NP难问题。但是，由于IWKC函数是一个单调子模函数，采用最大化边际增益的贪心算法一道一道地挑选题目，最终得到的已测试集合与理论上最优的已测试集合相比，其IWKC函数的值不低于最优值的

倍，从而使得本发明中多样性模块对选题的多样性目标的优化具有理论保证。

3、重要性模块。

在多样性模块中，采用重要性加权的知识点覆盖度(IWKC)作为多样性的评估函数，其中为区分不同知识点之间重要程度的区别，为每个知识点k引入了对应的重要性权重系数w_k，而重要性模块就是负责利用采集到的答题数据为每个知识点计算重要性权重。在数据的采集和预处理阶段，得到大量的处理后的考生作答记录，利用这些记录，首先通过神经网络训练将题目表示为特征向量，即将所有题目表征在统一的向量空间中，目的是使得题目的相似度可度量。

对于考生e_i，将其对于题目q_j的答题记录r_ij＝<e_i，q_j，a_ij>转换为一个输入向量：

其中，1_|Q|(j)表示长度为|Q|的独热向量，其中第j维为1，其他为0；0_|Q|表示长度为|Q|的全零向量；|Q|是题库的题目总数；对于某个已知其全部历史答题记录的考生e_f∈E，其历史答题记录记为R_f。为了得到合适的题目表征向量，需要定义合适的优化目标，使得神经网络经优化后，题目的表征向量之间具有合理的相似性。这里，根据无监督表征学习的思想，优化目标设计如下：

其中，r_fh、r_fj为考生e_f分别针对题目q_h、q_j的答题记录，x_fh为r_fh转换得到的输入向量；N_neg是随机负采样的数量，即从所有题目中随机选出N_neg道与题目q_j无关(即与题目q_j不出现在同一名考生的做题记录中的题目)的其他题目作为负样本参与训练，σ(.)是Sigmoid函数，W是一个d×2|Q|的参数矩阵，d是一个超参数，|Q|是题目数量，v_j表示题目q_j的特征向量；

计算题目之前的相似度(Similarity)：

其中，v_h为题目q_h的特征向量；|v_h-v_j|表示两个题目q_h与q_j的向量表征之间的欧几里得距离；

计算题目与其在向量表征空间中的邻居之间的聚类密度(Density)：

其中，N(q_j)表示题目q_j在向量表征空间中的K_N-近邻，K_N为邻居数目；

知识点k的重要性w_k可用其关联的题目的聚类密度表示：

其中，G是表征题目q-知识点k关联的二元关系。

本发明实施例上述方案，利用模型无关的自适应测试方法进行选题并由考生进行答题，相比于传统高度依赖模型的方法，不需要针对任何一种特定的认知诊断模型进行定制，在选题策略设计的过程中只需要结合当前考生的认知状态，考虑题目的质量和多样性两个高层次的目标，从而提高自适应测试系统的灵活性，以及选题的合理性，具有一定的实际应用价值，给众多教育平台提供良好的自适应测试服务。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种模型无关的自适应测试方法，其特征在于，包括：

通过模型无关的题集多样性评估函数，并结合题目中知识点的重要性权重，来量化已测试题集的多样性,从高质量候选集中选择使得多样性的边界增益最大的题目作为本次选题的最终结果；

将认知诊断模型作为抽象模型，抽象模型中的参数记为θ；抽象模型在得到题目答题记录后，参数状态将发生改变，改变量即为相应题目的信息量；记θ(R_i)为抽象模型在观察到考生e_i历史答题记录R_i后的参数状态，对于题目q_j，答题记录r_ij＝＜e_i,q_j,a_ij＞，其中，r_ij为考生e_i针对题目q_j的答题结果，答对则a_ij为1，答错则a_ij为0；抽象模型在得到答题记录r_ij后，参数更新为θ(R_i∪{r_ij})，则ΔM(r_ij)＝|θ(R_i∪{r_ij})-θ(R_i)|为答题r_ij造成的模型改变量，也即题目q_j的信息量；

对于未测试题目集合，考生的答题记录是未知的，通过预测每一道题目答对概率，来估计每一题目的期望模型改变量，作为题目的信息量，期望模型改变量表示为：