CN117350903A

CN117350903A - 一种面向认知诊断的多模态去偏方法

Info

Publication number: CN117350903A
Application number: CN202311326773.4A
Authority: CN
Inventors: 吴乐; 陈祥志; 刘菲; 张琨; 洪日昌; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-05

Abstract

本发明公开了一种面向认知诊断的多模态去偏方法，包括：1.构造多模态数据：学生‑习题交互记录、习题侧图片、文本等数据；2.为每个模态构造单模态有偏认知诊断模型，模拟多模态有偏认知诊断模型过度依赖单个模态的场景；3.构造多模态无偏认知诊断模型，在每轮训练中，如果样本在单模态有偏模型在该轮输出的交叉熵越大(越小)，无偏模型训练时则会通过提升(降低)权重实现去偏，让模型关注对该模态的建模。4.有偏模型与无偏模型每轮先后交替同步训练，直至收敛。本发明利用多个单模态有偏模型辅助多模态无偏模型的思想，通过样本在单模态有偏模型中的熵对多模态无偏模型训练时样本重加权，能有效缓解认知诊断中的多模态偏差问题。

Description

一种面向认知诊断的多模态去偏方法

技术领域

本发明属于智慧教育的认知诊断领域，具体来说是一种面向认知诊断的多模态去偏方法。

背景技术

在智慧教育领域中，认知诊断是一项基础且重要的任务，其致力于从观察的学生行为中诊断学生对特定知识点的熟练度。传统的认知诊断方法主要关注单一模态，即学生对习题的答题记录，在建模学生对未做习题的答题结果过程中，诊断学生在每个知识点上的掌握情况。随着深度学习的蓬勃发展，尤其在计算机视觉领域和自然语言处理领域，取得了重大成果。深度学习算法的强大处理能力使得计算机能够更好地理解和分析多模态数据。

近年来，不断有研究人员提出，在传统认知诊断方法基础上，引入各种模态信息，致力于为认知诊断提供更准确、全面的结果。在学生侧，现有方法提出通过利用学生的家庭背景信息、学校背景信息来建模学生的多方面能力，直觉上来说，家庭条件优越、学校教学水平高，能够反映出该学生综合素质较高。在习题侧，现有方法提出利用习题的文本和图片信息建模习题的难度，直觉上来说，文本中若涉及到一些难知识点，图片中反映的信息越复杂，则习题的难度越高。此外，在智慧教育领域中，每道习题的知识点标注是一个需要专家标注且耗费人力的工作，因此，基于习题的文本或图片信息还可以用来推理习题所覆盖的知识点，直观上来说，文本中所反映的语义信息以及图片中反映的模式可以帮助推理缺失的知识点。由此可见，多模态信息在智慧教育领域中存在广泛的应用，相比于传统关注单一模态的认知诊断方法，能够进一步提升更准确的认知诊断。

然而，在建模多模态信息时，普遍存在模态之间偏差建模的问题，它会对认知诊断的准确性和可靠性产生负面影响，尤其是应用到分布外的场景。这种偏差可能源自于不同模态数据的采集方式、特性差异以及处理方法的差异，例如，数据集中包含图片的习题可能占据少数，那么模型建模时可能会注重对文本信息的建模，忽略对图片信息的建模。因此，针对这种建模多模态信息时对不同模态建模力度存在偏差的场景，考虑认知诊断的多模态去偏，是一项值得研究的问题。

发明内容

本发明为了克服现有技术的不足之处，提出一种面向认知诊断的多模态去偏方法，以期能在建模习题侧多种模态信息的同时，能够有效缓解模型对不同模态建模力度存在偏差的问题，从而能提升认知诊断的准确度。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种面向认知诊断的多模态去偏方法的特点在于，是按如下步骤进行：

步骤1、构造多模态数据；

定义学生集合U＝{u₁,u₂,...,u_i,...,u_|U|}、习题集合,v₂,...,v_j,...,v_|V|}、知识点集合C＝{c₁,c₂,...,c_k,...,c_|c|}；其中，u_i表示第i个学生，v_j表示第j个习题，c_k表示第k个知识点，|U|表示学生的数量，|V|表示习题的数量，|C|表示知识点的数量，i＝1,2,…,|U|，j＝1,2,…,|V|，k＝1,2,…,|C|；

定义习题侧的多模态集合为N＝{n₁,n₂,…,n_r,…,n_|N|}，其中，n_r表示第r个模态，|N|表示模态的数量，r＝1,2,…,|N|；

定义所有习题在第r个模态n_r上的信息为其中，表示第j个习题v_j在第r个模态n_r上的信息，若第j个习题v_j不包含第r个模态n_r的信息，则令/>

将学生对习题的答题记录的交互矩阵记为Y∈{-1,0,1}^|U|×|V|，其中，Y_ij＝-1，0或1分别表示第i个学生u_i对第j个习题v_j回答错误，未答或回答正确；

将交互矩阵Y拆解为三元组集合T，令T中的任意一个三元组(u_i,v_j,Y_ij)表示第i个学生u_i回答第j个习题v_j所对应的答题标签Y_ij；且T中仅包含Y_ij＝-1或Y_ij＝1的三元组；

将习题与知识点的关系矩阵记为Q∈{0,1}^|V|×|C|，其中，Q_jk＝1或0表示第j个习题v_j与第k个知识点c_k相关或不相关，矩阵Q的第j行表示第j个习题v_j与每个知识点的相关关系；

步骤2、为每个模态构造单模态有偏认知诊断模型；

利用式(2)构建第r个模态n_r的有偏认知诊断模型，用于预测第i个学生u_i对第j个习题v_j的答题结果

式(2)中，是第i个学生u_i的有偏认知表征，/>是第j个习题v_j的有偏认知表征，g_u表示学生侧表征建模函数，/>表示习题侧建模表征函数，f表示基于学生和习题侧特征预测答题结果的交互函数；

利用式(3)构建泛化交叉熵损失

式(3)中，q∈(0,1]为超参数；

利用式(3)构建有偏认知诊断模型的目标函数

步骤3、构造多模态无偏认知诊断模型；

利用式(5)构建多模态的无偏认知诊断模型，用于第i个预测学生u_i对第j个习题v_j的答题结果

式(5)中，是第i个学生u_i的无偏认知表征，/>是第j个习题v_j的无偏认知表征，/>表示习题侧的无偏建模表征函数；

利用式(6)构建二分类交叉熵损失

利用式(7)构建多模态无偏认知诊断模型的目标函数arg min L：

式(7)中，H(i,j)表示对三元组(u_i,v_j,Y_ij)加权的权重，并有：

步骤4、认知诊断模型的同步训练：

步骤4.1定义当前迭代次数为iter，并初始化iter＝1；

步骤4.2根据式(4)，基于Adam优化器对每个模态的有偏认知诊断模型进行第iter次训练，以更新有偏认知诊断模型的参数，并将第iter次训练后的有偏认知诊断模型所输出的泛化交叉熵损失值传递给式(8)，用于计算每个三元组的权重，从而根据式(7)，基于Adam优化器对多模态无偏认知诊断模型进行第iter次训练，以更新多模态无偏认知诊断模型的参数，得到第iter次训练后的多模态无偏认知诊断模型；

步骤4.3将iter+1赋值给iter后，返回步骤4.2顺序执行，直至目标函数arg min L收敛为止，从而得到训练好的多模态无偏认知诊断模型，用于实现多模态去偏。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述多模态去偏方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述多模态去偏方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明引入的单模态有偏认知诊断模型能有效地模拟偏差放大现象：为了模拟多模态认知诊断模型在建模多模态信息过度关注单一模态的场景，本发明提出为每个模态构建单模态有偏认知诊断模型，此外，为了进一步放大偏差模型的特性，本发明采用了泛化交叉熵损失GCE，因此，单模态有偏认知诊断模型能有效地模拟偏差放大现象。

2、本发明提出了基于单模态有偏模型辅助多模态无偏模型的训练策略：在单模态有偏认知诊断模型能有效地模拟偏差放大的基础上，本发明提出了一种利用重加权机制来进行多模态去偏，其主要思想是，在每轮训练无偏多模态认知模型时，针对每个训练样本，参考单模态有偏认知诊断模型在该样本上计算的熵，发现容易引起偏差的样本，基于计算的熵值对无偏多模态认知模型训练时对偏差样本提升权重，该策略能够有效地发现引起偏差的样本，从而针对性地实现多模态去偏，提升了认知诊断的准确度。

附图说明

图1为本发明提出的面向认知诊断的多模态去偏方法的具体流程图；

图2为本发明应用在NCDM模型上时两个有偏模型和无偏模型的架构图。

具体实施方式

本实施例中，一种面向习题侧多模态认知诊断的去偏方法的基本流程是：首先，构造多模态数据：包括学生-习题交互记录、习题侧多模态信息(如习题图片、习题文本等模态信息)、习题-知识点相关关系；其次，为每个模态构造单模态有偏认知诊断模型，每个模型仅依赖单个模态预测学生的答题结果，模拟多模态有偏认知诊断模型过度依赖单个模态的场景，该场景下模型容易忽略对其他模态的建模；然后，构造多模态无偏认知诊断模型，该模型依赖多种模态预测学生的答题结果，针对多模态有偏认知诊断模型中过度依赖某种模态而引起的诊断偏差问题，在多模态无偏认知诊断模型每轮训练中，参考每个单模态有偏认知诊断模型在该轮输出的交叉熵，通过对每个样本的损失权重进行加权实现去偏。单个样本在单模态有偏模型中的熵越大，则该样本在多模态模型训练过程中，该模态可能比较难以学习，从而忽略对该模态的建模，因此，在无偏模型训练过程中，熵越大的样本则会提升权重，让模型更关注该样本的建模，进而实现去偏。最后，在每轮训练过程中，有偏模型与无偏模型先后更新参数，彼此同步训练，直至收敛。具体地说，如图1所示，该方法是按如下步骤进行：

定义所有习题在第r个模态n_r上的信息为其中，表示第j个习题v_j在第r个模态n_r上的信息，若第j个习题v_j不包含第r个模态n_r的信息，则令/> 一般来说，给定一道习题，习题可能有文本、图片等模态，此外，习题至少包含一种模态；

对于一般的认知诊断模型来说，其预测学生u_i对习题v_j答题结果可表示为：

其中，是第i个学生u_i的表征，/>是第j个习题v_j的表征，函数g_u建模学生侧表征，接受输入的学生编号u_i，输出该学生表征/>函数g_v建模习题侧表征，接受输入的习题编号v_i、习题侧每个模态信息/>输出该习题表征/>函数f根据学生表征/>习题表征/>习题相关度向量/>预测最终的答题结果/>公式(1)所涉及的函数通常由神经网络实现；

步骤2、为每个模态构造单模态有偏认知诊断模型；

本步骤为每个模态构造一个单模态有偏认知诊断模型，该模型仅考虑单一模态信息，忽略对其他模态信息的建模，模拟一般的多模态有偏认知诊断模型，训练过程中过度关注一种模态信息的建模。利用式(2)构建第r个模态n_r的有偏认知诊断模型，用于预测第i个学生u_i对第j个习题v_j的答题结果

式(2)中，是第i个学生u_i的有偏认知表征，/>是第j个习题v_j的有偏认知表征，q_u表示学生侧表征建模函数，/>表示习题侧建模表征函数，f表示基于学生和习题侧特征预测答题结果的交互函数；相比于式(1)来说，其主要区别在于两点：一是建模习题侧表征时，默认习题的除n_r模态以外的模态信息是空的，二是建模习题侧表征的方式采用/>不考虑多个模态信息的融合过程；

为了进一步放大模型训练时的偏差，训练该模型时，不采用常用的交叉熵BCE而是泛化交叉熵GCE。认知诊断的一般任务为：预测学生是否答对题目，在这种二分类任务设定下，利用式(3)构建泛化交叉熵损失

式(3)中，q∈(0,1]为超参数，控制偏差放大程度，q越大，则偏差放大程度越大；

利用式(3)构建有偏认知诊断模型的目标函数

步骤3、构造多模态无偏认知诊断模型；

多模态无偏认知诊断模型同时关注所有模态信息。本步骤旨在构造一个多模态无偏认知诊断模型，该模型接受所有模态信息的输入。利用式(5)构建多模态的无偏认知诊断模型，用于第i个预测学生u_i对第j个习题v_j的答题结果

式(5)中，是第i个学生u_i的无偏认知表征，/>是第j个习题v_j的无偏认知表征，/>表示习题侧的无偏建模表征函数；相比于式(2)来说，其主要区别在于两点：一是建模习题侧表征时，习题的诸多模态至少有一个不为空集。二是建模习题侧表征的方式采用/>将会考虑习题不同模态信息的融合过程。

训练该模型时，采用常见的二分类交叉熵BCE计算样本损失，利用式(6)构建二分类交叉熵损失

利用式(7)构建多模态无偏认知诊断模型的目标函数argminL：

式(7)中，H(i,j)表示对三元组(u_i,v_j,Y_ij)加权的权重，并有：

其中，针对多模态有偏认知诊断模型中过度依赖某种模态而引起的诊断偏差问题，在多模态无偏认知诊断模型每轮训练中，参考每个单模态有偏认知诊断模型在该轮输出的交叉熵，通过对每个样本的损失权重进行加权实现去偏。单个样本在单模态有偏模型中的熵越大，则该样本在多模态模型训练过程中，该模态可能比较难以学习，从而忽略对该模态的建模，因此，在无偏模型训练过程中，熵越大的样本则会提升权重，让模型更关注该样本的建模，进而实现去偏。根据式(8)，若某个样本在所有有偏模型中最大的熵越大，则权重越大，训练过程中，这类样本应当备受关注。

步骤4、认知诊断模型的同步训练：

步骤4.1定义当前迭代次数为iter，并初始化iter＝1；

步骤4.3将iter+1赋值给iter后，返回步骤4.2顺序执行，直至目标函数argminL收敛为止，从而得到训练好的多模态无偏认知诊断模型，用于实现多模态去偏。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

实施例：

本发明提出的面向习题侧多模态认知诊断的去偏方法，适配于大多现有的认知诊断模型。在本实施例中，将展示在NCDM模型上应用本发明提出的多模态去偏方法，该模型是认知诊断领域经典的基于神经网络的模型。此外，本实施例以习题文本和习题图片两种模态为例展示多模态场景，此时模态集合N＝{n₁＝文本,n₂＝图片}；

图2中的(a)部分展示了以NCDM为基础模型的文本模态有偏认知诊断模型架构，该模型利用文本信息来推理习题表征，其过程可用式(2)进行解读：函数g_u对应表征查询操作，给定学生编号u_i，查询该学生的表征函数/>对应TextCNN网络结构，给定习题v_i的文本信息/>输出习题的表征/>函数f对应参数全为正的神经网络；

图2中的(b)部分展示了以NCDM为基础模型的图片模态有偏认知诊断模型架构，该模型利用图片信息来推理习题表征，其过程可用公式(2)进行解读：函数g_u对应表征查询操作，给定学生编号u_i，查询该学生的表征函数/>对应ResNet网络结构，给定习题v_i的图片信息/>输出习题的表征/>函数f对应参数全为正的神经网络；

图2中的(c)部分展示了以NCDM为基础模型的多模态无偏认知诊断模型架构，该模型利用文本和图片信息来推理习题表征，其过程可用式(5)进行解读：函数g_u对应表征查询操作，给定学生编号u_i，查询该学生的表征函数/>对应操作：将习题文本输入到TextCNN网络得到的表征与习题图片输入到ResNet网络得到的表征进行融合，融合的表征作为最终的习题表征/>函数f对应参数全为正的神经网络。该模型根据自身的预测结果/>文本有偏模型的预测结果/>图片有偏模型的预测结果/>以及真实结果Y_ij，按照公式(10)的方式得到样本权重，最终按照式(7)的方式训练当前模型；

以上实施例仅表达了本发明应用在NCDM模型上的案例，其中如何建模文本或图片信息不包含在本发明范围内，本发明的思想可应用到大多认知诊断模型，利用两个有偏模型指导无偏模型的学习是本发明的核心思想，该思想是本发明专利所要申请的保护范围。

Claims

1.一种面向认知诊断的多模态去偏方法，其特征在于，是按如下步骤进行：

步骤1、构造多模态数据；

定义学生集合U＝{u₁，u₂，...，u_i,...,u_|U|}、习题集合，v₂，...，v_j，...，v_|V|}、知识点集合C＝{c₁，c₂，...，c_k，...,c_|C|}；其中，u_i表示第i个学生，v_j表示第j个习题，c_k表示第k个知识点，|U|表示学生的数量，|V|表示习题的数量，|C|表示知识点的数量，i＝1，2，…，|U|，j＝1，2，…，|V|，k＝1，2，…，|C|；

定义习题侧的多模态集合为N＝{n₁，n₂，...，n_r，...，n_|N|}，其中，n_r表示第r个模态，|N|表示模态的数量，r＝1，2，…，|N|；

定义所有习题在第r个模态n_r上的信息为其中，/>表示第j个习题v_j在第r个模态n_r上的信息，若第j个习题v_j不包含第r个模态n_r的信息，则令

将学生对习题的答题记录的交互矩阵记为Y∈{-1，0，1}^|U|×|V|，其中，Y_ij＝-1，0或1分别表示第i个学生u_i对第j个习题v_j回答错误，未答或回答正确；

将交互矩阵Y拆解为三元组集合T，令T中的任意一个三元组(u_i，v_j，Y_ij)表示第i个学生u_i回答第j个习题v_j所对应的答题标签Y_ij；且T中仅包含Y_ij＝-1或Y_ij＝1的三元组；

将习题与知识点的关系矩阵记为Q∈{0，1}^|V|×|C|，其中，Q_jk＝1或0表示第j个习题v_j与第k个知识点c_k相关或不相关，矩阵Q的第j行表示第j个习题v_j与每个知识点的相关关系；

步骤2、为每个模态构造单模态有偏认知诊断模型；

利用式(3)构建泛化交叉熵损失

式(3)中，q∈(0，1]为超参数；

利用式(3)构建有偏认知诊断模型的目标函数

步骤3、构造多模态无偏认知诊断模型；

利用式(6)构建二分类交叉熵损失

利用式(7)构建多模态无偏认知诊断模型的目标函数arg min L：

式(7)中，H(i，j)表示对三元组(u_i，v_j，Y_ij)加权的权重，并有：

步骤4、认知诊断模型的同步训练：

步骤4.1定义当前迭代次数为iter，并初始化iter＝1；

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述多模态去偏方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1所述多模态去偏方法的步骤。