CN111461442A

CN111461442A - 基于联邦学习的知识追踪的方法及系统

Info

Publication number: CN111461442A
Application number: CN202010265714.0A
Authority: CN
Inventors: 刘淇; 陈恩红; 吴金泽; 黄振亚; 王士进
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-28
Anticipated expiration: 2040-04-07
Also published as: CN111461442B

Abstract

本发明公开了一种基于联邦学习的知识追踪的方法及系统，相关方案运用深度知识追踪模型，结合循环神经网络对本地学生知识状态进行建模，同时计算本地数据的置信度；最终服务器结合置信度作为权重，加权平均各个模型的参数，得到全局知识追踪模型，进而更好的利用各个客户端的私有数据，并且保持数据隐私，最终更加准确的追踪建模学生的能力，弥补了现有方法泄露隐私信息，对教育数据质量的忽略等弊端。

Description

基于联邦学习的知识追踪的方法及系统

技术领域

本发明涉及教育数据挖掘技术领域，尤其涉及一种基于联邦学习的知识追踪的方法及系统。

背景技术

知识追踪是教育领域的一个重要的任务。随着智能教育系统的发展，大量学生以及老师入住到各种教育系统进行学习和评价。这就要求了智能教育系统能够合理的对学生能力进行评估，从而对学生做出针对性的意见和建议，继而辅助学生训练和提升。知识追踪技术应运而生，其目标在于根据学生的学习记录，对学生的知识状态，即知识的掌握程度随时间的变化过程进行追踪和建模，以便能够更为准确的预测学生在未来的知识水平以及学习中的表现，从而为学生提供个性化的辅导。

深度知识追踪是一种结合循环神经网络建模学生学习轨迹，并且拟合其知识状态的变化趋势的知识追踪技术。基于深度知识追踪的相关模型取得了出色的效果，因此已经被广泛地应用在教育领域的应用中。

然而，为了获得高质量的深度知识追踪模型，不可避免地需要在大规模的数据上进行训练。由于多方面的因素，教育领域面临着数据孤岛问题。

1)数据隐私。用于练习的数据通常是私有而且隐私敏感的。例如，学生和学校通常拒绝将他们的学习数据公开，因此使得收集数据面临很大的困难。因此，需要一种合适的方法，在保护数据隐私的情况下独立地训练DKT模型(知识追踪模型)的方法。

2)数据质量。根据相关研究，知识追踪任务极度依赖学习数据的质量。然而，不同的学校通常有着不同的教学进度和安排。不同学校的学习数据，通常具备不同的分布和设置(例如，教学进度、题目的难度等)，这些都反映出了数据质量的差异。因此，一个有效地为各个学校的数据评估质量的方法在本任务中是非常重要的。

3)数据可比性。最近的工作一直在强调来源不同的学生的可比性。换句话说，我们对两个学生的能力的偏序比较看重。因此，设计解决方案时需要考虑到这个需求。

联邦学习为我们提出了解决方案。联邦学习是近些年来最受关注的技术之一，在诸如医疗、银行业等各个领域都取得了巨大的成功。联邦学习的主要思想是基于跨多个设备存储的数据构建机器学习模型，首先进行多个客户端本地模型的训练，在本地模型构建和训练过程中不涉及到其他客户端数据的交互。在本地模型聚合步骤，只涉及模型参数的传递和聚合。从而防止了数据泄漏，保护了数据隐私。从技术角度来看，现有的联邦学习算法主要分为，水平联邦学习，垂直联邦学习和联邦迁移学习三类。

目前，关于联邦学习的应用，其在分布的模型的聚合阶段，研究者们提出了多种聚合策略。但是，现有的联邦学习研究主要集中在基于数据规模汇总本地模型。简单的由数据规模作为模型聚合的权重，忽略了客户端数据的独特性。尤其是教育数据的质量特征。这将导致了数据量大的客户端子模型将受到较大的关注，即使该子模型并没有更佳的建模和追踪效果。

发明内容

本发明的目的是提供一种基于联邦学习的知识追踪的方法及系统，其目的是考虑数据质量的前提下，为多个学校单位基于其私有数据训练知识追踪模型，知识追踪模型能够充分利用隔离的私密数据，较为准确的预测学生表现，追踪学生能力变化。

本发明的目的是通过以下技术方案实现的：

一种基于联邦学习的知识追踪的方法，包括：

以学校为单位搜集各学校内学生的历史答题信息；

每一客户端独自利用一个学校内学生的历史答题信息，使用深度知识追踪框架建模本地深度知识追踪模型，并将模型参数发送至服务器；以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估，并将获得的置信度发送至服务器；

服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合，获得全局知识追踪模型的参数，并分发更新各个客户端；

各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数，以此实现各学生的知识追踪。

由上述本发明提供的技术方案可以看出，运用深度知识追踪模型，结合循环神经网络对本地学生知识状态进行建模，同时计算本地数据的置信度；最终服务器结合置信度作为权重，加权平均各个模型的参数，得到全局知识追踪模型，进而更好的利用各个客户端的私有数据，并且保持数据隐私，最终更加准确的追踪建模学生的能力，弥补了现有方法泄露隐私信息，对教育数据质量的忽略等弊端。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于联邦学习的知识追踪的方法的流程图；

图2为本发明实施例提供的一种基于联邦学习的知识追踪的系统的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于联邦学习的知识追踪的方法，如图1所示，主要包括：

步骤11、以学校为单位搜集各学校内学生的历史答题信息。

本发明实施例中，历史答题信息可以从在线学习平台智学网或ASSITments获得，主要包括：试题、试题得分情况以及试题所涉及的知识点(Q矩阵)。

本发明实施例中，确定了搜集数据的客户端范围，其中包含了|S|个隔离的学校，对于一个学校s，包含了N_s个学生以及Q_s个试题，定义一个学生的历史答题信息为r＝{(q₁，g₁)，...，(q_l，g_l)}，其中，q_l表示学生在第l步时训练的试题，l≤Qs，g_l表示对应的两分制得分，当回答正确时，得分为1，反之为0，每一试题均被教育学专家预先标注为K个不同的知识点。

步骤12、每一客户端独自利用一个学校内学生的历史答题信息，使用深度知识追踪框架建模本地深度知识追踪模型，并将模型参数发送至服务器；以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估，并将获得的置信度发送至服务器。

本步骤分为两个部分：第一部分为建模本地深度知识追踪模型，第二部分为计算本地数据的置信度，各部分优选方式如下：

1、建模本地深度知识追踪模型。

每一客户端独自利用一个学校内学生的历史答题信息，即对于S个隔离的学校，使用了S个客户端一对一的利用学校内学生的历史答题信息使用深度知识追踪框架进行建模，各客户端执行过程完全相同。

首先，对每一学生的历史答题信息进行one-hot编码(独热编码)，一个学生历史答题信息中第l步时训练的题目q_l与对应得分g_l构成的试题-回答对(q_l，g_l)的one-hot编码结果表示为

其中，Q_s为试题数目。

本地深度知识追踪模型使用循环神经网络建模隐层知识表示h_l并输出对应的知识状态yl：

h_l＝tanh(W_hxx_l+W_hhh_l-1+b_h)

y_l＝sigmoid(W_yhh_l+b_y)

其中，h_l-1表示第l-1步的隐层知识表示，W_hx、W_hh、W_yh分别为x_l、h_l-1、h_l的权重，b_h与b_y为模型的偏置项；

给定每一学生的历史答题信息，按照训练时序，逐步输入至本地深度知识追踪模型，本地深度知识追踪模型中当前步计算出的隐层知识表示作为下一步的输入，初始的隐藏知识表示h₀是预先设定的，通过迭代训练，直至收敛，最终会输出每个学生在1～l个时间步内的知识点掌握程度，即知识状态。

知识状态是对学生在这l个时间步的长期动态的追踪结果，可以帮助学生对于过去这段时间的学习状态做归纳和总结，同时制定下个阶段的针对性学习策略。在此过程中，不涉及到与其他客户端的数据交互，保持了数据的私密性。

需要说明的是，文中仅给出了学生的历史答题信息r中第l步相关信息的处理方式，其它时间步(第1～第l-1步)的处理方式也是参照上述方式，区别仅在于表示时间步的下标不同。

2、计算本地数据的置信度。

本发明实施例中，提供两种置信度计算方式，所有客户端可以同时采用以下任一种方式。

1)使用经典测量理论计算置信度，定义一个学校的历史答题信息中的试题的CTT置信度为：

α_CTT＝F(P(Q_s)+D(Q_s)+CR(Q_s))

其中，F(·)为任意的函数，例如，累乘、累加等，P(Q_s)、D(Q_s)和CR(Q_s)分别计算了Q_s个试题的难度、区分度和信度；

其中，试题的难度反映了正确作答试题的困难程度，试题的区分度反映了试题区分学生知识状态的能力；采用经典的极端组法计算试题的难度和区分度；对于试题i，根据学生的历史答题信息选出作答了试题i的学生，将学生按照得分降序排序，利用设定的比例，划分出高分学生组以及低分学生组，例如，比例可设为百分之三十，得分靠前的百分之三十的学生划为高分学生组，其余为低分学生组，记高分学生组与低分学生组在试题i上的平均得分

和

计算试题i的难度为

最终计算Q_s个试题难度的公式为：

在试卷设计过程中，组卷人通常会控制试题的总体难度在一个参考值附近，以达到控制试卷难度合理的目的。

计算试题i的区分度为

最终计算Q_s个试题区分度的公式为：

其中，β_i表示试题i在历史答题信息上出现频率的分布，P₀是难度的参考值；

试题的信度反映了试题之间的一致性，利用经典的Cronbach信度计算试题的信度：

其中，

与

分别为试题i上的学生平均分的方差和总分的方差。

示例性的，可以简单的利用累乘实例化函数F，则有：

α_CTT＝P(Q_s)+D(Q_s)+CR(Q_s)

2)使用项目反应理论计算置信度，项目响应理论(IRT)是一种通过设计具有项目特征曲线(ICC)的信息函数从模型的角度直接评估测试数据质量的典型方法。通常，IRT根据信息量评估数据质量，具体来说：

定义一个学校的历史答题信息中的试题的IRT置信度为：

其中，Q_s为试题数目，β_i表示试题i在历史答题信息上出现频率的分布，I_i(θ)是试题i的信息函数，计算公式为：

其中，P_i(θ)为基于项目特征曲线的项目响应理论模型，表示为：

其中，P′_i(θ)表示为P_i(θ)的导数，D为常数(例如，可以为1.7)，θ为学生能力参数，a_i、b_i、c_i分别为试题区分度、难度、猜测系数的试题特征参数。

通过以上两部分，实现了客户端本地功能的设计，这两部分获得的数据都将传输给服务器。

步骤13、服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合，获得全局知识追踪模型的参数，并分发更新各个客户端。

在第t轮，服务器会收到来个各个客户端发送的两部分数据：置信度

(即通过前述公式计算出的α_CTT或者α_IRT)、以及模型参数

其中，S表示客户端数目。模型参数也即步骤12中建模本地深度知识追踪模型时所介绍的权重W、偏置b。

服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合的公式为：

其中，

是正则化的置信度，也就是第t轮模型聚合的权重，Θ^t为第t轮计算出的全局知识追踪模型的参数。此外，通过模型聚合过程，将以一致的维度集成模型，从而使全局模型有意义，并在所有客户端之间执行可比的结果。

之后，服务器将模型参数分发给客户端，以训练本地深度知识追踪模型。特别地，在迭代的开始，即t＝1时，客户端遵循相同的过程，随机地生成具有均匀分布的参数来初始化本地DKT。

步骤14、各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数，以此实现各学生的知识追踪。

获得新的模型参数后，客户端利用新的模型参数结合输入的学生历史答题信息的one-hot编码按照前文相同的公式进行计算，获得相应的知识状态；此后，还可以将得到的知识状态输入至一个神经网络的线性层，从而预测学生在未来的表现。

此外，如之前所述，实现学生知识追踪后，可以根据得到的知识状态为学生提供个性化的辅导，例如，根据学生知识状态从试题库中筛选相应的试题并推荐给学生。

本发明实施例上述方案，针对不同客户端的学生历史答题信息，按照学校进行划分，运用深度知识追踪模型，结合循环神经网络对本地学生知识状态进行建模。同时引入教育测量理论中的重要理论，经典测量理论和项目反应理论对本地数据质量进行评估，得到置信度。最终服务器结合置信度作为权重，加权平均各个模型的参数，得到全局知识追踪模型，进而更好的利用各个客户端的私有数据，并且保持数据隐私，最终更加准确的追踪建模学生的能力。弥补了现有方法泄露隐私信息，对教育数据质量的忽略等弊端。

本发明另一实施例还提供一种基于联邦学习的知识追踪的系统，该系统用于实现前述实施例提供的方法，如图2所示，该系统主要包括：信息搜索部分、多个客户端与服务器；

信息搜索部分，用于以学校为单位搜集各学校内学生的历史答题信息；

系统各部分所涉及的技术细节在之前的实施例已经进行了详细的说明，故不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于联邦学习的知识追踪的方法，其特征在于，包括：

以学校为单位搜集各学校内学生的历史答题信息；

2.根据权利要求1所述的一种基于联邦学习的知识追踪的方法，其特征在于，历史答题信息包括：试题、试题得分情况以及试题所涉及的知识点；

对于一个学校s，包含了N_s个学生以及Q_s个试题，定义一个学生的历史答题信息为r＝{(q₁，g₁)，...，(q_l，g_l)}，其中，q_l表示学生在第l步时训练的试题，l≤Q_s，g_l表示对应的两分制得分，当回答正确时，得分为1，反之为0，每一试题均被教育学专家预先标注为K个不同的知识点。

3.根据权利要求1或2所述的一种基于联邦学习的知识追踪的方法，其特征在于，每一客户端独自利用一个学校内学生的历史答题信息，使用深度知识追踪框架进行建模包括：

对每一学生的历史答题信息进行one-hot编码，一个学生历史答题信息中第l步时训练的题目q_l与对应得分g_l构成的试题-回答对(q_l，g_l)的one-hot编码结果表示为x_l∈

其中，Q_s为试题数目；

本地深度知识追踪模型使用循环神经网络建模隐层知识表示h_l并输出对应的知识状态y_l：

h_l＝tanh(W_hxx_l+W_hhh_l-1+b_h)

y_l＝sigmoid(W_yhh_l+b_y)

其中，h_l-1表示第l-1步的隐层知识表示，W_hx、W_hh、W_yh分别为x_l、h_l-1、h_l的权重，b_h与b_v为模型的偏置项；

4.根据权利要求1所述的一种基于联邦学习的知识追踪的方法，其特征在于，使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估包括：

使用经典测量理论计算置信度，定义一个学校的历史答题信息中的试题的CTT置信度为：

α_CTT＝F(P(Q_s)+D(Q_s)+CR(Q_s))

其中，F(·)为任意的函数，P(Q_s)、D(Q_s)和CR(Q_s)分别计算了Q_s个试题的难度、区分度和信度；

其中，试题的难度反映了正确作答试题的困难程度，试题的区分度反映了试题区分学生知识状态的能力；采用经典的极端组法计算试题的难度和区分度；对于试题i，根据学生的历史答题信息选出作答了试题i的学生，将学生按照得分降序排序，利用设定的比例，划分出高分学生组以及低分学生组，记高分学生组与低分学生组在试题i上的平均得分