CN111461442A - 基于联邦学习的知识追踪的方法及系统 - Google Patents

基于联邦学习的知识追踪的方法及系统 Download PDF

Info

Publication number
CN111461442A
CN111461442A CN202010265714.0A CN202010265714A CN111461442A CN 111461442 A CN111461442 A CN 111461442A CN 202010265714 A CN202010265714 A CN 202010265714A CN 111461442 A CN111461442 A CN 111461442A
Authority
CN
China
Prior art keywords
knowledge
model
answer information
knowledge tracking
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010265714.0A
Other languages
English (en)
Other versions
CN111461442B (zh
Inventor
刘淇
陈恩红
吴金泽
黄振亚
王士进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010265714.0A priority Critical patent/CN111461442B/zh
Publication of CN111461442A publication Critical patent/CN111461442A/zh
Application granted granted Critical
Publication of CN111461442B publication Critical patent/CN111461442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Educational Technology (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于联邦学习的知识追踪的方法及系统,相关方案运用深度知识追踪模型,结合循环神经网络对本地学生知识状态进行建模,同时计算本地数据的置信度;最终服务器结合置信度作为权重,加权平均各个模型的参数,得到全局知识追踪模型,进而更好的利用各个客户端的私有数据,并且保持数据隐私,最终更加准确的追踪建模学生的能力,弥补了现有方法泄露隐私信息,对教育数据质量的忽略等弊端。

Description

基于联邦学习的知识追踪的方法及系统
技术领域
本发明涉及教育数据挖掘技术领域,尤其涉及一种基于联邦学习的知识追踪的方法及系统。
背景技术
知识追踪是教育领域的一个重要的任务。随着智能教育系统的发展,大量学生以及老师入住到各种教育系统进行学习和评价。这就要求了智能教育系统能够合理的对学生能力进行评估,从而对学生做出针对性的意见和建议,继而辅助学生训练和提升。知识追踪技术应运而生,其目标在于根据学生的学习记录,对学生的知识状态,即知识的掌握程度随时间的变化过程进行追踪和建模,以便能够更为准确的预测学生在未来的知识水平以及学习中的表现,从而为学生提供个性化的辅导。
深度知识追踪是一种结合循环神经网络建模学生学习轨迹,并且拟合其知识状态的变化趋势的知识追踪技术。基于深度知识追踪的相关模型取得了出色的效果,因此已经被广泛地应用在教育领域的应用中。
然而,为了获得高质量的深度知识追踪模型,不可避免地需要在大规模的数据上进行训练。由于多方面的因素,教育领域面临着数据孤岛问题。
1)数据隐私。用于练习的数据通常是私有而且隐私敏感的。例如,学生和学校通常拒绝将他们的学习数据公开,因此使得收集数据面临很大的困难。因此,需要一种合适的方法,在保护数据隐私的情况下独立地训练DKT模型(知识追踪模型)的方法。
2)数据质量。根据相关研究,知识追踪任务极度依赖学习数据的质量。然而,不同的学校通常有着不同的教学进度和安排。不同学校的学习数据,通常具备不同的分布和设置(例如,教学进度、题目的难度等),这些都反映出了数据质量的差异。因此,一个有效地为各个学校的数据评估质量的方法在本任务中是非常重要的。
3)数据可比性。最近的工作一直在强调来源不同的学生的可比性。换句话说,我们对两个学生的能力的偏序比较看重。因此,设计解决方案时需要考虑到这个需求。
联邦学习为我们提出了解决方案。联邦学习是近些年来最受关注的技术之一,在诸如医疗、银行业等各个领域都取得了巨大的成功。联邦学习的主要思想是基于跨多个设备存储的数据构建机器学习模型,首先进行多个客户端本地模型的训练,在本地模型构建和训练过程中不涉及到其他客户端数据的交互。在本地模型聚合步骤,只涉及模型参数的传递和聚合。从而防止了数据泄漏,保护了数据隐私。从技术角度来看,现有的联邦学习算法主要分为,水平联邦学习,垂直联邦学习和联邦迁移学习三类。
目前,关于联邦学习的应用,其在分布的模型的聚合阶段,研究者们提出了多种聚合策略。但是,现有的联邦学习研究主要集中在基于数据规模汇总本地模型。简单的由数据规模作为模型聚合的权重,忽略了客户端数据的独特性。尤其是教育数据的质量特征。这将导致了数据量大的客户端子模型将受到较大的关注,即使该子模型并没有更佳的建模和追踪效果。
发明内容
本发明的目的是提供一种基于联邦学习的知识追踪的方法及系统,其目的是考虑数据质量的前提下,为多个学校单位基于其私有数据训练知识追踪模型,知识追踪模型能够充分利用隔离的私密数据,较为准确的预测学生表现,追踪学生能力变化。
本发明的目的是通过以下技术方案实现的:
一种基于联邦学习的知识追踪的方法,包括:
以学校为单位搜集各学校内学生的历史答题信息;
每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;
各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。
由上述本发明提供的技术方案可以看出,运用深度知识追踪模型,结合循环神经网络对本地学生知识状态进行建模,同时计算本地数据的置信度;最终服务器结合置信度作为权重,加权平均各个模型的参数,得到全局知识追踪模型,进而更好的利用各个客户端的私有数据,并且保持数据隐私,最终更加准确的追踪建模学生的能力,弥补了现有方法泄露隐私信息,对教育数据质量的忽略等弊端。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于联邦学习的知识追踪的方法的流程图;
图2为本发明实施例提供的一种基于联邦学习的知识追踪的系统的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于联邦学习的知识追踪的方法,如图1所示,主要包括:
步骤11、以学校为单位搜集各学校内学生的历史答题信息。
本发明实施例中,历史答题信息可以从在线学习平台智学网或ASSITments获得,主要包括:试题、试题得分情况以及试题所涉及的知识点(Q矩阵)。
本发明实施例中,确定了搜集数据的客户端范围,其中包含了|S|个隔离的学校,对于一个学校s,包含了Ns个学生以及Qs个试题,定义一个学生的历史答题信息为r={(q1,g1),...,(ql,gl)},其中,ql表示学生在第l步时训练的试题,l≤Qs,gl表示对应的两分制得分,当回答正确时,得分为1,反之为0,每一试题均被教育学专家预先标注为K个不同的知识点。
步骤12、每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器。
本步骤分为两个部分:第一部分为建模本地深度知识追踪模型,第二部分为计算本地数据的置信度,各部分优选方式如下:
1、建模本地深度知识追踪模型。
每一客户端独自利用一个学校内学生的历史答题信息,即对于S个隔离的学校,使用了S个客户端一对一的利用学校内学生的历史答题信息使用深度知识追踪框架进行建模,各客户端执行过程完全相同。
首先,对每一学生的历史答题信息进行one-hot编码(独热编码),一个学生历史答题信息中第l步时训练的题目ql与对应得分gl构成的试题-回答对(ql,gl)的one-hot编码结果表示为
Figure BDA0002440629230000041
其中,Qs为试题数目。
本地深度知识追踪模型使用循环神经网络建模隐层知识表示hl并输出对应的知识状态yl:
hl=tanh(Whxxl+Whhhl-1+bh)
yl=sigmoid(Wyhhl+by)
其中,hl-1表示第l-1步的隐层知识表示,Whx、Whh、Wyh分别为xl、hl-1、hl的权重,bh与by为模型的偏置项;
给定每一学生的历史答题信息,按照训练时序,逐步输入至本地深度知识追踪模型,本地深度知识追踪模型中当前步计算出的隐层知识表示作为下一步的输入,初始的隐藏知识表示h0是预先设定的,通过迭代训练,直至收敛,最终会输出每个学生在1~l个时间步内的知识点掌握程度,即知识状态。
知识状态是对学生在这l个时间步的长期动态的追踪结果,可以帮助学生对于过去这段时间的学习状态做归纳和总结,同时制定下个阶段的针对性学习策略。在此过程中,不涉及到与其他客户端的数据交互,保持了数据的私密性。
需要说明的是,文中仅给出了学生的历史答题信息r中第l步相关信息的处理方式,其它时间步(第1~第l-1步)的处理方式也是参照上述方式,区别仅在于表示时间步的下标不同。
2、计算本地数据的置信度。
本发明实施例中,提供两种置信度计算方式,所有客户端可以同时采用以下任一种方式。
1)使用经典测量理论计算置信度,定义一个学校的历史答题信息中的试题的CTT置信度为:
αCTT=F(P(Qs)+D(Qs)+CR(Qs))
其中,F(·)为任意的函数,例如,累乘、累加等,P(Qs)、D(Qs)和CR(Qs)分别计算了Qs个试题的难度、区分度和信度;
其中,试题的难度反映了正确作答试题的困难程度,试题的区分度反映了试题区分学生知识状态的能力;采用经典的极端组法计算试题的难度和区分度;对于试题i,根据学生的历史答题信息选出作答了试题i的学生,将学生按照得分降序排序,利用设定的比例,划分出高分学生组以及低分学生组,例如,比例可设为百分之三十,得分靠前的百分之三十的学生划为高分学生组,其余为低分学生组,记高分学生组与低分学生组在试题i上的平均得分
Figure BDA0002440629230000051
Figure BDA0002440629230000052
计算试题i的难度为
Figure BDA0002440629230000053
最终计算Qs个试题难度的公式为:
Figure BDA0002440629230000054
在试卷设计过程中,组卷人通常会控制试题的总体难度在一个参考值附近,以达到控制试卷难度合理的目的。
计算试题i的区分度为
Figure BDA0002440629230000055
最终计算Qs个试题区分度的公式为:
Figure BDA0002440629230000056
其中,βi表示试题i在历史答题信息上出现频率的分布,P0是难度的参考值;
试题的信度反映了试题之间的一致性,利用经典的Cronbach信度计算试题的信度:
Figure BDA0002440629230000057
其中,
Figure BDA0002440629230000058
Figure BDA0002440629230000059
分别为试题i上的学生平均分的方差和总分的方差。
示例性的,可以简单的利用累乘实例化函数F,则有:
αCTT=P(Qs)+D(Qs)+CR(Qs)
2)使用项目反应理论计算置信度,项目响应理论(IRT)是一种通过设计具有项目特征曲线(ICC)的信息函数从模型的角度直接评估测试数据质量的典型方法。通常,IRT根据信息量评估数据质量,具体来说:
定义一个学校的历史答题信息中的试题的IRT置信度为:
Figure BDA00024406292300000510
其中,Qs为试题数目,βi表示试题i在历史答题信息上出现频率的分布,Ii(θ)是试题i的信息函数,计算公式为:
Figure BDA0002440629230000061
其中,Pi(θ)为基于项目特征曲线的项目响应理论模型,表示为:
Figure BDA0002440629230000062
其中,P′i(θ)表示为Pi(θ)的导数,D为常数(例如,可以为1.7),θ为学生能力参数,ai、bi、ci分别为试题区分度、难度、猜测系数的试题特征参数。
通过以上两部分,实现了客户端本地功能的设计,这两部分获得的数据都将传输给服务器。
步骤13、服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端。
在第t轮,服务器会收到来个各个客户端发送的两部分数据:置信度
Figure BDA0002440629230000063
(即通过前述公式计算出的αCTT或者αIRT)、以及模型参数
Figure BDA0002440629230000064
其中,S表示客户端数目。模型参数也即步骤12中建模本地深度知识追踪模型时所介绍的权重W、偏置b。
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合的公式为:
Figure BDA0002440629230000065
Figure BDA0002440629230000066
其中,
Figure BDA0002440629230000067
是正则化的置信度,也就是第t轮模型聚合的权重,Θt为第t轮计算出的全局知识追踪模型的参数。此外,通过模型聚合过程,将以一致的维度集成模型,从而使全局模型有意义,并在所有客户端之间执行可比的结果。
之后,服务器将模型参数分发给客户端,以训练本地深度知识追踪模型。特别地,在迭代的开始,即t=1时,客户端遵循相同的过程,随机地生成具有均匀分布的参数来初始化本地DKT。
步骤14、各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。
获得新的模型参数后,客户端利用新的模型参数结合输入的学生历史答题信息的one-hot编码按照前文相同的公式进行计算,获得相应的知识状态;此后,还可以将得到的知识状态输入至一个神经网络的线性层,从而预测学生在未来的表现。
此外,如之前所述,实现学生知识追踪后,可以根据得到的知识状态为学生提供个性化的辅导,例如,根据学生知识状态从试题库中筛选相应的试题并推荐给学生。
本发明实施例上述方案,针对不同客户端的学生历史答题信息,按照学校进行划分,运用深度知识追踪模型,结合循环神经网络对本地学生知识状态进行建模。同时引入教育测量理论中的重要理论,经典测量理论和项目反应理论对本地数据质量进行评估,得到置信度。最终服务器结合置信度作为权重,加权平均各个模型的参数,得到全局知识追踪模型,进而更好的利用各个客户端的私有数据,并且保持数据隐私,最终更加准确的追踪建模学生的能力。弥补了现有方法泄露隐私信息,对教育数据质量的忽略等弊端。
本发明另一实施例还提供一种基于联邦学习的知识追踪的系统,该系统用于实现前述实施例提供的方法,如图2所示,该系统主要包括:信息搜索部分、多个客户端与服务器;
信息搜索部分,用于以学校为单位搜集各学校内学生的历史答题信息;
每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;
各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。
系统各部分所涉及的技术细节在之前的实施例已经进行了详细的说明,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于联邦学习的知识追踪的方法,其特征在于,包括:
以学校为单位搜集各学校内学生的历史答题信息;
每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;
各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。
2.根据权利要求1所述的一种基于联邦学习的知识追踪的方法,其特征在于,历史答题信息包括:试题、试题得分情况以及试题所涉及的知识点;
对于一个学校s,包含了Ns个学生以及Qs个试题,定义一个学生的历史答题信息为r={(q1,g1),...,(ql,gl)},其中,ql表示学生在第l步时训练的试题,l≤Qs,gl表示对应的两分制得分,当回答正确时,得分为1,反之为0,每一试题均被教育学专家预先标注为K个不同的知识点。
3.根据权利要求1或2所述的一种基于联邦学习的知识追踪的方法,其特征在于,每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架进行建模包括:
对每一学生的历史答题信息进行one-hot编码,一个学生历史答题信息中第l步时训练的题目ql与对应得分gl构成的试题-回答对(ql,gl)的one-hot编码结果表示为xl
Figure FDA0002440629220000011
其中,Qs为试题数目;
本地深度知识追踪模型使用循环神经网络建模隐层知识表示hl并输出对应的知识状态yl
hl=tanh(Whxxl+Whhhl-1+bh)
yl=sigmoid(Wyhhl+by)
其中,hl-1表示第l-1步的隐层知识表示,Whx、Whh、Wyh分别为xl、hl-1、hl的权重,bh与bv为模型的偏置项;
给定每一学生的历史答题信息,按照训练时序,逐步输入至本地深度知识追踪模型,本地深度知识追踪模型中当前步计算出的隐层知识表示作为下一步的输入,初始的隐藏知识表示h0是预先设定的,通过迭代训练,直至收敛,最终会输出每个学生在1~l个时间步内的知识点掌握程度,即知识状态。
4.根据权利要求1所述的一种基于联邦学习的知识追踪的方法,其特征在于,使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估包括:
使用经典测量理论计算置信度,定义一个学校的历史答题信息中的试题的CTT置信度为:
αCTT=F(P(Qs)+D(Qs)+CR(Qs))
其中,F(·)为任意的函数,P(Qs)、D(Qs)和CR(Qs)分别计算了Qs个试题的难度、区分度和信度;
其中,试题的难度反映了正确作答试题的困难程度,试题的区分度反映了试题区分学生知识状态的能力;采用经典的极端组法计算试题的难度和区分度;对于试题i,根据学生的历史答题信息选出作答了试题i的学生,将学生按照得分降序排序,利用设定的比例,划分出高分学生组以及低分学生组,记高分学生组与低分学生组在试题i上的平均得分
Figure FDA0002440629220000021
Figure FDA0002440629220000022
计算试题i的难度为
Figure FDA0002440629220000023
最终计算Qs个试题难度的公式为:
Figure FDA0002440629220000024
计算试题i的区分度为
Figure FDA0002440629220000025
最终计算Qs个试题区分度的公式为:
Figure FDA0002440629220000026
其中,βi表示试题i在历史答题信息上出现频率的分布,P0是难度的参考值;
试题的信度反映了试题之间的一致性,利用经典的Cronbach信度计算试题的信度:
Figure FDA0002440629220000027
其中,
Figure FDA0002440629220000028
Figure FDA0002440629220000029
分别为试题i上的学生平均分的方差和总分的方差。
5.根据权利要求1所述的一种基于联邦学习的知识追踪的方法,其特征在于,使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估包括:
使用项目反应理论计算置信度,定义一个学校的历史答题信息中的试题的置信度为:
Figure FDA00024406292200000210
其中,Qs为试题数目,βi表示试题i在历史答题信息上出现频率的分布,Ii(θ)是试题i的信息函数,计算公式为:
Figure FDA0002440629220000031
其中,Pi(θ)为基于项目特征曲线的项目响应理论模型,表示为:
Figure FDA0002440629220000032
其中,P′i(θ)为Pi(θ)的导数,D为常数,θ为学生能力参数,ai、bi、ci分别为试题区分度、难度、猜测系数的试题特征参数。
6.根据权利要求1所述的一种基于联邦学习的知识追踪的方法,其特征在于,服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数包括:
在第t轮,服务器会收到来个各个客户端发送的两部分数据:置信度
Figure FDA0002440629220000033
以及模型参数
Figure FDA0002440629220000034
其中,S表示客户端数目;
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合的公式为:
Figure FDA0002440629220000035
Figure FDA0002440629220000036
其中,
Figure FDA0002440629220000037
是正则化的置信度,Θt为第t轮计算出的全局知识追踪模型的参数。
7.一种基于联邦学习的知识追踪的系统,其特征在于,用于实现权利要求1~6任一项所述的方法,该系统包括:信息搜索部分、多个客户端与服务器;
信息搜索部分,用于以学校为单位搜集各学校内学生的历史答题信息;
每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;
各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。
CN202010265714.0A 2020-04-07 2020-04-07 基于联邦学习的知识追踪的方法及系统 Active CN111461442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010265714.0A CN111461442B (zh) 2020-04-07 2020-04-07 基于联邦学习的知识追踪的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010265714.0A CN111461442B (zh) 2020-04-07 2020-04-07 基于联邦学习的知识追踪的方法及系统

Publications (2)

Publication Number Publication Date
CN111461442A true CN111461442A (zh) 2020-07-28
CN111461442B CN111461442B (zh) 2023-08-29

Family

ID=71678478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010265714.0A Active CN111461442B (zh) 2020-04-07 2020-04-07 基于联邦学习的知识追踪的方法及系统

Country Status (1)

Country Link
CN (1) CN111461442B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116092A (zh) * 2020-08-11 2020-12-22 浙江师范大学 可解释性知识水平追踪方法、系统和存储介质
CN112231373A (zh) * 2020-11-04 2021-01-15 腾讯科技(深圳)有限公司 知识点数据的处理方法、装置、设备和计算机可读介质
CN112416986A (zh) * 2020-11-23 2021-02-26 中国科学技术大学 基于分层个性化联邦学习的用户画像实现方法及系统
CN112949935A (zh) * 2021-03-26 2021-06-11 华中师范大学 融合学生知识点题目交互信息的知识追踪方法与系统
CN113268611A (zh) * 2021-06-24 2021-08-17 北京邮电大学 一种基于深度知识跟踪与强化学习的学习路径优化方法
CN117744783A (zh) * 2024-01-29 2024-03-22 暨南大学 一种基于人在回路的知识追踪方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050123891A1 (en) * 2003-12-09 2005-06-09 North Carolina State University Systems, methods and computer program products for standardizing expert-driven assessments
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
US20190227980A1 (en) * 2018-01-22 2019-07-25 Google Llc Training User-Level Differentially Private Machine-Learned Models
CN110297848A (zh) * 2019-07-09 2019-10-01 深圳前海微众银行股份有限公司 基于联邦学习的推荐模型训练方法、终端及存储介质
CN110428010A (zh) * 2019-08-05 2019-11-08 中国科学技术大学 知识追踪方法
CN110572253A (zh) * 2019-09-16 2019-12-13 济南大学 一种联邦学习训练数据隐私性增强方法及系统
CN110807509A (zh) * 2018-08-06 2020-02-18 北京博智天下信息技术有限公司 一种基于贝叶斯神经网络的深度知识追踪方法
CN110874484A (zh) * 2019-10-16 2020-03-10 众安信息技术服务有限公司 基于神经网络和联邦学习的数据处理方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050123891A1 (en) * 2003-12-09 2005-06-09 North Carolina State University Systems, methods and computer program products for standardizing expert-driven assessments
US20190227980A1 (en) * 2018-01-22 2019-07-25 Google Llc Training User-Level Differentially Private Machine-Learned Models
CN110807509A (zh) * 2018-08-06 2020-02-18 北京博智天下信息技术有限公司 一种基于贝叶斯神经网络的深度知识追踪方法
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN110297848A (zh) * 2019-07-09 2019-10-01 深圳前海微众银行股份有限公司 基于联邦学习的推荐模型训练方法、终端及存储介质
CN110428010A (zh) * 2019-08-05 2019-11-08 中国科学技术大学 知识追踪方法
CN110572253A (zh) * 2019-09-16 2019-12-13 济南大学 一种联邦学习训练数据隐私性增强方法及系统
CN110874484A (zh) * 2019-10-16 2020-03-10 众安信息技术服务有限公司 基于神经网络和联邦学习的数据处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HABIB M. FARDOUN: "Improving learning methods through student\'s opinion into teacher\'s curricula Using graphical representations" *
刘俊旭;孟小峰;: "机器学习的隐私保护研究综述", no. 02 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116092A (zh) * 2020-08-11 2020-12-22 浙江师范大学 可解释性知识水平追踪方法、系统和存储介质
CN112231373A (zh) * 2020-11-04 2021-01-15 腾讯科技(深圳)有限公司 知识点数据的处理方法、装置、设备和计算机可读介质
CN112231373B (zh) * 2020-11-04 2024-04-09 腾讯科技(深圳)有限公司 知识点数据的处理方法、装置、设备和计算机可读介质
CN112416986A (zh) * 2020-11-23 2021-02-26 中国科学技术大学 基于分层个性化联邦学习的用户画像实现方法及系统
CN112416986B (zh) * 2020-11-23 2024-03-29 中国科学技术大学 基于分层个性化联邦学习的用户画像实现方法及系统
CN112949935A (zh) * 2021-03-26 2021-06-11 华中师范大学 融合学生知识点题目交互信息的知识追踪方法与系统
CN112949935B (zh) * 2021-03-26 2022-06-17 华中师范大学 融合学生知识点题目交互信息的知识追踪方法与系统
CN113268611A (zh) * 2021-06-24 2021-08-17 北京邮电大学 一种基于深度知识跟踪与强化学习的学习路径优化方法
CN117744783A (zh) * 2024-01-29 2024-03-22 暨南大学 一种基于人在回路的知识追踪方法及系统

Also Published As

Publication number Publication date
CN111461442B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN111461442B (zh) 基于联邦学习的知识追踪的方法及系统
Dutt et al. Clustering algorithms applied in educational data mining
Lykourentzou et al. Early and dynamic student achievement prediction in e‐learning courses using neural networks
Chen et al. Mobile formative assessment tool based on data mining techniques for supporting web-based learning
Purwoningsih et al. Online Learners' behaviors detection using exploratory data analysis and machine learning approach
Wu et al. Exam paper generation based on performance prediction of student group
CN110807509A (zh) 一种基于贝叶斯神经网络的深度知识追踪方法
CN114491057A (zh) 基于知识图谱的学习路径推荐方法、系统、计算机及介质
CN112416986A (zh) 基于分层个性化联邦学习的用户画像实现方法及系统
Wang et al. A data mining approach for training evaluation in simulation-based training
CN114429212A (zh) 智能学习知识能力跟踪方法、电子设备及存储介质
Kshirsagar et al. Human intelligence analysis through perception of AI in teaching and learning
Rusydiyah et al. Clustering of learning media user data during Covid-19 Pandemic using K-Means method based on multicultural culture in Indonesia
Wang Exploration on the operation status and optimization strategy of networked teaching of physical education curriculum based on AI algorithm
Kozierkiewicz-Hetmańska et al. A method for learning scenario determination and modification in intelligent tutoring systems
CN115795015A (zh) 一种试题难度增强的综合知识追踪方法
Barrett et al. Learning engineering uses data (Part 2): Analytics
CN112784154B (zh) 一种带有数据增强的线上教学推荐系统
Rajagopal et al. Machine Learning Methods for Online Education Case
Yue et al. Augmenting interpretable knowledge tracing by ability attribute and attention mechanism
Palani Identifying At-Risk Students in Virtual Learning Environment using Clustering Techniques
Azevedo et al. Application of Pattern Recognition Techniques for MathE Questions Difficulty Level Definition
Qi et al. Temporal models for personalized grade prediction in massive open online courses
Georgiou et al. Learning style recognition based on an adjustable three-layer fuzzy cognitive map
Zou et al. A novel learning early-warning model based on knowledge points and question types

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant