CN115795015A - 一种试题难度增强的综合知识追踪方法 - Google Patents

一种试题难度增强的综合知识追踪方法 Download PDF

Info

Publication number
CN115795015A
CN115795015A CN202211720753.0A CN202211720753A CN115795015A CN 115795015 A CN115795015 A CN 115795015A CN 202211720753 A CN202211720753 A CN 202211720753A CN 115795015 A CN115795015 A CN 115795015A
Authority
CN
China
Prior art keywords
difficulty
knowledge
test question
vector
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211720753.0A
Other languages
English (en)
Inventor
侯晨煜
尤澳晨
曹斌
范菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211720753.0A priority Critical patent/CN115795015A/zh
Publication of CN115795015A publication Critical patent/CN115795015A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种试题难度增强的综合知识追踪方法,包括:由学生的历史答题记录数据与相应的试题数据构成的数据集,初始化定义学生的答题过程心理能力,经过数据处理后进行评估获得学生的答题能力以及试题和知识点难度,对数据进行嵌入处理,最后使用深度学习方法训练知识追踪模型,得到每个学生的知识状态和优化后的心理能力数据并通过学生的知识状态预测和心理能力数据学生在未来试题上的表现。本发明综合考虑试题的难易情况、学生的做题能力和心理能力等因素贴近真实教育背景下的学习过程以获得合理的知识状态,最终根据学生的知识状态对学生的答题表现进行精准的预测。

Description

一种试题难度增强的综合知识追踪方法
技术领域
本发明属于人工智能和教育数据领域,尤其涉及一种试题难度增强的综合知识追踪方法。
技术背景
知识追踪的任务是利用学生的历史学习过程交互数据,对学生的知识状态,即知识的掌握程度随时间的变化过程进行追踪和建模,以能更为准确的预测学生在未来学习中的答题表现以及知识掌握水平。近年来,知识追踪因其在教育中的重要意义而备受关注,在智能辅导系统、在线教育平台以及个性化习题推荐系统中都得到了广泛的应用。
知识追踪有许多解决方法,例如概率图模型和贝叶斯模型,而随着深度神经网络的快速发展,基于深度知识追踪的相关模型取得了出色的效果,例如最先将深度学习引入知识追踪问题并用隐层状态代表知识状态的DKT模型,通过注意力机制捕捉学生在相似题目上的相似表现的AKT模型,通过图神经网络对知识状态进行建模的GKT模型。但目前只有少部分方法考虑了试题难度对学生知识掌握的影响,它们仅仅把答对题目的人数比例作为试题难度,这样粗糙的处理方式对一些长尾试题不合理。其次,不同的方法在建模知识追踪过程时考虑的因素都不同,目前尚没有一个统一的模型综合考虑了学习过程中的多种因素,如知识更新、遗忘、试题相关性、学生心理能力等。
发明内容
本发明的目的是提供一种试题难度增强的综合知识追踪方法,其目的通过对学生的做题能力和试题及知识点难度的充分分析作为输入的重要部分并通过注意力机制累积回答与当前试题相关的历史试题时的知识状态,在考虑学生的答题过程心理能力的场景下通过对学生学习过程的学习收获和遗忘机制进行建模,较为准确的预测学生表现,追踪学生知识掌握水平的变化。
一种试题难度增强的综合知识追踪方法,其特征在于,包括:
由学生的历史答题记录数据与相应的试题数据构成的数据集,初始化定义学生的答题过程心理能力数据,经过数据处理后进行评估获得学生的答题能力以及试题和知识点难度,对数据进行嵌入处理,最后使用深度学习方法训练知识追踪模型,得到每个学生的知识状态和优化后的心理能力数据并通过学生的知识状态和心理能力数据预测学生在未来试题上的表现。
历史答题记录信息包括:试题号、试题得分情况以及每道试题所涉及的知识点;
对于一个学生历史答题记录数据集D,包含了I名学生的集合S={s1,s2,…,si,…,sI},包含了J道试题集合E={e1,e2,…,ej,…,eJ}以及知识点集合K={k1,k2,…,km,…,kM},每一道试题都被预先标注了所涉及的知识点,试题与知识点的联系通过Q矩阵来进行表示,Q∈RJ×M,矩阵由0和1组成,Qjm=1表示试题ej涉及知识点km反之则不涉及。其中学生的答题交互序列定义为x={(e1,C1,r1),(e2,C2,r2),…,(et,Ct,rt)}。其中一个元组(et,Ct,rt)代表一个学习单元,其中et代表试题,Ct代表与试题et相关的知识点集合,rt代表回答正确与否即rt∈{0,1},l代表回答正确,0代表回答错误。
学生的答题过程心理能力数据包括;
初始化一个矩阵
Figure BDA0004029632580000021
的矩阵,其中每一行就代表了一个学生的答题心理能力即学生st的心理能力可以用向量
Figure BDA0004029632580000022
来表示。
学生做题能力以及试题和知识点难度计算包括;
学生si做题能力gi的计算公式如下:
Figure BDA0004029632580000023
其中Ei是学生si在学习过程中的试题序列,ej代表Ei中的第j题,|Ei|代表试题序列的长度,J代表试题数量,rij∈{0,1}代表学生si回答试题序列中试题ej正确与否。公式背后的直觉是答题数量越多并且正确率越高的学生的做题能力高。
试题ej难度edj的计算公式如下:
Figure BDA0004029632580000024
其中Sj代表回答过试题ej的学生集合,gi代表Sj中的学生si的做题能力其中|Sj|代表学生集合的长度,I代表总学生数量,rij∈{0,1}代表学生si回答试题ej正确与否。公式背后的直觉是对于试题ej,回答错误的学生的做题能力越高,回答试题的人数越少,则试题的难度越大。
知识点km难度kdm的计算公式如下:
Figure BDA0004029632580000025
其中Em代表涉及该知识点的试题的集合,|Em|代表集合长度,edj代表Em中第j题的试题难度,即知识点难度通过对涉及到该知识点的所有试题的难度求平均值计算得到。
对数据进行嵌入处理包括:
对试题集合E进行one-hot编码,随后使用嵌入矩阵
Figure BDA0004029632580000031
对试题向量进行Embedding操作,其中J代表试题的数量,de代表Embedding后的试题向量维度,随后每个学习单元的试题et就可以用向量
Figure BDA0004029632580000032
来表示。
对知识点集合K进行one-hot编码,随后使用嵌入矩阵
Figure BDA0004029632580000033
对试题向量进行Embedding操作,其中M代表知识点的数量,dk代表Embedding后的知识点向量维度。随后每个知识点km可以用向量km表示,并且每个交互单元的试题et所涉及的知识点集合Ct就可以用集合中的知识点向量相加后表示,即知识点集合Ct可以用向量
Figure BDA0004029632580000034
来表示,公式如下:
Figure BDA0004029632580000035
对试题难度按照最大最小值区间划分为n个档次,使得试题难度从标量转化为类别。对难度类别进行one-hot编码后得到试题难度向量,使用嵌入矩阵
Figure BDA0004029632580000036
对试题难度向量进行Embedding操作,其中dl表示Embedding后的试题难度向量维度,即试题et的难度可以用向量
Figure BDA0004029632580000037
来表示。试题难度类别划分公式如下:
Figure BDA0004029632580000038
其中
Figure BDA0004029632580000039
代表所有试题中的难度最大值,
Figure BDA00040296325800000317
代表所有试题中的难度最小值,edj代表试题ej难度,
Figure BDA00040296325800000310
代表试题ej难度转化成类别类型后的值;
对知识点难度按照最大最小值区间划分为n个档次,使得知识点难度从标量转化为类别。对知识点难度类别进行one-hot编码后得到知识点难度向量,使用嵌入矩阵
Figure BDA00040296325800000311
对试题难度向量进行Embedding操作,其中dl表示Embedding后的试题难度向量维度,即知识点km的难度可以用向量
Figure BDA00040296325800000312
来表示。试题难度类别划分公式如下:
Figure BDA00040296325800000313
其中
Figure BDA00040296325800000314
代表所有知识点中的难度最大值,
Figure BDA00040296325800000315
代表所有知识点中的难度最小值,kdm代表知识点km的难度,klm代表知识点km难度转化成类别类型后的值;
每个交互单元的试题et所涉及的知识点集合Ct的难度就可以用知识点难度向量相加后求平均值计算得到,即知识点集合Ct的难度可以用向量
Figure BDA00040296325800000316
来表示。计算知识点集合难度的公式如下:
Figure BDA0004029632580000041
其中|ct|代表知识点集合的长度,klm代表ct中知识点km的难度向量;
随后通过将试题向量et、试题相关知识点集合向量ct、试题难度向量elt、试题相关知识点集合难度向量clt连接在一起并使用多层感知机进行深度融合得到随后得到完整的试题信息嵌入
Figure BDA0004029632580000042
Figure BDA0004029632580000043
其中
Figure BDA0004029632580000044
代表拼接操作,
Figure BDA0004029632580000045
是权重矩阵,
Figure BDA0004029632580000046
是偏置项。
将试题回答进行one-hot编码后,使用嵌入矩阵
Figure BDA0004029632580000047
对试题向量进行Embedding操作,其中da表示Embedding后的回答向量维度,随后每个学习单元的回答rt就可以用向量
Figure BDA0004029632580000048
来表示。
知识追踪模型包括:
注意力机制模块:将当前学习单元的试题信息嵌入Et乘以矩阵
Figure BDA0004029632580000049
得到query向量
Figure BDA00040296325800000410
将包含当前学习单元前的试题信息嵌入向量集合{E1,E2,…,Et-1}内的向量分别乘以矩阵
Figure BDA00040296325800000411
到key向量集合{K1,K2,…,Kt-1}将key向量集合中的向量分别与qt进行点乘后除以
Figure BDA00040296325800000412
得到集合αt={αt,1t,2,…,αt,t-1},对α集合做softmax操作得到注意力分数集合α′t={α′t,1,α′t,2,…,α′t,t-1}将α′t中的注意力分数分别乘以知识状态集合{h1,h2,…,ht-1}中的向量得到累积知识状态
Figure BDA00040296325800000413
计算公式如下所示:
Figure BDA00040296325800000414
学习模块:试题信息嵌入Et、回答嵌入at以及知识点掌握状态
Figure BDA00040296325800000415
可以通过一个全连接层对学习增益进行建模得到学习增益lgt
Figure BDA00040296325800000416
其中
Figure BDA00040296325800000417
代表拼接操作,
Figure BDA00040296325800000418
是权重矩阵,
Figure BDA00040296325800000419
是偏置项。
考虑到学习增益并非能完全转换为学生知识的增长,所以设计了一个学习门
Figure BDA00040296325800000420
来控制学生转化能力:
Figure BDA00040296325800000421
其中
Figure BDA00040296325800000422
代表拼接操作,
Figure BDA00040296325800000423
是权重矩阵,
Figure BDA00040296325800000424
是偏置项。
随后将
Figure BDA00040296325800000425
乘以lgt得到真正的学习增益LGt
Figure BDA00040296325800000426
遗忘机制模块:在学习的过程中会有遗忘现象影响到知识的掌握程度,因此使用一个遗忘门
Figure BDA00040296325800000427
来模拟遗忘效应:
Figure BDA0004029632580000051
其中
Figure BDA0004029632580000052
代表拼接操作,
Figure BDA0004029632580000053
是权重矩阵,
Figure BDA0004029632580000054
是偏置项。
随后我们可以通过将遗忘门
Figure BDA0004029632580000055
乘以上一次的知识点掌握状态ht-1加上LGt得到当前的知识点掌握状态ht
Figure BDA0004029632580000056
预测模块:在预测模块,我们通过下一道试题的信息嵌入、学生的当前知识点掌握状态以及学生的心理能力通过一个全连接层来投射到输出层得到输出向量yt+1
Figure BDA0004029632580000057
其中
Figure BDA0004029632580000058
代表拼接操作,
Figure BDA0004029632580000059
是权重矩阵,
Figure BDA00040296325800000510
是偏置项。
使用一个全连接层作为输出层输出最终对试题回答正确性的预测,取值为0到1之间并设置一个阈值,若数值大于阈值则判断回答正确,反之不正确。
Figure BDA00040296325800000511
其中
Figure BDA00040296325800000512
是权重向量,b6∈R1是偏置项。
在模型训练时使用二元交叉熵损失函数计算题目回答是否正确的预测的损失值:
loss=BCEloss(yt+1,rt+1)
其中rt+1∈{0,1}代表试题et+1的回答正确与否的真实值。
与现有技术相比,本发明具有如下优点:
本发明实施例提供的上述方案,提出了一种综合考虑学生做题能力以及试题和知识点难度计算的公式,通过注意力模块累积回答历史答题序列中与当前试题相关联的试题时的知识状态,在考虑心理能力的场景下对学生在学习过程中的学习收益和知识遗忘机制进行建模,得到与学习过程相符合的学生变化的知识状态。
本发明运用深度知识追踪模型,对学生答题中的学习过程进行建模,追踪学生在学习过程中不断变化的知识状态。本发明综合考虑试题的难易情况、学生的做题能力和心理能力等因素贴近真实教育背景下的学习过程以获得合理的知识状态,最终根据学生的知识状态对学生的答题表现进行精准的预测。
附图说明
图1是本发明提出方法的流程图;
图2是本发明设计的模型架构图;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明的目的是通过以下技术方案来实现的:
一种试题难度增强的综合知识追踪方法,包含以下内容:
获取学生的历史答题交互数据与相应的试题信息数据构成的数据集并进行预处理。
通过公式计算学生的做题能力和试题及知识点的难度,初始化生成学生的心理能力矩阵并对数据进行嵌入。
利用注意力机制计算与当前试题相关的历史试题的累积知识点状态。
通过累积知识点状态、当前试题信息嵌入、试题回答嵌入、心理能力计算知识增益。
通过累积知识点状态、当前试题嵌入、回答嵌入、心理能力计算经过知识遗忘的知识状态并与知识增益组合成新的知识状态。
通过学生的当前知识状态、下一道试题信息嵌入、心理能力对试题的回答进行预测。
上述方法中计算学生的做题能力和试题及知识点的难度的公式如下:
学生si做题能力gi的计算公式:
Figure BDA0004029632580000061
其中Ei是学生si在学习过程中的试题序列,|Ei|代表试题序列的长度,rij代表序列中的试题ej回答正确与否,J代表所有的试题数量,rij∈{0,1}代表学生si回答试题序列中试题ej正确与否。
试题ej难度edj的计算公式如下:
Figure BDA0004029632580000062
其中Sj代表回答过试题ej的学生集合,|Sj|代表学生集合的长度,gi代表Sj中学生si的做题能力,I代表总学生数量,rij∈{0,1}代表学生si回答试题ej正确与否。
知识点km难度kdm的计算公式如下:
Figure BDA0004029632580000063
其中Em代表涉及该知识点的试题的集合,|Em|代表试题集合的长度,edj代表Em中试题ej的难度,即知识点难度通过对涉及到该知识点的所有试题的难度求平均值计算得到。
上述方法中利用注意力机制计算与当前试题相关的历史试题的累积知识点状态的方法和公式如下:
通过计算当前试题于历史交互序列中的试题信息的相似度获取注意力分数,并将注意力分数与先前的知识点状态相乘,获得累积当前知识点状态。
计算公式如下所示:
Figure BDA0004029632580000071
其中,{h1,h2,…,ht-1}代表知识状态集合,{α′t,1,α′t,2,…,α′t,t-1}代表注意力分数集合,
Figure BDA0004029632580000072
代表通过计算得到的累积知识点状态。
上述方法中通过累积知识点状态、当前试题信息嵌入、试题回答嵌入、心理能力计算知识增益的方法和公式如下:
可以通过一个全连接层对学习增益进行建模得到学习增益lgt
Figure BDA0004029632580000073
其中W2是权重矩阵,b2是偏置项。
考虑到学习增益并非能完全转换为学生知识的增长,通过学习门
Figure BDA0004029632580000074
来控制学生转化能力:
Figure BDA0004029632580000075
其中W3是权重矩阵,b3是偏置项。
Figure BDA0004029632580000076
乘以lgt得到真正的学习增益LGt
Figure BDA0004029632580000077
上述方法中通过累积知识点状态、当前试题嵌入、回答嵌入、心理能力计算经过知识遗忘的知识状态并与知识增益组合成新的知识状态的方法和公式如下:
在学习的过程中会有遗忘现象影响到知识的掌握程度,使用一个遗忘门
Figure BDA0004029632580000078
来模拟遗忘效应:
Figure BDA0004029632580000079
其中W4是权重矩阵,b4是偏置项。
通过将遗忘门
Figure BDA00040296325800000710
乘以上一次的知识点掌握状态ht-1加上LGt得到当前的知识点掌握状态ht
Figure BDA00040296325800000711
上述方法中通过学生的当前知识状态、下一道试题信息嵌入、心理能力对试题的回答进行预测的方法和公式如下:
我们通过该试题的信息嵌入、学生的当前知识点掌握状态以及学生的心理能力通过一个全连接层来投射到输出层得到输出向量yt+1
Figure BDA0004029632580000081
其中W5是权重矩阵,b5是偏置项。
使用一个全连接层作为输出层输出最终对试题回答正确性的预测yt+1,取值为0到1之间并设置一个阈值,若数值大于阈值则判断回答正确,反之不正确。
Figure BDA0004029632580000082
其中W6是权重向量,b6是偏置项。
上述公式中的Et代表试题信息嵌入、Et+1代表下一题试题信息嵌入、αt代表回答嵌入、pt代表心理能力向量、
Figure BDA0004029632580000083
代表累积的知识点掌握状态、ht-1代表前一时刻知识点掌握状态、ht代表当前知识点掌握状态、σ代表激活函数sigmoid、
Figure BDA0004029632580000084
代表拼接操作。
具体地,本发明实施例提供一种试题难度增强的综合知识追踪方法,如图1所示,主要包括:
步骤1、获取学生的历史答题交互数据与相应的试题信息数据构成的数据集并进行预处理。历史答题交互数据包括每个学生学习过程中试题的答题情况,试题信息数据包括每一道试题所涉及的知识点。
预处理操作包括数据清洗并对数据集中的数据使用统一的数学形式进行表示:对于一个学生历史答题记录数据集D,包含了I名学生的集合S={s1,s2,…,si,…,sI},包含了J道试题集合E={e1,e2,…,ej,…,eJ}以及知识点集合K={k1,k2,…,km,…,kM},每一道试题都被预先标注了所涉及的知识点,试题与知识点的联系通过Q矩阵来进行表示,Q∈RJ×M,矩阵由0和1组成,Qjm=1表示试题ej涉及知识点km反之则不涉及。其中学生的答题交互序列定义为x={(e1,C1,r1),(e2,C2,r2),…,(et,Ct,rt)}。其中一个元组(et,Ct,rt)代表一个学习单元,其中et代表试题,Ct代表与试题et相关的知识点集合,rt代表回答正确与否即rt∈{0,1},1代表回答正确,0代表回答错误。
步骤2、通过公式计算学生的做题能力和试题及知识点的难度,生成学生的心理能力矩阵并对数据进行嵌入。
学生si做题能力的计算公式如下:
Figure BDA0004029632580000085
其中Ei是学生si在学习过程中的试题序列,ej代表Ei中的第j题,|Ei|代表试题序列的长度,J代表试题数量,rij∈{0,1}代表学生si回答试题序列中试题ej正确与否;
试题ej难度edj的计算公式如下:
Figure BDA0004029632580000091
其中Sj代表回答过试题ej的学生集合,gi代表Sj中的学生si的做题能力其中|Sj|代表学生集合的长度,I代表总学生数量,rij∈{0,1}代表学生si回答试题ej正确与否;知识点km难度kdm的计算公式如下:
Figure BDA0004029632580000092
其中Em代表涉及该知识点的试题的集合,|Em|代表集合长度,edj代表Em中第j题的试题难度,即知识点难度通过对涉及到该知识点的所有试题的难度求平均值计算得到;
生成学生的心理能力矩阵并对数据的嵌入包括:初始化一个矩阵
Figure BDA0004029632580000093
的矩阵,其中每一行就代表了一个学生的答题心理能力即学生st的心理能力可以用向量
Figure BDA0004029632580000094
来表示。
对试题集合E进行one-hot编码,随后使用嵌入矩阵
Figure BDA0004029632580000095
对试题向量进行Embedding操作,其中J代表试题的数量,de代表Embedding后的试题向量维度,随后每个学习单元的试题et就可以用向量
Figure BDA0004029632580000096
来表示。
对知识点集合K进行one-hot编码,随后使用嵌入矩阵
Figure BDA0004029632580000097
对试题向量进行Embedding操作,其中M代表知识点的数量,dk代表Embedding后的知识点向量维度。随后每个知识点km可以用向量km表示,并且每个交互单元的试题et所涉及的知识点集合Ct就可以用集合中的知识点向量相加后表示,即知识点集合Ct可以用向量
Figure BDA0004029632580000098
来表示,公式如下:
Figure BDA0004029632580000099
对试题难度按照最大最小值区间划分为n个档次,使得试题难度从标量转化为类别。对难度类别进行one-hot编码后得到试题难度向量,使用嵌入矩阵
Figure BDA00040296325800000910
对试题难度向量进行Embedding操作,其中dl表示Embedding后的试题难度向量维度,即试题et的难度可以用向量
Figure BDA00040296325800000911
来表示。试题难度类别划分公式如下:
Figure BDA00040296325800000912
其中
Figure BDA00040296325800000913
代表所有试题中的难度最大值,
Figure BDA00040296325800000914
代表所有试题中的难度最小值,edj代表试题ej难度,
Figure BDA0004029632580000101
代表试题ej难度转化成类别类型后的值;对知识点难度按照最大最小值区间划分为n个档次,使得知识点难度从标量转化为类别。对知识点难度类别进行one-hot编码后得到知识点难度向量,使用嵌入矩阵
Figure BDA0004029632580000102
对试题难度向量进行Embedding操作,其中dl表示Embedding后的试题难度向量维度,即知识点km的难度可以用向量
Figure BDA0004029632580000103
来表示。试题难度类别划分公式如下:
Figure BDA0004029632580000104
其中
Figure BDA0004029632580000105
代表所有知识点中的难度最大值,
Figure BDA0004029632580000106
代表所有知识点中的难度最小值,kdm代表知识点km的难度,klm代表知识点km难度转化成类别类型后的值;
每个交互单元的试题et所涉及的知识点集合Ct的难度就可以用知识点难度向量相加后求平均值计算得到,即知识点集合Ct的难度可以用向量
Figure BDA0004029632580000107
来表示。计算知识点集合难度的公式如下:
Figure BDA0004029632580000108
其中|ct|代表知识点集合的长度,klm代表ct中知识点km的难度向量;
随后通过将试题向量et、试题相关知识点集合向量ct、试题难度向量elt、试题相关知识点集合难度向量clt连接在一起并使用多层感知机进行深度融合得到随后得到完整的试题信息嵌入
Figure BDA0004029632580000109
Figure BDA00040296325800001010
其中
Figure BDA00040296325800001011
代表拼接操作,
Figure BDA00040296325800001012
是权重矩阵,
Figure BDA00040296325800001013
是偏置项。
将试题回答进行one-hot编码后,使用嵌入矩阵
Figure BDA00040296325800001014
对试题向量进行Embedding操作,其中da表示Embedding后的回答向量维度,随后每个学习单元的回答rt就可以用向量
Figure BDA00040296325800001015
来表示。
步骤3、利用注意力机制计算与当前试题相关的历史试题的累积知识点状态,具体模块如图2所示。
注意力机制模块:将当前学习单元的试题信息嵌入Et乘以矩阵
Figure BDA00040296325800001016
得到query向量
Figure BDA00040296325800001017
将包含当前学习单元前的试题信息嵌入向量集合{E1,E2,…,Et-1}内的向量分别乘以矩阵
Figure BDA00040296325800001018
到key向量集合{K1,K2,…,Kt-1}将key向量集合中的向量分别与qt进行点乘后除以
Figure BDA00040296325800001019
得到集合αt={αt,1t,2,…,αt,t-1},对α集合做softmax操作得到注意力分数集合α′t={α′t,1,α′t,2,…,α′t,t-1}将α′t中的注意力分数分别乘以知识状态集合{h1,h2,…,ht-1}中的向量得到累积知识状态
Figure BDA00040296325800001020
计算公式如下所示:
Figure BDA0004029632580000111
步骤4、通过累积知识点状态、当前试题信息嵌入、试题回答嵌入、心理能力计算知识增益,具体模块如图2所示。
学习模块:试题信息嵌入Et、回答嵌入at以及知识点掌握状态
Figure BDA0004029632580000112
可以通过一个全连接层对学习增益进行建模得到学习增益:
Figure BDA0004029632580000113
其中
Figure BDA0004029632580000114
代表拼接操作,
Figure BDA0004029632580000115
是权重矩阵,
Figure BDA0004029632580000116
是偏置项。
考虑到学习增益并非能完全转换为学生知识的增长,所以设计了一个学习门
Figure BDA0004029632580000117
来控制学生转化能力:
Figure BDA0004029632580000118
其中
Figure BDA0004029632580000119
代表拼接操作,
Figure BDA00040296325800001110
是权重矩阵,
Figure BDA00040296325800001111
是偏置项。
随后将
Figure BDA00040296325800001112
乘以lgt得到真正的学习增益LGt
Figure BDA00040296325800001113
步骤5、通过累积知识点状态、当前试题嵌入、回答嵌入、心理能力计算经过知识遗忘的知识状态并与知识增益组合成新的知识状态,具体模块如图2所示。
遗忘机制模块:在学习的过程中会有遗忘现象影响到知识的掌握程度,因此使用一个遗忘门
Figure BDA00040296325800001114
来模拟遗忘效应:
Figure BDA00040296325800001115
其中
Figure BDA00040296325800001116
代表拼接操作,
Figure BDA00040296325800001117
是权重矩阵,
Figure BDA00040296325800001118
是偏置项。
随后我们可以通过将遗忘门
Figure BDA00040296325800001119
乘以上一次的知识点掌握状态ht-1加上LGt得到当前的知识点掌握状态ht
Figure BDA00040296325800001120
步骤6、通过学生的当前知识状态、下一道试题信息嵌入、心理能力对试题的回答进行预测,具体模块如图2所示。
预测模块:在预测模块,我们通过下一道试题的信息嵌入、学生的当前知识点掌握状态以及学生的心理能力通过一个全连接层来投射到输出层得到输出向量yt+1
Figure BDA00040296325800001121
其中
Figure BDA00040296325800001122
代表拼接操作,
Figure BDA00040296325800001123
是权重矩阵,
Figure BDA00040296325800001124
是偏置项。
使用一个全连接层作为输出层输出最终对试题回答正确性的预测,取值为0到1之间并设置一个阈值,若数值大于阈值则判断回答正确,反之不正确。
Figure BDA00040296325800001125
其中
Figure BDA0004029632580000121
是权重向量,b6∈R1是偏置项。
在模型训练时使用二元交叉熵损失函数计算题目回答对错的预测的损失值:
loss=BCEloss(yt+1,rt+1)
其中rt+1∈{0,1}代表试题et+1的回答正确与否的真实值。

Claims (6)

1.一种试题难度增强的综合知识追踪方法,其特征在于,包括:
由学生的历史答题记录数据与相应的试题数据构成的数据集,初始化定义学生的答题过程心理能力数据,经过数据处理后进行评估获得学生的答题能力以及试题和知识点难度,对数据进行嵌入处理,最后使用深度学习方法训练知识追踪模型,得到每个学生的知识状态和优化后的心理能力数据并通过学生的知识状态和心理能力数据预测学生在未来试题上的表现。
2.根据权利要求1所述的一种试题难度增强的综合知识追踪方法,其特征在于,由学生的历史答题记录数据与相应的试题数据构成的数据集包括:试题号、试题得分情况以及每道试题所涉及的知识点;
对于一个学生历史答题记录数据集D,包含了I名学生的集合S={s1,s2,…,si,…,sI},包含了J道试题集合E={e1,e2,…,ej,…,eJ}以及知识点集合K={k1,k2,…,km,…,kM},每一道试题都被预先标注了所涉及的知识点,试题与知识点的联系通过Q矩阵来进行表示,Q∈RJ×M,矩阵由0和1组成,Qjm=1表示试题ej涉及知识点km反之则不涉及,其中学生的答题交互序列定义为x={(e1,C1,r1),(e2,C2,r2),…,(et,Ct,rt)},其中一个元组(et,Ct,rt)代表一个学习单元,其中et代表试题,Ct代表与试题et相关的知识点集合,rt代表回答正确与否即rt∈{0,1},1代表回答正确,0代表回答错误。
3.根据权利要求1所述的一种试题难度增强的综合知识追踪方法,其特征在于,初始化定义学生的答题过程心理能力数据包括;
初始化一个矩阵
Figure FDA0004029632570000011
的矩阵,其中每一行就代表了一个学生的答题心理能力即学生st的心理能力用向量
Figure FDA0004029632570000012
来表示。
4.根据权利要求1所述的一种试题难度增强的综合知识追踪方法,其特征在于,经过数据处理后进行评估获得学生的答题能力以及试题和知识点难度,具体包括;
学生si做题能力gi的计算公式如下:
Figure FDA0004029632570000013
其中Ei是学生si在学习过程中的试题序列,ej代表Ei中的第j题,|Ei|代表试题序列的长度,J代表试题数量,rij∈{0,1}代表学生si回答试题序列中试题ej正确与否;
试题ej难度edj的计算公式如下:
Figure FDA0004029632570000021
其中Sj代表回答过试题ej的学生集合,gi代表Sj中的学生si的做题能力,其中|Sj|代表学生集合的长度,I代表总学生数量,rij∈{0,1}代表学生si回答试题ej正确与否;
知识点km难度kdm的计算公式如下:
Figure FDA0004029632570000022
其中Em代表涉及该知识点的试题的集合,|Em|代表集合长度,edj代表Em中试题ej的试题难度,即知识点难度通过对涉及到该知识点的所有试题的难度求平均值计算得到。
5.根据权利要求1所述的一种试题难度增强的综合知识追踪方法,其特征在于,对数据进行嵌入处理包括:
对试题集合E进行one-hot编码,随后使用嵌入矩阵
Figure FDA0004029632570000023
对试题向量进行Embedding操作,其中J代表试题的数量,de代表Embedding后的试题向量维度,随后每个学习单元的试题et就用向量
Figure FDA0004029632570000024
来表示;
对知识点集合K进行one-hot编码,随后使用嵌入矩阵
Figure FDA0004029632570000025
对试题向量进行Embedding操作,其中M代表知识点的数量,dk代表Embedding后的知识点向量维度,随后每个知识点km用向量km表示,并且每个交互单元的试题et所涉及的知识点集合Ct就用集合中的知识点向量相加后表示,即知识点集合Ct可以用向量
Figure FDA0004029632570000026
来表示,公式如下:
Figure FDA0004029632570000027
对试题难度按照最大最小值区间划分为n个档次,使得试题难度从标量转化为类别,对难度类别进行one-hot编码后得到试题难度向量,使用嵌入矩阵
Figure FDA0004029632570000028
对试题难度向量进行Embedding操作,其中dl表示Embedding后的试题难度向量维度,即试题et的难度用向量
Figure FDA0004029632570000029
来表示,其中将试题难度值划分为类别值的公式如下:
Figure FDA00040296325700000210
其中
Figure FDA00040296325700000211
代表所有试题中的难度最大值,
Figure FDA00040296325700000212
代表所有试题中的难度最小值,edj代表试题ej的难度,
Figure FDA00040296325700000213
代表试题ej难度转化成类别类型后的值;
对知识点难度按照最大最小值区间划分为n个档次,使得知识点难度从标量转化为类别,对知识点难度类别进行one-hot编码后得到知识点难度向量,使用嵌入矩阵
Figure FDA00040296325700000214
对试题难度向量进行Embedding操作,其中dl表示Embedding后的试题难度向量维度,即知识点km的难度可以用向量
Figure FDA0004029632570000031
来表示,其中将知识点难度值划分为类别值的公式如下:
Figure FDA0004029632570000032
其中
Figure FDA0004029632570000033
代表所有知识点中的难度最大值,
Figure FDA0004029632570000034
代表所有知识点中的难度最小值,kdm代表知识点km的难度,klm代表知识点km难度转化成类别类型后的值;
每个交互单元的试题et所涉及的知识点集合Ct的难度就用知识点难度向量相加后求平均值计算得到,即知识点集合Ct的难度用向量
Figure FDA0004029632570000035
来表示,计算知识点集合难度的公式如下:
Figure FDA0004029632570000036
其中|ct|代表知识点集合ct的长度,klm代表ct中知识点km的难度向量;
随后通过将试题向量et、试题相关知识点集合向量ct、试题难度向量elt、试题相关知识点集合难度向量clt连接在一起并使用多层感知机进行深度融合得到随后得到完整的试题信息嵌入
Figure FDA0004029632570000037
Figure FDA0004029632570000038
其中
Figure FDA0004029632570000039
代表拼接操作,
Figure FDA00040296325700000310
是权重矩阵,
Figure FDA00040296325700000311
是偏置项;
将试题回答进行one-hot编码后,使用嵌入矩阵
Figure FDA00040296325700000312
对试题向量进行Embedding操作,其中da表示Embedding后的回答向量维度,随后每个学习单元的回答rt就用向量
Figure FDA00040296325700000313
来表示。
6.根据权利要求1所述的一种试题难度增强的综合知识追踪方法,其特征在于,知识追踪模型包括:
注意力机制模块:将当前学习单元的试题信息嵌入Et乘以矩阵
Figure FDA00040296325700000314
得到query向量
Figure FDA00040296325700000315
将包含当前学习单元前的试题信息嵌入向量集合{E1,E2,…,Et-1}内的向量分别乘以矩阵
Figure FDA00040296325700000316
到key向量集合{K1,K2,…,Kt-1}将key向量集合中的向量分别与qt进行点乘后除以
Figure FDA00040296325700000317
得到集合αt={αt,1t,2,…,αt,t-1},对α集合做softmax操作得到注意力分数集合α′t={α′t,1,α′t,2,…,α′t,t-1}将α′t中的注意力分数分别乘以知识状态集合{h1,h2,…,ht-1}中的向量得到累积知识状态
Figure FDA00040296325700000318
计算公式如下所示:
Figure FDA00040296325700000319
学习模块:试题信息嵌入Et、回答嵌入at以及知识点掌握状态
Figure FDA00040296325700000320
通过一个全连接层对学习增益进行建模得到学习增益lgt
Figure FDA00040296325700000321
其中
Figure FDA0004029632570000041
代表拼接操作,
Figure FDA0004029632570000042
是权重矩阵,
Figure FDA0004029632570000043
是偏置项;
设计了一个学习门
Figure FDA0004029632570000044
来控制学生转化能力:
Figure FDA0004029632570000045
其中
Figure FDA0004029632570000046
代表拼接操作,
Figure FDA0004029632570000047
是权重矩阵,
Figure FDA0004029632570000048
是偏置项;
随后将
Figure FDA0004029632570000049
乘以lgt得到真正的学习增益LGt
Figure FDA00040296325700000410
遗忘机制模块:使用一个遗忘门
Figure FDA00040296325700000411
来模拟遗忘效应:
Figure FDA00040296325700000412
其中
Figure FDA00040296325700000413
代表拼接操作,
Figure FDA00040296325700000414
是权重矩阵,
Figure FDA00040296325700000415
是偏置项;
随后我们通过将遗忘门
Figure FDA00040296325700000416
乘以上一次的知识点掌握状态ht-1加上LGt得到当前的知识点掌握状态ht
Figure FDA00040296325700000417
预测模块:在预测模块,我们通过下一道试题的信息嵌入、学生的当前知识点掌握状态以及学生的心理能力通过一个全连接层来投射到输出层得到预测向量yt+1
Figure FDA00040296325700000418
其中
Figure FDA00040296325700000419
代表拼接操作,
Figure FDA00040296325700000420
是权重矩阵,
Figure FDA00040296325700000421
是偏置项;
使用一个全连接层作为输出层输出最终对试题回答正确性的预测,取值为0到1之间并设置一个阈值,若数值大于阈值则判断回答正确,反之不正确;
Figure FDA00040296325700000422
其中
Figure FDA00040296325700000423
是权重向量,b6∈R1是偏置项;
在模型训练时使用二元交叉熵损失函数计算题目回答是否正确的预测的损失值:
loss=BCEloss(yt+1,rt+1);
其中rt+1∈{0,1}代表试题et+1的回答正确与否的真实值。
CN202211720753.0A 2022-12-30 2022-12-30 一种试题难度增强的综合知识追踪方法 Pending CN115795015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211720753.0A CN115795015A (zh) 2022-12-30 2022-12-30 一种试题难度增强的综合知识追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211720753.0A CN115795015A (zh) 2022-12-30 2022-12-30 一种试题难度增强的综合知识追踪方法

Publications (1)

Publication Number Publication Date
CN115795015A true CN115795015A (zh) 2023-03-14

Family

ID=85428314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211720753.0A Pending CN115795015A (zh) 2022-12-30 2022-12-30 一种试题难度增强的综合知识追踪方法

Country Status (1)

Country Link
CN (1) CN115795015A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743699A (zh) * 2024-02-20 2024-03-22 山东省计算中心(国家超级计算济南中心) 一种基于dkt与汤普森采样算法的习题推荐方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743699A (zh) * 2024-02-20 2024-03-22 山东省计算中心(国家超级计算济南中心) 一种基于dkt与汤普森采样算法的习题推荐方法及系统
CN117743699B (zh) * 2024-02-20 2024-05-14 山东省计算中心(国家超级计算济南中心) 一种基于dkt与汤普森采样算法的习题推荐方法及系统

Similar Documents

Publication Publication Date Title
CN113033808B (zh) 一种基于习题难度和学生能力的深度嵌入知识追踪方法
CN111695779B (zh) 一种知识追踪方法、装置及存储介质
CN113610235B (zh) 一种基于深度知识追踪的适应性学习支持装置及方法
Wu et al. Exam paper generation based on performance prediction of student group
CN113344053B (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN112687374B (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
CN111461442A (zh) 基于联邦学习的知识追踪的方法及系统
CN112800323A (zh) 一种基于深度学习的智能教学系统
CN112257966A (zh) 模型处理方法、装置、电子设备及存储介质
CN115545160B (zh) 一种多学习行为协同的知识追踪方法及系统
CN109840595A (zh) 一种基于群体学习行为特征的知识追踪方法
CN114385801A (zh) 一种基于分层细化lstm网络的知识追踪方法及系统
CN109582974A (zh) 一种基于深度学习的在校大学生信用评估方法及装置
CN117540104B (zh) 一种基于图神经网络的学习群体差异评价方法与系统
CN115455186A (zh) 一种基于多模型的学情分析方法
CN117473041A (zh) 一种基于认知策略的编程知识追踪方法
CN115544158A (zh) 应用于智能教育系统的多知识点动态知识追踪方法
CN115795015A (zh) 一种试题难度增强的综合知识追踪方法
CN113378581B (zh) 一种基于多元概念注意力模型的知识追踪方法及系统
CN114154839A (zh) 一种基于在线教育平台数据的课程推荐方法
Pan et al. The role of AI assisted socio-cultural frameworks in academic change and higher education growth
Pei et al. Self-Attention Gated Cognitive Diagnosis for Faster Adaptive Educational Assessments
CN117011098A (zh) 一种基于mkvmn模型的学生学习能力的预测方法
CN116402134A (zh) 基于行为感知的知识追踪方法及系统
Zhang et al. Neural Attentive Knowledge Tracing Model for Student Performance Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination