CN112182308A - 基于多热编码的多特征融合深度知识追踪方法及系统 - Google Patents

基于多热编码的多特征融合深度知识追踪方法及系统 Download PDF

Info

Publication number
CN112182308A
CN112182308A CN202011056680.0A CN202011056680A CN112182308A CN 112182308 A CN112182308 A CN 112182308A CN 202011056680 A CN202011056680 A CN 202011056680A CN 112182308 A CN112182308 A CN 112182308A
Authority
CN
China
Prior art keywords
characteristic
question
feature
answer
skill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011056680.0A
Other languages
English (en)
Other versions
CN112182308B (zh
Inventor
刘三女牙
孙建文
张凯
李卿
栗大智
邹睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202011056680.0A priority Critical patent/CN112182308B/zh
Publication of CN112182308A publication Critical patent/CN112182308A/zh
Application granted granted Critical
Publication of CN112182308B publication Critical patent/CN112182308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于多热编码的多特征融合深度知识追踪方法及系统。该方法包括步骤:获取学生的答题数据集;提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt;将提取的6个特征转换为分类变量;将问题编号特征p和技能编号特征s进行多热编码,获得多热技能编码Multi(multi_s),将其他特征进行独热编码,获得独热编码O,将多热技能编码Multi(multi_s)和独热编码O进行拼接及降维处理后输入到深度知识追踪模型进行知识追踪。本发明可以提高数据集的数据利用率,并且实现多技能的预测。

Description

基于多热编码的多特征融合深度知识追踪方法及系统
技术领域
本发明属于知识追踪技术领域,更具体地,涉及基于多热编码的多特征融合深度知识追踪方法及系统。
背景技术
知识追踪(Knowledge Tracing)任务是利用计算机技术,根据学生过去的答题记录,对学生的知识掌握情况进行建模,进一步得到学生当前知识状态的表示,从而可以准确预测学生在下一次答题时的表现。其中提到的学生过去的答题记录,通常以时间序列的形式呈现出来。由于题目设置和考察能力的综合性,每道问题往往不仅包含一个技能,这也是建立知识追踪模型非常困难的原因。
目前主流知识追踪模型将技能编号(skill id)和答题表现(correct)作为模型的输入,将多个特征引入深度知识追踪模型,对多特征均进行独热编码,拼接成新的特征向量作为模型的输入,预测学生对下一个问题的回答正确率。
但是现有技术存在以下缺点:(1)大多数研究者仅选用技能编号(skill id)和正确性(correct)两个特征,数据利用率低;(2)将多技能问题拆分为多个单技能问题,没有考虑一道题目同时考察多个技能的情况,无法预测多技能问题的表现。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于多热编码的多特征融合深度知识追踪方法及系统,可以提高数据集的数据利用率,并且实现多技能的预测。
为实现上述目的,按照本发明的第一方面,提供了一种基于多热编码的多特征融合深度知识追踪方法,包括步骤:
获取学生的答题数据集,所述答题数据集包括多条答题记录,每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息,所述问题关联多个技能;
从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt;
将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt转换为分类变量;
将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码,获得多热技能编码Multi(multi_s),将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt进行独热编码,获得独热编码O,将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接,获得输入向量vt
将所述输入向量vt进行降维处理后输入到深度知识追踪模型,所述深度知识追踪模型用于输出每个技能的预测值,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。
优选的,所述进行多热编码包括步骤:
遍历所述答题数据集,引入一个嵌入矩阵Q,所述嵌入矩阵Q形式为:Q={Qij}M×K,其中M为问题总数目,K为技能总数目,在所述嵌入矩阵Q中,每一行对应一个问题,每一列对应一个技能,所述嵌入矩阵Q中的向量表达为Qes
Figure BDA0002711066970000021
获取所述问题编号特征p和所述嵌入矩阵Q的向量积结果Multi(multi_s)。
优选的,所述进行独热编码包括步骤:将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt进行特征交叉并采用独热编码,然后利用交叉验证选取最优特征组合作为独热编码O。
优选的,所述将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt转换为分类变量包括步骤:
将所述问题编号特征p的数值变量直接作为问题分类数,共n1类;
将所述技能编号特征s的数值变量作为技能分类数,共n2类;
将所述答题表现特征c分为2类,0表示答错,1表示答对,若存在非0非1的中间值ci,则以0.5为阈值,
Figure BDA0002711066970000031
将所述尝试次数特征att分为3类,att={0,1,其他},若学生放弃该问题,则att=0,若学生一次性答对了该问题则att=1,若既没有放弃该问题也没有一次性答对了该问题,则att=其他;
将所述首次操作特征act按数据集具体情况划分为n3类;
将所述学生首次反应时间特征frt作z分数处理,方法为:
Figure BDA0002711066970000032
其中,Z是所述学生首次反应时间frt的z分数,
Figure BDA0002711066970000033
为所述答题数据集中所有学生对某一问题的首次反应时间平均值,s’是学生首次反应时间的标准差,
将所述z分数离散为一个范畴特征,按照预设正确率阈值划分为n4类;
优选的,所述进行降维处理是采用欠完备自编码器、或主成分分析、或多维尺度分析、或局部线性嵌入方法中的一种。
优选的,所述欠完备自编码器的学习过程是最小化一个损失函数:
L=(x,g(f(x)))
其中,L是损失函数,计算输入x和经过编码器、解码器后的输出g(f(x))的差异,f(x)表示编码器,g(h)=g(f(x)表示解码器。
优选的,所述欠完备自编码器采用tanh函数作为神经网络激活函数,公式为:
v′t=tanh(Wih*vt+bih)
Figure BDA0002711066970000041
其中,vt是输入的拼接特征,v′t是所述欠完备自编码器隐含层提取的特征向量,yt是所述欠完备自编码器的输出,Wih表示所述欠完备自编码器输入层和隐含层之间的权重系数矩阵,
Figure BDA0002711066970000042
表示Wih的转置矩阵,bih表示所述欠完备自编码器输入层和隐含层之间的偏差参数矩阵,bho表示所述欠完备自编码器隐含层和输出层之间的偏差参数矩阵。
优选的,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果包括步骤:
所述深度知识追踪模型输出的每个技能的预测值记为Ot=[ys1,ys2,...,ysK],K为技能总数目,根据下一个问题所包含的技能{sa,sb,...,si},读取输出矩阵Ot中对应位置的概率预测值{ysa,ysb,...,ysi},根据以下公式确定下一个问题的预测结果:
Figure BDA0002711066970000043
其中,num_skills表示该问题所包含的技能的个数,NPC表示下一个问题答对的概率值。
按照本发明的第二方面,提供了一种基于多热编码的多特征融合深度知识追踪系统,包括:
获取模块,用于获取学生的答题数据集,所述答题数据集包括多条答题记录,每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息,所述问题关联多个技能;
特征提取模块,用于从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt;
转换模块,用于将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt转换为分类变量;
编码模块,用于将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码,获得多热技能编码Multi(multi_s),将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt进行独热编码,获得独热编码O,将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接,获得输入向量vt
预测模块,用于将所述输入向量vt进行降维处理后输入到深度知识追踪模型,所述深度知识追踪模型用于输出每个技能的预测值,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。
总体而言,本发明与现有技术相比,具有有益效果:从答题数据集中提取多个特征,以提高数据集的数据利用率;此外,针对多技能问题,提供了一种基于多热编码的特征编码方式,可以有效缩短学生答题序列长度,同时保证题目信息的完整性,弥补了一般深度知识追踪模型无法预测多技能问题的短板。
附图说明
图1是本发明实施例的基于多热编码的多特征融合深度知识追踪方法的原理示意图;
图2是本发明实施例的多热编码的嵌入矩阵Q的示意图;
图3是本发明实施例的特征拼接示意图;
图4是本发明实施例的欠完备自编码器示意图;
图5是本发明实施例的基于多热编码的多特征融合深度知识追踪模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1是本发明实施例的基于多热编码的多特征融合深度知识追踪方法的原理示意图。该方法包括以下步骤:
S1.获取学生的答题数据集,该数据集包括多条记录,每一条记录包括一个问题信息和一个学生在回答该问题时产生的交互信息。
具体地,可采用以下实现方式。数据集中包含n个问题序列{E1,E2,...,En},每个问题序列Ei包含m个问题,Ei={e1,e2,...,em},ei是问题序列中一个具体问题,每个问题关联若干个技能,学生对一个问题序列{e1,e2,...,em}的答题情况生成m条答题记录;若学生数目为N,技能总数目为K,则学生集合Stu={stu1,stu2,stu3,......,stuN},技能集合S={s1,s2,s3,...,sK}。在知识追踪领域,将技能作为问题标签输入模型中,因此,学生的答题记录可以表示为三元组(stu,s,r)的集合R,其中stu∈Stu,s∈S,r是学生stu在技能s(即问题e)上的表现(1表示答对,0表示答错)。
S2.从答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt6个特征作为输入特征。也可以根据实际需要增加其他特征。
S3.将上述所选6个特征转换为分类变量。
具体地,可采用以下实现方式。具体地,问题编号p作为问题的唯一索引,数值变量直接作为问题分类数,共n1类;技能编号s作为问题标签直接将数值变量作为技能分类数,共n2类;答题表现c作为对问题的响应,0表示答错,1表示答对,若存在非0非1的中间值ci,则以0.5为阈值,
Figure BDA0002711066970000061
共2类;尝试次数att作为答对问题之前所做的尝试的总次数,存在两个特殊值,若尝试次数att=0,说明该学生放弃该问题,若尝试次数att=1,说明该学生一次性答对了该问题,其他情况均为学生对该问题的尝试输入,因此,尝试次数att={0,1,其他},共3类;首次操作act作为学生对该问题的第一个操作,具有提交答案、申请提示、申请脚手架问题等有限的分类数,按数据集具体情况划分为n3类,其中申请脚手架是指将一个问题拆分成多个子问题;学生首次反应时间frt表示学生从看到该问题到对该问题做出的第一次操作的时间,对该数值特征作z分数处理,方法为:
Figure BDA0002711066970000071
其中,Z是学生首次反应时间frt的z分数,frt是学生首次反应时间原始值,
Figure BDA0002711066970000072
是答题数据集中所有学生对某一问题的学生首次反应时间平均值,s’是学生首次反应时间的标准差。
将所述z分数离散为一个范畴特征,按照预设正确率阈值划分为n4类。例如,将首次反应时间frt的z分数离散为一个范畴特征,以正确率50%(随机正确率)和70%(高正确率)为界,将首次反应时间frt划分为若干类,共n4类;
S4.将S3处理的6个分类变量特征分别作特征编码。
具体地,可采用以下实现方式。处理技能特征s时,对该问题所涉及的多个技能进行多热编码(multi-hot encoding),即将问题编号特征p和所述技能编号特征s进行多热编码。具体方法为:遍历数据集,引入一个嵌入矩阵Q。Q矩阵形式为:Q={Qij}M×K,其中M为问题总数目,K为技能总数目。如图2所示,在Q矩阵中,每一行对应一个问题,每一列对应一个技能,嵌入矩阵Q中的向量表达为Qes
Figure BDA0002711066970000073
Q矩阵中保存了问题编号p和技能编号s的对应关系,最终关于技能的编码为问题编号p和Q矩阵的向量积结果,即多热技能编码(multi-hot skill id),记为Multi(multi_s):
Multi(multi_s)=p×Q
其中,Multi()表示多热编码格式,multi_s表示一个问题所包含的所有技能,即多技能编号。
此时,一个问题e对应一个多技能multi_s,学生的答题记录可以重新表示为三元组(stu,e,r)的集合,其中stu∈Stu,e∈E。对于技能编号s,以上述处理的多热技能编码Multi(multi_s)作为最终的问题标签输入深度知识追踪模型。
除此以外,对首次操作act、尝试次数att、首次反应时间frt、答题表现c等分类特征进行特征交叉并采用独热编码,最终利用交叉验证选取最优特征组合。
特征交叉是将两个或多个特征编码为一个特征的方法,通过特征交叉可以以一个编码格式同时表示多个特征的并发外观,其本质是对多个特征的取值作笛卡尔积。具体方法为将多个特征随机组合,取其笛卡尔积,如两个特征的取值分别为集合A和集合B,则这两个特征的笛卡尔积A×B={(i,j)|i∈A∩j∈B}。若为多个特征交叉,则先进行两个特征的交叉,再与第三个特征进行交叉,以此类推。
交叉验证最常用的方法有K折交叉验证和留一验证,其本质都是将样本分割为F个子样本,选取其中的一个子样本作为验证集,其他的(F-1)个子样本作为训练集,检验模型效果。实验一共进行F次,保证所有的子样本均被当作一次验证集。取F次实验结果的平均值作为本次交叉验证的性能指标。
经过上述的特征交叉过程我们可以得到若干组交叉特征,将所有的交叉特征分别在模型上作交叉验证,最终选择交叉验证效果最好的一组交叉特征作为模型的最终输入特征。
具体地,将上述处理完成的分类特征组合成交叉特征作为模型输入,以首次操作act和答题表现c的交叉特征为例,特征交叉的公式为:
C(actt,ct)=actt+n3*ct
其中,C()表示交叉特征,actt表示在时间步t时对该问题的首次操作编号,ct表示在时间步t时的在该问题上的答题表现,n3是首次操作act的分类个数。
假设经过交叉验证后,最终选择了act和c的交叉特征,frt和multi_s这三个特征,特征交叉后得到的输入向量为:
vt=O(C(actt,ct))^O(frtt)^Multi(multi_st)
其中,vt表示输入向量,frtt表示在时间步t时的学生首次反应时间编号,multi_st表示在时间步t时的多技能。O()是独热编码格式,Multi()是多热技能编码格式,^运算符用于表示拼接,示意图如图3所示。图3中的设置仅为示例,可以依据交叉检验得到的具体数据来选取拼接的交叉特征和单个特征。
S5.将拼接得到的向量vt输入到自编码器(Autoencoder,AE)进行降维,将自编码器的隐含层连接到深度知识追踪模型,作为深度知识追踪模型的输入层参与模型运算,并最终得到模型预测结果;具体地,对于输入的拼接得到的长特征向量vt,导致输入层维数迅速增加,将向量vt输入到一个欠完备自编码器(undercomplete Autoencoder)来进行降维,欠完备自编码器包含一个编码器(encoder)和一个解码器(decoder),其隐层的维度小于输入层的维度,达到降维效果,示意图如图4所示。
欠完备自编码器的学习过程是最小化一个损失函数:
L=(x,g(f(x)))
其中,L是损失函数,计算输入x和经过编码器、解码器后的输出g(f(x))的差异,f(x)表示编码器,g(h)=g(f(x)表示解码器。
在本模型中,该欠完备自编码器采用tanh函数作为神经网络激活函数,公式为:
v′t=tanh(Wih*vt+bih)
Figure BDA0002711066970000091
其中,vt是输入的拼接特征,v′t是欠完备自编码器隐含层提取的特征向量,yt是欠完备自编码器的输出,Wih表示欠完备自编码器输入层和隐含层之间的权重系数矩阵,
Figure BDA0002711066970000092
表示Wih的转置矩阵,bih表示欠完备自编码器输入层和隐含层之间的偏差参数矩阵,bho表示欠完备自编码器隐含层和输出层之间的偏差参数矩阵。
在本模型中,去除自编码器的输出层,直接将自编码器隐含层降维得到的v′t连接到深度知识追踪模型LSTM的输入层,参与模型运算。
当然,欠完备自编码器仅为一个降维具体实现方式的示例,还可以依据主成分分析(Principal Component Analysis,PCA)、多维尺度分析(Multidimensional Scaling,MDS)、局部线性嵌入(Locally Linear Embedding,LLE)等方法进行降维,可依据模型的需要进行相应的调整。
S6.将输入向量vt进行降维处理后输入到深度知识追踪模型,深度知识追踪模型用于输出每个技能的预测值,根据深度知识追踪模型的输出确定对下一个问题的预测结果。图5为基于多热编码的多特征融合深度知识追踪模型的结构示意图。根据下一个问题的多技能编号,对应深度知识追踪模型的输出矩阵,取多技能对应位置预测概率值的平均作为最终的对于下一个问题是否可以正确回答的预测结果;具体地,深度知识追踪模型的输出Ot=[ys1,ys2,...,ysK]预测了每种技能的表现,根据下一个问题所包含的技能{sa,sb,...,si},读取输出矩阵Ot中对应位置的概率预测值{ysa,ysb,...,ysi},对其取平均,作为最终的对于下一个问题是否可以正确回答的预测结果:
Figure BDA0002711066970000101
其中,num_skills表示该问题所包含的技能的个数,NPC表示下一个问题答对的概率值。
本发明实施例的一种基于多热编码的多特征融合深度知识追踪系统,包括:
获取模块,用于获取学生的答题数据集,所述答题数据集包括多条答题记录,每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息,所述问题关联多个技能;
特征提取模块,用于从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt;
转换模块,用于将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt转换为分类变量;
编码模块,用于将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码,获得多热技能编码Multi(multi_s),将转换为分类变量后的所述答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt进行独热编码,获得独热编码O,将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接,获得输入向量vt
预测模块,用于将所述输入向量vt进行降维处理后输入到深度知识追踪模型,所述深度知识追踪模型用于输出每个技能的预测值,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。
基于多热编码的多特征融合深度知识追踪系统的实现原理、技术效果与上述方法类似,此处不再赘述。
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,包括步骤:
获取学生的答题数据集,所述答题数据集包括多条答题记录,每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息,所述问题关联多个技能;
从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt;
将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt转换为分类变量;
将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码,获得多热技能编码Multi(multi_s),将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt进行独热编码,获得独热编码O,将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接,获得输入向量vt
将所述输入向量vt进行降维处理后输入到深度知识追踪模型,所述深度知识追踪模型用于输出每个技能的预测值,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。
2.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,所述进行多热编码包括步骤:
遍历所述答题数据集,引入一个嵌入矩阵Q,所述嵌入矩阵Q形式为:Q={Qij}M×K,其中M为问题总数目,K为技能总数目,在所述嵌入矩阵Q中,每一行对应一个问题,每一列对应一个技能,所述嵌入矩阵Q中的向量表达为Qes
Figure FDA0002711066960000021
获取所述问题编号特征p和所述嵌入矩阵Q的向量积结果Multi(multi_s)。
3.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,所述进行独热编码包括步骤:将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act和所述学生首次反应时间特征frt进行特征交叉并采用独热编码,然后利用交叉验证选取最优特征组合作为所述独热编码O。
4.如权利要求3所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,所述将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、尝试次数特征att、首次操作特征act和学生首次反应时间特征frt转换为分类变量包括步骤:
将所述问题编号特征p的数值变量直接作为问题分类数,共n1类;
将所述技能编号特征s的数值变量作为技能分类数,共n2类;
将所述答题表现特征c分为2类,0表示答错,1表示答对,若存在非0非1的中间值ci,则以0.5为阈值,
Figure FDA0002711066960000022
将所述尝试次数特征att分为3类,att={0,1,其他},若学生放弃该问题,则att=0,若学生一次性答对了该问题则att=1,若既没有放弃该问题也没有一次性答对了该问题,则att=其他;
将所述首次操作特征act按数据集具体情况划分为n3类;
将所述学生首次反应时间特征frt作z分数处理,方法为:
Figure FDA0002711066960000023
其中,Z是所述学生首次反应时间frt的z分数,
Figure FDA0002711066960000024
为所述答题数据集中所有学生对某一问题的首次反应时间平均值,s’是学生首次反应时间的标准差,
将所述z分数离散为一个范畴特征,按照预设正确率阈值划分为n4类。
5.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,所述进行降维处理是采用欠完备自编码器、或主成分分析、或多维尺度分析、或局部线性嵌入方法中的一种。
6.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,所述欠完备自编码器的学习过程是最小化一个损失函数:
L=(x,g(f(x)))
其中,L是损失函数,计算输入x和经过编码器、解码器后的输出g(f(x))的差异,f(x)表示编码器,g(h)=g(f(x)表示解码器。
7.如权利要求6所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,所述欠完备自编码器采用tanh函数作为神经网络激活函数,公式为:
v′t=tanh(Wih*vt+bih)
Figure FDA0002711066960000031
其中,vt是输入的拼接特征,v′t是所述欠完备自编码器隐含层提取的特征向量,yt是所述欠完备自编码器的输出,Wih表示所述欠完备自编码器输入层和隐含层之间的权重系数矩阵,
Figure FDA0002711066960000032
表示Wih的转置矩阵,bih表示所述欠完备自编码器输入层和隐含层之间的偏差参数矩阵,bho表示所述欠完备自编码器隐含层和输出层之间的偏差参数矩阵。
8.如权利要求1所述的一种基于多热编码的多特征融合深度知识追踪方法,其特征在于,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果包括步骤:
所述深度知识追踪模型输出的每个技能的预测值记为Ot=[ys1,ys2,...,ysK],K为技能总数目,根据下一个问题所包含的技能{sa,sb,...,si},读取输出矩阵Ot中对应位置的概率预测值{ysa,ysb,...,ysi},根据以下公式确定下一个问题的预测结果:
Figure FDA0002711066960000041
其中,num_skills表示该问题所包含的技能的个数,NPC表示下一个问题答对的概率值。
9.一种基于多热编码的多特征融合深度知识追踪系统,其特征在于,包括:
获取模块,用于获取学生的答题数据集,所述答题数据集包括多条答题记录,每条所述答题记录包括一个问题和一个学生在回答该问题时的交互信息,所述问题关联多个技能;
特征提取模块,用于从所述答题数据集中提取问题编号特征p、技能编号特征s、答题表现特征c、尝试次数特征att、首次操作特征act、学生首次反应时间特征frt;
转换模块,用于将所述问题编号特征p、所述技能编号特征s、所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt转换为分类变量;
编码模块,用于将转换为分类变量后的所述问题编号特征p和所述技能编号特征s进行多热编码,获得多热技能编码Multi(multi_s),将转换为分类变量后的所述答题表现特征c、所述尝试次数特征att、所述首次操作特征act、所述学生首次反应时间特征frt进行独热编码,获得独热编码O,将所述多热技能编码Multi(multi_s)和所述独热编码O进行拼接,获得输入向量vt
预测模块,用于将所述输入向量vt进行降维处理后输入到深度知识追踪模型,所述深度知识追踪模型用于输出每个技能的预测值,根据所述深度知识追踪模型的输出确定对下一个问题的预测结果。
CN202011056680.0A 2020-09-29 2020-09-29 基于多热编码的多特征融合深度知识追踪方法及系统 Active CN112182308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011056680.0A CN112182308B (zh) 2020-09-29 2020-09-29 基于多热编码的多特征融合深度知识追踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011056680.0A CN112182308B (zh) 2020-09-29 2020-09-29 基于多热编码的多特征融合深度知识追踪方法及系统

Publications (2)

Publication Number Publication Date
CN112182308A true CN112182308A (zh) 2021-01-05
CN112182308B CN112182308B (zh) 2023-03-24

Family

ID=73946110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011056680.0A Active CN112182308B (zh) 2020-09-29 2020-09-29 基于多热编码的多特征融合深度知识追踪方法及系统

Country Status (1)

Country Link
CN (1) CN112182308B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949929A (zh) * 2021-03-15 2021-06-11 华中师范大学 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN112990464A (zh) * 2021-03-12 2021-06-18 东北师范大学 一种知识追踪方法及系统
CN113239699A (zh) * 2021-04-15 2021-08-10 北京师范大学 一种融合多特征的深度知识追踪方法及系统
CN113793239A (zh) * 2021-08-13 2021-12-14 华南理工大学 融合学习行为特征的个性化知识追踪方法与系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279721A1 (en) * 2013-03-15 2014-09-18 Northrop Grumman Systems Corporation Learning health systems and methods
US20150356420A1 (en) * 2014-06-04 2015-12-10 International Business Machines Corporation Rating Difficulty of Questions
US20160055234A1 (en) * 2014-08-19 2016-02-25 International Business Machines Corporation Retrieving Text from a Corpus of Documents in an Information Handling System
WO2017092380A1 (zh) * 2015-12-03 2017-06-08 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
US20190333400A1 (en) * 2018-04-27 2019-10-31 Adobe Inc. Personalized e-learning using a deep-learning-based knowledge tracing and hint-taking propensity model
CN110428010A (zh) * 2019-08-05 2019-11-08 中国科学技术大学 知识追踪方法
CN110807509A (zh) * 2018-08-06 2020-02-18 北京博智天下信息技术有限公司 一种基于贝叶斯神经网络的深度知识追踪方法
CN111444432A (zh) * 2020-04-01 2020-07-24 中国科学技术大学 领域自适应的深度知识追踪及个性化习题推荐方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279721A1 (en) * 2013-03-15 2014-09-18 Northrop Grumman Systems Corporation Learning health systems and methods
US20150356420A1 (en) * 2014-06-04 2015-12-10 International Business Machines Corporation Rating Difficulty of Questions
US20160055234A1 (en) * 2014-08-19 2016-02-25 International Business Machines Corporation Retrieving Text from a Corpus of Documents in an Information Handling System
WO2017092380A1 (zh) * 2015-12-03 2017-06-08 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
US20190333400A1 (en) * 2018-04-27 2019-10-31 Adobe Inc. Personalized e-learning using a deep-learning-based knowledge tracing and hint-taking propensity model
CN110807509A (zh) * 2018-08-06 2020-02-18 北京博智天下信息技术有限公司 一种基于贝叶斯神经网络的深度知识追踪方法
CN110428010A (zh) * 2019-08-05 2019-11-08 中国科学技术大学 知识追踪方法
CN111444432A (zh) * 2020-04-01 2020-07-24 中国科学技术大学 领域自适应的深度知识追踪及个性化习题推荐方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI,BAOPUDENG: "Multi-pedestrian tracking based on feature learning method with lateral inhibition", 《2015 IEEE INTERNATIONAL CONFERENCE ON INFORMATION AND AUTOMATION》 *
叶俊民等: "基于短文本情感增强的在线学习者成绩预测方法", 《自动化学报》 *
徐墨客等: "多知识点知识追踪模型与可视化研究", 《电化教育研究》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990464A (zh) * 2021-03-12 2021-06-18 东北师范大学 一种知识追踪方法及系统
CN112949929A (zh) * 2021-03-15 2021-06-11 华中师范大学 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN112949929B (zh) * 2021-03-15 2022-06-07 华中师范大学 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN113239699A (zh) * 2021-04-15 2021-08-10 北京师范大学 一种融合多特征的深度知识追踪方法及系统
CN113239699B (zh) * 2021-04-15 2023-11-07 北京师范大学 一种融合多特征的深度知识追踪方法及系统
CN113793239A (zh) * 2021-08-13 2021-12-14 华南理工大学 融合学习行为特征的个性化知识追踪方法与系统
CN113793239B (zh) * 2021-08-13 2023-12-19 华南理工大学 融合学习行为特征的个性化知识追踪方法与系统

Also Published As

Publication number Publication date
CN112182308B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN112182308B (zh) 基于多热编码的多特征融合深度知识追踪方法及系统
Dönmez et al. Supporting CSCL with automatic corpus analysis technology
Udagawa et al. A natural language corpus of common grounding under continuous and partially-observable context
CN113793239B (zh) 融合学习行为特征的个性化知识追踪方法与系统
CN113282713B (zh) 基于差异性神经表示模型的事件触发词检测方法
Logan et al. The episodic flanker effect: Memory retrieval as attention turned inward.
CN113283585B (zh) 一种基于自注意力机制的知识追踪方法及系统
CN114360662A (zh) 一种基于两路多分支cnn的单步逆合成方法及系统
CN116059646B (zh) 一种交互式专家指导系统
CN112949935B (zh) 融合学生知识点题目交互信息的知识追踪方法与系统
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN114913729A (zh) 一种选题方法、装置、计算机设备和存储介质
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN113591093A (zh) 基于自注意力机制的工业软件漏洞检测方法
CN114153942B (zh) 一种基于动态注意力机制的事件时序关系抽取方法
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
CN114567815A (zh) 一种基于预训练的慕课自适应学习系统构建方法和装置
CN113011196A (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN110347579B (zh) 基于神经元输出行为模式的深度学习测试用例的选择方法
Pereira et al. Assessing active learning strategies to improve the quality control of the soybean seed vigor
CN110427412A (zh) 题目读取方法、装置、题目录入装置和计算机存储介质
CN113779360A (zh) 基于多头问答模型的解题方法、装置、设备及存储介质
Nye et al. Automated Session-Quality Assessment for Human Tutoring Based on Expert Ratings of Tutoring Success.
Kaminsky et al. How to predict more with less, defect prediction using machine learners in an implicitly data starved domain
CN111783980B (zh) 基于双重协作生成式对抗网络的排序学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant