CN116127048B - 融合习题和学习行为表征的顺序自注意力知识追踪模型 - Google Patents

融合习题和学习行为表征的顺序自注意力知识追踪模型 Download PDF

Info

Publication number
CN116127048B
CN116127048B CN202310350698.9A CN202310350698A CN116127048B CN 116127048 B CN116127048 B CN 116127048B CN 202310350698 A CN202310350698 A CN 202310350698A CN 116127048 B CN116127048 B CN 116127048B
Authority
CN
China
Prior art keywords
representing
vector
module
formula
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310350698.9A
Other languages
English (en)
Other versions
CN116127048A (zh
Inventor
程艳
赵松华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202310350698.9A priority Critical patent/CN116127048B/zh
Publication of CN116127048A publication Critical patent/CN116127048A/zh
Application granted granted Critical
Publication of CN116127048B publication Critical patent/CN116127048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合习题和学习行为表征的顺序自注意力知识追踪模型,包括以下四个部分:嵌入模块、顺序自注意力模块、特征融合模块以及预测模块;嵌入模块连接顺序自注意力模块,顺序自注意力模块连接特征融合模块,特征融合模块连接预测模块。本发明的有益效果是:只利用学生练习相关的知识点和作答结果进行历史交互表示,能够更充分的利用学习答题过程中产生的丰富数据,挖掘其更深层次的语义信息;克服了循环神经网络的长期依赖问题和自注意力机制模型难以捕获输入序列的顺序信息的问题,并将自注意力机制获取的全局特征和上下文特征的融合,并使用融合后的特征来预测学生对下一个问题的回答。

Description

融合习题和学习行为表征的顺序自注意力知识追踪模型
技术领域
本发明属于电数字数据处理领域,具体为一种融合习题和学习行为表征的顺序自注意力知识追踪模型。
背景技术
随着在线教育平台的不断发展,知识追踪已成为帮助在线教育平台提供个性化教育的关键技术。知识追踪通过获取学习者的历史答题记录,追踪其随时间变化的认知状态,从而预测学习者在未来时间的做答表现。现有的知识追踪技术大多只考虑学生练习相关的知识点和作答结果,并未充分利用数据集中的其他数据,导致了特征稀疏性问题。基于长短期记忆网络的知识追踪模型存在的长期依赖问题和基于自注意力机制的知识追踪模型难以捕获输入序列的顺序信息问题也有待改进。
(1)传统的DKT 模型只使用了知识点和作答结果作为模型的输入,并没有考虑其他特征,导致其难以捕获学生历史交互的丰富信息。基于此问题,许多研究者开始尝试在输入嵌入中添加学习特征来提升知识追踪的性能。Zhang等人提出了DKT+FE模型,使用人工分析选择答题时间、答题次数等特征并离散化,经过one-hot编码后与交互嵌入连接,取得了较好的效果。Nagatani等人则通过考虑相同题目时间间隔、相邻题目时间间隔和题目历史练习次数,以此建模学习过程的遗忘特征,进一步改进了DKT模型。Ghosh等人基于Rasch模型构建了练习嵌入,以此改进传统利用知识点嵌入表示练习的不合理性。根据以上研究可知,通过挖掘和整合多种学习相关因素,充分利用额外信息能够更加准确地评估学生知识掌握情况,进一步提高知识追踪的性能。
不幸的是,据我们所知,大多数现有的方法要么仅考虑学习过程的遗忘信息,要么仅通过题目嵌入的改进提升知识追踪的性能。如何充分提取习题和学习行为相关的特征,解决特征稀疏性的问题仍未得到充分探索。
(2)基于长短期记忆网络的知识追踪模型:Piech等人率先将深度学习应用于KT任务,提出DKT模型,采用RNN/LSTM建模,获得了较好的效果。Sha等人设计了NKT模型,使用堆叠的LSTM来扩大LSTM序列学习容量,从而减轻 LSTM 中长期依赖关系的学习困难。Abdelrahamn等人则通过使用了Hop-LSTM来扩大 LSTM 的序列学习容量。现有基于循环神经网络的知识追踪模型只能在一定程度上扩展循环神经网络序列学习的长度,并没有从根本上解决问题,仍然存在的长期依赖问题,无法利用长序列输入。
(3)基于注意力的知识追踪模型:Pandey等人提出SAKT模型使用自注意机制代替RNN搭建模型框架,由于其不依赖RNN框架,因此不存在长期依赖。Choi等人针对SAKT中注意力层太浅、嵌入计算方式缺少经验的问题,提出了SAINT模型。利用编码器、解码器分别对练习及回答进行嵌入,通过多次叠加的注意力层有效增大AUC 的面积,获得更好的预测性能。Shin等人进一步改进了SAINT,在解码器中加入了两个时间属性。Pandey等人利用了上下文信息,提出了RKT模型。Ghosh等人提出了AKT模型,基于Rasch模型构建了练习嵌入和交互嵌入,并使用单调注意力来对学生的遗忘行为进行建模,这比之前的模型有了很大的改进。现有基于注意力机制的知识追踪模型,虽然摆脱了长短期记忆网络框架,不存在长期依赖问题,但是也丧失了循环神经网络对序列建模的能力,位置嵌入对序列信息的影响更是需要深入研究。
发明内容
针对目前知识追踪存在的上述问题,本发明的目的在于提供一种融合习题和学习行为表征的顺序自注意力知识追踪模型,一方面通过多特征融合充分挖掘学生历史交互的丰富信息,另一方面设计了一种顺序自注意力机制框架,使用循环神经网络代替变形金刚Transformer的位置编码方法来编码序列特征,使得我们的模型既能捕获输入的顺序信息,又能缓解基于循环神经网络存在的长期依赖问题。
本发明采用的技术方案如下:融合习题和学习行为表征的顺序自注意力知识追踪模型,包括嵌入模块、顺序自注意力模块、特征融合模块以及预测模块;嵌入模块连接顺序自注意力模块,顺序自注意力模块连接特征融合模块,特征融合模块连接预测模块;
关于嵌入模块,设置三个嵌入组件,分别是问题-知识点嵌入组件QKE、历史表现嵌入组件HPE、遗忘行为嵌入组件FBE,三个嵌入组件提取的习题特征、学习行为特征作为知识追踪模型的嵌入接口,用于知识追踪模型的输入;具体为:
通过问题-知识点嵌入组件QKE的挖掘,得到习题特征
Figure SMS_1
通过历史表现嵌入组件HPE的挖掘,得到历史表现特征
Figure SMS_2
,通过遗忘行为嵌入组件FBE的挖掘,得到遗忘行为特征/>
Figure SMS_3
通过习题特征
Figure SMS_4
、历史表现特征/>
Figure SMS_5
、遗忘行为特征/>
Figure SMS_6
得到嵌入模块的输出,嵌入模块的输出用综合表现向量/>
Figure SMS_7
表示。
进一步的,通过问题-知识点嵌入组件QKE的挖掘,得到习题特征
Figure SMS_8
,见公式(1)、公式(2)和公式(3);
Figure SMS_9
(1)
Figure SMS_10
(2)
Figure SMS_11
(3)
式中,
Figure SMS_14
表示问题编码,/>
Figure SMS_20
表示知识点编码,/>
Figure SMS_24
表示习题特征,e表示问题向量,/>
Figure SMS_15
由一个长度等于问题数M的独热编码得到,s表示问题对应的知识概念向量,/>
Figure SMS_19
由一个长度等于知识概念数N的独热编码得到;关于/>
Figure SMS_23
和/>
Figure SMS_26
,学生答对练习则在/>
Figure SMS_12
Figure SMS_16
第一维用1填充,其它位置用0填充,学生答错练习则在/>
Figure SMS_18
和/>
Figure SMS_22
最后一维用1填充,其它位置用0填充;/>
Figure SMS_13
为拼接操作,/>
Figure SMS_17
1和b1分别表示/>
Figure SMS_21
的权重和偏置,随机初始化,通过神经网络训练得到,/>
Figure SMS_25
为激活函数。
进一步的,通过历史表现嵌入组件HPE的挖掘,得到历史表现特征
Figure SMS_27
;见公式(4)、公式(5)和公式(6);
Figure SMS_28
(4)
Figure SMS_29
(5)
Figure SMS_30
(6)
式中,
Figure SMS_31
表示历史答对向量,/>
Figure SMS_32
表示历史答错向量,/>
Figure SMS_33
表示历史表现特征,OneHot表示独热编码,/>
Figure SMS_34
和/>
Figure SMS_35
表示学生练习对应知识概念的历史最大答对数和历史最大答错数,/>
Figure SMS_36
2和b2分别表示/>
Figure SMS_37
的权重和偏置,随机初始化,通过神经网络训练得到;
通过遗忘行为嵌入组件FBE的挖掘,得到遗忘行为特征
Figure SMS_38
;见公式(7)、公式(8)和公式(9);
Figure SMS_39
(7)
Figure SMS_40
(8)
Figure SMS_41
(9)
式中,
Figure SMS_42
表示重复时间间隔向量,/>
Figure SMS_43
表示序列时间间隔,/>
Figure SMS_44
表示遗忘行为特征,OneHot表示独热编码,RT和/>
Figure SMS_45
分别表示习题对应知识概念的重复时间间隔和序列时间间隔,/>
Figure SMS_46
3和b3分别表示/>
Figure SMS_47
的权重和偏置,随机初始化,通过神经网络训练得到。
进一步的,嵌入模块的输出用综合表现向量
Figure SMS_48
表示,具体过程为:
向量维度过大使得难以训练,将习题特征
Figure SMS_49
、历史表现特征/>
Figure SMS_50
、遗忘行为特征
Figure SMS_51
进行拼接,使用主成分分析进行向量降维,综合表现向量/>
Figure SMS_52
计算公式见公式(10):
Figure SMS_53
(10)。
进一步的,关于顺序自注意力模块,具体为:
将嵌入模块输出的综合表现向量
Figure SMS_54
,输入到循环神经网络中,得到具有序列顺序特征的向量X,计算公式见公式(11):
Figure SMS_55
(11)
式中,X表示序列顺序特征的向量,
Figure SMS_56
表示综合表现向量,LSTM表示循环神经网络;
将具有序列顺序特征的向量X输入到自注意力机制中,通过计算自注意力权重,得到自注意力机制的解码器输出全局特征m,见公式(12)和公式(13);
Figure SMS_57
(12)
Figure SMS_58
(13)
式中,Q、K、V分别为查询向量、键向量、值向量,
Figure SMS_59
、/>
Figure SMS_60
、/>
Figure SMS_61
分别为查询向量、键向量和值向量的投影矩阵,随机初始化,通过循环神经网络的训练自动得到,D为查询向量Q的维度大小的常数,T表示矩阵转置,softmax表示归一化函数,归一化函数的操作将一个向量里面的各个数值计算成范围在0~1之间的一个数值,并且保证向量里面的各个数值之和等于1;
将具有序列顺序特征的向量X输入到自注意力机制中,编码器输出
Figure SMS_62
,再将
Figure SMS_63
输入到门控循环神经网络中得到上下文特征w,见公式(14)和公式(15);
Figure SMS_64
(14)
Figure SMS_65
(15)
式中,
Figure SMS_66
表示顺序自注意力框架编码器的输出,Attention表示注意力机制,w表示上下文特征,GRU表示门控循环神经网络。
将序列顺序特征的向量X输入到自注意力模块中,在自注意力模块的解码器得到全局特征m,用以表示学生答题历史表现;将自注意力模块的解码器的输出
Figure SMS_67
输入到GRU网络得到了上下文特征w,用以表示答题的上下文信息,使得我们的模型既能捕获输入的顺序信息,又能缓解基于长短期记忆网络存在的长期依赖问题。
进一步的,关于特征融合模块,具体为:
顺序自注意力模块获得全局特征m和上下文特征w两个潜在特征保留的信息,设计一个自适应的融合门来适应两个潜在特征的权值;
自适应的融合门计算公式见公式(16)、公式(17)、公式(18):
Figure SMS_68
(16)
Figure SMS_69
(17)
Figure SMS_70
(18)
式中,
Figure SMS_71
表示控制上下文特征的权重,/>
Figure SMS_72
表示控制全局特征的权重,/>
Figure SMS_73
表示sigmoid激活函数,w表示上下文特征,m表示全局特征,/>
Figure SMS_74
表示拼接操作,具体为上下文特征w和全局特征m的拼接,/>
Figure SMS_75
分别表示/>
Figure SMS_76
的权重和偏置,随机初始化,通过神经网络训练自动得到;s表示学生的知识状态向量,/>
Figure SMS_77
表示点积。
进一步的,关于预测模块,具体为:
将上下文特征w和全局特征m连接,得到学生的知识状态向量s,将需要预测的问题
Figure SMS_78
与融合后的学生状态向量s连接起来,并使用包含Sigmoid激活函数的全连接层,最终输出学习者对预测问题的答对概率,用p表示,具体计算公式如下:
Figure SMS_79
(19)
式中,p表示学习者对预测问题的答对概率,Sigmoid为激活函数,
Figure SMS_80
、/>
Figure SMS_81
、/>
Figure SMS_82
、/>
Figure SMS_83
分别表示/>
Figure SMS_84
的权重和偏置,随机初始化,通过神经网络训练得到,Relu为激活函数。
本发明的有益效果是:(1)只利用学生练习相关的知识点和作答结果进行历史交互表示,能够更充分的利用学习答题过程中产生的丰富数据,挖掘其更深层次的语义信息。(2)克服了循环神经网络的长期依赖问题和自注意力机制模型难以捕获输入序列的顺序信息的问题,并将自注意力机制获取的全局特征和上下文特征的融合 ,并使用融合后的特征来预测学生对下一个问题的回答。
附图说明
图1为本发明的模型结构图。
图2为本发明嵌入模块结构图。
具体实施方式
如图1-图2所示,一种融合习题和学习行为表征的顺序自注意力知识追踪模型,包括以下四个部分:嵌入模块、顺序自注意力模块、特征融合模块以及预测模块;
关于嵌入模块,设置三个嵌入组件,分别是问题-知识点嵌入组件QKE、历史表现嵌入组件HPE、遗忘行为嵌入组件FBE,三个嵌入组件提取的习题特征、学习行为特征作为知识追踪模型的嵌入接口,用于知识追踪模型的输入;具体为:
通过问题-知识点嵌入组件QKE的挖掘,得到习题特征
Figure SMS_85
通过历史表现嵌入组件HPE的挖掘,得到历史表现特征
Figure SMS_86
,通过遗忘行为嵌入组件FBE的挖掘,得到遗忘行为特征/>
Figure SMS_87
通过习题特征
Figure SMS_88
、历史表现特征/>
Figure SMS_89
、遗忘行为特征/>
Figure SMS_90
得到嵌入模块的输出,嵌入模块的输出用综合表现向量/>
Figure SMS_91
表示。
进一步的,通过问题-知识点嵌入组件QKE的挖掘,得到习题特征
Figure SMS_92
,见公式(1)、公式(2)和公式(3);
Figure SMS_93
(1)
Figure SMS_94
(2)
Figure SMS_95
(3)
式中,
Figure SMS_98
表示问题编码,/>
Figure SMS_103
表示知识点编码,/>
Figure SMS_107
表示习题特征,e表示问题向量,/>
Figure SMS_97
由一个长度等于问题数M的独热编码得到,s表示问题对应的知识概念向量,/>
Figure SMS_101
由一个长度等于知识概念数N的独热编码得到;关于/>
Figure SMS_105
和/>
Figure SMS_109
,学生答对练习则在/>
Figure SMS_96
Figure SMS_100
第一维用1填充,其它位置用0填充,学生答错练习则在/>
Figure SMS_102
和/>
Figure SMS_106
最后一维用1填充,其它位置用0填充;/>
Figure SMS_99
为拼接操作,/>
Figure SMS_104
1和b1分别表示/>
Figure SMS_108
的权重和偏置,随机初始化,通过神经网络训练得到,/>
Figure SMS_110
为激活函数。
进一步的,通过历史表现嵌入组件HPE的挖掘,得到历史表现特征
Figure SMS_111
;见公式(4)、公式(5)和公式(6);
Figure SMS_112
(4)
Figure SMS_113
(5)
Figure SMS_114
(6)
式中,
Figure SMS_115
表示历史答对向量,/>
Figure SMS_116
表示历史答错向量,/>
Figure SMS_117
表示历史表现特征,OneHot表示独热编码,/>
Figure SMS_118
和/>
Figure SMS_119
表示学生练习对应知识概念的历史最大答对数和历史最大答错数,/>
Figure SMS_120
2和b2分别表示/>
Figure SMS_121
的权重和偏置,随机初始化,通过神经网络训练得到;
通过遗忘行为嵌入组件FBE的挖掘,得到遗忘行为特征
Figure SMS_122
;见公式(7)、公式(8)和公式(9);
Figure SMS_123
(7)
Figure SMS_124
(8)
Figure SMS_125
(9)
式中,
Figure SMS_126
表示重复时间间隔向量,/>
Figure SMS_127
表示序列时间间隔,/>
Figure SMS_128
表示遗忘行为特征,OneHot表示独热编码,RT和/>
Figure SMS_129
分别表示习题对应知识概念的重复时间间隔和序列时间间隔,/>
Figure SMS_130
3和b3分别表示/>
Figure SMS_131
的权重和偏置,随机初始化,通过神经网络训练得到。
进一步的,嵌入模块的输出用综合表现向量
Figure SMS_132
表示,具体过程为:
向量维度过大使得难以训练,将习题特征
Figure SMS_133
、历史表现特征/>
Figure SMS_134
、遗忘行为特征
Figure SMS_135
进行拼接,使用主成分分析(PCA)进行向量降维,综合表现向量/>
Figure SMS_136
计算公式见公式(10):
Figure SMS_137
(10)。
关于嵌入模块,具体为:为解决现有知识追踪模型未充分利用数据集中的其他数据,导致了特征稀疏性问题;一方面,通过练习和技能等相关因素进行习题特征挖掘;另一方面,通过学习者的历史表现和遗忘行为进行学习行为特征挖掘。并将融合后的习题特征和学习行为特征作为模型的嵌入接口用于知识追踪模型的输入;如图2所示,为嵌入模块结构图,e表示问题向量,s表示问题对应的知识概念向量,
Figure SMS_139
表示问题编码,/>
Figure SMS_145
表示知识点编码,/>
Figure SMS_148
表示习题特征。/>
Figure SMS_141
和/>
Figure SMS_144
表示学生练习对应知识概念的历史最大答对数和历史最大答错数,/>
Figure SMS_147
表示历史答对向量,/>
Figure SMS_149
表示历史答错向量,/>
Figure SMS_138
表示历史表现特征。RT和/>
Figure SMS_142
分别表示习题对应知识概念的重复时间间隔和序列时间间隔,/>
Figure SMS_143
表示重复时间间隔向量,/>
Figure SMS_146
表示序列时间间隔向量,/>
Figure SMS_140
表示遗忘行为特征。
关于顺序自注意力模块,具体为:
将嵌入模块输出的综合表现向量
Figure SMS_150
,输入到循环神经网络中,得到具有序列顺序特征的向量X,计算公式见公式(11)
Figure SMS_151
(11)
式中,X表示序列顺序特征的向量,
Figure SMS_152
表示综合表现向量,LSTM表示循环神经网络;
将具有序列顺序特征的向量X输入到自注意力机制中,通过计算自注意力权重,得到自注意力机制的解码器输出全局特征m,见公式(12)和公式(13);
Figure SMS_153
(12)
Figure SMS_154
(13)
式中,Q、K、V分别为查询向量、键向量、值向量,
Figure SMS_155
、/>
Figure SMS_156
、/>
Figure SMS_157
分别为查询向量、键向量和值向量的投影矩阵,随机初始化,通过循环神经网络的训练自动得到,D为查询向量Q的维度大小的常数,T表示矩阵转置,softmax表示归一化函数,归一化函数的操作将一个向量里面的各个数值计算成范围在0~1之间的一个数值,并且保证向量里面的各个数值之和等于1;
将具有序列顺序特征的向量X输入到自注意力机制中,编码器输出
Figure SMS_158
,再将
Figure SMS_159
输入到门控循环神经网络中得到上下文特征w,见公式(14)和公式(15);
Figure SMS_160
(14)
Figure SMS_161
(15)
式中,
Figure SMS_162
表示顺序自注意力框架编码器的输出,Attention表示注意力机制,w表示上下文特征,GRU表示门控循环神经网络。
将序列顺序特征的向量X输入到自注意力模块中,在自注意力模块的解码器得到全局特征m,用以表示学生答题历史表现;将自注意力模块的解码器的输出
Figure SMS_163
输入到GRU网络得到了上下文特征w,用以表示答题的上下文信息,使得我们的模型既能捕获输入的顺序信息,又能缓解基于长短期记忆网络存在的长期依赖问题。
关于顺序自注意力模块,具体为:结合循环神经网络和自注意力机制的各自优势,设计了一个顺序自注意力模块。具体而言,设计了一种新的位置编码方式,具体为使用循环神经网络来代替自注意力机制中的位置编码。具体过程为:首先,将嵌入模块输出的历史交互嵌入,输入到循环神经网络中以提出输入序列的顺序信息。接着,将具有顺序信息的嵌入输入到自注意力机制中,计算输入序列中每一项的相似性,得到之前的练习和下一次练习之间的相对权重来实现全局特征提取。此外,将自注意力模块编码器的输出输入到长短期记忆网络中,用于捕获学生历史交互的上下文特征;最终,使得我们的模型既能捕获输入的顺序信息,又能缓解基于长短期记忆网络存在的长期依赖问题。
关于特征融合模块,具体为:顺序自注意力模块获得全局特征m和上下文特征w两个潜在特征保留的信息,设计一个自适应的融合门来适应两个潜在特征的权值;
自适应的融合门计算公式见公式(16)、公式(17)、公式(18):
Figure SMS_164
(16)
Figure SMS_165
(17)
Figure SMS_166
(18)
式中,
Figure SMS_167
表示控制上下文特征的权重,/>
Figure SMS_168
表示控制全局特征的权重,/>
Figure SMS_169
表示sigmoid激活函数,w表示上下文特征,m表示全局特征,/>
Figure SMS_170
表示拼接操作,具体为上下文特征w和全局特征m的拼接,/>
Figure SMS_171
分别表示/>
Figure SMS_172
的权重和偏置,随机初始化,通过神经网络训练自动得到;s表示学生的知识状态向量,/>
Figure SMS_173
表示点积。
关于预测模块,具体为:将上下文特征w和全局特征m连接,得到学生的知识状态向量s,将需要预测的问题
Figure SMS_174
与融合后的学生状态向量s连接起来,并使用包含Sigmoid激活函数的全连接层,最终输出学习者对预测问题的答对概率,用p表示,具体计算公式如下:
Figure SMS_175
(19)
式中,p表示学习者对预测问题的答对概率,Sigmoid为激活函数,
Figure SMS_176
、/>
Figure SMS_177
、/>
Figure SMS_178
、/>
Figure SMS_179
分别表示/>
Figure SMS_180
的权重和偏置,随机初始化,通过神经网络训练得到,ReLU为激活函数。
本发明的技术创新点是:
(1)提出了一种融合习题和学习行为表征的顺序自注意力知识追踪模型,通过考虑练习和技能、学习者的历史表现和学习者在学习过程中的遗忘行为等多种学习相关因素,作为模型的嵌入接口用于模型的输入。
(2)设计了一种新的位置编码方式,具体为使用循环神经网络来代替自注意力机制中的位置编码来编码序列特征,使得我们的模型既能捕获输入的顺序信息,又能摆脱基于循环神经网络存在的长期依赖问题。设计了一个自适应的融合门,将变换神经网络获取的全局特征和长短期记忆网络获得的上下文特征的融合,并使用融合后的特征来预测学生对下一个问题的反应。
表1 模型预测性能对比实验结果
Figure SMS_181
表1实验结果表明,本发明模型的性能优于最先进的基线模型。在三个真实的数据集:协助2009数据集、协助2017数据集、教育网络数据集上准确率分别达到83.20%、85.40%、74.14%,这证明了本发明的模型的有效性。值得注意的是,在协助2017数据集上本发明模型性能显著优于其他模型,显示出至少增长了2%。原因可能是协助2017数据集中学生的平均回答问题数最大,这表明本发明的模型能够很好地按顺序捕获长距离依赖关系。一般的来说,情境感知注意力的知识追踪AKT和OURS 明显优于其他模型,这可以归因于问题信息和相关技能的有效利用。与情境感知注意力的知识追踪AKT相比,OURS使用信息更丰富的问题表示,并使用长短期记忆网络建模遗忘行为,这有助于本发明的模型获得更好的性能。
基于自注意力的知识追踪SAKT在所有深度神经网路模型中的所有数据集中表现最差,可能是基于自注意力的知识追踪SAKT使用了可学习的位置嵌入,并且没有明确地建模忘记行为,因此无法在这些数据集中学习有效的位置表示。本发明还发现,使用本发明提出的多特征融合嵌入的多特征动态键值记忆网络的知识追踪DKVMN-MF和多特征情境感知注意力的知识追踪AKT-MF在所有数据集上分别都优于动态键值记忆网络的知识追踪DKVMN和情境感知注意力的知识追踪AKT,也体现了本发明的多特征嵌入能充分挖掘多种学习相关因素隐含的丰富特征,提高模型的预测性能。

Claims (1)

1.融合习题和学习行为表征的顺序自注意力知识追踪模型,其特征是:包括嵌入模块、顺序自注意力模块、特征融合模块以及预测模块;嵌入模块连接顺序自注意力模块,顺序自注意力模块连接特征融合模块,特征融合模块连接预测模块;
关于嵌入模块,设置三个嵌入组件,分别是问题-知识点嵌入组件QKE、历史表现嵌入组件HPE、遗忘行为嵌入组件FBE,三个嵌入组件提取的习题特征、学习行为特征作为知识追踪模型的嵌入接口,用于知识追踪模型的输入;具体为:
通过问题-知识点嵌入组件QKE的挖掘,得到习题特征
Figure QLYQS_1
通过历史表现嵌入组件HPE的挖掘,得到历史表现特征
Figure QLYQS_2
,通过遗忘行为嵌入组件FBE的挖掘,得到遗忘行为特征/>
Figure QLYQS_3
通过习题特征
Figure QLYQS_4
、历史表现特征/>
Figure QLYQS_5
、遗忘行为特征/>
Figure QLYQS_6
得到嵌入模块的输出,嵌入模块的输出用综合表现向量/>
Figure QLYQS_7
表示;
通过问题-知识点嵌入组件QKE的挖掘,得到习题特征
Figure QLYQS_8
,见公式(1)、公式(2)和公式(3);
Figure QLYQS_9
Figure QLYQS_10
Figure QLYQS_11
式中,
Figure QLYQS_14
表示问题编码,/>
Figure QLYQS_17
表示知识点编码,/>
Figure QLYQS_21
表示习题特征,e表示问题向量,/>
Figure QLYQS_12
由一个长度等于问题数M的独热编码得到,s表示问题对应的知识概念向量,/>
Figure QLYQS_19
由一个长度等于知识概念数N的独热编码得到;关于/>
Figure QLYQS_20
和/>
Figure QLYQS_24
,学生答对练习则在/>
Figure QLYQS_13
和/>
Figure QLYQS_18
第一维用1填充,其它位置用0填充,学生答错练习则在/>
Figure QLYQS_22
和/>
Figure QLYQS_25
最后一维用1填充,其它位置用0填充;/>
Figure QLYQS_15
为拼接操作,/>
Figure QLYQS_16
和b1分别表示/>
Figure QLYQS_23
的权重和偏置,随机初始化,通过神经网络训练得到,/>
Figure QLYQS_26
为激活函数;
通过历史表现嵌入组件HPE的挖掘,得到历史表现特征
Figure QLYQS_27
;见公式(4)、公式(5)和公式(6);
Figure QLYQS_28
Figure QLYQS_29
Figure QLYQS_30
式中,
Figure QLYQS_31
表示历史答对向量,/>
Figure QLYQS_32
表示历史答错向量,/>
Figure QLYQS_33
表示历史表现特征,OneHot表示独热编码,/>
Figure QLYQS_34
和/>
Figure QLYQS_35
表示学生练习对应知识概念的历史最大答对数和历史最大答错数,/>
Figure QLYQS_36
和b2分别表示/>
Figure QLYQS_37
的权重和偏置,随机初始化,通过神经网络训练得到;
通过遗忘行为嵌入组件FBE的挖掘,得到遗忘行为特征
Figure QLYQS_38
,见公式(7)、公式(8)和公式(9);
Figure QLYQS_39
Figure QLYQS_40
Figure QLYQS_41
式中,
Figure QLYQS_42
表示重复时间间隔向量,/>
Figure QLYQS_43
表示序列时间间隔,/>
Figure QLYQS_44
表示遗忘行为特征,OneHot表示独热编码,RT和/>
Figure QLYQS_45
分别表示习题对应知识概念的重复时间间隔和序列时间间隔,/>
Figure QLYQS_46
和b3分别表示/>
Figure QLYQS_47
的权重和偏置,随机初始化,通过神经网络训练得到;
嵌入模块的输出用综合表现向量
Figure QLYQS_48
表示,具体过程为:
向量维度过大使得难以训练,将习题特征
Figure QLYQS_49
、历史表现特征/>
Figure QLYQS_50
、遗忘行为特征/>
Figure QLYQS_51
进行拼接,使用主成分分析进行向量降维,综合表现向量/>
Figure QLYQS_52
计算公式见公式(10):
Figure QLYQS_53
关于顺序自注意力模块,具体为:
将嵌入模块输出的综合表现向量
Figure QLYQS_54
,输入到循环神经网络中,得到具有序列顺序特征的向量X,计算公式见公式(11):
Figure QLYQS_55
式中,X表示序列顺序特征的向量,
Figure QLYQS_56
表示综合表现向量,LSTM表示循环神经网络;
将具有序列顺序特征的向量X输入到自注意力机制中,通过计算自注意力权重,得到自注意力机制的解码器输出全局特征m,见公式(12)和公式(13);
Figure QLYQS_57
Figure QLYQS_58
式中,Q、K、V分别为查询向量、键向量、值向量,
Figure QLYQS_59
分别为查询向量、键向量和值向量的投影矩阵,随机初始化,通过循环神经网络的训练自动得到,D为查询向量Q的维度大小的常数,T表示矩阵转置,softmax表示归一化函数,归一化函数的操作将一个向量里面的各个数值计算成范围在0~1之间的一个数值,并且保证向量里面的各个数值之和等于1;
将具有序列顺序特征的向量X输入到自注意力机制中,编码器输出
Figure QLYQS_60
,再将
Figure QLYQS_61
输入到门控循环神经网络中得到上下文特征w,见公式(14)和公式(15);
Figure QLYQS_62
Figure QLYQS_63
式中,
Figure QLYQS_64
表示顺序自注意力框架编码器的输出,Attention表示注意力机制,w表示上下文特征,GRU表示门控循环神经网络;
关于特征融合模块,具体为:
顺序自注意力模块获得全局特征m和上下文特征w两个潜在特征保留的信息,设计一个自适应的融合门来适应两个潜在特征的权值;
自适应的融合门计算公式见公式(16)、公式(17)、公式(18):
Figure QLYQS_65
Figure QLYQS_66
Figure QLYQS_67
式中,
Figure QLYQS_68
表示控制上下文特征的权重,/>
Figure QLYQS_69
表示控制全局特征的权重,/>
Figure QLYQS_70
表示sigmoid激活函数,w表示上下文特征,m表示全局特征,/>
Figure QLYQS_71
表示拼接操作,具体为上下文特征w和全局特征m的拼接,/>
Figure QLYQS_72
分别表示/>
Figure QLYQS_73
的权重和偏置,随机初始化,通过神经网络训练自动得到;s表示学生的知识状态向量,/>
Figure QLYQS_74
表示点积;
关于预测模块,具体为:
将上下文特征w和全局特征m连接,得到学生的知识状态向量s,将需要预测的问题
Figure QLYQS_75
与融合后的学生状态向量s连接起来,并使用包含Sigmoid激活函数的全连接层,最终输出学习者对预测问题的答对概率,用p表示,具体计算公式如下:
Figure QLYQS_76
式中,p表示学习者对预测问题的答对概率,Sigmoid为激活函数,
Figure QLYQS_77
分别表示/>
Figure QLYQS_78
的权重和偏置,随机初始化,通过神经网络训练得到,Relu为激活函数。
CN202310350698.9A 2023-04-04 2023-04-04 融合习题和学习行为表征的顺序自注意力知识追踪模型 Active CN116127048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310350698.9A CN116127048B (zh) 2023-04-04 2023-04-04 融合习题和学习行为表征的顺序自注意力知识追踪模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350698.9A CN116127048B (zh) 2023-04-04 2023-04-04 融合习题和学习行为表征的顺序自注意力知识追踪模型

Publications (2)

Publication Number Publication Date
CN116127048A CN116127048A (zh) 2023-05-16
CN116127048B true CN116127048B (zh) 2023-06-27

Family

ID=86310289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350698.9A Active CN116127048B (zh) 2023-04-04 2023-04-04 融合习题和学习行为表征的顺序自注意力知识追踪模型

Country Status (1)

Country Link
CN (1) CN116127048B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390091B (zh) * 2023-12-13 2024-02-09 福建天晴数码有限公司 一种教育元宇宙中的知识追踪方法及终端
CN118035568B (zh) * 2024-04-12 2024-07-05 暨南大学 一种感知知识掌握程度的教育习题智能推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141320A (ko) * 2020-02-18 2021-11-23 (주)뤼이드 인공 지능 학습 기반의 사용자 지식 추적 시스템 및 그것의 동작 방법
CN113704235A (zh) * 2021-08-03 2021-11-26 桂林电子科技大学 一种基于自注意力机制的深度知识追踪模型
CN114385801A (zh) * 2021-12-27 2022-04-22 河北工业大学 一种基于分层细化lstm网络的知识追踪方法及系统
CN115062716A (zh) * 2022-06-29 2022-09-16 长江大学 融合学习行为特征的知识追踪方法、系统及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11887008B2 (en) * 2019-12-09 2024-01-30 Nec Corporation Contextual text generation for question answering and text summarization with supervised representation disentanglement and mutual information minimization
US20220027707A1 (en) * 2020-07-24 2022-01-27 International Business Machines Corporation Subgraph guided knowledge graph question generation
WO2022265127A1 (ko) * 2021-06-15 2022-12-22 (주)뤼이드 인공 지능 학습 기반의 사용자 이탈율 예측 및 사용자 지식 추적 시스템 및 그것의 동작 방법
CN113378581B (zh) * 2021-06-25 2023-06-06 浙江工商大学 一种基于多元概念注意力模型的知识追踪方法及系统
CN113793239B (zh) * 2021-08-13 2023-12-19 华南理工大学 融合学习行为特征的个性化知识追踪方法与系统
CN114021721A (zh) * 2021-10-28 2022-02-08 华中师范大学 一种基于学习过程片段的时空注意力知识追踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141320A (ko) * 2020-02-18 2021-11-23 (주)뤼이드 인공 지능 학습 기반의 사용자 지식 추적 시스템 및 그것의 동작 방법
CN113704235A (zh) * 2021-08-03 2021-11-26 桂林电子科技大学 一种基于自注意力机制的深度知识追踪模型
CN114385801A (zh) * 2021-12-27 2022-04-22 河北工业大学 一种基于分层细化lstm网络的知识追踪方法及系统
CN115062716A (zh) * 2022-06-29 2022-09-16 长江大学 融合学习行为特征的知识追踪方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Knowledge Tracing: A Survey;Ghodai Abdelrahman 等;ACM;第1-37页 *
LFKT:学习与遗忘融合的深度知识追踪模型;李晓光 等;软件学报;第818-830页 *
语义增强的在线学习行为预测研究;叶俊民;罗达雄;陈曙;廖志鑫;;小型微型计算机系统(01);第51-55页 *

Also Published As

Publication number Publication date
CN116127048A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN116127048B (zh) 融合习题和学习行为表征的顺序自注意力知识追踪模型
CN108647233B (zh) 一种用于问答系统的答案排序方法
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
Trask Grokking deep learning
Lu et al. Towards interpretable deep learning models for knowledge tracing
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN113033808B (zh) 一种基于习题难度和学生能力的深度嵌入知识追踪方法
JP2019023717A (ja) 傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習
CN110163299A (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN111897913A (zh) 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN111524593B (zh) 基于上下文语言模型和知识嵌入的医疗问答方法及系统
CN108665055B (zh) 一种图说生成方法及装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN111598118B (zh) 一种视觉问答任务实现方法及系统
CN111339449A (zh) 一种用户运动轨迹的预测方法、装置、设备及存储介质
CN114385801A (zh) 一种基于分层细化lstm网络的知识追踪方法及系统
CN114969298A (zh) 一种基于跨模态异质图神经网络的视频问答方法
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
Kahn et al. Deep learning programming by all
CN114424208A (zh) 门控注意力神经网络
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
Wang et al. Transgpt: Multi-modal generative pre-trained transformer for transportation
CN117911208A (zh) 一种基于双重感知图的学习个性化推荐方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant