CN114021721A - 一种基于学习过程片段的时空注意力知识追踪方法 - Google Patents
一种基于学习过程片段的时空注意力知识追踪方法 Download PDFInfo
- Publication number
- CN114021721A CN114021721A CN202111266619.3A CN202111266619A CN114021721A CN 114021721 A CN114021721 A CN 114021721A CN 202111266619 A CN202111266619 A CN 202111266619A CN 114021721 A CN114021721 A CN 114021721A
- Authority
- CN
- China
- Prior art keywords
- attention
- module
- encoder
- learning
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于知识追踪技术领域,提供一种基于学习过程片段的时空注意力知识追踪方法,包括以下步骤:(1)知识跟踪问题定义和数据预处理;(2)时空注意力模型的构建;(3)模型的训练与预测。本发明方法从学习过程片段的角度建模知识追踪问题,使得模型可以同时建模答题者学习速率和知识状态,可适应不同答题者之间的差异,并加入基于时序注意力的遗忘机制,考虑答题者学习过程中的遗忘过程,更加符合人类的学习规律,对学习过程更好的建模。
Description
技术领域
本发明属于知识追踪技术领域,更具体的涉及一种基于学习过程片段的时空注意力知识追踪方法。
背景技术
知识追踪是利用计算机技术对答题者的知识状态进行建模,以便能够跟踪答题者对于知识点的掌握程度,进一步可以预测答题者在下一次答题时的表现。知识追踪能捕捉到答题者当前做题的真实情况,是学习者建模中的核心任务。知识追踪广泛应用在智能教育领域中,例如可以根据知识追踪预测情况自动推荐学习资源等。
知识追踪领域有多个经典的模型,例如深度知识跟踪模型(Deep KnowledgeTracing,DKT)、动态关键值记忆网络知识追踪模型(Dynamic Key-Value MemoryNetworks,DKVMN)、卷积知识追踪模型(Convolutional Knowledge Tracing,CKT)。其中CKT中科大版本(Convolutional Knowledge Tracing:Modeling Individualization inStudent Learning Process)模型考虑了学习速率和先验知识,根据答题者的答题记录首先计算答题者的先验知识,考虑到每个答题者学习某一个知识点的速率是不同的,利用CKT模型相比于DKT、DKVMN等现有的一些模型,预测精确度等性能有所提升。CKT华东师范大学版(Deep Knowledge Tracing with Convolutions),考虑长期和短期特征,选用LSTM建模长期特征,3D卷积建模短期特征,在预测精确度上相比于DKT、DKVMN等现有的一些模型有所提升。
但是两个版本的CKT皆存在以下问题:1)没有考虑到不同的学习者之间的差异,使用固定卷积核大小进行学习率建模。2)对历史试题相关性建模的处理上没有考虑遗忘特性,即当前试题与最近进行的练习具有很大的相关性大,与较远的练习相关性小。在预测准确性上,CKT中科大版在公开的真实数据集ASSIST2009上的ROC曲线下的面积(AUC)值为0.8252,CKT华东师大版本为0.8254,预测精确率,皆还存在提升的空间。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供一种基于学习过程片段的时空注意力知识追踪方法,能够有效提升知识追踪的预测精确度。
为实现上述目的,本发明采用以下技术方案。
一种基于学习过程片段的时空注意力知识追踪方法,包括以下步骤:
(1)知识跟踪问题定义和数据预处理;
(1-1)问题定义:给定一个学生包括T个学习交互的学习序列IT=(i1,i2,…,it),然后评估学生每次学习交互后的知识状态。在学习序列中,it是一个有序数对{et,at},代表一次学习交互,其中et表示在第t个练习,at∈{0,1}用来表示练习et答对或答错,其中,1表示答对,0表示答错。知识追踪表示为如下公式:
pt=f(ht) ht=g(ht-1)
pt∈{0,1},通过模型g(·)以及t-1时刻的知识状态ht-1得到答题者后一个时刻t知识状态ht,再通过f(·)以及ht预测该题答对的概率pt。
(1-2)数据采集:数据来源于真实公开数据,包含了答题者历史答题记录。每个答题者的答题记录包括练习的编号、该练习包含的技能编号以及答题者对该练习的答题结果。
(1-3)数据预处理:将每一位答题者历史记录处理成三行数据,第一行是该答题者的编号和答题数量,第二行是该答题者的答题历史记录中题目的编号,第三行为对应题目的答题结果,其长度与第二行一致,即答题结果与练习编号一一对应。
(2)时空注意力模型的构建;
模型分为四个模块:编码器、片段特征提取模块、空间注意力模块、输出模块。片段特征提取模块和编码器模块中均存在时序注意力模块,时序注意力模块与空间注意力模块共同构成时空注意力。各个模块具体如下:
编码器:编码器由3个时序多头注意力模块组合而成。将练习序列E={e1,e2,…,et}首先进行Embedding得到Ee,然后输入到其中一个时序多头注意力模块T,得到Encodere=MultiHeadAttention(Ee,Ee,Ee);将答题序列A={a1,a2,…,at}首先进行Embedding得到Ae,然后输入另一个时序多头注意力模块T,得到Encodera=MultiHeadAttention(Ae,Ae,Ae);最后将得到的Encodere和Encodera作为第三个时序多头注意力模块T的输入,得到最后的输出X={x1,x2,…,xt},即有:
X=MultiHeadAttention(Encodere,Encodere,Encodera),
此时X同时包含了练习和答题信息。
片段特征提取模块:该模块由N×M个基于片段的时序注意力模块组合而成,基于片段的时序注意力模块由深度因果卷积网络C和时序多头注意力T组成。因果卷积网络层数为M,每一层有N个不同卷积核大小的C,每一个C连接着一个T,组成C-T模块;编码器输出的练习-答题结果表示X将会首先输入到第一层的N个C中,每个C计算完成后除了将计算后的数据传递给下一层的C,还会作为T的输入。令每一个C的输出为Cij,则每个C-T的输出sij=MutiHeadAttention(Cij,Cij,Cij),i∈N,j∈M。
空间注意力模块:将片段特征提取模块输出sij进行压栈操作得到高维向量U,然后将U作为输入依次通过全局池化层、全连接层、ReLU激活层、全连接层、Sigmoid激活函数层得到每个sij的权重W,其中W={w11,w12,…,wij},然后通过将其加权求和得到最终的输出Sout。空间注意力模块与基于片段的时序注意力模块共同组成基于学习过程片段的时空注意力机制。
输出模块:将空间注意力模块输出Sout通过一个前馈传播网络得到最后的输出Hout,其中Hout={h1,h2,…,ht},ht表示t时刻答题者的知识状态。
(3)模型的训练与预测;数据输入通过模型获得答题者的t时刻的学习状态ht,下一题的预测值用公式表示为:pt=σ(ht-1·εt),其中εt为et的独热编码,pt为下一题即et答对的概率,σ为Sigmoid()函数,使得pt∈{0,1},损失函数为二元交叉熵损失函数,优化器使用Adam,学习率选择{0.001,0.0003,0.00001}。
本发明与现有技术相比,具有更好的效果。本发明方案从学习过程片段的角度建模知识追踪问题,使得模型可以同时建模答题者学习速率和知识状态,可适应不同答题者之间的差异,并加入基于时序注意力的遗忘机制,考虑答题者学习过程中的遗忘过程,更加符合人类的学习规律,对学习过程更好的建模。具体来说:对练习和答题使用单独编码,保证了模型具备良好的初始化效果;在片段特征信息提取过程中使用因果卷积,保证了答题者未来的表现不会泄漏,同时使用不同宽度的卷积核来适应不同答题者差异性,避免了固定的卷积核的局限;在深度方面,每一层卷积核均不相同,在深度抽象级别不断增强,提高了模型的泛化能力;空间注意力机制可以自动的根据答题者历史答题记录聚合不同卷积核下获得的学习过程片段特征,进而实现自适应不同的答题者。空间注意力机制与时序注意力机制结合起来成为时空注意力。该模型不仅充分考虑了答题者学习规律,对答题者学习过程通过时序注意力机制进行时序上的建模,同时还通过空间注意力机制考虑了不同答题者能力的差异,共同构成了时空注意力,能够有效提升知识追踪预测精确度,具有十分重要的应用价值,比如可以分析学生知识点掌握情况、习题推荐和学习路径分析。
附图说明
图1是本发明实施例的基于学习过程片段的时空注意力知识追踪方法流程示意图;
图2是本发明实施例的基于学习过程片段的时空注意力知识追踪方法模型原理图;
图3是本发明实施例的多头时序注意力原理图;
图4是本发明实施例的因果卷积示意图;
图5是本发明实施例的基于学习过程片段的时空注意力知识追踪模型的分类能力(AUC)变化示意图;
图6是本发明实施例的基于学习过程片段的时空注意力知识追踪模型的损失(LOSS)变化示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明实施例的基于学习过程片段的时空注意力知识追踪方法,包括以下步骤:
S1:获取答题者的历史答题数据集,该历史答题数据集中包括多条答题记录,每条答题记录包括一个练习的练习编号信息、该练习包含的技能编号信息以及答题者对该题目的答题结果信息。
将原始数据集中每一个答题者所做的练习编号信息e、练习中包含的技能s答题者在这些题目中的答题结果信息(答对或答错)a取出来,得到历史答题数据集D:
D={(e1,s1,a1),(e2,s2,a2),…,(et,st,at)}
其中ei表示练习编号信息,si表示练习中技能编号信息,ai表示对应题目的答题结果信息,1表示正确,0表示错误。
S2:从历史答题数据集提取每个答题者的练习序列、答题序列并进行嵌入表示;
步骤S2包括步骤:
S2-1:获取题目原始序列。每个答题者具有唯一的答题者编号信息,按照答题者编号信息对历史答题数据集中的数据进行分组,获取每个答题者答题的练习原始序列E:
S2-2:获取答题结果原始序列。在S2-1的基础上,获取答题者答题原始序列所对应的结果原始序列A:
S3:数据准备就绪之后,将数据输入到模型,模型的示意图如图2所示,总体由四大模块组成:编码器、片段特征提取模块、空间注意力模块、输出模块。编码器用来编码输入数据;片段特征提取模块用来提取片段特征信息;空间注意力模块用来聚合片段特征;输出模块用来将特征映射成答题者各个时刻的知识状态。步骤S3具体包含以下步骤:
S3-1:对练习原始序列和答题结果原始序列按照固定长度L进行划分,少于L的用0填充,超过L部分作为新的答题序列,然后分别进行嵌入编码成向量
Ee=Embedding(E)
Ae=Embedding(A)
S3-2:在S3-1基础上分别将练习嵌入编码Ee和答题嵌入编码Ae输入编码器,编码器由多头注意力机制模块构成,其基本结构如图3所示,公式如下:
在计算试题之间的权重,采用如图3(c)所示的指数衰减函数来减小与当前问题较远的问题的权重,Mask为上三角矩阵,如图3(b)所示,上三角矩阵保证计算权重时,未来的答题信息不会被泄露。带有遗忘行为的注意力机制如公式所示:
其中st,τ表示为:
其中d(t,τ)=|t-τ|,表示序列元素之间的时间间隔,d越大,表示时间间隔越远,权重越小,反之亦然。如图2(a)所示,编码器最终的输出为X={x1,x2,x3,…,xt-1,xt},其中X的计算步骤如下:
练习编码器:
Encodere=MultiHeadAttention(Q=Ee,K=Ee,V=Ee)
答题编码器:
Encodera=MultiHeadAttention(Q=Ae,K=Ae,V=Ae)
则最后的输出X为:
X=MultiHeadAttention(Q=Encodere,K=Encodere,V=Encodera)
S3-3:由S3-1编码器模块输出之后的得到答题交互表示X,然后将X输入到片段特征提取模块,特征提取模块如图2(b)所示,该模块由多个因果卷积和多头注意力模块构成。一个因果卷积与一个多头注意力模块连接组成一个基于片段的时序注意力模块C-T,C表示因果卷积模块,T表示多头注意力模块。
因果卷积满足两个定义:
1)输入与输出等长
2)未来的信息不会泄漏
因果卷积的基本结构如图4所示,基于因果卷积的两个定义可知因果卷积适合处理序列数据,故将其用来提取片段特征。每一个C-T模块的卷积核大小均不相同,共有N×M个,N表示每一层有N个不同卷积核,M表示深度卷积网络的层数,令每个C的输出为Cij,每个C-T模块的输出sij=MutiHeadAttention(Cij,Cij,Cij),其中i∈N,j∈M。
S3-5:通过空间注意力机制计算sij的权重W,其原理图部分如图2(c)所示,则:
则空间注意力最终输出:
S4:在S3所有步骤之后,得到输出Sout,即为最后的片段特征信息,则最后的知识状态Hout可由Sout通过前向传播网络FFN得到,如图2(d)所示。则:
Hout=FFN(Sout)
pt=σ(ht-1·εt)
模型使用Adam优化器进行训练,学习率选择0.001,通过Adam优化器不断的训练优化损失函数的值,尽量减小预测值与真实值之间的差距,最终得到最优的结果。
图5是本发明实施例的基于学习过程片段的时空注意力知识追踪模型的曲线下面积(AUC)值变化示意图,图6是相应的损失(LOSS)变化示意图。可以看出随着训练次数的增加,AUC值在逐渐升高,与损失函数的变化趋势大致相似。模型的预测性能与CKT相比,有一定的提升,AUC值为0.841,这表明,本技术方案可以达到预期的效果。
必须说明的是,上述实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
Claims (2)
1.一种基于学习过程片段的时空注意力知识追踪方法,其特征在于该方法包括以下步骤:
(1)知识跟踪问题定义和数据预处理;
(1-1)问题定义:给定一个学生包括T个学习交互的学习序列IT=(i1,i2,…,it),评估学生每次学习交互后的知识状态;在学习序列中,it是一个有序数对{et,at},代表一次学习交互,其中et表示在第t个练习,at∈{0,1}用来表示练习et答对或答错,其中,1表示答对,0表示答错;知识追踪表示为如下公式:
pt=f(ht)ht=g(ht-1)
其中pt∈{0,1},即通过模型g(·)以及t-1时刻的知识状态ht-1得到答题者后一个时刻t知识状态ht,再通过f(·)以及ht预测该题答对的概率pt;
(1-2)数据采集:数据来源包含了答题者历史答题记录,每个答题者的答题记录包括练习的编号、该练习包含的技能编号信息以及答题者对该练习的答题结果信息;
(1-3)数据预处理:将每一位答题者历史记录处理成三行数据,第一行是该答题者的编号和答题数量,第二行是该答题者的答题历史记录中题目的编号,第三行为对应题目的答题结果,其长度与第二行一致,即答题结果与练习编号一一对应;
(2)时空注意力模型的构建;
模型分为四个模块:编码器、片段特征提取模块、空间注意力模块、输出模块,其中,片段特征提取模块和编码器模块中均存在时序注意力模块,时序注意力模块与空间注意力模块共同构成时空注意力;各个模块具体如下:
编码器:编码器由3个时序多头注意力模块组合而成;将练习序列E={e1,e2,…,et}首先进行Embedding得到Ee,然后输入到其中一个时序多头注意力模块T,得到Encodere=MultiHeadAttention(Ee,Ee,Ee);将答题序列A={a1,a2,…,at}首先进行Embedding得到Ae,然后输入另一个时序多头注意力模块T,得到Encodera=MultiHeadAttention(Ae,Ae,Ae);最后将得到的Encodere和Encodera作为第三个时序多头注意力模块T的输入,得到最后的输出X={x1,x2,…,xt},即有:
X=MultiHeadAttention(Encodere,Encodere,Encodera),
此时X同时包含了练习和答题信息;
片段特征提取模块:该模块由N×M个基于片段的时序注意力模块组合而成,基于片段的时序注意力模块由深度因果卷积网络C和时序多头注意力T组成;因果卷积网络层数为M,每一层有N个不同卷积核大小的C,每一个C连接着一个T,组成C-T模块;编码器输出的练习-答题结果表示X将会首先输入到第一层的N个C中,每个C计算完成后除了将计算后的数据传递给下一层的C,还会作为T的输入;令每一个C的输出为Cij,则每个C-T的输出sij=MutiHeadAttention(Cij,Cij,Cij),i∈N,j∈M;
空间注意力模块:将片段特征提取模块输出sij进行压栈操作得到高维向量U,然后将U作为输入依次通过全局池化层、全连接层、ReLU激活层、全连接层、Sigmoid激活函数层得到每个sij的权重W,其中W={w11,w12,…,wij},然后通过将其加权求和得到最终的输出Sout;
输出模块:将空间注意力模块输出Sout通过一个前馈传播网络得到最后的输出Hout,前馈传播网络由3个全连接网络组成。Hout={h1,h2,…,ht},ht表示t时刻答题者的知识状态;
(3)模型的训练与预测;数据输入通过模型获得答题者的t时刻的学习状态ht,下一题的预测值用公式表示为:pt=σ(ht-1·εt),其中εt为et的独热编码,pt为下一题即et答对的概率,σ为Sigmoid()函数,使得pt∈{0,1},损失函数为二元交叉熵损失函数,优化器使用Adam,学习率选择{0.001,0.0003,0.00001}。
2.根据权利要求1所述的基于学习过程片段的时空注意力知识追踪方法,其特征在于步骤(3)中学习率选择0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111266619.3A CN114021721A (zh) | 2021-10-28 | 2021-10-28 | 一种基于学习过程片段的时空注意力知识追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111266619.3A CN114021721A (zh) | 2021-10-28 | 2021-10-28 | 一种基于学习过程片段的时空注意力知识追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114021721A true CN114021721A (zh) | 2022-02-08 |
Family
ID=80058410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111266619.3A Pending CN114021721A (zh) | 2021-10-28 | 2021-10-28 | 一种基于学习过程片段的时空注意力知识追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021721A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127048A (zh) * | 2023-04-04 | 2023-05-16 | 江西师范大学 | 融合习题和学习行为表征的顺序自注意力知识追踪模型 |
-
2021
- 2021-10-28 CN CN202111266619.3A patent/CN114021721A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127048A (zh) * | 2023-04-04 | 2023-05-16 | 江西师范大学 | 融合习题和学习行为表征的顺序自注意力知识追踪模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928993A (zh) | 基于深度循环神经网络的用户位置预测方法及系统 | |
CN109885756B (zh) | 基于cnn和rnn的序列化推荐方法 | |
CN110826638A (zh) | 基于重复注意力网络的零样本图像分类模型及其方法 | |
CN113360635B (zh) | 一种基于自注意和预训练机制的智能教学方法及系统 | |
CN115545160B (zh) | 一种多学习行为协同的知识追踪方法及系统 | |
CN113239897B (zh) | 基于时空特征组合回归的人体动作评价方法 | |
CN111291940A (zh) | 一种基于Attention深度学习模型的学生辍课预测方法 | |
CN112116137A (zh) | 一种基于混合深度神经网络的学生辍课预测方法 | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
CN114861754A (zh) | 一种基于外部注意力机制的知识追踪方法及系统 | |
CN110704668B (zh) | 基于网格的协同注意力vqa方法和装置 | |
CN115328971A (zh) | 基于双图神经网络的知识追踪建模方法及系统 | |
CN112988851B (zh) | 反事实预测模型数据处理方法、装置、设备及存储介质 | |
CN114021721A (zh) | 一种基于学习过程片段的时空注意力知识追踪方法 | |
CN114741614A (zh) | 一种基于位置编码器和时空嵌入的位置推荐方法 | |
CN113505307A (zh) | 一种基于弱监督增强的社交网络用户地域识别方法 | |
CN114548382B (zh) | 迁移训练方法、装置、设备、存储介质及程序产品 | |
CN116844041A (zh) | 一种基于双向卷积时间自注意力机制的耕地提取方法 | |
ABBAS | A survey of research into artificial neural networks for crime prediction | |
CN114117033B (zh) | 知识追踪方法及系统 | |
Ward | Statistics in ecological modeling; presence-only data and boosted mars | |
CN117634551A (zh) | 概念关系推理的双视角知识追踪方法 | |
CN114943276B (zh) | 基于树型注意力机制的深度知识追踪方法 | |
CN113888238B (zh) | 一种广告点击率预测方法、装置及计算机设备 | |
CN117633371B (zh) | 基于多注意力机制的推荐方法、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |