CN116186409A - 一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备 - Google Patents
一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备 Download PDFInfo
- Publication number
- CN116186409A CN116186409A CN202310207879.6A CN202310207879A CN116186409A CN 116186409 A CN116186409 A CN 116186409A CN 202310207879 A CN202310207879 A CN 202310207879A CN 116186409 A CN116186409 A CN 116186409A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- difficulty
- list
- student
- knowledge points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 238000002922 simulated annealing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 8
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000003466 anti-cipated effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 2
- 230000001149 cognitive effect Effects 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Fuzzy Systems (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Educational Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
Abstract
一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备,方法包括:首先将学生历史答题序列进行编码,得到标准格式的模型输入数据;使用e‑DKT模型对习题进行建模,得到学生习题正确回答概率,使用k‑DKT模型对知识点进行建模,得到学生知识点掌握程度;基于正确回答概率和知识点掌握程度,计算习题个人难度和学生薄弱知识点,利用过滤模块,从习题集中选择难度适中且包含薄弱知识点的习题构建候选子集;利用模拟退火算法从候选子集中选择空间距离最大的习题,生成推荐习题列表;设计评估指标以度量推荐的效果,使习题推荐兼具准确性、新颖性及多样性;其系统及设备用于结合难度与薄弱知识点进行多样化习题推荐;本发明同时保证了习题推荐的准确性、新颖性、多样性,具有实用高效的优点。
Description
技术领域
本发明属于教育数据挖掘技术领域,尤其涉及一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备。
背景技术
如今,随着在线学习领域的不断发展,推荐算法也被应用在了学习资源上,习题作为一种学习资源,在学生的个性化学习中发挥着重要作用,做题是检验学生是否掌握目标知识点的有效方法。现有的习题推荐算法可大致分为两类,一类是借鉴电商领域推荐思想,以协同过滤为代表的传统推荐模型,另一类是以认知诊断和知识追踪为代表的基于学生能力评估的推荐模型。
借鉴传统推荐算法在电商领域应用的思路,可以将在线学习平台中的学生视为电商中的用户,习题资源视为商品,学生在习题上的表现视为用户对商品的评分,因此可以应用协同过滤算法进行推荐。Wu等人针对协同过滤算法中利用信息不足的问题,提出了一种基于多分类器的迁移Bagging习题推荐模型,Segal等人使用User-CF对相似的学生进行排序,并为学生构建习题难度排名,以辅助教师为学生布置合适的习题作业。
然而,电子商务领域的推荐算法往往从用户的兴趣出发,目标是使推荐的商品符合用户偏好,因此往往会导致推荐的习题对学生而言难度不合适。而习题推荐作为学习资源推荐的一种,与其他推荐领域不同,学习推荐不是为了预测或迎合学生的潜在行为,而应该通过推荐的内容,辅助学生在合适的学习进程中以合理的方式发现与其个性化参数相匹配的学习资源,从而能弥补学生薄弱知识点和提高学习效率。
认知诊断(Cognitive Diagnostic,CD)与知识追踪(Knowledge Tracing,KT)目前被广泛的应用在个性化习题推荐领域。认知诊断主要是对一段时间内的学生整体学习数据进行研究,获取学生当前静态的知识掌握水平,而知识追踪则能随时间变化,动态捕获学生知识掌握水平。朱天宇等人提出了一种结合认知诊断和概率矩阵分解的习题推荐模型,将认知诊断模型得到的学生知识掌握情况应用到概率分解模型,使得模型能够同时考虑被推荐学生的个性和群体的共性。马骁睿等人提出了一种基于深度知识追踪的推荐习题算法,将知识追踪得到学生知识水平矩阵视为协同过滤中用户-物品矩阵,结合最相似用户向量的均值与本身向量的加权来与习题进行正确率计算,推荐一定难度范围内的习题。
然而,这些基于学生认知水平的习题推荐算法,仅考虑根据学生的知识掌握水平为其推荐难度适中的习题,即仅考虑推荐的准确性。对于推荐算法而言,只考虑推荐的准确性是有局限性的,会使得推荐内容过于集中,无法给用户带来新鲜感,降低用户体验的满意度。
专利申请CN202210833098.3提出了一种融合多特征的深度知识追踪方法及习题推荐方法,使用融合多特征的深度知识追踪方法预测各习题的个性化难度,然后根据期望难度进行筛选,该发明仅考虑了推荐习题的难度信息。专利申请CN202111537852.0提出了一种基于薄弱点的习题推荐方法,根据单个学生的历史答题数据,梳理出其薄弱知识点,并分析该学生当下的学习状态,按照一定的阈值划分不同的推荐内容,该发明采用传统规则匹配方法,无法充分进行深入数据挖掘。上述两个发明未同时考虑习题个人难度及薄弱知识点,且均未考虑推荐习题内容的多样化。
发明内容
为了克服上述现有技术存在的问题,本发明的目的在于提供了一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备,使用习题层级DKT模型获取学生对每个习题的正确回答概率,同时,使用知识点层级DKT模型获取学生的知识点掌握程度向量;然后基于习题正确回答概率与知识点掌握程度向量构建习题过滤模块,过滤出难度适中且包含薄弱知识点的习题,确保推荐的准确性和新颖性;最后考虑到推荐结果多样性有助于提高学习兴趣,采用模拟退火算法构建习题筛选模块,对过滤后的习题进行二次筛选,将习题视为空间中的点,去求解空间距离最大组合优化问题,确保推荐的多样性;并结合习题领域的特性与推荐评估方法,设计评估指标以度量推荐的效果;使习题推荐兼具准确性、新颖性及多样性。
为了实现上述目的,本发明采用的技术方案为:
一种结合难度与薄弱知识点的多样化习题推荐方法,具体包括以下步骤:
步骤一,在输入层将学生历史答题序列进行编码,得到标准格式的模型输入数据;
步骤二,在预测层对输入的习题数据建模,获得学生习题正确回答概率和学生知识点掌握程度;
步骤三,基于预测层获取的习题正确回答概率和知识点掌握程度,根据习题个人难度和学生薄弱知识点,利用过滤模块,从全部习题集中选取出难度合适、包含学生薄弱知识点的候选子集;
步骤四,利用模拟退火算法从候选子集中选择空间距离最大的习题,生成推荐习题列表;并将生成的推荐习题列表REL进行输出;
步骤五,对输出的推荐习题列表REL从准确性、新颖性、多样性指标进行评估。
进一步的,所述步骤一的具体过程为:
将学生的历史答题序列算法作为输入数据,分为习题层级或知识点层级进行知识追踪领域学生状态建模:
X={x1,x2,x3,…,xt}表示学生历史答题序列,其中et表示回答的习题,/>表示习题回答情况,或者/>其中kt表示回答的知识点,/>表示知识点回答情况,/>为1表示回答正确,为0表示回答错误;
据此,学生历史答题序列用<习题,结果>或<知识点,结果>表示。
进一步的,所述步骤二的具体过程为:
将预测层分为两个子模块:习题层级知识追踪模型和知识点层级知识追踪模型;
所述步骤二中的两个子模块皆使用基于LSTM网络结构的DKT模型作为知识追踪模型,具体方法如下:
DKT(Deep Knowledge Tracing)模型首次将深度学习引入知识追踪领域,DKT模型输入学生历史答题序列X={x1,x2,x3,…,xt},xt经过特征交叉编码转化为模型的输入:
et为t时刻回答的习题one-hot编码,0为与et等长的零向量;
输入向量xt经过RNN隐藏层ht的特征提取,得到输出向量yt,yt表示习题正确回答概率:
ht=tanh(Whxxt+Whhht-1+bh)
yt=σ(Wyhht+by)
DKT模式的损失函数如下,其中l为二进制交叉熵,δ(et+1)为习题et+1的one-hot编码:
预测层使用问题级别的DKT模型(e-DKT)获得学生习题正确回答概率,同理,使用知识点级别的DKT模型(k-DKT)获得学生知识点掌握程度。
进一步的,所述步骤三的具体过程为:
以ES(Exercise Set)表示全部习题集,CS(Candidate Subset)表示经过过滤模块选取出的候选习题子集,P(K)表示k-DKT模型获取的学生知识点掌握概率向量,pe(K)表示e-DKT模型获取的学生习题正确回答概率;其中K表示知识点集合,习题e包含的知识点用e(K)表示:
e(K)=[e(k1),e(k2),…,e(kn)]
n表示知识点集合K的数量,e(ki)=1表示习题包含对应第i个知识点,e(ki)=0表示不包含;
定义学生的薄弱知识点向量W(K)=1-P(K),习题个人难度de(K)=pe(K),希望习题与学生薄弱知识点向量相似度大,同时希望预期难度δ与实际难度距离小,则过滤目标如下:
习题与学生薄弱知识点向量相似度大等价为习题与学生知识点掌握向量相似度小,即如下:
进一步的,所述步骤三使用的过滤算法,具体流程如下:
(2)重复步骤(1)计算习题集ES中所有习题得分;
(3)将习题按照得分升序排序;
(4)选择得分最小的前N个习题构建后续子集CS。
进一步的,所述步骤四的具体过程为:
每个习题包含一个或多个知识点,将习题视为是高维空间上的点,空间维度即数据集中知识点数量n,据此,生成多样化习题推荐列表任务能够转化为求解高维空间中距离大的M个点,M表示REL中习题数量,通过模拟退火算法(Simulated Annealing,SA)求解,具体步骤如下:
a.首先从候选习题子集CS中随机选取M个习题,初始化当前习题列表L,并计算当前习题列表的习题距离矩阵DL,DL是一个M×M维矩阵,其中每个值表示习题列表中两个习题间的欧式距离:
DL(i,j)表示DL矩阵中第i行第j列的值,ei(K)、ej(K)表示习题列表L中对应习题的知识点向量,可见DL(i,j)的值越大表明在高维空间中两个习题间的距离越大;同时,定义平均矩阵距离,用于衡量整个习题列表L的空间距离:
mean(DL)越大表明习题列表L空间距离越大,即包含知识点更加多样化;
b.从候选习题子集CS中随机选取一个习题替换当前习题列表L中的一个,得到新的习题列表L′,同时计算新习题列表的距离矩阵DL′与平均矩阵距离mean(DL′);
c.根据Metropolis接受准则设置接受新习题列表L′的规则,当mean(DL′)>mean(DL)时,即新习题列表L′多样化程度高,利用新习题列表L′更新当前习题列表L,否则,以概率p将新习题列表L′更新当前习题列表L:
其中T表示温度,κB表示玻尔兹曼常数,κB=1.380649×10-23J/K,具体接受方法如式下:
其中r=random(0,1)表示0到1之间的随机数;
d.分为内外两层迭代,外层迭代由温度T控制,每次迭代时都会以特定的衰减系数c进行降温,初始温度为T0,经过多次迭代后,当温度小于终止温度Tf时则停止迭代,否则继续进行步骤b、步骤c;内层迭代设置固定次数s,使得在同一个温度T下进行多次搜索;
同时在每次迭代中求解使得平均矩阵距离mean(DL)最大的习题列表DL,如下所示,当整个迭代结束后,作为推荐系统列表输出REL。
REL←argmaxL(mean(DL))
进一步的,步骤四所述模拟退火算法的时间复杂取决于内外层循环的迭代次数,在有限的搜索中尽量找到全局最优解,具体算法流程如下:
1)随机选取M个习题,初始化习题列表L,初始化起始温度T=T0、终止温度Tf、衰减系数c、内循环次数s;
2)随机替换习题列表L中习题,生成新的习题列表L′;
3)计算习题距离矩阵DL、DL′;
4)计算平均矩阵距离mean(DL)、mean(DL′);
5)如果mean(DL′)>mean(DL),利用L′更新L;否则计算接受概率p,生成0到1随机数y,p>y则利用L′更新L,否则保持L不变;
6)更新全局最优REL=argmaxL(mean(DL));
7)重复2)3)4)5)6)s次;
8)更新温度T=c×T;
9)重复7)8)至T<Tf。
所述步骤五具体方法为:
定义准确性(Accuracy)为推荐的习题对于学生难度适中,根据推荐列表中习题难度与学生期望难度间的距离,距离越小则难度越合适,推荐越准确:
定义新颖性(Novelty)为推荐的习题包含学生未正确回答或无法正确回答的知识点:
其中e(K)=[e(k1),e(k2),…,e(kn)]表示习题的知识点向量,e(ki)=1表示习题包含对应知识点,Pass(K)表示某学生的历史答题序列中知识点的正确回答概率,每个知识点的正确回答概率等于正确回答次数除以总回答次数;
定义多样性(Diversity)为推荐推荐列表中的习题差异大,使用推荐列表中习题间的平均相似度来表示:
其中different(ei(K),ej(K))表示习题间的差异,使用余弦相似度函数计算习题间相似关系,从而度量差异:
different(ei(K),ej(K))=1-cossim(ei(K),ej(K))
进一步的,基于上述一种结合难度与薄弱知识点的多样化习题推荐方法的推荐系统,包括:
预测模块,用于预测学生习题正确回答概率与知识点掌握程度;
过滤模块,用于过滤出个人难度适中且包含学生薄弱知识点的习题子集;
筛选模块,用于筛选出包含知识点丰富的习题推荐列表;
一种结合难度与薄弱知识点的多样化习题推荐设备,包括:
存储器,用于存储计算机程序;
程序处理器,用于存储计算机程序,并在执行所述计算机程序时实现步骤1至5任一项所述的结合难度与薄弱知识点进行多样化习题推荐。
本发明有益效果如下:
1、本发明通过步骤二同时对习题和知识点进行建模,利用DKT模型,获取学生习题正确回答概率与知识点掌握程度。
2、本发明通过步骤三设计了习题过滤方法,从全部习题集中选取出符合学生难度预期且包含其薄弱知识点的习题,保证推荐的准确性和新颖性。
3、本发明通过步骤四的模拟退火算法设计了多样化二次筛选方法,将习题视为空间中的点,从候选子集中筛选出包含知识点丰富的习题推荐列表,去求解空间距离最大组合优化问题,确保推荐的多样性;推荐结果多样性有助于提高学习兴趣。
4、本发明通过步骤五设计的推荐评估方法,同时保证了习题推荐的准确性、新颖性、多样性,辅助学生在学习进程中发现与其个性化参数相匹配的学习资源,从而弥补学生薄弱知识点和提高学习效率,进一步提高了本发明推荐方法的效果。
附图说明
图1是本发明实施例提供的算法整体架构图。
图2是本发明实施例提供的DKT模型结构图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
步骤1.首先将学生历史答题序列进行编码,得到标准格式的模型输入数据。
将学生的历史答题序列算法作为输入数据,分为习题层级或知识点层级进行知识追踪领域学生状态建模:
X={x1,x2,x3,…,xt}表示学生历史答题序列,其中et表示回答的习题,/>表示习题回答情况,或者/>其中kt表示回答的知识点,/>表示知识点回答情况,/>为1表示回答正确,为0表示回答错误;
据此,学生历史答题序列用<习题,结果>或<知识点,结果>表示。
步骤2.在预测层对输入的习题数据建模,使用e-DKT模型对习题进行建模,得到学生习题正确回答概率,使用k-DKT模型对知识点进行建模,得到学生知识点掌握程度。
预测层分为两个子模块:习题层级知识追踪模型和知识点层级知识追踪模型;
预测层两个子模块皆使用基于LSTM网络结构的DKT模型作为知识追踪模型,具体方法如下:
DKT(Deep Knowledge Tracing)模型首次将深度学习引入知识追踪领域,DKT模型输入学生历史答题序列X={x1,x2,x3,…,xt},xt经过特征交叉编码转化为模型的输入:
et为t时刻回答的习题one-hot编码,0为与et等长的零向量;
输入向量xt经过RNN隐藏层ht的特征提取,得到输出向量yt,yt表示习题正确回答概率:
ht=tanh(Whxxt+Whhht-1+bh)
yt=σ(Wyhht+by)
DKT模型的损失函数如下,其中l为二进制交叉熵,δ(et+1)为习题et+1的one-hot编码:
预测层使用问题级别的DKT模型(e-DKT)获得学生习题正确回答概率,同理,使用知识点级别的DKT模型(k-DKT)获得学生知识点掌握程度。
步骤3.基于正确回答概率和知识点掌握程度,计算习题个人难度和学生薄弱知识点,利用过滤模块,从习题集中选择难度适中且包含薄弱知识点的习题构建候选子集,确保推荐的准确性与新颖性。
以ES(Exercise Set)表示全部习题集,CS(Candidate Subset)表示经过过滤模块选取出的候选习题子集,P(K)表示k-DKT模型获取的学生知识点掌握概率向量,pe(K)表示e-DKT模型获取的学生习题正确回答概率;其中K表示知识点集合,习题e包含的知识点用e(K)表示:
e(K)=[e(k1),e(k2),…,e(kn)]
n表示知识点集合K的数量,e(ki)=1表示习题包含对应第i个知识点,e(ki)=0表示不包含;
定义学生的薄弱知识点向量W(K)=1-P(K),习题个人难度de(K)=pe(K),希望习题与学生薄弱知识点向量相似度大,同时希望预期难度δ与实际难度距离小,则过滤目标如下:
习题与学生薄弱知识点向量相似度大等价为习题与学生知识点掌握向量相似度小,即如下:
过滤算法,具体流程如下:
(2)重复步骤(1)计算习题集ES中所有习题得分;
(3)将习题按照得分升序排序;
(4)选择得分最小的前N个习题构建后续子集CS。
步骤4.利用模拟退火算法从候选子集中选择空间距离最大的习题,生成推荐习题列表REL进行输出。
每个习题包含一个或多个知识点,将习题视为是高维空间上的点,空间维度即数据集中知识点数量n,据此,生成多样化习题推荐列表任务能够转化为求解高维空间中距离大的M个点,M表示REL中习题数量,通过模拟退火算法(Simulated Annealing,SA)求解,具体步骤如下:
a.首先从候选习题子集CS中随机选取M个习题,初始化当前习题列表L,并计算当前习题列表的习题距离矩阵DL,DL是一个M×M维矩阵,其中每个值表示习题列表中两个习题间的欧式距离:
DL(i,j)表示DL矩阵中第i行第j列的值,ei(K)、ej(K)表示习题列表L中对应习题的知识点向量,可见DL(i,j)的值越大表明在高维空间中两个习题间的距离越大;同时,定义平均矩阵距离,用于衡量整个习题列表L的空间距离:
mean(DL)越大表明习题列表L空间距离越大,即包含知识点更加多样化;
b.从候选习题子集CS中随机选取一个习题替换当前习题列表L中的一个,得到新的习题列表L′,同时计算新习题列表的距离矩阵DL′与平均矩阵距离mean(DL′);
c.根据Metropolis接受准则设置接受新习题列表L′的规则,当mean(DL′)>mean(DL)时,即新习题列表L′多样化程度高,利用新习题列表L′更新当前习题列表L,否则,以概率p将新习题列表L′更新当前习题列表L:
其中T表示温度,κB表示玻尔兹曼常数,κB=1.380649×10-23J/K,具体接受方法如式下:
其中r=random(0,1)表示0到1之间的随机数;
d.分为内外两层迭代,外层迭代由温度T控制,每次迭代时都会以特定的衰减系数c进行降温,初始温度为T0,经过多次迭代后,当温度小于终止温度Tf时则停止迭代,否则继续进行步骤b、步骤c;内层迭代设置固定次数s,使得在同一个温度T下进行多次搜索;
同时在每次迭代中求解使得平均矩阵距离mean(DL)最大的习题列表DL,如下所示,当整个迭代结束后,作为推荐系统列表输出REL。
REL←argmaxL(mean(DL))
所述模拟退火算法的时间复杂取决于内外层循环的迭代次数,在有限的搜索中尽量找到全局最优解,具体算法流程如下:
1)随机选取M个习题,初始化习题列表L,初始化起始温度T=T0、终止温度Tf、衰减系数c、内循环次数s;
2)随机替换习题列表L中习题,生成新的习题列表L′;
3)计算习题距离矩阵DL、DL′;
4)计算平均矩阵距离mean(DL)、mean(DL′);
5)如果mean(DL′)>mean(DL),利用L′更新L;否则计算接受概率p,生成0到1随机数y,p>y则利用L′更新L,否则保持L不变;
6)更新全局最优REL=argmaxL(mean(DL));
7)重复2)3)4)5)6)s次;
8)更新温度T=c×T;
9)重复7)8)至T<Tf。
步骤5.对输出的推荐习题列表REL从准确性、新颖性、多样性指标进行评估:
准确性(Accuracy)
准确性要求推荐的习题对于学生而言是难度合适的,可以将其定义为推荐列表中习题难度与学生期望难度间的距离,距离越小则意味着难度越合适,推荐越准确:
新颖性(Novelty)
新颖性要求推荐的习题包含学生未正确回答或无法正确回答的知识点:
其中e(K)=[e(k1),e(k2),…,e(kn)]表示习题的知识点向量,e(ki)=1表示习题包含对应知识点,Pass(K)表示某学生的历史答题序列中知识点的正确回答概率,每个知识点的正确回答概率等于正确回答次数除以总回答次数。
多样性(Diversity)
多样性要求推荐习题列表本身包含的知识点更加多样化,即推荐列表中的习题差异大,可使用推荐列表中习题间的平均相似度来表示:
其中different(ei(K),ej(K))表示习题间的差异,使用余弦相似度函数计算习题间相似关系,从而度量差异:
different(ei(K),ej(K))=1-cossim(ei(K),ej(K))
为验证本发明的有效性,在多个数据集上进行了对比实验:
数据集
ASSIST12:该数据集来源于ASSISTments在线教育平台收集的学生学习数据,删除了没有技能标签和作答次数少于3的习题,以及交互记录数少于15的用户,最终预处理后的数据集包含26875名学生、42088个问题、265个知识点、1451899条记录。
EdNet:该数据集是目前为止教育领域公开的最大的数据集,随机抽取了5000名学生的1764267条记录,包含了13169个问题和188个知识点。
CodeForces:该数据集从CodeForces网站采集而来,共包含了8087道习题,36个知识点,4765名用户,3758223条提交记录。
对比模型
SB-CF:基于学生的协同过滤算法利用了学生间的相似性进行推荐。首先根据学生历史答题序列数据构建学生-习题交互矩阵,然后计算学生之间的相似度并选取排名靠前的相似学生,根据相似学生的答题表现预计该学生的答题表现,最后选取难度合适的习题进行推荐。
MF-CF:基于矩阵分解的协同过滤算法,可以缓解数据稀疏问题,学习得到学生和习题的隐向量,隐向量可视为学生和习题在相同特征空间的投影,使用隐向量可以将学生与习题进行关联,并预测学生的表现。
DKT-CF:基于DKT与CF的算法,使用DKT模型获取学生的知识点掌握概率向量,同时基于该向量使用协同过滤算法寻找相似知识状态的学生,并利用这些学生的知识状态更新本身的知识状态,以达到即考虑学生个人知识状态也考虑学生群体共性的效果。
SB-CF、MF-CF使用经典的协同算法,并没有对学生的知识状态建模,无法获取习题的个人难度,导致无法计算准确性指标,因此实验中使用习题的静态难度替代,即数据集中该习题的正确回答概率。
实验结果
准确性:
新颖性:
多样性:
实验结果表明,本方法在ASSIST12、EdNet、CodeForces三个数据集中,准确性、新颖性、多样性指标的均值和标准差均为最优,且提升较为明显。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种结合难度与薄弱知识点的多样化习题推荐方法,其特征在于,具体包括以下步骤:
步骤一,在输入层将学生历史答题序列进行编码,得到标准格式的模型输入数据;
步骤二,在预测层对输入的习题数据建模,获得学生习题正确回答概率和学生知识点掌握程度;
步骤三,基于预测层获取的习题正确回答概率和知识点掌握程度,根据习题个人难度和学生薄弱知识点,利用过滤模块,从全部习题集中选取出难度合适、包含学生薄弱知识点的候选子集;
步骤四,利用模拟退火算法从候选子集中选择空间距离最大的习题,生成推荐习题列表;并将生成的推荐习题列表REL进行输出;
步骤五,对输出的推荐习题列表REL从准确性、新颖性、多样性指标进行评估。
3.根据权利要求1所述的一种结合难度与薄弱知识点的多样化习题推荐方法,其特征在于,所述步骤二的具体过程为:
将预测层分为两个子模块:习题层级知识追踪模型和知识点层级知识追踪模型;
所述习题层级知识追踪模型和知识点层级知识追踪模型皆使用基于LSTM网络结构的DKT模型作为知识追踪模型,具体方法如下:
DKT(Deep Knowledge Tracing)模型首次将深度学习引入知识追踪领域,DKT模型输入学生历史答题序列X={x1,x2,x3,…,xt},xt经过特征交叉编码转化为模型的输入:
et为t时刻回答的习题one-hot编码,0为与et等长的零向量;
输入向量xt经过RNN隐藏层ht的特征提取,得到输出向量yt,yt表示习题正确回答概率:
ht=tanh(Whxxt+Whhht-1+bh)
yt=σ(Wyhht+by)
DKT模式的损失函数如下,其中l为二进制交叉熵,δ(et+1)为习题et+1的one-hot编码:
预测层使用问题级别的DKT模型(e-DKT)获得学生习题正确回答概率,同理,使用知识点级别的DKT模型(k-DKT)获得学生知识点掌握程度。
4.根据权利要求1所述的一种结合难度与薄弱知识点的多样化习题推荐方法,其特征在于,所述步骤三的具体过程为:
以ES(Exercise Set)表示全部习题集,CS(Candidate Subset)表示经过过滤模块选取出的候选习题子集,P(K)表示k-DKT模型获取的学生知识点掌握概率向量,pe(K)表示e-DKT模型获取的学生习题正确回答概率;其中K表示知识点集合,习题e包含的知识点用e(K)表示:
e(K)=[e(k1),e(k2),…,e(kn)]
n表示知识点集合K的数量,e(ki)=1表示习题包含对应第i个知识点,e(ki)=0表示不包含;
定义学生的薄弱知识点向量W(K)=1-P(K),习题个人难度de(K)=pe(K),希望习题与学生薄弱知识点向量相似度大,同时希望预期难度δ与实际难度距离小,则过滤目标如下:
习题与学生薄弱知识点向量相似度大等价为习题与学生知识点掌握向量相似度小,即如下:
6.根据权利要求1所述的一种结合难度与薄弱知识点的多样化习题推荐方法,其特征在于,所述步骤四的具体过程为:
每个习题包含一个或多个知识点,将习题视为是高维空间上的点,空间维度即数据集中知识点数量n,据此,生成多样化习题推荐列表任务能够转化为求解高维空间中距离大的M个点,M表示REL中习题数量,通过模拟退火算法(Simulated Annealing,SA)求解,具体步骤如下:
a.首先从候选习题子集CS中随机选取M个习题,初始化当前习题列表L,并计算当前习题列表的习题距离矩阵DL,DL是一个M×M维矩阵,其中每个值表示习题列表中两个习题间的欧式距离:
DL(i,j)表示DL矩阵中第i行第j列的值,ei(K)、ej(K)表示习题列表L中对应习题的知识点向量,可见DL(i,j)的值越大表明在高维空间中两个习题间的距离越大;同时,定义平均矩阵距离,用于衡量整个习题列表L的空间距离:
mean(DL)越大表明习题列表L空间距离越大,即包含知识点更加多样化;
b.从候选习题子集CS中随机选取一个习题替换当前习题列表L中的一个,得到新的习题列表L′,同时计算新习题列表的距离矩阵DL′与平均矩阵距离mean(DL′);
c.根据Metropolis接受准则设置接受新习题列表L′的规则,当mean(DL′)>mean(DL)时,即新习题列表L′多样化程度高,利用新习题列表L′更新当前习题列表L,否则,以概率p将新习题列表L′更新当前习题列表L:
其中T表示温度,κB表示玻尔兹曼常数,κB=1.380649×10-23J/K,具体接受方法如式下:
其中r=random(0,1)表示0到1之间的随机数;
d.分为内外两层迭代,外层迭代由温度T控制,每次迭代时都会以特定的衰减系数c进行降温,初始温度为T0,经过多次迭代后,当温度小于终止温度Tf时则停止迭代,否则继续进行步骤b、步骤c;内层迭代设置固定次数s,使得在同一个温度T下进行多次搜索;
同时在每次迭代中求解使得平均矩阵距离mean(DL)最大的习题列表DL,如下所示,当整个迭代结束后,作为推荐系统列表输出REL。
REL←argmaxL(mean(DL))
7.根据权利要求6所述的一种结合难度与薄弱知识点的多样化习题推荐方法,其特征在于,步骤四所述模拟退火算法的时间复杂取决于内外层循环的迭代次数,在有限的搜索中尽量找到全局最优解,具体算法流程如下:
1)随机选取M个习题,初始化习题列表L,初始化起始温度T=T0、终止温度Tf、衰减系数c、内循环次数s;
2)随机替换习题列表L中习题,生成新的习题列表L′;
3)计算习题距离矩阵DL、DL′;
4)计算平均矩阵距离mean(DL)、mean(DL′);
5)如果mean(DL′)>mean(DL),利用L′更新L;否则计算接受概率p,生成0到1随机数y,p>y则利用L′更新L,否则保持L不变;
6)更新全局最优REL=argmaxL(mean(DL));
7)重复2)3)4)5)6)s次;
8)更新温度T=c×T;
9)重复7)8)至T<Tf。
8.根据权利要求1所述的一种结合难度与薄弱知识点的多样化习题推荐方法,其特征在于,所述步骤五具体方法为:
定义准确性(Accuracy)为推荐的习题对于学生难度适中,根据推荐列表中习题难度与学生期望难度间的距离,距离越小则难度越合适,推荐越准确:
定义新颖性(Novelty)为推荐的习题包含学生未正确回答或无法正确回答的知识点:
其中e(K)=[e(k1),e(k2),…,e(kn)]表示习题的知识点向量,e(ki)=1表示习题包含对应知识点,Pass(K)表示某学生的历史答题序列中知识点的正确回答概率,每个知识点的正确回答概率等于正确回答次数除以总回答次数;
定义多样性(Diversity)为推荐推荐列表中的习题差异大,使用推荐列表中习题间的平均相似度来表示:
其中different(ei(K),ej(K))表示习题间的差异,使用余弦相似度函数计算习题间相似关系,从而度量差异:
different(ei(K),ej(K))=1-cossim(ei(K),ej(K))
9.基于上述一种结合难度与薄弱知识点的多样化习题推荐方法的推荐系统,其特征在于,包括:
预测模块,用于预测学生习题正确回答概率与知识点掌握程度;
过滤模块,用于过滤出个人难度适中且包含学生薄弱知识点的习题子集;
筛选模块,用于筛选出包含知识点丰富的习题推荐列表。
10.一种结合难度与薄弱知识点的多样化习题推荐设备,其特征在于,包括:
存储器,用于存储计算机程序;
程序处理器,用于存储计算机程序,并在执行所述计算机程序时实现权利要求1至8任一项所述的结合难度与薄弱知识点进行多样化习题推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310207879.6A CN116186409A (zh) | 2023-03-06 | 2023-03-06 | 一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310207879.6A CN116186409A (zh) | 2023-03-06 | 2023-03-06 | 一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186409A true CN116186409A (zh) | 2023-05-30 |
Family
ID=86448606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310207879.6A Pending CN116186409A (zh) | 2023-03-06 | 2023-03-06 | 一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186409A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743699A (zh) * | 2024-02-20 | 2024-03-22 | 山东省计算中心(国家超级计算济南中心) | 一种基于dkt与汤普森采样算法的习题推荐方法及系统 |
-
2023
- 2023-03-06 CN CN202310207879.6A patent/CN116186409A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743699A (zh) * | 2024-02-20 | 2024-03-22 | 山东省计算中心(国家超级计算济南中心) | 一种基于dkt与汤普森采样算法的习题推荐方法及系统 |
CN117743699B (zh) * | 2024-02-20 | 2024-05-14 | 山东省计算中心(国家超级计算济南中心) | 一种基于dkt与汤普森采样算法的习题推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Ekt: Exercise-aware knowledge tracing for student performance prediction | |
Liu et al. | A survey of knowledge tracing | |
CN111460249B (zh) | 一种基于学习者偏好建模的个性化学习资源推荐方法 | |
Huo et al. | Knowledge modeling via contextualized representations for LSTM-based personalized exercise recommendation | |
Wu et al. | Exercise recommendation based on knowledge concept prediction | |
CN110930274B (zh) | 一种基于认知诊断的实践效果评估及学习路径推荐系统和方法 | |
Clarke et al. | Predictive statistics: Analysis and inference beyond models | |
Liang et al. | A text GAN framework for creative essay recommendation | |
CN110955826B (zh) | 基于改进型循环神经网络单元的推荐系统 | |
McAuley | Personalized machine learning | |
Lu et al. | CMKT: Concept map driven knowledge tracing | |
Gao et al. | Modeling the effort and learning ability of students in MOOCs | |
CN116186409A (zh) | 一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备 | |
Cheng et al. | Domain adaption for knowledge tracing | |
Zheng et al. | Evolutionary machine learning builds smart education big data platform: Data-driven higher education | |
Thai-Nghe et al. | Predicting Student Performance in an Intelligent Tutoring System. | |
Yang et al. | Research on students’ adaptive learning system based on deep learning model | |
Xu et al. | Learning behavior-oriented knowledge tracing | |
Shen et al. | A survey of knowledge tracing: Models, variants, and applications | |
Huang et al. | Learning consistent representations with temporal and causal enhancement for knowledge tracing | |
Li et al. | Knowledge Graph‐Enhanced Intelligent Tutoring System Based on Exercise Representativeness and Informativeness | |
Lee et al. | Study on the university students' satisfaction of the wisdom tree massive open online course platform based on parameter optimization intelligent algorithm | |
CN109902231A (zh) | 基于cbow模型的学习资源推荐方法 | |
CN112818196B (zh) | 基于电子学习平台的数据处理方法、设备、电子装置及存储介质 | |
Zhang et al. | Neural Attentive Knowledge Tracing Model for Student Performance Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |