CN111898803B

CN111898803B - 一种习题预测方法、系统、设备及存储介质

Info

Publication number: CN111898803B
Application number: CN202010656451.6A
Authority: CN
Inventors: 孙霞; 李博; 冯筠
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-10-24
Anticipated expiration: 2040-07-09
Also published as: CN111898803A

Abstract

本发明公开了一种习题预测方法、系统、设备及存储介质，包括从答题记录模型中获取答题记录信息，构建答题记录三元组向量模型；从习题‑知识点关联模型中获取习题‑知识点关联信息，基于答题记录三元组向量模型R和习题‑知识点关联模型生成习题难度模型和学生能力模型；由答题记录三元组向量模型R、习题难度和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生‑因子矩阵元素和习题‑因子矩阵元素；将学生‑因子矩阵元素和习题‑因子矩阵元素进行元素乘积运算，得到习题预测模型，生成预测习题。本发明解决现有技术中存在的无法自适应学生学习进度，知识点掌握水平动态变化，而实现习题个性化预测的技术问题。

Description

一种习题预测方法、系统、设备及存储介质

技术领域

本发明属于智能教育领域，具体涉及一种习题预测方法、系统、设备及存储介质。

背景技术

传统课堂教育和在线学习平台，都收集并存储了大量的学生习题作答记录。如何根据这些作答记录来挖掘学生和习题信息，检验学生是否已经掌握课程的知识点，提高学生的学习效率，帮助学生选择合适的习题予以学习，受到了智能教育领域相关人员和社会各届的广泛关注。

习题预测算法通过学生的作答记录预测学生未做过习题的得分，之后再根据预测值为学生选择合适的习题，这种方式实现深度挖掘学习行为模式，揭示习题数据之间隐藏的关系和模式，了解学生掌握知识的过程，从而有助于掌握学生的学习规律，便于更全面地评价学生及个性化干预指导。通过优化学习过程，有利于学习能力的提高和学习兴趣的培养和思考能力的提升，提供个性化的服务，做到因材施教。

目前，已有多种算法应用于习题预测领域，其中最常用的三种模型有知识追踪模型、认知诊断模型和矩阵分解模型。知识追踪模型通过跟踪学生的习题记录，获取其知识点掌握程度以实现预测学生答题的正确性，但由于在一定程度上代表学生的平均水平，其缺陷在于：无法做到个性化习题预测；认知诊断模型源于教育心理学，是一种通过从答题记录中发现学生状态来预测学生表现的技术，其缺陷在于：存在着高额时间复杂度的问题，难以处理大规模习题记录；矩阵分解模型的缺陷在于：对观测数据与缺失数据权重设置均衡不切实际，更新模型仍需递归计算。

发明内容

针对上述现有技术的不足与缺陷，本发明的目的在于提供一种习题预测方法，以解决现有技术中存在的无法自适应学生学习进度，知识点掌握水平动态变化，而实现习题个性化预测的技术问题。

为了实现上述任务，本发明采用以下技术方案：

一种习题预测方法，该方法包括如下步骤：

步骤1，从答题记录模型中获取答题记录信息，从得到的答题记录模型中提取答题记录三元组向量，构建答题记录三元组向量模型R<u，i，r_ui>，其中u表示学生编号、i表示习题编号、r_ui表示学生u解答习题i的正确性；

步骤2，从习题-知识点关联模型中获取习题-知识点关联信息，基于答题记录三元组向量模型R和习题-知识点关联模型生成习题难度模型和学生能力模型；

步骤3，由答题记录三元组向量模型R、习题难度和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵元素和习题-因子矩阵元素；

步骤4，将学生-因子矩阵元素和习题-因子矩阵元素进行元素乘积运算，得到习题预测模型，生成预测习题，并将预测得到的习题推送至学生答题界面。

进一步地，步骤2中所述的由习题-知识点关联模型生成习题难度模型和学生能力模型，包括：

步骤2.1、基于习题-知识点关联模型，由式(1)得出习题难度模型的元素：

d_ui＝Q_ij*(failure(x_uj)-success(x_uj)) 式(1)

其中，d_ui为习题难度模型的元素，Q_ij为习题-知识点关联模型的元素，success(x_uj)为学生u回答包含知识点j的习题的正确比率，failure(x_uj)为学生u回答包含知识点j的习题的错误比率；/>

“x_uji＝＝1”和“x_uji！＝1”表示学生u回答包含知识点x_uj的习题正确性，“N_uj”表示包含知识点x_uj的习题总数；

步骤2.2，由答题记录三元组向量模型R和认知诊断模型获取学生对知识点的连续化掌握程度；将学生对知识点的连续化掌握程度通过习题-知识点关联模型相乘为学生对习题的掌握水平，应用几何平均计算学生对习题的平均掌握程度，形成学生能力模型。

进一步地，步骤2.2，包括如下内容：

步骤2.2.1，利用认知诊断模型获取学生对知识点的连续化掌握程度：

其中，表示学生u对知识点j的掌握程度，“r_u”表示学生u的答题记录。

步骤2.2.2，通过习题-知识点关联模型将学生对知识点的连续化掌握程度转化为学生对习题的掌握水平，实际应用几何平均计算学生对习题的平均掌握程度，作为学生能力l_ui：

其中，“In_uij”表示

进一步地，步骤3所述的由答题记录三元组向量模型R、习题难度模型和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子模型元素p_uf和习题-因子模型元素q_if，具体过程包括：

步骤3.2，将答题记录三元组向步骤3.1，根据习题数量i，学生数量u随机分别生成初始学生-因子向量p₀和初始习题-因子向量q₀；

量模型中的元素r_ui、习题难度模型中的元素d_ui和学生能力模型中元素l_ui、随机生成的初始学生-因子向量p₀和初始习题-因子向量q₀代入如下损失函数:

其中，N为习题总数，M为学生总人数，r_ui为学生解答习题正确性，为学生正确解答未做习题的概率预测值，d_ui为习题难度模型元素，l_ui为学生能力模型元素，R_u为学生u的答题记录数据集，是答题记录三元组矩阵R的子集，p_u为学生-因子矩阵中的第u个学生的向量值，1≤u≤M，q_i表示习题-因子矩阵中的第i个习题的向量值，1≤i≤N，λ为正则化系数；c₀是调节学生人数与习题个数的调节系数；

步骤3.3、由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵元素p_uf和习题-因子矩阵元素q_if，其中，p_uf和q_if的迭代更新公式如下：

本发明还还涉及一种习题预测系统，它基于计算机系统至少包括收发模块和处理模块，收发模块用于获取答题记录，生成答题记录模型；获取习题-知识点关联信息，生成习题-知识点关联模块；

处理模块，将收发模块获取生成的答题记录模型，构建生成答题记录三元向量组模型；将收发模块生成的习题-知识点关联模型，结合答题记录三元组向量模型和习题-知识点关联模型生成习题难度模型和学生能力模型；

由答题记录三元组向量模型R、习题难度和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵元素和习题-因子矩阵元素；最后将学生-因子矩阵元素和习题-因子矩阵元素进行元素乘积运算，得到习题预测模型，生成预测习题，并将预测得到的习题推送至学生答题界面。

处理模块执行所述习题预测的方法中的步骤。

本发明的技术方案还可以应用于计算机设备之中，包括收发器、存储器和处理器，所述的存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得处理器执行所述习题预测的方法中的步骤。

本发明还可以应用制成任意一种计算机可读指令的存储介质所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述习题预测的方法中的步骤。

本发明与现有技术相比，具有如下技术效果：

(1)避免通过手动调整大量超参数，可应用于单个学生的个性化习题预测。

(2)避开了高额时间复杂度的更新迭代时间，可运行在大规模教育数据上。

(3)本发明定义了习题难度与学生能力，既解决了矩阵分解模型权重设置均衡的问题，从一方面解决了教育个性化的需求，也弥补了矩阵分解模型与知识追踪模型和认知诊断模型相比忽视学生知识状态的缺陷；避开矩阵分解模型更新时矩阵求逆的高额时间复杂度，以较小的因子数量达到快速更新的效果。

附图说明

图1是本发明的习题预测方法的流程图。

图2是本发明的习题预测系统的结构框架图。

图3是本发明的一个应用实施例产品框架图。

图4是本发明的方法与其他方法在FrcSub数据集以MAE为评价指标的实验结果对比图；

图5是本发明的方法与其他方法在FrcSub数据集以RMSE为评价指标的实验结果对比图；

图6是本发明的方法与其他方法在Math1数据集以MAE为评价指标的实验结果对比图；

图7是本发明的方法与其他方法在Math1数据集以RMSE为评价指标的实验结果图；

图8是本发明的方法与其他方法在Math2数据集以MAE为评价指标的实验结果对比图；

图9是本发明的方法与其他方法在Math2数据集以RMSE为评价指标的实验结果对比图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

以下对本发明涉及的定义或概念内涵做以说明：

认知诊断模型：认知诊断是对个体知识结构、加工技能或认知过程的诊断评估。认知诊断模型以学生的答题记录数据作为输入，通过对每个知识点的建模、诊断和概率化，由此挖掘出学生对各个知识点的掌握情况。它可以较好地从知识点层面对学生的认知状态进行建模，通过概率化学生的知识点掌握程度，使其可以对学生的知识点掌握程度进行概率化建模并将学生的知识点掌握程度模拟为0～1之间连续数值，即学生对知识点的连续化掌握程度。

本发明涉及通过一系列模型，例如：答题记录三元组向量模型、习题-知识点关联模型、习题难度模型、学生能力模型，调用对应模型内部的相关矩阵算法，实现整个流程的流转。

本发明涉及认知诊断模型是的以学生的答题记录数据作为输入，通过对每个知识点的建模、诊断和概率化，由此挖掘出学生对各个知识点的掌握情况。

实施例1

在本实施例中应用本发明公开的习题预测方法。

在本实施例中，选择的数据集为FrcSub，由中学生分数减法数学习题组成，共随机选取了536名学生(u)和20道客观题(i)，包含8个知识点(j)。

遵循本发明公开的相关技术步骤：

步骤1，获取习题-知识点关联和答题记录信息，分别将其转化成为习题-知识点关联矩阵和答题记录矩阵，从得到的答题记录矩阵中提取答题记录三元组向量，构建答题记录三元组向量矩阵R，所述答题记录三元组向量包括学生编号u、习题编号i和学生解答习题正确性r_ui。

表1显示的是由部分学生编号和习题编号构成的答题记录矩阵，矩阵内的每个元素代表学生解答习题的正确性，其中，数字1表示学生解答该习题正确，数字0表示学生解答该习题错误。例如：答题记录矩阵第一行第一列元素为1表示学生_1解答习题_1正确；答题记录矩阵第三行第四列元素为0表示学生_3解答习题_4错误。

表2显示的是由部分知识点编号和习题编号构成的习题-知识点关联信息，形成习题-知识点关联矩阵。每一行元素代表对应习题所包含的知识点，其中，当习题-知识点关联矩阵元素为1时，表示该行对应的习题包含对应的知识点；当习题-知识点关联矩阵元素为0时，表示该行对应的习题不包含对应的知识点。例如：习题-知识点关联矩阵第一行元素为“10010”对应第一列和第四列元素为1，其他列为0，表示习题_1包含知识点_1和知识点_4。

从得到的答题记录矩阵中提取答题记录三元组向量：学生编号(共536个)、习题编号(共20个)、学生解答习题正确性，构建答题记录三元组向量矩阵R<u，i，r_ui>，如表3所示。

答题记录三元组向量矩阵R表示：学生u解答习题i的正确性为r_ui，其中r_ui是学生答题记录矩阵中的元素，1表示学生u正确解答习题i，0表示学生u错误解答习题i。例如：答题记录三元组向量矩阵R第一行元素为“110”表示学生_1解答习题_1错误。

表1答题记录矩阵

表2习题-知识点关联Q矩阵

表3答题记录三元组向量矩阵R

步骤2、基于答题记录三元组向量模型获得的答题记录三元组向量矩阵R和习题-知识点关联模型获得的习题-知识点关联矩阵，答题记录三元组向量矩阵R和习题-知识点关联矩阵，生成习题难度矩阵D和学生能力矩阵L，从而依次形成习题难度模型和学生能力模型；

步骤2.1、基于习题-知识点关联矩阵，由式(1)得出习题难度矩阵的元素：

d_ui＝Q_ij*(failure(x_uj)-success(x_uj)) 式(1)

其中，d_ui为习题难度矩阵的元素；Q_ij为习题-知识点关联矩阵的元素，success(x_uj)为学生u回答包含知识点j的习题的正确比率，failure(x_uj)为学生u回答包含知识点j的习题的错误比率；

d_ui表示习题i对学生u的难度值，Q_ij表示习题i与知识点j的相关性，元素值为1表示习题i与知识点j相关，元素值为0表示习题i与知识点j不相关；在本实施例中，由20个习题对536个学生的难度值d_ui生成了习题难度矩阵D。

步骤2.2、由答题记录三元组向量矩阵R和认知诊断模型获取学生对知识点的连续化掌握程度；将学生对知识点的连续化掌握程度和习题-知识点关联矩阵相乘获得学生对习题的掌握水平，应用几何平均计算学生对习题的平均掌握程度，作为学生能力矩阵L。

即：答题记录三元组向量模型与习题-知识点关联Q模型应用认知诊断模型计算学生能力，具体过程包括：

依据答题记录三元组向量模型利用认知诊断模型获取学生对知识点的连续化掌握程度(范围0～1之间)，

之后通过习题-知识点关联Q矩阵将学生对知识点的连续化掌握程度转化为学生对习题的掌握水平，应用几何平均计算学生对习题的平均掌握程度，作为学生能力L(学生能力矩阵)：

其中，In_uij表示学生对习题的掌握程度，q_ij表示习题-知识点关联Q矩阵的元素，q_ij＝0表示习题i不包含知识点j，q_ij＝1表示习题i包含知识点j。

步骤3、由答题记录三元组向量矩阵R、习题难度矩阵D和学生能力矩阵L得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵Pn和习题-因子矩阵Qn；

步骤3.1，将答题记录三元组向量矩阵R、习题难度矩阵D、学生能力矩阵L及习题-因子向量q_i和学生-因子向量p_u代入式(5)得到损失函数：

首先，随机生成具有高斯分布的p₀矩阵和q₀矩阵，p₀矩阵维度为536×2，q₀矩阵维度为2×20，将其作为学生-因子矩阵与习题-因子矩阵的初始化。

其次，将答题记录三元组向量矩阵R的元素r_ui、习题难度矩阵D的元素d_ui和学生能力矩阵L的元素l_ui、随机生成的p₀矩阵(代入p_u，作为初始化)和q₀矩阵(代入q_i，作为初始化)代入矩阵分解模型的Loss函数中，Loss函数如下：

其中，N为习题数，M为学生人数，r_ui为学生解答习题正确性，为学生正确解答未做习题的概率预测值，d_ui为习题难度矩阵元素，l_ui为学生能力矩阵元素，R_u为学生u的答题记录数据集，是答题记录三元组矩阵R的子集。p_u为学生-因子矩阵中的第u个学生的向量值，1≤u≤M，q_i表示习题-因子矩阵中的第i个习题的向量值，1≤i≤N，λ为正则化系数，c₀是调节学生人数与习题个数的调节系数；

本事实例中，N＝20，M＝536，λ＝0.01；所得Loss函数的第一项是为观测数据设置均衡权重的误差，第二项是为未观测数据设置非均衡权重的误差，c₀＝0.1。

步骤3.2、由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵Pn和习题-因子矩阵元素Qn；

最小化损失函数以优化迭代过程，设置迭代次数为1000次，待达到迭代次数后得到参数：学生-因子矩阵Pn的元素p_uf和习题-因子矩阵元素Qn的元素q_if，其中，p_uf和q_if的迭代更新公式如下：

其中，R_u表示学生u的答题记录，R_i为解答习题i的学生答题记录数据集，表示学生u未作答的习题i，i∈R_u表示学生u作答的习题i，/>表示习题i未被学生u作答，u∈R_i表示习题i被学生u作答；f表示因子的个数，f＝2。在本实施例中，由536×2个p_uf生成学生-因子矩阵Pn和20×2个q_if生成习题-因子矩阵Qn。

步骤4、将学生-因子矩阵Pn和习题-因子矩阵Qn进行乘积运算，得到答题预测模型

在本实施例中，由学生-因子矩阵Pn的元素p_uf和习题-因子矩阵元素Qn的元素q_if内积得到答题预测矩阵元素由此生成答题预测模型/>

实施例2

本实施例中所选用的数据集为Math1和Math2，来自高中学生的两次期末数学考试，由斯坦福网站可获取，其中，Math1数据集包含4209名学生，15道客观题和5道主观题组成，包含11个知识点；

Math2数据集包含3911名学生，15道客观题和5道主观题，包含16个知识点。每个数据集由教育专家标注的习题-知识点关联矩阵和学生答题记录组成。

具体实施步骤与实施例1相同。

考虑到习题中包含主观题与客观题两类题型，由于客观题的正确性为0或1这样离散的值，而主观题的正确性是0到1这样连续的值。因此本发明使用平均绝对误差MAE(MeanAbsolute Error)和均方根误差RMSE(Root Mean Square Error)作为衡量主观题的评价指标：

平均绝对误差的定义为：

均方根误差的定义为：

其中r_i是学生解答习题正确性r′_i是学生正确解答未做习题正缺性的概率预测值，y_i是测试集中习题实际正确性，i＝1,2...，N。

使用查准率(Precision)、查全率(Recall)和F1值(F1-score)作为衡量客观题的评价指标：

查准率的定义为：

查全率的定义为：

F1值的定义为：

其中，“TP”表示将实际的正样本为正样本的个数；“FP”表示将实际的负样本预测为正样本的个数；“FN”表示将实际的正样本预测为负样本的个数；则“TP+FP”表示预测为正样本的个数；“TP+FN”表示实际正样本的个数。

如表4所示，与现有的认知诊断模型与矩阵分解模型相比，本发明得到的习题推荐模型(Wse-MF)取得了更好的效果。就MAE和RMSE评价指标而言，Wse-MF模型在MAE上优于认知诊断模型3％，RMSE降低2％；Wse-MF模型在MAE上优于矩阵分解模型11％，RMSE降低7％。

在以Precision，Recall和F1作为评价指标时，Wse-MF模型在Precision方面优于认知诊断模型3％，Recall方面提高23％，F1提高14％；Wse-MF模型在Precision上优于矩阵分解模型1％，Recall提高26％，F1提高16％。并且Wse-MF模型在时间复杂度上优于认知诊断模型的指数时间复杂度与矩阵分解模型的三次时间复杂度。

表4

综上所述，本发明的技术效果与现有相关算法实际效果对比，参见图4-图9所示，本方法在训练期间通过调整因子与超参数可达到快速收敛，并且在训练和测试期间表现稳定。

Claims

1.一种习题预测方法，其特征在于，该方法包括如下步骤：

步骤2所述的由习题-知识点关联模型生成习题难度模型和学生能力模型，包括：

d_ui＝Q_ij*(failure(x_uj)-success(x_uj)) 式(1)

步骤2.2，由答题记录三元组向量模型R和认知诊断模型获取学生对知识点的连续化掌握程度；将学生对知识点的连续化掌握程度通过习题-知识点关联模型相乘为学生对习题的掌握水平，应用几何平均计算学生对习题的平均掌握程度，形成学生能力模型；

步骤3，由答题记录三元组向量模型R、习题难度模型和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵元素和习题-因子矩阵元素；

2.如权利要求书1所述的习题预测方法，其特征在于：步骤2.2，包括如下内容：

其中，表示学生u对知识点j的掌握程度，“r_u”表示学生u的答题记录；

其中，“In_uij”表示

3.如权利要求1所述的习题预测方法，其特征在于，步骤3所述的由答题记录三元组向量模型R、习题难度模型和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子模型元素p_uf和习题-因子模型元素q_if，具体过程包括：

步骤3.1，根据习题数量i，学生数量u随机分别生成初始学生-因子向量p₀和初始习题-因子向量q₀；

步骤3.2，将答题记录三元组向量模型中的元素r_ui、习题难度模型中的元素d_ui和学生能力模型中元素l_ui、随机生成的初始学生-因子向量p₀和初始习题-因子向量q₀代入如下损失函数:

其中，N为习题总数，M为学生总人数，r_ui为学生解答习题正确性，为学生正确解答未做习题的概率预测值，d_ui为习题难度模型元素，l_ui为学生能力模型元素，R_u为学生u的答题记录数据集，是答题记录三元组矩阵R的子集，p_u为学生-因子矩阵中的第u个学生的向量值，1≤u≤M，q_u表示习题-因子矩阵中的第i个习题的向量值，1≤i≤N，λ为正则化系数；c₀是调节学生人数与习题个数的调节系数；

步骤3.3、由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵元素p_uf和习题-因子矩阵元素q_if，其中其中，p_uf和q_if的迭代更新公式如下：

4.一种习题预测系统，其特征在于，基于计算机系统至少包括收发模块和处理模块，收发模块用于获取答题记录，生成答题记录模型；获取习题-知识点关联信息，生成习题-知识点关联模块；

其中，由习题-知识点关联模型生成习题难度模型和学生能力模型，包括：

d_ui＝Q_ij*(failure(x_uj)-success(x_uj)) 式(1)

由答题记录三元组向量模型R、习题难度模型和学生能力模型得到损失函数，由损失函数迭代更新至迭代次数达到上限，得到学生-因子矩阵元素和习题-因子矩阵元素；最后将学生-因子矩阵元素和习题-因子矩阵元素进行元素乘积运算，得到习题预测模型，生成预测习题，并将预测得到的习题推送至学生答题界面。

5.如权利要求4所述的习题预测系统，其特征在于：处理模块执行权利要求1-3任意一项所述习题预测的方法中的步骤。

6.一种计算机设备，其特征在于：包括收发器、存储器和处理器，所述的存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得处理器执行如权利要求1-3任意一项所述习题预测的方法中的步骤。

7.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1-3任意一项所述习题预测的方法中的步骤。