CN110378818B

CN110378818B - 基于难度的个性化习题推荐方法、系统及介质

Info

Publication number: CN110378818B
Application number: CN201910662266.5A
Authority: CN
Inventors: 许嘉; 王俊斌; 吕品
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2022-03-11
Anticipated expiration: 2039-07-22
Also published as: CN110378818A

Abstract

本发明涉及教育领域的习题推荐技术，本发明公开了一种基于难度的个性化习题推荐方法、系统及介质，本发明综合考虑了习题的主观难度和客观难度，以基于学生各自知识状态得到的学生未掌握知识点为作为习题的推荐依据，以基于知识点间的先决依赖关系得到未掌握知识点的难易顺序作为习题的主推荐顺序，并以习题的客观难度值为依据确定每个未掌握知识点相关习题的推荐顺序，最终实现基于难度的个性化习题推荐，具有难度建模有据可依、全面合理的优点，能够提升学生基于习题的自主学习效果的有效性、指导学生由易至难、循序渐进地完成基于习题的自主学习。

Description

基于难度的个性化习题推荐方法、系统及介质

技术领域

本发明涉及教育领域的习题推荐技术，具体涉及一种基于难度的个性化习题推荐方法、系统及介质。

背景技术

伴随着大数据和互联网时代的到来，智能教育愈发受到人们重视，呈现出快速发展的态势。习题在智能教育中扮演着举足轻重的角色，是帮助学生在课后巩固课堂所学知识点的重要教学资源。由于当下学生能够获取的习题资源规模庞大，而学生的课后时间有限，因此如何基于学生的知识状态向他们推荐有针对性的个性化习题从而提高学生基于习题的自主学习成效是一个重要的研究问题。

目前的个性化习题推荐技术可分为两类：基于协同过滤的推荐技术和基于学生知识状态的推荐技术。其中，基于协同过滤的推荐技术采用了基于近邻的推荐思想或是基于模型的推荐思想以实现个性化推荐。基于近邻的推荐思想首先根据学生们在试题或习题上的答题表现计算学生之间的相似性从而找到与目标学生相似的学生；然后用相似学生在目标习题上的得分来预测目标学生的得分，进而可根据该预测得分向目标学生推荐习题。基于模型的推荐思想以矩阵分解方法应用最为广泛，其思路是通过将学生-习题的得分矩阵分解为两个或多个矩阵的乘积，并利用分解的结果来预测目标学生在目标习题上的得分，进而根据预测的得分进行习题推荐。基于协同过滤的个性化习题推荐技术简单易懂，取得了良好的推荐效果。然而，该类技术在推荐策略设计上只考虑了具有相似学习特征的学生而忽略了学生各自的知识状态，因而存在局限性。为了弥补该不足，学者们提出了基于学生知识状态的个性化习题推荐技术，以基于认知诊断模型的推荐技术为代表。该技术以教育数据挖掘领域的认知诊断理论为基础，通过构建认知诊断模型实现对学生知识状态(即知识点掌握程度)的建模。常见的认知诊断模型有单维连续模型(以项目反应模型IRT为代表)和多维离散模型(以DINA模型为代表)。其中IRT模型基于学生在试题上的得分情况得到学生正确答题的概率分布，并进而利用该概率分布将学生的知识状态建模为一维的能力值。相比于IRT模型，DINA模型引入了描述习题和知识点之间关联关系的Q矩阵作为习题的先验知识，并基于学生的历史答题表现将学生的知识状态描述为一个多维的知识点掌握向量，同时引入习题的猜测参数和失误参数，实现知识点层面的学生知识状态的准确刻画。由于DINA模型能够在准确刻画学生知识状态的同时具有比IRT模型更优秀的参数可解释性，故被广泛应用于解决个性化习题推荐问题。相比于基于协同过滤的个性化习题推荐技术，基于认知诊断模型的推荐技术虽然成功刻画了单个学生的知识状态，但却不能利用相似学生的共性进行个性化推荐。针对以上不足，近年来朱天宇等人同时结合认知诊断模型和协同过滤思想提出了一种个性化习题推荐技术PMF-CD，通过融合两类技术的优势来弥补各自在习题推荐应用上表现出的不足。PMF-CD技术以学生答题得分矩阵R和习题-知识点关联矩阵Q为输入，首先基于DINA模型计算学生对各个知识点的掌握程度值，并依此推测学生对习题的掌握程度；其次将学生对习题的掌握程度值作为先验输入应用于概率矩阵分解中，并基于分解的结果预测目标学生对目标习题的潜在答对概率，进而以该潜在答对概率作为目标习题相对于目标学生的难度值；最后基于目标学生给出的习题难度值区间向其推荐个性化习题。由于同时考虑了学生知识状态的个性、学生之间的相似性以及习题的难度特性，PMF-CD技术比其它技术在习题推荐的合理性和有效性方面表现更好。

综上所述，个性化习题推荐技术是当下的研究热点并已取得了不少研究成果，然而上述研究均没有充分考虑习题难度给学生认知带来的影响，即只是简单将所得到的推荐习题不分难易顺序地推送给学生。由于人类对新事物的认知是遵循从易到难、由浅人深的客观规律的，因此忽略掉习题间难度区别的个性化习题推荐技术很难帮助学生实现循序渐进地高效自主学习。目前已有学者针对题目难度建模展开了研究。例如Loukina等人通过回归模型对听力题的次序与听力题难度间的关系展开了研究。Huang等人则以英语阅读题为研究对象，利用神经网络模型设计出英语阅读题难度的统一度量框架，即通过计算阅读文本中每个句子对特定阅读题的难度贡献进而得到每个阅读题的难度预测值。上述研究从题目出现次序以及相关材料对题目的支撑度这两个方面对题目的客观性难度进行了建模量化，却忽略了测试者本身的能力对题目难度带来的主观性影响。因此，也有学者从测试者的知识状态出发去定义题目相对于测试者的主观性难度。例如Cadavid等人利用项目反应模型IRT对题目相对于学生的主观性难度进行建模，并基于学生历史作答情况通过最大期望算法(EM算法)计算题目的难度系数^[12]。前述PMF-CD技术将某题目相对于某学生的主观性难度定义为基于认知诊断模型得到的该学生对该题目的潜在答对概率。可见，由题目本身属性决定的题目客观难度以及由测试者本身知识状态决定的题目主观难度是衡量题目难度的两个重要方面，然而现有研究工作对题目难度的度量没能结合这两个重要方面。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于难度的个性化习题推荐方法、系统及介质，本发明综合考虑了习题的主观难度和客观难度，以基于学生各自知识状态得到的学生未掌握知识点为作为习题的推荐依据，以基于知识点间的先决依赖关系得到未掌握知识点的难易顺序作为习题的主推荐顺序，并以习题的客观难度值为依据确定每个未掌握知识点相关习题的推荐顺序，最终实现基于难度的个性化习题推荐，具有难度建模有据可依、全面合理的优点，能够提升学生基于习题的自主学习效果的有效性、指导学生由易至难、循序渐进地完成基于习题的自主学习。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于难度的个性化习题推荐方法，实施步骤包括：

1)基于输入的习题-知识点关联矩阵Q和学生答题情况矩阵R，利用现有的认知诊断模型DINA(s₀,g₀,Q,R)接口计算得到记录了学生集合U中每个学生对所有知识点掌握程度值的矩阵α，其中s₀为题目猜测参数的初始值，g₀为失误参数的初始值；

2)基于矩阵α计算所有学生对每个知识点的平均掌握程度值并记录至一维向量

3)遍历选择学生答题情况矩阵R中对应学生集合U中尚未处理的学生U_i；

4)以一维向量

为输入获取学生U_i由易到难排序后的未掌握知识点列表IKP(i)；

5)根据未掌握知识点列表IKP(i)获取学生U_i由易到难排列的个性化推荐习题列表O(i)；

6)判断学生集合U中是否仍有未处理的学生，如果仍有未处理的学生，则跳转执行步骤3)；否则，跳转执行步骤7)；

7)将学生集合U中所有学生由易到难排列的个性化推荐习题列表O(i)构建得到学生集合U的个性化推荐习题矩阵O，返回个性化推荐习题矩阵O。

可选地，步骤4)的详细步骤包括：

4.1)初始化学生U_i的未掌握知识点列表IKP(i)为空；

4.2)遍历学生U_i的知识点掌握程度向量α_i中的元素，其中知识点掌握程度向量α_i表示知识点掌握矩阵α中的第i行，针对每一个遍历得到的当前元素α_ik：如果当前元素α_ik小于一维向量

中对应的元素

则将当前元素α_ik对应的知识点KP_k加入到学生U_i的未掌握知识点列表IKP(i)中；

4.3)遍历学生U_i的未掌握知识点列表IKP(i)中的每一个知识点，针对每一个遍历得到的当前知识点ikp：初始化PR集合为空，获取当前知识点ikp的所有先决知识点得到先决知识点集合PR，遍历先决知识点集合PR中的每一个先决知识点pr,每一个先决知识点pr的属性优先推荐度score初始化为0，如果先决知识点pr隶属于学生U_i的未掌握知识点的列表IKP(i)则将先决知识点pr的属性优先推荐度score加1；

4.4)根据优先推荐度score对学生U_i的未掌握知识点列表IKP(i)进行降序排序；

4.5)返回降序排序后的学生U_i的未掌握知识点列表IKP(i)。

可选地，步骤4.3)中知识点ikp的所有先决知识点包括在给定的知识图谱PKG上以知识点ikp为起点，所有直接指向和间接指向知识点ikp的知识结点。

可选地，步骤5)的详细步骤包括：

5.1)遍历学生U_i的未掌握知识点列表IKP(i)中的每一个知识点得到当前知识点ikp；

5.2)从给定的题库B中获取所有与当前知识点ikp相关的习题序列items，遍历习题序列items中的每一个习题，针对遍历得到的当前习题item，若习题序列items中的某习题除当前知识点ikp之外的所关联的知识点同时不包含在学生U_i的未掌握知识点列表IKP(i)中，则将当前习题item加入当前知识点ikp的待推荐习题集O(i)(ikp)中，否则说明该习题还存在相关的其它知识点该学生也没掌握，将该当前习题item加入当前知识点ikp的候选习题集合O_cand中；

5.4)遍历当前知识点ikp的待推荐习题集O(i)(ikp)的每一个习题，针对遍历得到的当前的习题item1求取客观难度值D(item1)；

5.5)基于客观难度值D(item1)对当前知识点ikp的待推荐习题集O(i)(ikp)进行升序排序；

5.6)检查当前知识点ikp的待推荐习题集O(i)(ikp)的习题数量|O(i)(ikp)|，如果习题数量|O(i)(ikp)|多于k则从中删除那些客观难度值较大的习题；

5.7)判断学生U_i的未掌握知识点列表IKP(i)中的每一个知识点是否已经遍历完毕，如果尚未遍历完毕，则跳转执行步骤5.1)；否则，跳转执行下一步；

5.8)针对所有知识点ikp的待推荐习题集O(i)(ikp)由易至难顺序排序，从而得到学生U_i由易到难排列的个性化推荐习题列表O(i)。

可选地，步骤5.4)中求取客观难度值D(item1)的函数表达式如式(1)所示；

式(1)中，D(V_j)表示针对习题V_j计算得到的客观难度值D(item1)，A_i为习题V_j的第i个相关习题属性，w_i表示习题V_j的第i个相关习题属性A_i的权重值，A(V_j)为习题V_j的客观难度值量化相关的习题属性集，且D(V_j)∈[0,1]。

可选地，所述客观难度值量化相关的习题属性集包括下述七种习题属性：题干知识点数量、题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离、干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离、填空的数量、答案字数、每个空备选答案的平均数目、判断题已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离。

此外，本发明还提供一种基于难度的个性化习题推荐系统，包括：

主观难度度量程序单元，用于基于输入习题-知识点关联矩阵Q和学生答题情况矩阵R，利用现有的认知诊断模型DINA(s₀,g₀,Q,R)接口计算得到记录了学生集合U中每个学生对所有知识点掌握程度值的矩阵α，其中s₀为题目猜测参数的初始值，g₀为失误参数的初始值；

主观难度均值计算程序单元，用于基于矩阵α计算所有学生对每个知识点的平均掌握程度值并记录至一维向量

学生遍历选择程序单元，用于遍历选择学生答题情况矩阵R中对应学生集合U中尚未处理的学生U_i；

学生未掌握知识点生成程序单元，用于以一维向量

学生个性化推荐习题列表生成程序单元，用于根据未掌握知识点列表IKP(i)获取学生U_i由易到难排列的个性化推荐习题列表O(i)；

学生遍历判断程序单元，用于判断学生集合U中是否仍有未处理的学生，如果仍有未处理的学生，则跳转执行学生遍历选择程序单元；否则，跳转执行输出矩阵构建程序单元；

输出矩阵构建程序单元，用于将学生集合U中所有学生由易到难排列的个性化推荐习题列表O(i)构建得到学生集合U的个性化推荐习题矩阵O，返回个性化推荐习题矩阵O。

此外，本发明还提供一种基于难度的个性化习题推荐系统，包括计算机设备，该计算机设备被编程或配置以执行所述基于难度的个性化习题推荐方法的步骤。

此外，本发明还提供一种基于难度的个性化习题推荐系统，包括计算机设备，该计算机设备的存储介质上存储有被编程或配置以执行所述基于难度的个性化习题推荐方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于难度的个性化习题推荐方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明综合考虑了习题的主观难度和客观难度，以基于学生各自知识状态得到的学生未掌握知识点为作为习题的推荐依据，以基于知识点间的先决依赖关系得到未掌握知识点的难易顺序作为习题的主推荐顺序，并以习题的客观难度值为依据确定每个未掌握知识点相关习题的推荐顺序，最终实现基于难度的个性化习题推荐，具有难度推荐建模科学合理、习题客观难度的量化更有据可依的优点，能够提升学生基于习题的自主学习效果的有效性、指导学生由易至难、循序渐进地完成基于习题的自主学习。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法的实现框架示意图。

图3为本发明实施例方法步骤4)的流程示意图。

图4为本发明实施例方法步骤5)的流程示意图。

图5为本发明实施例中的习题-知识点关联矩阵Q。

图6为本发明实施例中的包含先决依赖关系的课程知识图谱。

图7为本发明实施例中实验一学生前后分数提升情况。

图8为本发明实施例中实验二学生前后分数提升情况。

图9为本发明实施例中推荐前后平均分的提升情况。

图10为本发明实施例中推荐前后学生答题时间的减少情况。

具体实施方式

为了描述方便，本实施例中涉及的主要符号如表1所示：

表1：描述技术涉及的主要符号。

符号	描述	符号	描述
				U	学生集合	U<sub>i</sub>	第i个学生
V	习题集合	V<sub>j</sub>	第j个习题
				R	学生-习题得分矩阵	Q	习题-知识点关联矩阵
KP	知识点集合	IKP	未掌握的知识点集合
				α<sub>i</sub>	学生U<sub>i</sub>的知识点掌握程度向量	PKG	包含先决依赖关系的课程知识图谱

如图1所示，本实施例基于难度的个性化习题推荐方法的实施步骤包括：

图1中表示为avg(α)＝average(α)；

4)以一维向量

6)判断学生集合U中(一共|U|个学生)是否仍有未处理的学生，如果仍有未处理的学生，则跳转执行步骤3)；否则，跳转执行步骤7)；

7)将学生集合U中所有c学生由易到难排列的个性化推荐习题列表O(i)构建得到学生集合U的个性化推荐习题矩阵O，返回个性化推荐习题矩阵O。

为了描述方便，下文将本实施例基于难度的个性化习题推荐方法简称为ReDi(Recommendation based on Difficulty)方法。为了对学生知识状态进行建模，本实施例利用认知诊断DINA模型计算学生对各个知识点的掌握程度。给定学生集合U＝{U₁,...,U_I}，习题集合V＝{V₁,...,V_J}，则记录了学生和习题得分信息的R矩阵可表示为R＝[r_ij]_I×J，其中r_ij＝1表示学生U_i答对试题V_j(r_ij＝0则表示答错)。设习题集合V所考察的知识点集合为KP＝{KP₁,...,KP_K}，则记录了试题与知识点间的关联关系的Q矩阵可表示为Q＝[q_jk]_J×K，其中q_jk＝1表示试题V_j考察了知识点KP_k(0则表示未考察)。DINA模型将学生U_i的知识状态描述为一个向量α_i＝{α_i1,...,α_iK}，其中α_ik为学生U_i对知识点KP_k的掌握程度值，且α_ik∈[0,1]。在已知α_i的情况下，对于学生U_i未作答的试题V_j，可根据下式计算得到学生U_i对试题V_j的潜在正确作答情况：

上式中，η_ij表示学生U_i对试题V_j的潜在正确作答情况，

表示学生U_i对试题V_j所考察知识点的掌握情况(q_jk表示试题V_j是否考察知识点k)，KP表示知识点集合。η_ij取值为0或1：当学生U_i掌握了试题V_j考察的全部知识点时U_i＝1，若存在至少一个知识点没有掌握时U_i＝0。此外，DINA模型还引入了题目失误率参数s和猜测率参数g。最终，可基于下式求取学生U_i对试题V_j的实际正确作答概率：

上式中，P_j(α_i)表示学生U_i对试题V_j的实际正确作答概率，α_i表示学生U_i的知识点掌握程度向量，P(R_ij＝1|α_i)表示已知α_i的前提下学生U_i实际答对试题V_j的概率，s_j表示试题V_j的失误率，g_j表示试题V_j的猜测率，η_ij表示学生U_i对试题V_j的潜在正确作答情况，

和

表示学生U_i实际答对试题V_j时猜测率和失误率的参与情况(η_ij为1时

且

表示实际答对的概率只受到失误率的影响)。DINA模型利用EM算法最大化上述公式的边缘似然值，从而得到学生U_i的知识点掌握向量α_i。本实施例基于难度的个性化习题推荐方法的实现框架如图2所示，结合图1和图2可知，本实施例基于难度的个性化习题推荐方法的整个实现流程包含三个主要步骤：基于学生知识状态的习题主观难度度量。即一方面以习题-知识点关联矩阵Q和学生答题结果矩阵R为输入，利用认知诊断DINA模型计算学生对各个知识点掌握程度，从而确定学生未掌握知识点集合。另一方面基于教材、Wikipedia及领域专家的经验构建包含知识点间先决依赖关系的课程知识图谱，并基于图谱中表征的知识点间先决依赖关系确定学生未掌握知识点的推荐顺序。这一步骤实际上是以习题所关联的知识点为出发点量化了习题对于学生的主观难度。基于习题属性的客观难度度量。即首先确定影响题目难度的多种题目属性(例如题型、题干知识点数量等)，然后基于题库中题目的这些属性整合量化得到题目客观难度的度量方程。基于题目难度的个性化习题推荐。即首先以学生未掌握知识点和未掌握知识点的推荐顺序为输入确定推荐的习题集以及习题集中习题的主推荐顺序，即保证所关联的知识点难度低的习题总体上优先于所关联的知识点难度高的习题进行推荐。然后按题目的客观难度值按由易到难的顺序确定同一知识点的多道习题的推荐顺序。

本实施例中，步骤4)具体是采用函数getRankedKps实现。

如图3所示，步骤4)的详细步骤包括：

4.1)初始化学生U_i的未掌握知识点列表IKP(i)为空；

中对应的元素

4.3)遍历学生U_i的未掌握知识点列表IKP(i)中的每一个知识点，针对每一个遍历得到的当前知识点ikp：初始化PR集合为空，获取当前知识点ikp的所有先决知识点得到先决知识点集合PR，遍历先决知识点集合PR中的每一个先决知识点pr，每一个先决知识点pr的属性优先推荐度score初始化为0，如果先决知识点pr隶属于学生U_i的未掌握知识点的列表IKP(i)则将先决知识点pr的属性优先推荐度score加1；

4.5)返回降序排序后的学生U_i的未掌握知识点列表IKP(i)。

本实施例中，步骤4.3)中知识点ikp的所有先决知识点包括在给定的知识图谱PKG上以知识点ikp为起点，所有直接指向和间接指向知识点ikp的知识结点。

本实施例中，步骤5)具体是采用函数getExercises实现。

如图4所示，步骤5)的详细步骤包括：

5.5)基于每道题的客观难度值D(·)对当前知识点ikp的待推荐习题集O(i)(ikp)进行升序排序；

5.8)基于所有知识点ikp的待推荐习题集O(i)(ikp)由易至难的排列顺序，从而得到学生U_i由易到难排列的个性化推荐习题列表O(i)。

本实施例中影响不同题型难度值的习题属性以及每种习题属性数据的归一化的方法，基于熵值法整合与特定题型相关的所有归一化的习题属性值，从而实现对特定题型习题的客观难度值的量化，具有量化客观准确度高的优点。本实施例中，步骤5.4)中求取客观难度值D(item1)的函数表达式如式(1)所示；

式(1)中，D(V_j)表示针对习题V_j计算得到的客观难度值D(item1)，A_i为习题V_j的第i个相关习题属性，w_i表示习题V_j的第i个相关习题属性A_i的权重值，A(V_j)为量化习题V_j的客观难度值所用的习题属性集，且D(V_j)∈[0,1]。式(1)所采用的熵值法赋权值的基本思路是根据习题属性值离散程度的大小确定习题属性的权重，即习题属性取值离散程度越大则其包含的信息量越大，因此对该属性赋予越大的权重。

本实施例中，所述量化习题客观难度值所用的习题属性集包括下述七种习题属性：题干知识点数量、题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离、干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离、填空的数量、答案字数、每个空备选答案的平均数目、判断题已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离。上述七种习题属性从不同习题类型(包括单选题、多选题、判断题、填空题和主观题)的特点出发，实现了七种影响习题客观难度的题目属性。本实施例中，上述七种习题属性的具体量化方式如下：

1)题干知识点数量：习题所考察的知识点数量越多则其难度值越大。令习题V_j的题干知识点数量为S_j，且假设S_j服从泊松分布，即S_j～P(λ_S)，则基于题干知识点数量S_j刻画的习题V_j的难度值N_kp(V_j)的定义如式(2)所示；

N_kp(V_j)＝1-P(P(λ_S)≥S_j) (2)

式(2)中，N_kp(V_j)表示基于题干知识点数量S_j刻画的习题V_j的难度值，S_j表示习题V_j的题干包含的知识点数量，P(λ_S)表示服从数学期望为λ_S的泊松分布，λ_S表示泊松分布的数学期望，P(P(λ_S)≥S_j)表示当前泊松分布中取值大于S_j的概率。根据式(2)易知，P(P(λ_S)≥S_j)的取值越小，习题V_j考察的题干知识点数量S_j就越多，则难度值N_kp(V_j)就越大。

2)题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离：对于填空题、选择题和主观题，当题干知识点和正确答案知识点在PKG中的路径越长则说明两个知识点间的联系跨度越大，即中间需要掌握的过渡知识点就越多，则习题难度值也应越大。令习题V_j题题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离为X_j，且假设X_j服从正态分布，即X_j～N(μ_X,σ² _X)。则基于题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离X_j所刻画的习题V_j的难度值D_correct(V_j)的定义如式(3)所示；

D_correct(V_j)＝1-P(N(μ_X,σ² _X)≥X_j) (3)

式(3)中，D_correct(V_j)表示基于题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离X_j所刻画的习题V_j的难度值，X_j表示习题V_j题干的知识点和其正确答案的知识点在PKG中的平均路径，N(μ_X,σ² _X)表示服从数学期望为μ_X，标准方差为σ² _X的正态分布，P(N(μ_X,σ² _X)≥X_j)表示当前正态分布中取值大于X_j的概率。根据式(3)易知，P(N(μ_X,σ² _X)≥X_j)的取值越小，习题V_j的基于题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离X_j就越大，则难度值D_correct(V_j)就越大。

3)干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离：对于选择题，当干扰选项知识点和正确选项知识点在PKG中的路径越小则说明习题干扰选项的迷惑性越强，即习题难度值应越大。令习题V_j的干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离为W_j，且假设W_j服从正态分布，即W_j～N(μ_W,σ² _W)。则基于干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离W_j刻画的习题V_j的难度值D_wrong(V_j)的定义如式(4)所示；

D_wrong(V_j)＝1-P(N(μ_W,σ² _W)≤W_j) (4)

式(4)中，D_wrong(V_j)表示基于干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离W_j刻画的习题V_j的难度值，W_j表示习题V_j的干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离，N(μ_W,σ² _W)表示服从数学期望为μ_W，标准方差为σ² _W的正态分布，P(N(μ_W,σ² _W)≤W_j)表示当前正态分布中取值大于W_j的概率。根据式(4)易知，当P(N(μ_W,σ² _W)≤W_j)的取值越小，习题V_j考察的基于干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离W_j就越小，则难度值D_wrong(V_j)也就越大。

4)填空的数量：填空题的填空数量越多则其难度值越大。令习题V_j的填空的数量为F_j，且假设填空的数量F_j服从泊松分布，即F_j～P(λ_F)。则基于填空的数量F_j刻画的习题难度值N_blank(V_j)的定义如式(5)所示；

N_blank(V_j)＝1-P(P(λ_F)≥F_j) (5)

式(5)中，N_blank(V_j)表示基于填空的数量F_j刻画的习题难度值，F_j表示习题V_j的填空的数量，P(λ_F)表示服从数学期望为λ_F的泊松分布，P(P(λ_F)≥F_j)表示当前泊松分布中取值大于F_j的概率。根据式(5)易知，当P(P(λ_F)≥F_j)的取值越小，习题V_j的填空的数量F_j就越多，则难度值N_blank(V_j)也就越大。

5)答案字数：对于填空题和主观题而言，其答案字数越多则其难度值越大。令习题V_j的答案字数为L_j，且假设答案字数L_j服从泊松分布，即L_j～P(λ_L)。则基于答案字数L_j刻画的习题V_j的难度值N_word(V_j)的定义如式(6)所示；

N_word(V_j)＝1-P(P(λ_L)≥L_j) (6)

式(6)中，N_word(V_j)表示基于答案字数L_j刻画的习题V_j的难度值，L_j示习题V_j的答案字数，P(λ_L)表示服从数学期望为λ_L的泊松分布，P(P(λ_L)≥L_j)表示当前泊松分布中取值大于L_j的概率。根据式(6)易知，当P(P(λ_L)≥L_j)的取值越小，习题V_j的答案字数L_j就越多，则难度值N_word(V_j)也就越大。

6)每个空备选答案的平均数目：填空题每个空的备选答案数目越少则题目的难度越大。令习题V_j每个空备选答案的平均数目为T_j，且假设每个空备选答案的平均数目T_j服从泊松分布，即T_j～P(λ_T)。则基于每个空备选答案的平均数目T_j刻画的习题V_j的难度值N_answer(V_j)的定义如式(7)所示；

N_answer(V_j)＝1-P(P(λ_T)≤T_j) (7)

式(7)中，N_answer(V_j)表示基于每个空备选答案的平均数目T_j刻画的习题V_j的难度值，T_j表示习题V_j每个空备选答案的平均数目，P(λ_T)表示服从数学期望为λ_T的泊松分布，P(P(λ_T)≤T_j)表示当前泊松分布中取值大于T_j的概率。根据式(7)易知，当P(P(λ_T)≤T_j)的取值越小，习题V_j每个空备选答案的平均数目T_j就越少，则难度值N_answer(V_j)也就越大。

7)判断题已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离：判断题的题干往往会给出一个已知条件和结论，如果已知条件知识点和结论知识点在PKG中的平均路径距离越长，则学生做出正确判断所需掌握的它们之间的跨度知识点就越多，因而判断题越难。令习题V_j(判断题)的已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离为K_j，且假设已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离K_j服从正态分布，即K_j～N(μ_K,σ² _K)。则基于已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离K_j所刻画的习题V_j的难度值D_judge(V_j)的定义如式(8)所示；

D_judge(V_j)＝1-P(N(μ_K,σ² _K)≥K_j) (8)

式(8)中，D_judge(V_j)表示基于已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离K_j所刻画的习题V_j的难度值，K_j表示习题V_j(判断题)的已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离，N(μ_K,σ² _K)表示服从数学期望为μ_K，标准方差为σ² _K的正态分布，P(N(μ_K,σ² _K)≥K_j)表示当前正态分布中取值大于K_j的概率。根据式(8)易知，当P(N(μ_K,σ² _K)≥K_j)的取值越小，习题V_j的已知条件知识点和结论知识点在PKG中的路径距离越长，则难度值D_judge(V_j)也就越大。

上述题目属性取值所服从的泊松分布或正态分布的参数值(即泊松分布的λ值、正态分布的μ值和σ值)可基于对题库中题目属性取值的统计信息并利用极大似然估计方法得到。由于量化每种题型的客观难度所用到的题目属性不同，表2用符号①至⑦指代上述七种不同的题目属性，进而给出了和每种题型的客观难度值相关的习题属性。

表2：每种题型涉及的习题属性。

①

②

③

④

⑤

⑥

⑦

单选题

√

多选题

√

判断题

√

填空题

√

主观题

√

本实施例基于难度的个性化习题推荐方法的算法复杂度分析如下：本实施例方法中最耗时的是基于DINA模型计算学生对各个知识点的掌握程度值这部分。且由于DINA模型利用EM算法进行求解，其时间复杂度是O(|U|*2^|KP|*M)(其中|U|是学生数量，|KP|是知识点数量，M是EM算法的迭代次数)，故本实施例方法的时间复杂度是O(|U|*2^|KP|*M)。本实施例方法的空间存储消耗主要来自于存储Q矩阵(大小为|KP|*|B|)和R矩阵(大小为|U|*|B|)，其中|KP|是知识点的数目，|B|是题库的习题数量。则可知本实施例方法的空间复杂度为O(|KP|+|U|)*|B|)。

为了测试本实施例基于难度的个性化习题推荐方法的有效性，本文在基于微信小程序开发的在线教学系统iTest中分别实现了本实施例方法(ReDi推荐技术)和与本文最相关的PMF-CD推荐技术，并基于两门课的真实课堂实验来分析对比这两种推荐技术。其中，PMF-CD技术用其计算得到的习题的潜在答对概率确定每道习题的难度值，并在推荐习题前基于习题的难度值对推荐习题进行由易至难地排序。通过对比PMF-CD技术的推荐习题规模，将本实施例方法(ReDi推荐技术)中每个未掌握知识点的推荐习题数目k设置为8，从而保证PMF-CD技术和本实施例方法(ReDi推荐技术)推荐的习题规模大致相当。两次课堂实验的相关信息已在表3中列出。

表3：两次课堂实验的相关信息。

课程	学生类型	学生	总题数	知识点
					数据库原理	本科生	50	86	11
数据库理论	硕士生	10	86	11

每次课堂实验包括以下三个流程：(1)推荐前测试：全体学生用统一的20道习题进行课堂测试，基于这次测试的结果本实施例方法(ReDi推荐技术)和PMF-CD技术均可以基于认知诊断DINA模型获取学生对各个知识点的掌握程度值；(2)学生基于推荐习题自主学习：将学生随机分为人数相等的两组：一组基于本实施例方法(ReDi推荐技术)推荐的个性化习题完成自主学习；另一组则基于PMF-CD技术推荐的个性化习题完成自主学习。为了验证由易至难的习题推荐策略是否有助于提高学生基于习题的自主学习效果，自主学习过程中要求学生必须按习题的推荐顺序来逐一完成对推荐习题的学习。两种技术使用的推荐题库相同，均包含46道习题。(3)推荐后测试：当所有学生都完成基于推荐习题的自主学习之后，组织全体学生用统一的另一套包含了20道习题的测试题进行课堂测试，用以检验不同推荐技术对学生自主学习的促进作用。两次课堂实验均采用同样的题库和测试题目，涉及数据库范式理论的11个知识点，分别是：1NF(kp₁)、2NF(kp₂)、3NF(kp₃)、BCNF(kp₄)、主属性(kp₅)、传递函数依赖(kp₆)、决定因素(kp₇)、函数依赖(kp₈)，码(kp₉)、部分函数依赖(kp₁₀)和非主属性(kp₁₁)。且推荐前测试和推荐后测试所包含的20道习题和知识点的对应关系均满足如图5所示的描述习题-知识点间关联性的Q矩阵，课程的知识图谱如图6所示。

下文将从以下两方面进行实验评估和分析：

(1)第一方面：对比两种推荐技术在推荐后测试比推荐前测试的分数提升以及推荐后测试比推荐前测试的平均答题时间缩减这两方面的表现，证明本实施例方法(ReDi推荐技术)对学生自主学习的促进作用优于PMF-CD技术。

推荐效果对比如图7～图10所示，其中图7和图8以灰度图的可视化形式对比了两次课堂实验中不同推荐技术对学生个体成绩提升的帮助效果，其中图7是第一次实验结果，图8是第二次实验结果。图中某学生对应方块的灰度越浅则表示该学生先后两次测试的成绩提升幅度越大，反之灰度越深则表示该学生的成绩提升幅度越小。从图可知，两次课堂实验中基于本实施例方法(ReDi推荐技术)推荐的习题完成自主学习的学生的成绩提升幅度从总体变化趋势上均优于基于PMF-CD技术推荐的习题完成自主学习的学生的成绩提升幅度。

图9展示了两次课堂实验中不同推荐技术对学生总体成绩提升的帮助效果。由图可见，课堂实验1中ReDi组的学生自主学习后的测试平均分是77，较推荐前的测试平均分66提升了17％，是PMF-CD组的学生两次测试的平均分提升率(9.5％)的近两倍。而课堂实验2中本实施例方法(ReDi推荐技术)的ReDi组的学生两次测试的平均分提升率(32.2％)是PMF-CD组的学生平均分提升率(6.1％)的5倍。这是因为本实施例方法(ReDi推荐技术)对习题难度的定义既考虑了习题难度对于学生的主观性又考虑了习题难度的客观性，学生因此可以真正由易至难地基于推荐的习题实现循序渐进的自主学习，提高有限时间内自主学习的效率。此外还观察到实验2由于课堂是小班授课(只包含10名学生)，因此教师可以充分参与到学生的自主学习阶段，给两组学生讲解其不会的推荐习题，因而使得本实施例方法(ReDi推荐技术)基于习题难度进行习题推荐的优越性得到更显著体现。

图10对比了两次课堂实验中不同推荐技术的学生组前后两次测试的平均答题时间。由图可知，在两次课堂实验中，本实施例方法(ReDi推荐技术)的ReDi组学生第二次测试相对于第一次测试的平均答题时间缩减幅度均大于PMF-CD组学生的平均答题时间缩减幅度。特别地，第二次课堂实验中本实施例方法(ReDi推荐技术)的ReDi组学生的平均答题时间缩减幅度(17.6％)是PMF-CD组学生的平均答题时间缩减幅度(1.5％)的近12倍。

综合图9和图10的实验结果可知，本实施例方法(ReDi推荐技术)推荐的个性化学习进行自主学习后，学生对于包含相同知识点测试题的测试成绩有更大幅度的提升，且测试用时有更大幅度的下降。这说明本实施例方法(ReDi推荐技术)比PMF-CD推荐技术更能帮助学生提高其基于习题的自主学习的效果。

(2)第二方面：基于F检验从统计学的角度证明本实施例方法(ReDi推荐技术)优于PMF-CD技术该结论的有效性。

下文将以课堂实验一为例利用F检验对两种推荐技术实验结果的有效性进行分析。具体而言，对每组学生在推荐后测试中的成绩进行方差分析(ANOVAs)进而从统计角度证明“本实施例方法(ReDi推荐技术)的推荐成效优于PMF-CD技术”该结论的有效性。下面给出原假设H0和备择假设H1，并设置信度为0.05。

H0：本实施例方法(ReDi推荐技术)的ReDi组学生推荐后的测试分数和PMF-CD组学生推荐后的测试分数不存在显著性差异。

H1：本实施例方法(ReDi推荐技术)的ReDi组学生推荐后的测试分数和PMF-CD组学生推荐后的测试分数具有显著性差异。

表4：学生推荐后的测试分数的相关统计信息。

推荐技术	学生数	分数均值	标准差	标准误差
					ReDi(本实施例方法)	25	77.00	8.898	1.780
PMF-CD	25	70.60	10.928	2.186

表4给出了推荐后测试中不同推荐技术下的两组学生的测试分数的相关统计信息。通过计算可知对于H0假设的检验结果为：F(1,48)＝5.16，MSE＝99.3，p＝0.028。由于检验水平p为0.028因而小于置信度0.05，故拒绝原假设H0，接受备择假设H1。F检验的检验结果说明了本实施例方法(ReDi推荐技术)ReDi组学生的推荐后的测试分数相比于PMF-CD组学生推荐后的测试分数具有显著性差异，即证明了“本实施例方法(ReDi推荐技术)在推荐成效方面优于PMF-CD技术”这个结论的有效性。

综上两个方面所述，基于习题练习进行自主学习是学生巩固课堂所学知识点的最主要方式。个性化习题推荐结合学生薄弱知识点推荐习题，能够通过因材施教而有效提高学生自主学习的成效。然而，现有个性化习题推荐技术在推荐习题时没有充分考虑推荐习题的难易顺序排列对推荐成效的影响。鉴于此，本实施例提出了一种基于难度的个性化习题推荐方法，本实施例方法(ReDi推荐技术)将习题难度建模为相对于学生知识状态的主观难度和由习题属性决定的客观难度，并基于所量化的习题难度实现由易至难、由浅至深的个性化习题推荐策略。多次课堂实验验证了本实施例方法(ReDi推荐技术)对于提高学生基于习题的自主学习成效的有效性。在习题难度建模方面，本实施例基于难度的个性化习题推荐方法综合考虑了习题的主观难度和客观难度。具体而言，本实施例基于难度的个性化习题推荐方法首先基于学生历史答题数据并利用认知诊断DINA模型计算出学生对知识点的掌握程度值作为知识点相对于学生的主观难度值，基于该难度值得到学生未掌握的知识点集合。考虑到知识点之间存在的先决依赖关系会导致不同知识点在难度上存在客观差异。例如在关系数据库理论课程中，二范式(2NF)是三范式(3NF)的先决知识点，即掌握3NF之前需要先掌握2NF，因而知识点3NF的难度比知识点2NF的难度要大。因此为了帮助学生实现对知识点循序渐进的学习，本实施例基于难度的个性化习题推荐方法进而利用当下流行的知识图谱技术，即基于课程知识图谱中所描述的知识点之间的先决依赖关系确定学生未掌握知识点从易至难的推荐顺序。本实施例基于难度的个性化习题推荐方法利用所抽取的习题的属性和课程知识图谱量化一个知识点相关联的每道习题的客观难度值。本实施例基于难度的个性化习题推荐方法以基于学生各自知识状态得到的学生未掌握知识点为作为习题的推荐依据，以基于知识点间的先决依赖关系得到未掌握知识点的难易顺序作为习题的主推荐顺序，并以习题的客观难度值为依据确定每个未掌握知识点相关习题的推荐顺序，最终实现基于难度的个性化习题推荐。总之，本实施例基于难度的个性化习题推荐方法文的主要贡献如下：(1)本实施例设计和提出了综合考虑由题目本身属性造成的题目客观难度和由学生知识状态造成的题目主观难度的习题难度度量方法。特别地，本实施例方法还利用了知识点之间的先决依赖关系和知识图谱技术来提升对题目难度建模的合理性。(2)本实施例方法基于比相关工作更丰富的习题属性集(包括题干知识点数量、题干和正确答案知识点在知识图谱中的平均路径距离等)来量化习题的客观难度值，使对习题客观难度的量化更有据可依。(3)本实施例方法基于以上对习题难度的度量方法设计与实现了基于难度的个性化习题推荐。本实施例方法能够指导学生由易至难、循序渐进地完成基于习题的自主学习。将本实施例方法嵌入实现于在线教学系统iTest中，并通过先后组织60名学生参加的两次真实课堂实验来验证本实施例方法对于提升学生基于习题的自主学习效果的有效性。

此外，本实施例还提供一种基于难度的个性化习题推荐系统，包括：

学生未掌握知识点生成程序单元，用于以一维向量

此外，本实施例还提供一种基于难度的个性化习题推荐系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述基于难度的个性化习题推荐方法的步骤。

此外，本实施例还提供一种基于难度的个性化习题推荐系统，包括计算机设备，该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于难度的个性化习题推荐方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于难度的个性化习题推荐方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于难度的个性化习题推荐方法，其特征在于实施步骤包括：

4)以一维向量

7)将学生集合U中所有学生由易到难排列的个性化推荐习题列表O(i)构建得到学生集合U的个性化推荐习题矩阵O，返回个性化推荐习题矩阵O；

步骤5)的详细步骤包括：

2.根据权利要求1所述的基于难度的个性化习题推荐方法，其特征在于，步骤4)的详细步骤包括：

4.1)初始化学生U_i的未掌握知识点列表IKP(i)为空；

中对应的元素

4.5)返回降序排序后的学生U_i的未掌握知识点列表IKP(i)。

3.根据权利要求2所述的基于难度的个性化习题推荐方法，其特征在于，步骤4.3)中知识点ikp的所有先决知识点包括在给定的知识图谱PKG上以知识点ikp为起点，所有直接指向和间接指向知识点ikp的知识结点。

4.根据权利要求1所述的基于难度的个性化习题推荐方法，其特征在于，步骤5.4)中求取客观难度值D(item1)的函数表达式如式(1)所示；

式(1)中，D(V_j)表示针对习题V_j计算得到的客观难度值，A_i为习题V_j的第i个相关习题属性，w_i表示习题V_j的第i个相关习题属性A_i的权重值，A(V_j)为量化习题V_j的客观难度值所用的习题属性集，且D(V_j)∈[0,1]。

5.根据权利要求4所述的基于难度的个性化习题推荐方法，其特征在于，所述量化习题客观难度值所用的习题属性集包括下述七种习题属性：题干知识点数量、题干知识点和正确答案知识点在知识图谱PKG中的平均路径距离、干扰选项知识点和正确选项知识点在知识图谱PKG中的平均路径距离、填空的数量、答案字数、每个空备选答案的平均数目、判断题已知条件的知识点和结论知识点在知识图谱PKG中的平均路径距离。

6.一种基于难度的个性化习题推荐系统，其特征在于包括：

学生未掌握知识点生成程序单元，用于以一维向量

输出矩阵构建程序单元，用于将学生集合U中所有学生由易到难排列的个性化推荐习题列表O(i)构建得到学生集合U的个性化推荐习题矩阵O，返回个性化推荐习题矩阵O

所述学生个性化推荐习题列表生成程序单元根据未掌握知识点列表IKP(i)获取学生U_i由易到难排列的个性化推荐习题列表O(i)的详细步骤包括：

7.一种基于难度的个性化习题推荐系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～5中任意一项所述基于难度的个性化习题推荐方法的步骤。

8.一种基于难度的个性化习题推荐系统，包括计算机设备，其特征在于，该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～5中任意一项所述基于难度的个性化习题推荐方法的计算机程序。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～5中任意一项所述基于难度的个性化习题推荐方法的计算机程序。