CN116361541A

CN116361541A - 基于知识追踪与相似度分析的试题推荐方法

Info

Publication number: CN116361541A
Application number: CN202310042279.9A
Authority: CN
Inventors: 宋建锋; 王钰凯; 谢琨; 苗启广; 权义宁; 刘向增; 刘如意
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-01-28
Filing date: 2023-01-28
Publication date: 2023-06-30

Abstract

本发明公开了一种基于知识追踪与相似度分析的试题推荐方法，本发明使用知识点相似度与文本词向量分析的方式进行试题相似性比对，解决了现有技术存在的试题聚类对比度过高、知识点词向量不完整、试题文本解析不全面的问题。本发明利用训练好的知识追踪网络，分析学生的学习行为，动态更新学生的知识点的掌握情况，并利用试题相似度分析结果与学生的答题记录，为学生推荐试题内容，解决了现有技术存在的不同能力学生的差异化问题。使得本发明推荐的试题具有在分类方面有着更快的解析速度、清晰的模块划分以及高准确率的试题分类的优点。

Description

基于知识追踪与相似度分析的试题推荐方法

技术领域

本发明属于数据处理技术领域，更进一步涉及自然语言处理技术领域中的一种基于知识追踪与相似度分析的试题推荐方法。本发明可用于在线考试系统、在线课程学习系统等教育辅助平台，通过在众多试题资源中找出合适的习题数据、试题与知识点信息推荐给目标用户。

背景技术

教育信息化是我国教育行业的发展重要课题，个性化习题推荐帮助学生在学习的过程中做到薄弱知识强化、知识难点攻略。传统的习题推荐推荐算法主要以基于内容的协同过滤推荐为主，该算法的主要实现方式是，根据找到与目标学生A的历史记录相似的学生B，然后为A学生推荐与学生B相似的试题内容。此方法过于简单，并没有考虑习题的具体特征，并且如果数据量过小，则会造成推荐信息不准确，个人学生特异性考虑欠缺等严重性问题。项目反映理论IRT(item response theory)是认知模型中最经典的一种方式，IRT可以根据学生的具体情况比如：潜在特质、试题难度、辨识度等分析学生具体表现。虽然认知诊断相比于协同过滤考虑到了学生的认知状态，并且根据不同学生的知识水平进行了推荐，但是没有考虑到试题的相似度以及学生薄弱项目的针对性复习，使试题推荐具有局限性，无法很好的提升学生的弱势知识点。

中山大学在其申请的专利文献“一种基于用户学习行为的个性化试题推荐方法”(专利申请号：201811302272.1，申请公布号：CN 109509126 A)中提出了一种基于用户学习行为的个性化试题推荐方法。该方法从在线教育平台获取用户历史做题数据、试题与知识点信息；根据用户历史做题数据，构造用户-试题得分矩阵R，将试题与知识点之间的关联构造为试题-知识点关联矩阵Q。通过DINA模型构建用户认知诊断模型，得到用户知识点掌握矩阵A。对矩阵R非负矩阵分解，得到用户和试题的隐含特征矩阵W和H，求出W和H矩阵的估计值，得到得分预测模型；最后计算用户潜在作答情况，并将目标用户自己选择难度范围的试题推荐给目标用户。该方法存在的不足之处是，该方法虽然加快了模型的训练速度，但是忽略了学生之间的差异性以及试题之间的区分度，未能很好的做到差异化学习，并且对于数据量较小的样本无法很好的建模分析。

江苏大学在其申请的专利文献“一种基于解题思路和知识点的试题相似度计算方法”(专利申请号：202111626398.6，申请公布号：CN 114372518 A)中提出了一种基于解题思路和知识点的试题相似度的计算方法。该方法的实现步骤是，首先整理试题特征信息形成知识点类特征集和解题思路类特征集，其中一方面以Jaccard系数作为两试题之间的知识点相似度，另一方面从试题解题思路的角度出发，考量两试题之间的相似性，其中利用Skip-gram模型将解题思路中的语料信息转换为相对应的词向量，进而以计算词向量之间欧氏距离的方式，评价试题之间的相似度，最终与知识点相似度相结合，提升数学类试题相似度评价的准确性，尤其是能够避开数学题中不同符号图表所带来的干扰。但是，该方法仍然存在的不足之处是，只考虑到试题以及试题语义之间的相似性，未考虑到学生自身的情况因素，无法根据不同水平以及学习效率的学生，进行针对性的出题。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于知识追踪与相似度分析的试题推荐方法。用于解决学生在学习过程中存在的个体差异问题，对于不同知识点掌握程度的学生进行独立性分析，并为学生推荐合适的试题。

实现本发明目的的技术思路是，本发明将会根据学生在学习过程产生的数据信息建模分析学习行为，利用知识网络拟合学生在学习过程中导致的知识掌握程度的变化情况。发明首先使用知识点相似度与文本词向量分析的方式将试题间的相似性进行比对，其次通过余弦相似度计算相同类别中试题之间向量夹角，得到试题间的相似度分析。然后搭建知识追踪网络，利用学生的答题记录与试题相似度分析结果拟合学生的学习行为，动态更新学生的知识点的掌握情况，从而为学生推荐试题内容。解决了试题推荐过程中存在的试题重复度高、知识点关联程度过低以及学生知识点网络无法细分化等问题。

本发明的实现步骤如下：

步骤1，构建知识词典：

步骤1.1，收集每个学年中的至少3门课程、至少50名学生的6000道试题与试题对应的答题记录组成数据集，每道试题包括试题内容、该道试题的知识点、每个知识点对应的知识点解析；

步骤1.2，将每道试题整理成以(j-test、j-k、j-k-info)为标签文件，其中，j为试题的序号，j-test表示第j道试题的试题内容，j-k表示第j道试题的第k个知识点，j-k-info表示第j道试题第k个知识点的对应解析；

步骤1.3，将数据集中所有试题中相同知识点划分为同一种类别，得到至少10种类别，每种类别至少包含10条知识点，每个知识点至少对应500道试题；将类别划分后的每道试题的标签修改为(j-test、j-k、j-k-info、class-j)的标签文件，其中，class-j表示属于第class种类别的第j道试题；

步骤1.4，利用文件格式工具，将(j-test、j-k、j-k-info、class-j)标签文件转化为可用于机器学习分析的svg格式文件，并将svg格式文件存入知识词典中；

步骤2，计算知识词典中同种类别中知识点之间的相似性权值概率：

将知识词典中同种类别的知识点进行两两相似性比对，计算同种类别知识点间的相似性权值概率；

步骤3，计算知识词典中每道试题的每个词汇在该试题中的词频TF：

将知识词典中所有试题进行分词预处理，依次划分每道试题的试题结构，计算知识词典中每道试题的每个词汇在该试题中的词频；

步骤4，计算知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF；

步骤5，计算知识词典中每道试题的每个词汇在该试题中的TF-IDF值；

步骤6，计算知识词典中同种类别中试题之间的余弦相似度：

将知识词典中同种类别的试题进行两两的相似性比对，计算同种类别试题间的余弦相似度；

步骤7，生成由知识点词序列向量组成的训练集：

步骤7.1，从知识词典中找到每个学生的每道答题记录对应的试题，将每道试题包含的所有知识点组成该道试题的知识点向量，将每道试题的知识点向量按照每个学生的答题记录中与试题对应的序号进行排列后组成该学生的知识点词序列向量；

步骤7.2，将所有学生的知识点词序列向量组成训练集；

步骤8，搭建知识追踪网络：

步骤8.1，基于现有的LSTM网络搭建一个知识追踪网络，其结构依次串联为：输入层，遗忘层，记忆层，知识点预测层，输出层；其中，输入层采用Bert预训练模型作为文本编码器，记忆层采用tanh激活函数实现，记忆层通过tanh激活函数将每种类别每道试题的权重值与试题向量激活，并映射到-1～1之间，知识点预测层采用sigmoid激活函数实现，知识点预测层通过sigmoid激活函数将知识点词序列向量与试题向量激活，并映射到0～1之间，输出层由Softmax单元组成；

步骤8.2，设置知识追踪网络各层参数如下：

将文本编码器的知识点词序列向量维度设置为512，输入知识点的最大长度设置为100，输入试题的最大长度设置为1000；

将遗忘层的神经单元数设置为100，遗忘层的丢弃率设置为0.2，字向量维度设置为300；

将记忆层的神经单元数设置为120，试题向量维度设置为1000，记忆层保留率设置为0.7；

将知识点预测层的神经单元数设置为80；输出层输出由试题与试题所对应的预测概率组成的序列概率，其预测概率取值为0～1；

步骤9，训练知识追踪网络：

将训练集输入到知识追踪网络中，利用交叉熵损失函数，计算每道试题的知识点预测向量与该道试题对应的知识点向量之间的损失值，通过梯度下降法，迭代更新知识追踪网络中的所有参数，直至损失函数收敛为止，得到训练好的知识追踪网络；

步骤10，利用训练好的知识追踪网络推荐试题：

步骤10.1，为需要推荐试题的学生收集与该学生所学习的相同年级相同科目的试题，采用与步骤1.1和步骤1.2相同的方式，将所有试题整理成test为标签的文件，并转化为svg格式作为待预测试题，将待预测试题输入到训练好的知识追踪网络中，输出需要推荐试题学生的预测试题序列概率；

步骤10.2，将预测试题序列概率转化为XLS格式文件，获得待预测试题中每道试题的试题内容与其所对应的预测概率，根据试题的预测概率的从大到小，为需要推荐试题的学生推荐试题内容。

本发明与现有技术相比较，具有以下优点：

第一，本发明采用知识追踪的方法，即从多个方面考虑学生学习过程中的影响因素，克服了现有技术中存在的训练样本过小导致无法拟合学生学习行为的缺陷，以及不同能力学生之间存在的差异化的问题。使得本发明能更加细致的建模分析用户学习行为，具有根据时间序列动态更新学生的知识点的掌握情况的优点。

第二，本发明在基础的试题相似度分析上，提出了一种新型的试题词向量与知识点相似度相结合的试题相似度分析模式。克服了现有技术存在的试题聚类对比度过高、知识点词向量不完整、试题文本解析不全面的缺陷等问题，使得本发明在试题分类方面有着更快的解析速度、清晰的模块划分以及高准确率的试题分类的优点。

附图说明

图1本发明的流程图。

具体实施方式

下面结合附图1和实施例对本发明做进一步的描述。

步骤1，构建知识词典。

本发明实施例的数据是取自ASSITments2018数据集，该数据集是针对高等教育学校的练习与辅导系统，其题型主要以选择、应答为主要结构。ASSITments2018数据集选取2018年上半年，伍斯特理工学院100名大学二年级学生，在ASSITment在线学习系统中关于《计算机网络》、《数据结构》、《C++》三个课程，共6000道试题的38000条答题记录。其中《计算机网络》课程包括50条知识点、3000道试题以及18000条答题记录，《数据结构》课程包括40条知识点、1800道试题及12000条答题记录，《C++》课程包括1200道试题和20条知识点及8000条答题记录。

步骤1.1，将ASSITments2018数据集的每道试题信息均整理为以(j-test、j-k、j-k-info)为标签的数据化格式文件，其中，j为试题序号，j-test表示第j道试题序号与所对应的题内容，j-k表示第j道试题序号与所包含的知识点k，1道试题的可包含多个知识点，1个知识点可对应多个试题，j-k-info表示第j道试题序号、该试题所包含的知识点k与该试题所包含的知识点的对应解析info。

本发明的实施例以ASSITments2018数据集中第13道试题为例，其数据化格式，如下表所示：

步骤1.2，将以(j-test、j-k、j-k-info)为标签的数据化格式文件，依据知识点关联信息划分为10种类别，每种类别至少包含10条知识点，每条知识点对应至少500道试题，以ASSITments2018数据集中的《数据结构》为例，类别1为数据结构基础，其中包括：数据结构的发展、数据结构、数据元素、数据对象等10种知识点，每种知识点有所对应的多个试题，对于包含多个知识点的试题，可重复使用。并将其划分结果作为以(j-test、j-k、j-k-info)为标签的数据化格式文件中新的标签，名为class-j。由此得到以(j-test、j-k、j-k-info、class-j)为标签的数据化格式文件，以ASSITments2018数据集中第13道试题为例，其试题类别为1类，则class-j标签对应数据内容为1-13。

步骤1.3，利用wps、word或者格式工厂，将以(j-test、j-k、j-k-info、class-j)为标签的数据化格式文件转化为可用于机器学习分析的svg格式文件，并将svg格式文件存入知识词典中。

步骤2，计算知识词典中同种类别中知识点之间的相似性权值概率。

为了有效的对比同种类别中试题之间的相似性，需要将同种类别中所包含的所有知识点之间的相似性进行对比。知识点之间的相似性的对比方式先是通过字符串编码将知识点及其解析内容转化为[0,1]向量，例如：存储结构为[0,1,1,0,0,1,1,1,1,0,0]。然后将步骤1中所整理出的知识词典中同种类别中包含的所有知识点进行两两的相似性对比。

本发明实施例的相似性对比方式是使用现有的word2vec技术，将两个知识点之间的向量值进行余弦乘积后，再按照下式，计算两个知识点之间的相似性权值概率：

其中，

表示知识点/>

与知识点/>

之间的相似性权值概率，m和n表示知识点序号，r表示类别序号，p(.)表示求概率操作，/>

表示r类别中第m个知识点，/>

表示r类别中第n个知识点，/>

表示知识点/>

所对应的解析内容，/>

表示知识点/>

所对应的解析内容。

步骤3，计算知识词典中每道试题的每个词汇在该试题中的词频TF(TermFrequency)。

词频表示着在每道试题中每个词汇在该试题中出现的频率，是衡量试题差异化的标准方式。其方法是将知识词典中的所有试题进行分词预处理，依次划分每道试题的试题结构，以《数据结构》为例，原试题为：叙述其逻辑结构、存储结构和运算(操作)三方面的内容。划分后为：叙述/其/逻辑结构、/存储结构/和/运算/(操作)/三方面/的/内容。然后计算每道试题中的每个词汇在该试题中的词频，如果试题中词汇的TF值越高，则该词汇在该试题中出现的频率越高。

按照下式，计算知识词典中的每道试题中的每个词汇在该试题中的词频TF值：

其中，TF_ij表示在第j道试题d_j中第i个词汇e_i的词频，i表示词汇序号，j表示试题序号，n_ij表示词汇e_i在试题d_j中出现的次数，∑表示求和操作，N_j表示试题d_j中词汇e_i的总数，n_kj表示第k个词汇e_k在试题d_j中出现的次数。

步骤4，计算知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF(Inverse Document Frequency)。

试题中词汇的IDF值是用来衡量每道试题的每个词汇在该试题中的普遍程度。如果试题中词汇的IDF值越高，则该词汇在文本分类中特性比较差或者独立性比较弱。

按照下式，计算试题中的逆文档词频IDF值：

其中，IDF_ij表示在试题d_j中词汇e_i的逆文档词频，|.|表示求绝对值操作，D表示知识词典中的试题的总数，log表示以2为底的对数操作，∈表示包含，{j:t_i∈d_j}表示知识词典中包含词汇e_i的试题数量。

步骤5，计算知识词典中每道试题的每个词汇在该试题中的TF-IDF(termfrequency–inverse document frequency)值。

由步骤3、4所得出的TF、IDF值，可用计算知识词典中所有试题中所有词汇TF-IDF值，试题中词汇的TF-IDF值是用来衡量每道试题的每个词汇在该试题中的重要程度，如果试题中词汇的TF-IDF值越大，则该词汇在该试题中的重要程度越高。

以《数据结构》为例，原试题为：叙述其逻辑结构、存储结构和运算(操作)三方面的内容，如果该试题中“逻辑结构”一词的TF-IDF值越大，则“逻辑结构”对于该试题的重要程度越高。

按照下式，计算试题中词汇的TF-IDF值：

TF-IDF_ij＝TF_ij/|d_j|log(|D|/IDF_ij)

其中，TF-IDF_ij表示在试题d_j中词汇e_i的TF-IDF值，TF_ij表示试题d_j中第i个词汇e_i的词频，|.|表示求绝对值操作，log表示以2为底的对数操作，IDF_ij表示在试题d_j中词汇e_i的逆文档词频。

步骤6，计算知识词典中同种类别中试题之间的余弦相似度。

计算知识词典中同种类别中试题之间的余弦相似度是采用步骤2所得出的知识词典中同种类别中知识点之间的相似性权值概率与步骤5所得出的知识词典中每道试题的每个词汇在该试题中的TF-IDF值，通过将知识词典中的同种试题类别的试题进行两两相似性比对，获得试题间的余弦相似度，余弦相似度是用来衡量知识词典中同试题类别的试题之间相似性，取值范围为[0,1]，其值越接近于1，则相似性越强。

按照下式，计算相同试题类别中试题间的余弦相似度：

其中，

表示试题/>

与试题/>

之间的余弦相似度，r表示试题类别的序号，N_j表示试题/>

中词汇的总数，n_q表示试题/>

中词汇的总数，TF-IDF_iq表示在试题/>

中词汇e_i的TF-IDF值，T_j表示试题/>

中的知识点总数，t_q表示试题/>

中知识点的总数，/>

表示试题d_j所包含的第n条知识点，/>

表示试题d_q所包含的第m条知识点，/>

表示知识点/>

与知识点/>

之间的相似性权值概率。

步骤7，生成由知识点词序列向量组成的训练集。

步骤7.1，从知识词典中找到每个学生的每道答题记录对应的试题，将每道试题包含的所有知识点组成该道试题的知识点向量，将每道试题的知识点向量按照每个学生的答题记录中与试题对应的序号进行排列后组成该学生的知识点词序列向量。

步骤7.2，将所有学生的知识点词序列向量组成训练集；

步骤8，搭建知识追踪网络：

步骤8.1，基于现有的LSTM网络搭建一个知识追踪网络，其结构依次串联为：输入层，遗忘层，记忆层，知识点预测层，输出层；其中，输入层采用Bert预训练模型作为文本编码器，记忆层采用tanh激活函数实现，记忆层通过tanh激活函数将每种类别每道试题的权重值与试题向量激活，并映射到-1～1之间，知识点预测层采用sigmoid激活函数实现，知识点预测层通过sigmoid激活函数将知识点词序列向量与试题向量激活，并映射到0～1之间，输出层由Softmax单元组成。

按照下式，计算每种类别每道试题的权重值：

其中，

表示第r种类别中第j道试题/>

的权重值，/>

表示回答试题/>

中的知识点k_m的正确次数，/>

表示在知识点词序列向量中知识点k_m出现的次数，R第r种类别中的试题总数，max表示求最大值操作，/>

表示第r种类别中的第q道试题，/>

表示试题

与试题/>

之间的余弦相似度。

步骤8.2，设置知识追踪网络各层参数如下：

步骤9，训练知识追踪网络。

将训练集输入到知识追踪网络中，利用交叉熵损失函数，计算每道试题的知识点预测向量与该道试题对应的知识点向量之间的损失值，通过梯度下降算法及学习率为0.01的Adam优化器对网络参数迭代更新，迭代更新知识追踪网络中的所有参数，直至损失函数收敛为止，得到训练好的知识追踪网络。

所述损失函数公式如下：

其中，

表示损失函数值，T表示学生答题记录中试题的总数，/>

表示交叉熵函数，M_t表示第t道试题的知识点预测向量，K_t表示第t道试题的对应的知识点向量。

步骤10，利用训练好的知识追踪网络推荐试题。

步骤10.1，为需要推荐试题的学生收集与该学生所学习的相同年级相同科目的试题，采用与步骤1.1和步骤1.2相同的方式，将所有试题整理成test为标签的文件，并转化为svg格式作为待预测试题，将待预测试题输入到训练好的知识追踪网络中，输出需要推荐试题学生的预测试题序列概率。

步骤10.2，将该学生的预测试题序列概率利用python的txt_file工具包输出为txt格式文件，将其输出的txt格式文件再次利用wps、word格式工厂转化为XLS格式文件，即可获得获得待预测试题中每道试题的试题内容与其所对应的预测概率。例如：

根据试题的预测概率的从大到小，为该学生推荐试题内容。

Claims

1.一种基于知识追踪与相似度分析的试题推荐方法，其特征在于，采用试题词向量与知识点相结合的试题相似度分析方式，搭建并训练知识追踪网络，利用试题相似度分析结果与学生答题记录，为学生推荐试题内容；该试题推荐方法的步骤包括如下：

步骤1，构建知识词典：

步骤6，计算知识词典中同种类别中试题之间的余弦相似度：

步骤7，生成由知识点词序列向量组成的训练集：

步骤7.2，将所有学生的知识点词序列向量组成训练集；

步骤8，搭建知识追踪网络：

步骤8.2，设置知识追踪网络各层参数如下：

步骤9，训练知识追踪网络：

步骤10，利用训练好的知识追踪网络推荐试题：

2.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤2中所述的知识词典中同种类别的知识点之间的相似性权值概率是由下式得到的：

其中，

表示知识点/>

与知识点/>

表示r类别中第m个知识点，/>

表示r类别中第n个知识点，/>

表示知识点/>

所对应的解析内容，/>

表示知识点/>

所对应的解析内容。

3.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤3中知识词典中每道试题的每个词汇在该试题中的词频TF是由下式得到的：

4.根据权利要求3所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤4中知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF是由下式得到的：

5.根据权利要求4所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤5中知识词典中每道试题的每个词汇在该试题中的TF-IDF值是由下式得到的：

TF-IDF_ij＝TF_ij/|d_j|log(|D|/IDF_ij)

6.根据权利要求5所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤6中知识词典中同种类别中试题之间的余弦相似度是由下式得到的：

其中，

表示试题/>

与试题/>

之间的余弦相似度，r表示试题类别的序号，N_j表示试题/>

中词汇的总数，N_q表示试题/>

中词汇的总数，TF-IDF_iq表示在试题/>

中词汇e_i的TF-IDF值，T_j表示试题/>

中的知识点总数，T_q表示试题/>

中知识点的总数，/>

表示试题d_j所包含的第n条知识点，/>

表示试题d_q所包含的第m条知识点，/>

表示知识点/>

与知识点/>

之间的相似性权值概率。

7.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤8.2中所述每种类别每道试题的权重值是由下式得到的：

其中，

表示第r种类别中第j道试题/>

的权重值，/>

表示回答试题/>

中的知识点k_m的正确次数，/>

表示在知识点词序列向量中知识点k_m出现的次数，R第r种类别中试题的总数，max表示求最大值操作，/>

表示第r种类别中的第q道试题，/>

表示试题/>

与试题/>

之间的余弦相似度。

8.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法，其特征在于，步骤9中所述的损失函数如下：

其中，

表示损失函数值，T表示学生答题记录中试题的总数，l(·)表示交叉熵函数，M_t表示第t道试题的知识点预测向量，K_t表示第t道试题的对应的知识点向量。