CN115640368A

CN115640368A - 一种智能诊断推荐题库的方法及其系统

Info

Publication number: CN115640368A
Application number: CN202211385894.1A
Authority: CN
Inventors: 顾小清; 周宏�; 徐浩鑫; 余阳; 王新昀; 戚晓颖
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-01-24

Abstract

本发明公开了一种智能诊断推荐题库的方法及其系统，属于计算机技术领域。至少包括通过使用BeautifulSoup将题型资源转换为HTML文本，对HTML文本进行解析，分别得到题干选项的文本信息、数学公式以及图片表格等；将数学公式、图片表格转化为HTML格式；获取题目标签信息并转化为题目元数据，元数据包括题目的难易程度、题型、知识点标签等；将题目和元数据信息存储于题库。学生在系统中答题时，获取学生在指定学习任务上的交互行为和作答数据。创建自动诊断模型，利用自动诊断模型预测学生的未来交互并进行未来作答预判，得到诊断结果，并基于诊断结果在题库中匹配并推荐新题目。本发明依据学生的诊断结果，推荐针对性习题，使每个学生均能获得良好的学习效果。

Description

一种智能诊断推荐题库的方法及其系统

技术领域

本发明属于计算机技术领域，具体涉及一种智能诊断推荐题库的方法及其系统。

背景技术

在线教学平台除了需要满足教师的在线直播授课需求，能提供一些课程练习帮助学生巩固知识也显得尤为重要。随之而产生的海量题目如何录入、如何分类等问题亟待解决。同时，这一现象也给教育迎来了新的机遇，大量的在线学习数据为实现个性化学习提供了可能，学生的在线学习行为可以被学习系统充分记录，为自动能力诊断分析及自适应学习的组题提供了有效的数据支持。如何挖掘和利用大量在线教育数据，具有重要的研究和应用价值。

但是，不同年级、不同科目题目和题型的复杂性给题库创建提出了挑战，一些题目会包含除文本信息之外的其他信息，比如图片、表格和公式等，而现有的系统往往使用格式化的方式进行题目的录入，或者使用表单的形式进行录入，这种方式不能灵活的处理实际题目中存在的各种排版。

发明内容

发明目的：提供一种智能诊断推荐题库的方法及其系统，解决现有技术存在的上述问题。

技术方案：一种智能诊断推荐题库的方法，至少包括以下步骤：

使用BeautifulSoup将题目资源转换为HTML文本，对所述HTML文本进行解析，分别得到题干选项的文本信息、数学公式以及图片表格；将所述数学公式、图片表格转化为HTML格式，并基于题目赋予标签信息；

基于标签信息和HTML格式的文本信息、数学公式以及图片表格，生成题目的元数据信息，元数据信息至少包括题型的难易程度、知识点标签、题型、答案信息；将题目和元数据信息存储形成题库；

学生在答题时，实时记录学生在指定学习任务上的交互行为和作答数据并生成相应的历史记录；基于历史交互行为和历史作答数据创建自动诊断模型，利用自动诊断模型预测学生的未来交互行为并对未来作答结果的进行预判，基于未来交互行为和未来作答结果的预判得到诊断结果；

基于所述诊断结果在题库中匹配，针对学生掌握程度推荐与之相匹配的新题目。

优选的，所述数学公式转换为HTML格式的流程如下：

利用切词工具将数学公式提取出来，先转化为Latex格式，再转化为Latex-html插件能够识别的HTML格式。

优选的，所述图片表格转换为HTML格式的流程如下：

获取图片并将图片上传至云端服务器生成对应的url标识，添加到题目的元数据信息中；识别表格信息，将表格转成HTML格式。

优选的，所述学生交互行为至少包括：

题目信息，所述题目信息包括题目序号标签信息、题干标签信息、题型标签信息、选项标签信息、答案标签信息、解析标签信息和知识点标签信息；

MySQL数据库，通过将题目信息中的各个标签信息转化为相应的向量，并对向量进行存储，形成MySQL数据库，通过API接口获取MySQL数据库的相应内容

优选的，所述作答数据的获取流程包括：

获取MySQL数据库内的题目，并对学生在指定任务学习任务中的作答数据进行记录，对学生与习题之间的交互序列进行建模；

其中学生学习中的作答数据记录包含题目序号、对应知识点ID、得分，其中题目序号、知识点ID使用Embedding的方式进行表示。

优选的，所述自动诊断模型的创建流程如下：

将学生的历史作答数据交互序列嵌入，建立自动诊断模型，训练自动诊断模型，并使其收敛；

利用训练好的自动诊断模型，将学生在指定学习任务上的历史作答数据交互序列进行嵌入，预测学生在下一个时间节点正确回答问题的概率，同时输出该学生对知识点的掌握程度。

优选的，预测学生在下一个时间节点作答正确的概率计算公式如下：

f₁、f₂分别指全连接函数，b₁、b₂、b₃分别指偏置数；W₁、W₂分别指自动诊断模型自动学习的参数矩阵，该参数矩阵被初始化为0-1之间的随机数，并随着模型收敛而逐渐确定，X指学习序列中的一次答题记录，y指知识点掌握的程度，φ(x)指激活函数，公式如下：

优选的，在题库中推荐相匹配新题目的流程如下：

将学生的历史作答记录定义为X＝{x₁,x₂,x₃,…,x_t}，其中学生在时刻t的练习记录表示为X_t＝(e_t，r_t)，其中e_t包含学生信息、知识点k₁和题目信息q₁，r_t表示作答的对或错，即e_t＝(s₁，k_t，q_t)，r_t∈{0,1}，1是作答正确，0是作答错误；基于作答记录获取历史答题正确率，得到对知识点的掌握程度；

根据知识点掌握程度预测下次作答正确的概率p，若概率p大于阈值b，则推荐与当前难度等级相同或高一级的题目，反之则降低推荐题目的难度。

优选的，其中为学生匹配相应难度题目的计算公式如下：

其中，y指知识点掌握的程度，a指知识点的难易程度。

一种智能诊断推荐题库系统，包括：

第一模块，被设置使用BeautifulSoup将题目资源转换为HTML文本，对所述HTML文本进行解析，分别得到题干选项的文本信息、数学公式以及图片表格；将所述数学公式、图片表格转化为HTML格式，并基于题型赋予标签信息；

第二模块，基于标签信息和HTML格式的文本信息、数学公式以及图片表格，生成题目的元数据信息，元数据信息至少包括题型的难易程度；将题目和元数据信息存储形成题库；

第三模块，被设置为学生在系统中答题时，实时记录学生在指定学习任务上的交互行为和作答数据并生成相应的历史记录；基于历史交互行为和历史作答数据创建自动诊断模型，利用自动诊断模型预测学生的未来交互行为并对未来作答结果的预判，基于未来交互行为和未来作答结果的预判得到诊断结果；

第四模块，被设置为基于所述诊断结果在题库中匹配，针对学生掌握程度推荐与之相匹配的新题目。

有益效果：本发明涉及一种智能诊断推荐题库的方法及其系统，首先对知识点依据题目难易程度划分等级并建立题库，然后通过获取学生的交互行为和作答数据创建自动诊断模型，利用自动诊断模型预测学生未来交互行为并进行未来作答的结果预判，得到诊断结果。依据诊断结果，为学生提供与之相匹配的题目，通过不断的做题来提高学生对知识点掌握的熟练度，实现基于学生作答反馈，实时掌握每个学生知识点的掌握情况，为每一位学生提供针对性的个性化习题，提高学习效率，促进学生学习效果的提升。

附图说明

图1是本发明提供的题目文本解析算法示意图；

图2是本发明提供的数学公式的自动识别和转换算法示意图；

图3是本发明提供的图片表格自动识别和转换算法示意图；

图4是本发明提供的题目编码与题目向量存储算法示意图；

图5是本发明提供的题目知识点建模方法示意图；

图6是本发明提供的特定学习任务上的历史学习交互序列建模方法示意图；

图7是本发明提供的自动能力诊断及自适应组题算法示意图。

具体实施方式

如图1至图7所示，一种智能诊断推荐题库的方法及其系统，使用BeautifulSoup将Word格式的题目资源转换为HTML文本，并对HTML文本进行解析分别得到题干选项等文本信息、数学公式以及图片表格，将数学公式进行自动识别和格式转换，获取标签信息。基于标签信息和转换后的文本信息、数学公式以及图片表格生成题目元数据，所述元数据包括题型的难易程度等；将所述元数据信息存储在题库；依据题目的难易程度，题库包括基础题库、中难度题库和高难度题库。

所述题库对转换成HTML的文件进行文本解析，将题目进行切割和划分，并给题目赋予标签信息，所述题目标签信息包括题目序号、题干、题型、选项、答案、解析和知识点等，通过将各个标签信息转化为相应的向量，并将向量存储在MySQL数据库，通过API接口获取MySQL数据库相应内容，能够将题库中的题目准确地抽取并匹配给对应学生，提高推荐的准确性。其中，HTML的文件是通过对记录了相应题目资源的Word 文档进行排版，使Word文档中包含题干、题型、知识点、答案和解析等内容，其中题干、答案和解析中可以包含图片、表格和数学公式，如图1至图4所示。

在实际使用时，99％的公式都能完整且正确的识别，极少部分不能识别的公式是由题目录入人员在word里导入公式操作不当引起的，比如使用了latex格式中不包含的字符，或者使用了中文字符等。如果出现错误识别，可以在日志文件中看到具体的错误信息，并根据错误信息去修改公式。为了避免在识别公式的过程中出现识别错误的情况，在进一步实施例中，当出现数学公式时，对转换成HTML的文件进行文本解析并提取文本信息中的数学公式，利用切词工具将数学公式抽取出来，先转化为Latex格式，再转化为Latex-html插件能够识别的HTML格式，并给公式进行编号，便于后续把解析得到的公式再次复原和前端展示，如图2所示。同时有效避免了在对数学公式提取的过程中，公式出现乱码的情况。

在进一步实施例中，当出现图片信息和表格信息时，对转换成HTML的文件进行文本解析，将图片与表格分别分离，并对每个图片和表格进行编号，将图片信息存储至云端服务器，并返回对应的url标识，便于对图片的获取，用于前端展示和还原至原文本；将表格转成HTML格式，并还原到原文本里面，以便前端展示。

通过对题干、题型、知识点、答案和解析等进行编码，并将编码后的信息转换成题目向量，存储到数据库中，通过API获取存储在数据库内的题目。

在进一步实施例中，所述交互行为至少包括：

MySQL数据库，通过将题目信息中的各个标签信息转化为相应的向量，并对向量进行存储形成MySQL数据库，通过API接口获取MySQL数据库的相应内容。

所述作答数据的获取流程包括：

获取MySQL数据库内的题目，并对学生在指定任务学习任务中作答数据记录，对学生与习题的交互序列进行建模；

在进一步实施例中，诊断模型包括对学生与习题的交互序列进行建模，表示出学生在特定学习任务上的历史学习交互序列，历史学习交互序列由学生编号、题目、作答时间组成，题目序号与作答时间是一一对应的关系，并且根据作答时间先后组成一个有序序列，将这些信息保存到JSON文件中。学生学习过程中每次的答题记录包含题目序号、对应知识点ID、得分，其中题目序号、知识点ID使用Embedding的方式进行表示。即当学生在自适应学习平台上做题时，需要输入学生编号，系统依据学生历史学习交互序列，通过诊断模型得出当前学生在特定学习任务上之后作答正确的概率，匹配并推荐相适应难度的题组进行练习，并且随着时间的变化而动态更新，如图5所示。并通过概率计算公式预测学生在下一个时间节点作答正确的概率，计算公式如下：

在进一步实施例中，所述于题库中匹配并推荐新题目的流程如下：

将学生的历史作答记录定义为X＝{x₁,x₂,x₃,…,x_t}，其中学生在时刻t的练习记录表示为X_t＝(e_t，r_t)，其中e_t包含学生信息s₁、知识点k₁和题目信息q₁，r_t表示作答的对或错，即e_t＝(s₁，k_t，q_t)，r_t∈{0,1}，1是作答正确，0是作答错误；基于作答记录获取历史答题正确率，得到对知识点的掌握程度；

根据知识点掌握程度预测下次作答正确的概率p，若概率p大于阈值b，则推荐与当前难度等级相同或高一级的题目，反之则降低推荐题目的难度；其中对学生匹配相应难度题目的计算公式如下：

其中，y指知识点掌握的程度，a指知识点的难易程度。

一种智能诊断推荐题库系统，包括第一模块、第二模块和第三模块，其中，第一模块被设置为题库，所述题库通过使用BeautifulSoup将题目资源转换为HTML文本，对所述HTML文本进行解析分别得到题干选项等文本信息、数学公式以及图片表格；将所述数学公式、图片表格转化为HTML格式，并给标准化后的文本信息、数学公式以及图片表格赋予标签信息，根据题目的难易程度划分出不同等级并存储形成题库。

所述第二模块被设置为历史学习交互序列，通过记录的形式获取学生在指定学习任务中的交互行为和作答数据。由于每个学生的理解能力、学习方法、学习效率的不同，他们对知识点的掌握情况也各不相同。为了使每个学生在做题的过程中，能够匹配相适应难度的题目，所述第三模块被设置为自动诊断模型，基于历史学习交互序列创建；并通过第三模块预测学生未来交互行为和未来作答数据，得到诊断结果，并依据诊断结果于题库中匹配并推荐针对学生掌握情况的新题目。

上述智能诊断推荐题库系统，能够从Word文档里面自动识别题目，提取对应的图片、表格和公式，对题目进行标注，生成相应的题目向量。且自动能力诊断分析及自适应组题的个性化学习方式对促进学生高效学习有着重要意义。由于学生理解能力、学习效率和学习方法的不同，传统线下教学模式仅通过老师一对多教学，很难达到个性化学习的效果。而在线学习的优势在于能够根据学生在特定学习任务上的历史学习交互记录，更准确地诊断不同学生的学习情况，个性化地为每一个学生组题，最大化学生的学习效益，减少无效学习时间，使得不同基础的学生都能获得良好的学习效果。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种智能诊断推荐题库的方法，其特征在于，至少包括以下步骤：

学生在答题时，实时记录学生在指定学习任务上的交互行为和作答数据并生成相应的历史记录；基于历史交互行为和历史作答数据创建自动诊断模型，利用自动诊断模型预测学生的未来交互行为并对未来作答结果进行预判，基于未来交互行为和未来作答结果的预判得到诊断结果；

2.根据权利要求1所述的一种智能诊断推荐题库的方法，其特征在于，所述数学公式转换为HTML格式的流程如下：

3.根据权利要求1所述的一种智能诊断推荐题库的方法，其特征在于，所述图片表格转换为HTML格式的流程如下：

4.根据权利要求1所述的一种智能诊断推荐题库的方法，其特征在于，所述学生交互行为至少包括：

作答信息，所述作答信息至少包括作答开始时间、作答结束时间、作答正误、作答内容和作答学生信息。

MySQL数据库，通过将题目信息中的各个标签信息转化为相应的向量，并对向量进行存储，形成MySQL数据库，通过API接口获取MySQL数据库的相应内容。

5.根据权利要求4所述的一种智能诊断推荐题库的方法，其特征在于，所述作答数据的获取流程包括：

6.根据权利要求5所述的一种智能诊断推荐题库的方法，其特征在于，所述自动诊断模型的创建流程如下：

7.根据权利要求6所述的一种智能诊断推荐题库的方法，其特征在于，预测学生在下一个时间节点作答正确的概率计算公式如下：

8.根据权利要求6所述的一种智能诊断推荐题库的方法，其特征在于，在题库中推荐相匹配新题目的流程如下：

将学生的历史作答记录定义为X＝{x₁,x₂,x₃,…,x_t}，其中学生在时刻t的练习记录表示为x_t＝(e_t，r_t)，其中e_t包含学生信息s₁、知识点k₁和题目信息q₁，r_t表示作答情况，表示为e_t＝(s₁，k_t，q_t)，r_t∈{0,1}，1是作答正确，0是作答错误；基于作答记录获取历史答题正确率，得到对知识点的掌握程度；

9.根据权利要求7所述的一种智能诊断推荐题库的方法，其特征在于，其中为学生匹配相应难度题目的计算公式如下：

其中，y指知识点掌握的程度，a指知识点的难易程度。

10.一种智能诊断推荐题库系统，其特征在于，用于实现权利要求1至9中任意一项所述一种智能诊断推荐题库的方法，所述系统包括：