CN113127769B

CN113127769B - 基于标签树和人工智能的习题标签预测系统

Info

Publication number: CN113127769B
Application number: CN202110372052.1A
Authority: CN
Inventors: 王伟; 徐涣
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-07-29
Anticipated expiration: 2041-04-07
Also published as: CN113127769A

Abstract

本发明公开了一种基于标签树和人工智能的习题标签预测系统，包括输入模块、校对模块、标注模块、预测模块、数据库、分析模块、显示模块、训练模块及分类模型，本发明涉及互联网教育下的习题标签预测的一系列工作，不仅包含大多数习题系统所拥有的输入模块、校对模块、显示模块、分析模块等，也能够解决与习题相关的标签预测的工作，覆盖面较全。本发明依托平台使用的多标签文本分类除了能够捕获预训练语言模型中常见的句子或者词的共性之外，更重要的是能够捕获词汇、句法和语义信息。本发明在训练模块和预测模块中，分为全标签形式下的训练预测和标签树形式下的训练预测，能够满足多种情况下标签的预测需求。

Description

基于标签树和人工智能的习题标签预测系统

技术领域

本发明涉及互联网教育下的在线题库技术领域，涉及人工智能的自然语言处理领域下的多标签分类，尤其涉及一种基于标签树和人工智能的习题标签预测系统。

背景技术

随着互联网技术的蓬勃发展，越来越多的网民将在线教育作为自身学习提升的重要方式之一，互联网教育也呈现出了一种引人注目的发展态势。在线教育发挥了互联网的优势，能够不限制时间、地点，给用户提供多种多样学习课程和技能提升上的帮助，互联网教育所存在的海量学习资源和习题资源也能够满足用户多样化个性化的学习需求。

互联网教育提供便利的同时，海量的学习资源所亟需解决的数据存储、数据挖掘上的问题，也越来越多的暴露在了技术人员的眼前，智能化的数据挖掘技术成为了开发人员关注的热点。

虽然，习题标签预测系统已经有了很多的研究工作，但仍然存在着诸多问题没有得到解决。主要表现在以下几点：

1)作为文本分类数据集的习题资源较为复杂，不同领域的多种题型的文本结构相差较大，数据集格式的粗糙使得分类模型准确率的不容乐观。

2)对于习题标签为多级的情况，标签树的数据结构的设计和相对应的预测算法的实现，当前没有较好的解决方法。

发明内容

本发明的目的是为了解决现有的技术问题而提出的一种基于标签树和人工智能的习题标签预测系统。该系统在训练模块和预测模块中，分为全标签形式下的训练预测和标签树形式下的训练预测，能够满足多种情况下标签的预测需求。

实现本发明目的的具体技术方案是；

一种基于标签树和人工智能的习题标签预测系统，该系统包括输入模块、校对模块、标注模块、预测模块、数据库、分析模块、显示模块、训练模块和分类模型，所述输入模块与校对模块相连接，校对模块分别通过标注模块、预测模块后与数据库相连接，数据库与分析模块、训练模块相连接，分析模块与显示模块相连接，训练模块生成分类模型，分类模型与所述的预测模块相连接；其中：

所述输入模块用于规格化录入题目的数个字段，包括题目类型、题目叙述、题目选项和题目答案；

所述校对模块用于对输入的题目进行人工或自动的字段整理，校对模块通过设置比例将题目分为用于标注模块的题目和用于预测模块的题目；

所述标注模块对用于标注模块的题目进行标签的标注，得到标注后的题目和题目的标签关系；

所述数据库包括题目表、标签表及题目标签关系表，用于存储习题数据、标签数据和习题标签关系数据；标签表中的数据的录入方式是直接录入，包括标签ID、标签名和父标签，每一条标签通过指针指所记录的父标签，从而递归生成标签树；

对题目表和题目标签关系表的存储分为两部分，标注模块生成的题目和题目标签关系的存储以及预测模块生成的题目和题目标签关系的存储：

对标注模块生成的题目和题目标签关系，将题目保存在题目表中，将题目和标签的对应关系保存在题目标签关系表中，用于输入训练模块并生成后续的分类模型；

对通过预测模块的题目和所生成的标签预测结果，将题目保存在题目表中，将题目和所述的标签预测结果的对应关系保存在题目标签表中；

所述训练模块包括数据清洗单元、训练单元和评估单元，数据库生成的标签树与数据清洗单元相连接，数据清洗单元和训练单元相连接，训练单元和评估单元相连接，评估单元和分类模型相连接并且能够对训练单元进行反馈；训练模块用于对题目标签关系表中的关系记录进行规格化处理，并生成预测模块所需要的分类模型；

所述预测模块包括数据清洗单元、预测单元和校验单元，在校对模块中整理后的题目与数据清洗单元相连接，数据清洗单元和预测单元相连接，预测单元和校验单元相连接，校验单元反馈连接到预测单元；预测模块用于完成对未标注数据的标签分类预测结果；

所述分析模块对数据库中的题目标签关系进行分析，生成题目标签的日志数据、所有题目标签的总览数据和各个标签题目的数据；

所述显示模块对分析后的数据即预测结果进行展示。

所述的训练模块用于生成分类模型；训练模块中的数据清洗单元，对不同形式的题目进行清洗；训练模块中的训练单元，将经过数据清洗单元后的题目作为数据集的X，将题目所标注的已审核的多个标签作为Y；设置全标签或叶子标签训练方式、限制标签数量的监督学习预设的参数，数据集中的X和Y通过设定的监督学习生成初步的多标签文本分类模型；训练模块中的评估单元，对初步生成的多标签文本分类模型进行多个指标的评估，包括各分类下的F1-SCORE、精准率及召回率，依据评估结果，视重复训练次数，直至生成分类模型。

所述预测模块使用分类模型，对未标注的题目进行多标签的预测；数据清洗单元对不同形式的题目进行清洗，将数据清洗后的题目作为数据集的X′；预测单元设置阈值、设置全标签或叶子标签的预测方式、限制标签数量的预测过程所需的参数，对数据集中的X′进行预测，生成预测结果Y′；校验单元对生成的预测结果Y′进行查看和手动更改，若预测效果不佳，重新返回预测单元；经过校验后，将生成的标签预测结果Y′和题目存储在数据库的题目表和题目标签关系表中。

所述预测单元的预测过程，具体包括；

全标签下的预测和标签树下的预测；

全标签下的预测：对数据清理后的题目设置阈值η1，以全标签范围下对结果进行预测，将预测评分大于阈值η1的标签即预测结果Y′输出；

标签树下的预测：对数据清理后的题目设置阈值η1，在只包含叶子标签的范围下对结果进行预测，保存预测评分高于阈值η1的叶子标签，之后设置阈值η2，保存含有多个高于阈值η1的叶子标签且评分总和大于η2的非叶子标签，保存的符合条件的标签即预测结果Y′输出。

本发明的有益效果是：

本发明是基于标签树和人工智能的习题标签预测系统，包括输入模块、校对模块、标注模块、预测模块、数据库、分析模块、显示模块、训练模块、分类模型等；本发明涉及互联网教育下的习题标签预测相关的一系列工作，不仅包含大多数题库所拥有的输入模块、校对模块、显示模块、分析模块等，也主要希望能够解决智能题库相关的标签预测的工作，覆盖面较全。

本发明使用ERNIE 2.0等自然语言处理模型，除了能够捕获预训练语言模型中常见的句子或者词的共性之外，更重要的是能够捕获词汇、句法和语义信息；模型适用于智能题库所需的多文本分类等需要，能够在数据量较小并且存在不少的标签量时提供准确率更高的分类模型。

本发明在训练模块和预测模块中，分为全标签形式下的训练预测和标签树形式下的训练预测；全标签训练预测能够满足非级联标签下的预测标签需求；标签树形式下的训练预测更多满足级联标签下的预测标签需求，一个父标签可能包含多个子标签，级联层数也并不固定，仅对题目的叶子标签进行训练能够保证由于更高级标签下数据量远超于低级标签下数据量的偏差，同时在预测模块上，也只对叶子标签进行预测，设置两层阈值，输出满足预测评分大于第一个阈值的叶子节点和满足预测评分总和大于第二个预测节点的非叶子节点，这样能够更好满足标签树形式下的多文本标签分类。

附图说明

图1为本发明系统的框图；

图2是本发明数据库结构示意图；

图3是本发明训练模块结构示意图；

图4是本发明预测模块中的预测单元的预测流程图；

图5是本发明预测模块结构示意图。

具体实施方式

下面结合附图及具体实施例详细叙述本发明。

参阅图1，本发明的系统，包括输入模块、校对模块、标注模块、预测模块、数据库、分析模块、显示模块、训练模块、分类模型。其中，输入模块与校对模块相连接，校对模块分别通过标注模块、预测模块后与数据库相连接，数据库与分析模块、训练模块相连接，分析模块与显示模块相连接，训练模块生成分类模型，并与上述的预测模块相连接。数据库中包含三张表：题目表、标签表、题目标签关系表。训练模块包含数据清洗单元、训练单元和评估单元两部分，数据库生成的标签树与数据清洗单元相连接，数据清洗单元和训练单元相连接，训练单元和评估单元相连接，评估单元和分类模型相连接并且能够对训练单元进行反馈。预测模型包含数据清洗单元、预测单元、校验单元三部分，在校对模块中校对后的题目与数据清洗单元相连接，数据清洗单元和预测单元相连接，预测单元和校验单元相连接，校验单元反馈连接到预测单元，并且和数据库相连接。

在输入模块中，能够将题目进行录入，在平台中能够对选择题、填空题、简答题进行规格化的录入。平台能够进行逐一的录入也可以通过XLSX等文件格式进行批量的录入。

在校对模块中，平台能够对输入模块中输入的题目自动进行字段的整理，其中可能出现一些偏差和误判，题目录入者和管理员能够在此模块中对录入的题目进行修正，校对成功后题目方可对题目进行标签的标注或者预测。

经过校对模块后，可以对未标注的题目进行标注模块和预测模块的分流，使得题目能够通过手动标注或者模型预测的方式获得标签。

标注模块在分类模型并不成熟的情况下，对未标注的题目进行手动的标注，标注模块从数据库中获取数据表生成的标签树，方便管理员对题目进行标注工作。

题目经过标注模块或预测模块后进入数据库中，将数据插入题目表和题目标签关系表。

训练模块从数据库中获取已标注并且通过审核的题目及其题目标签，从标签表中通过父标签生成标签树的数据结构。输入数据通过数据清洗单元、训练单元和评估单元后生成分类模型。

训练模块中的数据清洗单元，对不同形式的题目进行清洗。例如，平台对选择题的题干和选项进行拼接，对简答题进行有用信息的提取等。

训练模块中的训练单元，将经过数据清洗单元后的题目作为数据集的X，将题目所标注的已审核的多个标签作为Y。通过监督学习生成多标签文本分类模型，分类算法可以通过不同的分类需求进行个性化的设置。例如，在平台开发过程中，在模型训练模块我们使用了百度发行的ERNIE 2.0，该模型能够持续性地多任务的增量学习，除了能够捕获预训练语言模型中常见的句子或者词的共性之外，更重要的是能够捕获词汇、句法和语义信息。

训练模块中的训练单元，分为全标签训练和叶子标签训练两种形式。

训练模块中的评估单元，对训练模型单元生成的模型进行多个指标的评估，包括各分类下的F1-SCORE、精准率、召回率等。能够通过指标对生成的模型进行评估，如果评估结果较差，可以重新返回训练模型单元，生成新的模型。

预测模块使用训练模块中生成的分类模型，对新录入的题目进行多标签的预测。数据清洗单元和训练模块中的数据清洗单元类似，对不同类型的题目进行区别处理。预测单元通过生成的模型对题目进行批量的多标签预测。能够通过校验单元对预测的多标签进行查看和手动的更改，在预测效果不佳的情况下，能够重新返回预测单元进行多标签的预测；经过校验后，能够将已审核情况下的题目存储在数据库的题目表和题目标签关系表中。

预测单元包含全标签下的预测和标签树下的预测，第二种预测方法更适合训练模块中的训练单元是叶子标签上的训练。预测单元对数据清理后的题目设置阈值η1，在全标签下的预测下，直接以全标签范围下对结果进行预测，将预测评分大于阈值η1的标签输出；在标签树下的预测下，在只包含叶子标签的范围下对结果进行预测，保存预测评分高于阈值η1的叶子标签，之后设置阈值η2，保存含有多个高于阈值η1的叶子标签且评分总和大于η2的非叶子标签，单元最后输出保存的复合条件的标签。

分析模块能够对数据库中的题目表和题目标签表中的数据进行分析。例如题目标签的日志数据、所有题目标签的总览数据和各个标签题目的数据。

显示模块实际上作为平台的前端，对分析后的数据即预测结果进行展示，并且通过数据可视化对数据进行展示。

实施例

本实施例包括输入模块、校对模块、标注模块、预测模块、数据库、分析模块、显示模块、训练模块、分类模型。

输入模块的具体实现如下：

将题目进行录入，在平台中能够对选择题、填空题、简答题进行规格化的录入。平台能够进行逐一的录入也可以通过XLSX等文件格式进行批量的录入。例如，教师在选择界面选择单题录入和批量录入，在单题录入界面选择题型并录入题目和答案，批量录入界面能够上传XLSX格式文件，后端将上传的文件保存在OSS中，并按照预先设计的格式对格式框内数据进行提取至数据库中。

数据库的具体实现设计如下：

如图2所示，数据库分为题目表、标签表和题目标签关系表(教师表、资源表等关联较小的结构不做介绍)。管理员对标签表进行修改、删除、插入等功能，主要字段是标签ID、标签名、父标签ID等，标签ID是主键。后端接口通过输入模块，将其保存到数据库中。将题目的主干信息放入题目表中，生成主键题目ID，回传题目ID并找到相关的标签ID，存储在题目标签表中作为外键。

校对模块的具体实现如下：

输入模块中输入的题目自动进行字段的整理，其中可能出现一些偏差和误判，题目录入者和管理员能够在此模块中对录入的题目进行修正。

标注模块的具体实现如下：

标注模块主要使用在题目量较小或是分类模型并不成熟的情况下，可以对未标注的题目进行手动的标注，标注模块在数据库中获取标签表，并自动生成多级标签下的标签树结构，方便管理员对题目进行标注工作。例如，题库能够在前端界面展示未审核状态下的题目以及标签树的多选框，标注员对响应题目相关的标签进行勾选后完成审核标注，审核后的题目和标签将更新数据库中的对应字段。

训练模块的具体实现如下：

如图3所示，训练模块从数据库中获取已标注并且通过审核的题目、题目标签以及标签树。输入数据通过数据清洗单元、训练单元和评估单元后生成分类模型。

训练模块中的训练单元，将经过数据清洗单元后的题目作为数据集的X，将题目所标注的已审核的多个标签作为Y。通过监督学习生成多标签文本分类模型，分类算法可以通过不同的分类需求进行个性化的设置。例如，在平台开发过程中，在模型训练模块使用了百度发行的ERNIE 2.0，该模型能够持续性地多任务的增量学习，除了能够捕获预训练语言模型中常见的句子或者词的共性之外，更重要的是能够捕获词汇、句法和语义信息。

训练模块中的训练单元，分为全标签训练和叶子标签训练两种形式。两种训练方式的区别在于，选择叶子训练标签，会对数据集的Y值缩减范围，只提取作为叶子节点的标签，这样做的好处能够减少由于父标签下题目数量更多所造成的训练偏差。

训练模块中的评估单元，对训练模型单元生成的模型进行多个指标的评估，包括各分类下的F1-SCORE、精准率、召回率等。管理员能够通过指标对生成的模型进行评估，如果评估结果较差，可以重新返回训练模型单元，生成新的模型。

预测模块的具体实现如下：

如图5所示，预测模块分为数据清洗单元、预测单元、校验单元。数据清洗单元和训练模块中的数据清洗单元类似，对不同类型的题目进行区别处理。预测单元通过生成的模型对题目进行批量的多标签预测。管理员能够通过校验单元对预测的多标签进行查看和手动的更改，在预测效果不佳的情况下，能够重新返回预测单元进行多标签的预测；经过校验后，能够将已审核情况下的题目存储在数据库的题目表和题目标签关系表中。

预测模块的预测单元的具体实现如下：

如图4所示，预测单元包含全标签下的预测和标签树下的预测，第二种预测方法更适合训练模块中的训练单元是叶子标签上的训练。预测单元对数据清理后的题目设置阈值η1，在全标签下的预测下，直接以全标签范围下对结果进行预测，将预测评分大于阈值η1的标签输出；在标签树下的预测下，在只包含叶子标签的范围下对结果进行预测，保存预测评分高于阈值η1的叶子标签，之后设置阈值η2，保存含有多个高于阈值η1的叶子标签且评分总和大于η2的非叶子标签，单元最后输出保存的复合条件的标签。

分析模块的具体实现如下：

后端对数据库中的题目标签相关的数据进行获取，与用户行为相结合，能够分析得到对题库有用的信息。例如，通过题目的正确率提示异常题目，或是通过题目的做题次数自动生成试卷等。

显示模块的具体实现如下：

显示模块通过前端调用接口，获取相关数据后进行渲染，生成多种图表，方便用户了解题库的当前情况。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于标签树和人工智能的习题标签预测系统，其特征在于，该系统包括输入模块、校对模块、标注模块、预测模块、数据库、分析模块、显示模块、训练模块和分类模型，所述输入模块与校对模块相连接，校对模块分别通过标注模块、预测模块后与数据库相连接，数据库与分析模块、训练模块相连接，分析模块与显示模块相连接，训练模块生成分类模型，分类模型与所述的预测模块相连接；其中：

所述显示模块对分析后的数据即预测结果进行展示。

2.根据权利要求1所述的习题标签预测系统，其特征在于，所述的训练模块用于生成分类模型；训练模块中的数据清洗单元，对不同形式的题目进行清洗；训练模块中的训练单元，将经过数据清洗单元后的题目作为数据集的X，将题目所标注的已审核的多个标签作为Y；设置全标签或叶子标签训练方式、限制标签数量的监督学习预设的参数，数据集中的X和Y通过设定的监督学习生成初步的多标签文本分类模型；训练模块中的评估单元，对初步生成的多标签文本分类模型进行多个指标的评估，包括各分类下的F1-SCORE、精准率及召回率，依据评估结果，视重复训练次数，直至生成分类模型。

3.根据权利要求1所述的习题标签预测系统，其特征在于，所述预测模块使用分类模型，对未标注的题目进行多标签的预测；数据清洗单元对不同形式的题目进行清洗，将数据清洗后的题目作为数据集的X′；预测单元设置阈值、设置全标签或叶子标签的预测方式、限制标签数量的预测过程所需的参数，对数据集中的X′进行预测，生成预测结果Y′；校验单元对生成的预测结果Y′进行查看和手动更改，若预测效果不佳，重新返回预测单元；经过校验后，将生成的标签预测结果Y′和题目存储在数据库的题目表和题目标签关系表中。

4.根据权利要求3所述的习题标签预测系统，其特征在于，所述预测单元的预测过程，具体包括；

全标签下的预测和标签树下的预测；