CN115186780B

CN115186780B - 学科知识点分类模型训练方法、系统、存储介质及设备

Info

Publication number: CN115186780B
Application number: CN202211113191.3A
Authority: CN
Inventors: 陈东强
Original assignee: Jiangxi Wind Vane Intelligent Technology Co ltd
Current assignee: Jiangxi Wind Vane Intelligent Technology Co ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-06
Anticipated expiration: 2042-09-14
Also published as: CN115186780A

Abstract

本发明提供一种学科知识点分类模型训练方法、系统、存储介质及设备，方法包括：获取训练题集并进行分词处理，根据预设规则对分词处理的训练题集进行知识点标注，根据标注结果对每一知识点类型设置一不同的知识图谱标签并筛选以合并相似知识图谱标签，根据合并结果统计预设规则的准确率及召回率，根据准确率及召回率修正预设规则直至准确率及召回率分别符合预设值时生成基础分类模型；通过基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，将审核结果反馈至基础分类模型以对基础分类模型进行迭代优化得到优化后的基础分类模型。本申请结合专家交互系统对标注目标题目得到的标注数据进行审核以提高标注的准确性及精准要求。

Description

学科知识点分类模型训练方法、系统、存储介质及设备

技术领域

本发明涉及图像处理与文本结构化处理相结合技术领域，特别涉及一种学科知识点分类模型训练方法、系统、存储介质及设备。

背景技术

学科知识点，即每一学科包含的知识点，例如在物理学科中，牛顿第一定律、牛顿第二定律等均属于知识点，为了更好的提高学习效率以及辅助学生提高学习成绩，合理、精准的知识点标注就显得尤其重要。

学科知识点标注是特定专业领域知识的一种分类的应用，因为具有专业小众的特性，因此没有通用的分类模型可以直接使用。现有技术中，对学科知识点的标注主要有两种模式：一种是依靠学科专家进行人工标注；另一种基于自然语言分类算法进行机器标注。人工标注需要高昂的人力成本，而且人工标注没有统一的标准，无法保证标注结果的规范性和统一性。现有的自然语言分类算法主要依靠大模型预训练的神经网络，需要拥有大量有标签的高质量数据才可以进行分类，但一般的语言分类模型在没有足够标签数据训练的前提下，很难达到要求的标注精度。因此迫切需要一种能够同时融合人工标注的精准要求和算法标注高效要求的学科分类标注模型。

发明内容

基于此，本发明的目的是提供一种学科知识点分类模型训练方法、系统、存储介质及设备，用于解决现有技术中的学科分类方法无法同时融合人工标注的精准要求和算法标注高效要求的技术问题。

本发明一方面提供一种学科知识点分类模型训练方法，包括：

获取训练题集并进行分词处理，根据预设规则对分词处理的训练题集进行知识点标注，根据标注结果对每一知识点类型设置一不同的知识图谱标签；

筛选每一知识图谱标签以对相似知识图谱标签进行合并，并根据合并结果统计所述预设规则的准确率及召回率，根据所述准确率及所述召回率修正所述预设规则直至所述准确率及所述召回率分别符合预设值，根据符合预设值的准确率及召回率生成基础分类模型；

通过所述基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，并将审核结果反馈至所述基础分类模型以对所述基础分类模型进行迭代优化从而得到优化后的基础分类模型。

上述学科知识点分类模型训练方法，通过将有限量的训练题集作为训练数据训练得到基础分类模型，从而利用基础分类模型对知识点标注以提高知识点标注的效率，再进一步通过结合专家交互系统对标注目标题目得到的标注数据进行审核以提高标注的准确性及精准要求，根据审核结果实现对基础分类模型进行二次训练，具体的，将审核结果反馈至基础分类模型，以对基础分类模型进行迭代优化得到符合分类要求的基础分类模型，解决了现有技术中的学科分类方法无法同时融合人工标注的精准要求和算法标注高效要求的技术问题。

另外，根据本发明上述的学科知识点分类模型训练方法，还可以具有如下附加的技术特征：

进一步地，将审核结果反馈至所述基础分类模型以对所述基础分类模型进行迭代优化从而得到优化后的基础分类模型的步骤包括：

根据审核结果判断标注数据是否正确；

若标注数据不正确，则根据标注数据判断知识图谱标签是否正确；

若所述知识图谱标签不正确，则优化知识图谱以优化知识图谱标签。

进一步地，根据标注数据判断知识图谱标签是否正确的步骤之后包括：

若所述知识图谱标签正确，则根据标注数据判断是否属于模型标注错误；

若属于模型标注错误，则将模型标注错误负反馈至基础分类模型以优化基础分类模型。

进一步地，根据审核结果判断标注数据是否正确的步骤之后包括：

若标注数据正确，则将标注结果正反馈至基础分类模型以优化基础分类模型。

进一步地，若所述知识图谱标签不正确，则优化知识图谱以优化知识图谱标签的步骤包括：

若所述知识图谱标签不正确，则获取修改意见并对修改意见进行解析以抽取知识图谱中学科领域间的实体关系；

根据所述实体关系优化基础分类模型中的模型变量以优化基础分类模型，直至优化后的基础分类模型中的知识图谱标签正确。

进一步地，根据所述实体关系优化基础分类模型中的模型变量以优化基础分类模型，直至优化后的基础分类模型中的知识图谱标签正确的步骤包括：

根据所述实体关系优化基础分类模型中的模型变量以得到优化后的基础分类模型，根据训练题集对优化后的基础分类模型进行训练；

判断训练后的基础分类模型中的知识图谱标签是否正确；

若知识图谱标签正确，则根据标注数据判断是否属于模型标注错误；

若知识图谱标签不正确，则重新执行根据所述实体关系优化基础分类模型中的模型变量的步骤，直至知识图谱标签正确。

本发明另一方面提供一种学科知识点分类模型训练系统，包括：

获取模块，用于获取训练题集并进行分词处理，根据预设规则对分词处理的训练题集进行知识点标注，根据标注结果对每一知识点类型设置一不同的知识图谱标签；

建模模块，用于筛选每一知识图谱标签以对相似知识图谱标签进行合并，并根据合并结果统计所述预设规则的准确率及召回率，根据所述准确率及所述召回率修正所述预设规则直至所述准确率及所述召回率分别符合预设值，根据符合预设值的准确率及召回率生成基础分类模型；

优化模块，用于通过所述基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，并将审核结果反馈至所述基础分类模型以对所述基础分类模型进行迭代优化从而得到优化后的基础分类模型。

本发明另一方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的学科知识点分类模型训练方法。

本发明另一方面还提供一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述的学科知识点分类模型训练方法。

附图说明

图1为本发明第一实施例中学科知识点分类模型训练方法的流程图；

图2为本发明第一实施例中专家交互系统的系统示意图；

图3为本发明第二实施例中学科知识点分类模型训练方法的流程图；

图4为本发明第二实施例中步骤S203的步骤细化图；

图5为本发明第二实施例中可迭代自然语言分类模型示意图；

图6为本发明第三实施例中学科知识点分类模型训练系统的系统框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的学科知识点分类模型训练方法，所述方法包括步骤S101至S103：

S101、获取训练题集并进行分词处理，根据预设规则对分词处理的训练题集进行知识点标注，根据标注结果对每一知识点类型设置一不同的知识图谱标签。

在上述步骤中，使用决策树规则对知识点进行标注，通过信息熵的分词方法以及采用全分配的方法分词，采用信息熵识别标注知识点的字义，再结合全匹配的方法进行字符匹配，从而准确识别标注的知识点。对分词后得到的标注知识点，每一知识点类型设置一不同的知识图谱标签，使用随机森林统计分词后的词语权重，根据词语权重定位标注的知识点。

S102、筛选每一知识图谱标签以对相似知识图谱标签进行合并，并根据合并结果统计预设规则的准确率及召回率，根据准确率及召回率修正预设规则直至准确率及召回率分别符合预设值，根据符合预设值的准确率及召回率生成基础分类模型。

为了提高模型训练效率以及降低系统计算压力，在进行模型训练之前，需要对标注得到的知识图谱标签进行筛选，具体的，对同义词进行检索，使用fasttext词向量对标注得到的知识点进行召回并通过人工筛选得到同义词，以将相似知识图谱标签进行合并，以只留下相似知识图谱标签中的一项，根据合并结果统计使用当前标注规则标注得到的知识图谱标签的准确率，若准确率未达标，则修正当前标注规则，根据修正后的标注规则重新对知识点进行标注，直至准确率及召回率分别符合要求，且根据准确率及召回率分别符合要求时的标注规则建立基础分类模型。

S103、通过基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，并将审核结果反馈至基础分类模型以对基础分类模型进行迭代优化从而得到优化后的基础分类模型。

如图2所示，为了进一步提高基础分类模型的知识点标准的准确性，结合专家交互系统对由基础分类模型标注得到的知识点进行二次审核，从而增加人工审核环节以避免直接将基础分类模型标注知识点最为最终标注结果，由于缺乏监督导致出现标注结果不准确的情况。

综上，本发明上述实施例当中的学科知识点分类模型训练方法，通过将有限量的训练题集作为训练数据训练得到基础分类模型，从而利用基础分类模型对知识点标注以提高知识点标注的效率，再进一步通过结合专家交互系统对标注目标题目得到的标注数据进行审核以提高标注的准确性及精准要求，根据审核结果实现对基础分类模型进行二次训练，具体的，将审核结果反馈至基础分类模型，以对基础分类模型进行迭代优化得到符合分类要求的基础分类模型，解决了现有技术中的学科分类方法无法同时融合人工标注的精准要求和算法标注高效要求的技术问题。

实施例二

请参阅图3，所示为本发明第二实施例中的学科知识点分类模型训练方法，包括步骤S201至S203：

S201、获取训练题集并进行分词处理，根据预设规则对分词处理的训练题集进行知识点标注，根据标注结果对每一知识点类型设置一不同的知识图谱标签。

作为一个具体示例，例如在物理学科中对知识点进行标注时，物理学科中包括多个知识点，例如：牛顿第一定律、牛顿第二定律等，以牛顿第二定律为例，牛顿第二定律的数学表达式为F=ma，在对关于牛顿第二定律的知识点进行标注时，通过信息熵及全匹配的方法对试题进行分词，例如：出现公式F=ma、以及出现“牛顿第二定律”词语，均可以定位为牛顿第二定律的知识点，而后将此试题标注为与牛顿第二定律相关的知识点。再使用随机森林算法统计词语权重，根据词语权重定位标注的知识点。

S202、筛选每一知识图谱标签以对相似知识图谱标签进行合并，并根据合并结果统计预设规则的准确率及召回率，根据准确率及召回率修正预设规则直至准确率及召回率分别符合预设值，根据符合预设值的准确率及召回率生成基础分类模型。

对定位后的知识点进行同义词搜索以合并相似知识图谱标签。例如：若筛选得到“牛顿第二定律”及“牛二”词汇，则根据词义可以将“牛顿第二定律”及“牛二”定位为同义词，而后将两者统一改为“牛顿第二定律”，并再名词统一后，均归属于牛顿第二定律知识点。进一步地，题集包括训练题集以及测试题集，根据标注规则，对训练题集进行标注，并根据标注结果训练得到基础分类模型，而后通过测试题集对训练得到的基础分类模型进行训练，以验证当前基础分类模型的准确性，若验证得到的准确性不符合要求，则说明此时的基础分类模型不达标，需要根据知识点的逻辑关系重新修正标注规则，如此反复直到最终验证得到的知识点标注结果符合准确性，则此时的标注规则才是基础分类模型需要的标注规则，根据此时的标注规则生成基础分类模型。

S203、通过基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，并将审核结果反馈至基础分类模型以对基础分类模型进行迭代优化从而得到优化后的基础分类模型。

具体的，如图4所示，步骤S203包括步骤S2031- S2037：

S2031、获取审核结果。

S2032、根据审核结果判断标注数据是否正确。

在本实施例中，当基础分类模型根据当前标注规则对目标题目进行数据标注时，通过专家交互系统对标注后的知识点进行审核，以审核标注得到的知识点是否正确，若通过专家交互系统审核后得到目前标注得到的知识点与当前标注规则不符合时，则通过学科专家对专家交互系统判断得到的与标注规则不符合的知识点进行人工审核，以判断是否由于知识图谱不准确导致标注结果不准确，若是，则将不符合的结果负反馈至基础分类模型以使其“意识”到当前标注规则存在问题，并根据目标知识点的知识点特征重新优化知识图谱以替换当前知识图谱，根据优化后的知识图谱优化模型以使模型迭代优化，如此重复以使标注得到的知识点符合标注规则。

若标注数据正确，则执行步骤S2033；

若标注数据不正确，则执行步骤S2034；

S2033、将标注结果正反馈至基础分类模型以正向优化基础分类模型。

正确的标注作为正反馈意见，提供给模型，帮助模型进行强化。

S2034、根据标注数据判断知识图谱标签是否正确。

若通过专家交互系统审核标注数据正确，则将标注结果正反馈至基础分类模型；若通过专家交互系统审核标注数据不正确，则将标注结果负反馈至基础分类模型，并通过人工判断是否知识图谱标签存在问题，若是，则对知识图谱进行优化以修正知识图谱标签。

若知识图谱标签不正确，则执行步骤S2035；

若知识图谱标签正确，则执行步骤S2036；

S2035、优化知识图谱以优化知识图谱标签。

具体的，若知识图谱标签不正确，则获取修改意见并对修改意见进行解析以抽取知识图谱中学科领域间的实体关系；根据实体关系优化基础分类模型中的模型变量以优化基础分类模型，直至优化后的基础分类模型中的知识图谱标签正确。

具体的，以物理学科为例，在物理学科中，带电微粒与带电微粒之间可产生磁场，此时带电微粒与带电微粒之间的关系即为两带电微粒间的实体关系，根据此实体关系，当遇到关于带电微粒之间的关系的知识点时，即可将此实体关系作为标注规则之一。

具体的，根据实体关系优化基础分类模型中的模型变量以得到优化后的基础分类模型，根据训练题集对优化后的基础分类模型进行训练；

判断训练后的基础分类模型中的知识图谱标签是否正确；

若知识图谱标签不正确，则重新执行根据实体关系优化基础分类模型中的模型变量的步骤，直至知识图谱标签正确。

根据可交互专家系统识别审核标注数据，根据学科专辑反馈信息，用以判断知识图谱标签的标签真假值，若标签为假，则根据训练题集得到标签修正数据，通过神经网络结合标签修正数据训练、修正基础分类模型以得到迭代后的分类模型，并根据修正后的分类模型用于标注数据，直至标签为真，此时，通过分类模型得到的标注数据符合要求。

S2036、根据标注数据判断是否属于模型标注错误。

若属于模型标注错误，则执行步骤S2037；

S2037、将模型标注错误负反馈至基础分类模型以优化基础分类模型。

如图5所示，具体的，根据修改意见自动对基础分类模型的属性进行调参优化，具体的，通过可迭代自然语言分类模型，模型通过自然语言处理算法，将前端输入的自然语言规则进行结构化解析，抽取其中的学科领域实体和关系等逻辑信息，进而对不同的模型变量进行参数优化；然后模型再通过标签真假值对训练数据进行重新迭代训练，获得新的分类模型。

需要指出的是，本发明第二实施例所提供的方法，其实现原理及产生的一些技术效果和第一实施例相同，为简要描述，本实施例未提及之处，可参考第一实施例中相应内容。

实施例三

请参阅图6，所示为本发明第三实施例中的学科知识点分类模型训练系统，包括：

在一些可选实施例中，优化模块包括：

判断单元，用于根据审核结果判断标注数据是否正确；

第一执行单元，用于若标注数据不正确，则根据标注数据判断知识图谱标签是否正确；

第二执行单元，用于若所述知识图谱标签不正确，则优化知识图谱以优化知识图谱标签。

在一些可选实施例中，优化模块还包括：

第三执行单元，用于若所述知识图谱标签正确，则根据标注数据判断是否属于模型标注错误；

第一执行子单元，用于若属于模型标注错误，则将模型标注错误负反馈至基础分类模型以优化基础分类模型。

第二执行子单元，用于若标注数据正确，则将标注结果正反馈至基础分类模型以优化基础分类模型。

在一些可选实施例中，第二执行单元包括：

获取子单元，用于若所述知识图谱标签不正确，则获取修改意见并对修改意见进行解析以抽取知识图谱中学科领域间的实体关系；

优化子单元，用于根据所述实体关系优化基础分类模型中的模型变量以优化基础分类模型，直至优化后的基础分类模型中的知识图谱标签正确。

综上，本发明上述实施例当中的学科知识点分类模型训练系统，通过将有限量的训练题集作为训练数据训练得到基础分类模型，从而利用基础分类模型对知识点标注以提高知识点标注的效率，再进一步通过结合专家交互系统对标注目标题目得到的标注数据进行审核以提高标注的准确性及精准要求，根据审核结果实现对基础分类模型进行二次训练，具体的，将审核结果反馈至基础分类模型，以对基础分类模型进行迭代优化得到符合分类要求的基础分类模型，解决了现有技术中的学科分类方法无法同时融合人工标注的精准要求和算法标注高效要求的技术问题。

此外，本发明的实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例中方法的步骤。

此外，本发明的实施例还提出一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述实施例中方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种学科知识点分类模型训练方法，其特征在于，所述方法包括：

通过所述基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，并将审核结果反馈至所述基础分类模型以对所述基础分类模型进行迭代优化从而得到优化后的基础分类模型；

其中，将审核结果反馈至所述基础分类模型以对所述基础分类模型进行迭代优化从而得到优化后的基础分类模型的步骤包括：

根据审核结果判断标注数据是否正确；

若所述知识图谱标签不正确，则优化知识图谱以优化知识图谱标签；

其中，若所述知识图谱标签不正确，则优化知识图谱以优化知识图谱标签的步骤包括：

2.根据权利要求1所述的学科知识点分类模型训练方法，其特征在于，根据标注数据判断知识图谱标签是否正确的步骤之后包括：

3.根据权利要求1所述的学科知识点分类模型训练方法，其特征在于，根据审核结果判断标注数据是否正确的步骤之后包括：

4.根据权利要求1所述的学科知识点分类模型训练方法，其特征在于，根据所述实体关系优化基础分类模型中的模型变量以优化基础分类模型，直至优化后的基础分类模型中的知识图谱标签正确的步骤包括：

判断训练后的基础分类模型中的知识图谱标签是否正确；

5.一种学科知识点分类模型训练系统，其特征在于，包括：

优化模块，用于通过所述基础分类模型对目标题目进行数据标注，结合专家交互系统以审核标注数据，并将审核结果反馈至所述基础分类模型以对所述基础分类模型进行迭代优化从而得到优化后的基础分类模型；

根据审核结果判断标注数据是否正确；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－4任一所述的学科知识点分类模型训练方法。

7.一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1－4任一所述的学科知识点分类模型训练方法。