CN115828911A

CN115828911A - 试题知识点识别方法、装置、电子设备和存储介质

Info

Publication number: CN115828911A
Application number: CN202211619931.0A
Authority: CN
Inventors: 杨颂; 杨毅; 陈春井; 袁瀛寰; 蒋医韩; 刘露凌
Original assignee: Tianwen Digital Media Technology Beijing Co ltd
Current assignee: Tianwen Digital Media Technology Beijing Co ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-21

Abstract

本申请的实施例提供了一种试题知识点识别方法、装置、电子设备和存储介质，所述方法包括：获取待识别试题；根据待识别试题，通过训练完成的试题知识点识别模型，识别待识别试题的知识点；其中，训练完成的试题知识点识别模型包括多个试题知识点识别子模型，多个试题知识点识别子模型按照用于训练其所用的试题数量由多到少排序。本申请能够提高试题知识点识别的准确率。

Description

试题知识点识别方法、装置、电子设备和存储介质

技术领域

本申请的实施例涉及自然语言处理技术领域，尤其涉及一种试题知识点识别方法、装置、电子设备和存储介质。

背景技术

试题和知识点关系紧密，试题的设计形式反映了知识点的考查方式。在向学生推荐相关知识点的试题时，首先需要识别试题的知识点，然后根据知识点向学生推荐相关试题。目前，较常用的方式是采用神经网络模型来识别试题的知识点。但是，由于某些知识点关联的试题数量较多，另一些知识点关联的试题数量较少，导致神经网络模型不能准确地识别试题的知识点。

发明内容

为改善试题知识点识别的准确率，本申请的实施例提供了一种试题知识点识别方法、装置、电子设备和存储介质。

在本申请的第一方面，提供了一种试题知识点识别方法，包括：

获取待识别试题；

根据所述待识别试题，通过训练完成的试题知识点识别模型，识别所述待识别试题的知识点；

其中，所述训练完成的试题知识点识别模型包括多个试题知识点识别子模型，多个所述试题知识点识别子模型按照用于训练其所用的试题数量由多到少排序。

在一种可能的实现方式中，所述试题知识点识别子模型包括相关联的试题识别模型和正则匹配规则。

在一种可能的实现方式中，所述根据所述待识别试题，通过训练完成的试题知识点识别模型，识别所述待识别试题的知识点，包括：

根据所述待识别试题，通过当前所述试题知识点识别子模型，识别所述待识别试题的知识点；

在当前所述试题知识点识别子模型识别所述待识别试题时，若当前所述试题知识点识别子模型识别出与所述待识别试题相关联的知识点，则确定与所述待识别试题相关联的知识点的置信度；

根据所述置信度和所述置信度阈值确定所述待识别试题的知识点。

在一种可能的实现方式中，所述根据所述待识别试题，通过训练完成的试题知识点识别模型，识别所述待识别试题的知识点，还包括：

在当前所述试题知识点识别子模型识别所述待识别试题时，若当前所述试题知识点识别子模型识别出与所述待识别试题相关联的知识点为其他类，则将所述待识别试题输入下一个所述试题知识点识别子模型。

在一种可能的实现方式中，试题知识点识别模型的训练包括：

获取多组数据集，每组所述数据集均包括试题和与试题相关联的知识点，多组所述数据集按照其包括的试题数量进行排序；

基于任一组数据集和排序在该组数据集之后的所有数据集训练一个所述试题识别模型，基于任一组数据集和排序在该组数据集之后的所有数据集构造一个所述正则匹配规则，以得到多个所述试题识别模型和多个所述正则匹配规则；

将同一组所述数据集对应的所述试题识别模型和所述正则匹配规则相关联形成所述试题知识点识别子模型；

按照所述数据集的顺序将所述试题知识点识别子模型进行排序以得到所述试题知识点识别模型。

在一种可能的实现方式中，所述基于任一组数据集和排序在该组数据集之后的所有数据集训练一个所述试题识别模型，基于任一组数据集和排序在该组数据集之后的所有数据集构造一个所述正则匹配规则之前，还包括：

为排序在该组数据集之后的所有数据集中与试题相关联的知识点添加标签，所述标签用于表示排序在该组数据集之后的所有数据集中与试题相关联的知识点属于其他类。

在一种可能的实现方式中，在获取多组所述数据集之前，还包括：

获取多个所述试题和与每个试题相关联的知识点；

按照所述与试题相关联的知识点对所述试题进行分类，得到多组试题组；

按照所述试题组中试题的数量对所述试题组进行排序；

按照预设规则将排序后的所述试题组划分为多组所述数据集，并按照试题的数量对所述数据集进行排序；

其中，所述预设规则包括：对排序后的所述试题组划分后，当前所述数据集中所述试题的数量，占当前所述数据集中的试题的数量和排序在所述数据集之后的所有所述数据集中的试题的数量之和的比值达到预设阈值。

在本申请的第二方面，提供了一种试题知识点识别装置，包括：

获取模块，用于获取待识别试题；

识别模块，用于根据所述待识别试题，通过训练完成的试题知识点识别模型和置信度阈值，识别所述待识别试题的知识点；

在本申请的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的方法。

在本申请的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的方法。

在本申请实施例提供的试题知识点识别方法、装置、电子设备和存储介质中，在识别试题知识点时，首先需要获取待识别试题，然后将待识别试题输入训练完成的试题知识点识别模型来识别其知识点，训练完成的试题知识点识别模型包括多个试题知识点识别子模型，且多个试题知识点识别子模型按照用于训练其所用的试题数量由多到少排序，由于热门知识点下的试题数量较多，冷门知识点下的试题数量较少，通过将待识别试题上述的试题知识点识别模型来进行识别，若当前试题知识点识别子模型识未别出试题的知识点，则由下一个试题知识点识别子模型继续识别，直至得到最终结果，从而能提高试题知识点识别的准确率。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本申请的实施例提供的试题知识点识别方法的流程图。

图2示出了本申请的实施例提供的知识点识别过程的流程图。

图3示出了本申请的实施例的知识点识别详细过程的流程图。

图4示出了本申请的实施例的数据处理方法的流程图。

图5示出了本申请的实施例的模型训练方法的流程图。

图6示出了本申请的实施例提供的试题知识点识别装置的方框图。

图7示出了适于用来实现本申请实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请实施例提供的试题知识点识别方法，可以由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

图1是本申请实施例提供的试题知识点识别方法的流程图。在一些实施例中，图1所示试题知识点识别方法可以由上述电子设备执行。如图1所示，该方法包括步骤S101和步骤S102，其中：

步骤101，获取待识别试题。

在本申请实施例中，待识别试题可以包括试题内容和答案，也可以包括试题内容、答案和解析。需要说明的是，待识别试题的语言种类可以是汉语，也可以是英语，还可以是其他语言种类，本申请实施例对此不进行限制。

在一种可实现的方式中，当检测到用户触发的试题识别请求信息时，基于请求信息获取待识别试题。在另一种可实现的方式中，当检测到有新的试题输入时，获取新输入的试题，以进行知识点的识别。

进一步地，为了提高后续对待识别试题的处理速度，可将其转换为轻量级的数据交换格式，例如Josn格式。

步骤102，根据待识别试题，通过训练完成的试题知识点识别模型，识别待识别试题的知识点。

在本申请实施例中，训练完成的试题知识点识别模型包括多个试题知识点识别子模型，多个试题知识点识别子模型按照用于训练其所用的试题数量由多到少排序。

具体地，每个试题知识点识别子模型可以用来识别某个知识点，或是可以用来识别某些知识点。可以按照每个用于训练试题知识点识别子模型的数据集中的试题数量，对训练后的试题知识点识别子模型来进行排序，以形成试题知识点识别模型。需要说明的是，本申请实施例中对于试题知识点识别子模型的排序方式，除上述方式外，用户可以根据需要来选择其他的排序方式，本申请实施例对此不做限定。

在一些实施例中，如图2所示，根据待识别试题，通过训练完成的试题知识点识别模型，识别待识别试题的知识点，可以采用如下步骤：

步骤1021，根据待识别试题，通过当前试题知识点识别子模型，识别待识别试题的知识点。

在本申请实施例中，由于试题知识点识别模型包括多个试题知识点识别子模型，且多个试题知识点识别子模型按照用于训练其所用的试题数量由多到少排序。因此，在通过第n个试题知识点识别子模型识别待识别试题的知识点时，第n个试题知识点识别子模型为当前试题知识点识别子模型。

步骤1022，在当前试题知识点识别子模型识别待识别试题时，若当前试题知识点识别子模型识别出与待识别试题相关联的知识点，则确定与待识别试题相关联的知识点的置信度；若当前试题知识点识别子模型识别出与待识别试题相关联的知识点为其他类，则将待识别试题输入下一个试题知识点识别子模型。

在一个示例中，如图3所示，试题知识点识别模型包括按照训练每个试题知识点识别子模型的数据集中的试题数量进行排序的试题知识点识别子模型1、试题知识点识别子模型2、……、试题知识点识别子模型n。

在使用试题知识点识别子模型来识别待识别试题的知识点时，首先将待识别试题输入试题知识点识别子模型1得到识别结果。

若识别出待识别试题的知识点，则计算试题知识点识别子模型1的识别结果的置信度。

若识别得到的知识点属于其他类，则将待识别试题输入试题知识点识别子模型2，并再次计算判断试题知识点识别子模型2的识别结果为知识点还是其他类，若为知识点则计算识别结果的置信度，重复上述过程，直至识别出待识别试题的知识点。

步骤1023，根据置信度和置信度阈值确定待识别试题的知识点。

在本申请实施例中，为提高试题知识点识别模型识别结果的准确度，在某个试题知识点识别子模型的识别结果的置信度阈值大于等于置信度阈值时，可以对大于等于置信度阈值的识别结果按照置信度的从大到小进行排序，取排名靠前的知识点作为待识别试题的知识点。

在一些实施例中，为更进一步地提高试题知识点识别模型识别结果的准确度，试题知识点识别子模型可以包括相关联的试题识别模型和正则匹配规则。在一种可选的实施方式中，试题识别模型可以选用Bert模型。需要说明的是，试题识别模型和正则匹配模型相关联，可以理解为试题识别模型的训练和正则匹配规则的构建，均是基于同一组数据。

针对某一个试题知识点识别子模型识别待识别试题的知识点的过程，将待识别试题分别输入试题识别模型和正则匹配规则，分别得到试题识别模型的识别结果和正则匹配规则的结果，分别计算两种结果的置信度，并分别与置信度阈值进行比较，若其中一种结果的置信度大于等于置信度阈值，则将该种结果作为该试题知识点识别模型的识别结果；若其中两种结果的置信度均小于置信度阈值，则将待识别试题输入至下一个试题知识点识别子模型进行识别；若其中两种结果的置信度均大于等于置信度阈值，则将两种结果作为该试题知识点识别模型的识别结果。

能够理解的是，神经网络模型由于训练数据的不足，会导致其识别结果不准确，而正则匹配规则对数据的量没有限制，通过将试题识别模型和正则匹配规则相结合，能够避免由于训练数据不足导致模型识别不准确的问题，从而提高了识别结果的准确度。

而且，通过将由试题识别模型（神经网络模型）和正则匹配规则相关联后形成的试题知识点识别子模型按照用于训练试题知识点识别子模型的数据集中归属于某个知识点的试题数量来排序，能够优先识别热门知识点，并且针对试题的特殊分布，也可以避免由于训练数据的特殊分布而导致最终识别结果不准确的问题。

在介绍完试题知识点识别过程之后，接下来对试题知识点识别模型的训练过程进行详细介绍。

知识点和知识点下试题的分布情况比较特殊，以某个科目为例，20%的热门知识点下的试题量占这个科目下试题数量的95.54%，然而另外80%的知识点下的试题量只占科目下试题总量的4.46%，试题数量小于10的知识点占这个科目下知识点数量的48%，然而这48%的知识点下的试题量却仅占当前科目下所有试题总量的0.23%，若采用这种数据来训练试题知识点识别模型，即使对原有数据进行数据增强，仍然无法保持相对平衡以满足训练所需的数据量。

因此，需要对用于训练试题知识点识别模型的数据进行处理。

在一些实施例中，参见图4，对用于训练试题知识点识别模型的数据进行处理可以采用以下步骤：

步骤401，获取多个试题和与每个试题相关联的知识点。

步骤402，按照与试题相关联的知识点对试题进行分类，得到多组试题组。

步骤403，按照试题组中试题的数量对试题组进行排序。

步骤404，按照预设规则将排序后的试题组划分为多组数据集，并按照试题的数量对数据集进行排序。

在本申请实施例中，预设规则可以为：对排序后的所述试题组划分后，当前数据集中试题的数量，占当前数据集中的试题的数量和排序在数据集之后的所有数据集中的试题的数量之和的比值达到预设阈值。

在一种可选的实施方式中，在对按照知识点分类后试题进行排序之后，可以按照80%原则对排序后的试题组进行划分，也就是说，取排序在前且试题数量占总试题数量80%的试题组作为数据集1，在剩下的试题组中，依然取排序在前且试题数量占剩下的总试题数量80%的试题组作为数据集2，以此类推，直至剩下的试题组中的试题数量小于预设阈值，以最后剩下的试题作为最后一个数据集。在得到多个数据集后，按照试题数量对数据集进行排序，从而得到用于训练试题识别模型的训练集。

在一些实施例中，参见图5，试题知识点识别模型的训练可以包括以下步骤：

步骤501，获取多组数据集，每组数据集均包括试题和与试题相关联的知识点，多组数据集按照其包括的试题数量进行排序。

步骤502，基于任一组数据集和排序在该组数据集之后的所有数据集训练一个试题识别模型，基于任一组数据集和排序在该组数据集之后的所有数据集构造一个正则匹配规则，以得到多个试题识别模型和多个正则匹配规则。

在本申请实施例中，在基于任一组数据集和排序在该组数据集之后的所有数据集训练一个试题识别模型时，为排序在该组数据集之后的所有数据集中与试题相关联的知识点添加标签，该标签用于表示排序在该组数据集之后的所有数据中与试题相关联的知识点属于“其他类”，然后基于该组数据集合排序在该组数据集之后的所有数据集来训练一个试题识别模型。

需要说明的是，构造正则匹配规则时，对排序在该组数据集之后的所有数据集的处理方式与上述训练试题识别模型相同，此处不再赘述。

步骤503，将同一组数据集对应的试题识别模型和正则匹配规则相关联形成试题知识点识别子模型。

步骤504，按照数据集的顺序将试题知识点识别子模型进行排序以得到试题知识点识别模型。

在本申请实施例中，在识别试题知识点时，首先需要获取待识别试题，然后将待识别试题输入训练完成的试题知识点识别模型来识别其知识点，训练完成的试题知识点识别模型包括多个试题知识点识别子模型，且多个试题知识点识别子模型按照其能够识别的知识点下参与训练的试题数量由多到少排序，由于热门知识点下的试题数量较多，冷门知识点下的试题数量较少，通过将待识别试题上述的试题知识点识别模型来进行识别，能够提高试题知识点识别的准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图6示出了根据本申请的实施例的试题知识点识别装置的方框图。如图6所示，该装置包括：

获取模块601，用于获取待识别试题。

识别模块602，用于根据待识别试题，通过训练完成的试题知识点识别模型，识别待识别试题的知识点。

其中，训练完成的试题知识点识别模型包括多个试题知识点识别子模型，多个所述试题知识点识别子模型按照用于训练其所用试题数量由多到少排序。

在一些实施例中，试题知识点识别子模型包括相关联的试题识别模型和正则匹配规则。

在一些实施例中，识别模块602具体用于：根据待识别试题，通过当前试题知识点识别子模型，识别待识别试题的知识点；在当前试题知识点识别子模型识别待识别试题时，若当前试题知识点识别子模型识别出与待识别试题相关联的知识点，则确定与待识别试题相关联的知识点的置信度；根据置信度和所述置信度阈值确定待识别试题的知识点。

在一些实施例中，识别模块602具体还用于：在当前试题知识点识别子模型识别待识别试题时，若当前试题知识点识别子模型识别出与待识别试题相关联的知识点为其他类，则将待识别试题输入下一个试题知识点识别子模型。

在一些实施例中，该装置还包括：

数据获取模块，用于获取多组数据集，每组数据集均包括试题和与试题相关联的知识点，多组数据集按照其包括的试题数量进行排序。

模型训练模块，用于基于任一组数据集和排序在该组数据集之后的所有数据集训练一个试题识别模型，基于任一组数据集和排序在该组数据集之后的所有数据集构造一个正则匹配规则，以得到多个试题识别模型和多个正则匹配规则。

模型关联模块，用于将同一组数据集对应的试题识别模型和正则匹配规则相关联形成试题知识点识别子模型。

模型排序模块，按照数据集的顺序将试题知识点识别子模型进行排序以得到试题知识点识别模型。

在一些实施例中，获取模块601具体还用于：为排序在该组数据集之后的所有数据集中与试题相关联的知识点添加标签，标签用于表示排序在该组数据集之后的所有数据集中与试题相关联的知识点属于其他类。

在一些实施例中，获取模块601具体还用于：获取多个试题和与每个试题相关联的知识点；按照与试题相关联的知识点对试题进行分类，得到多组试题组；按照试题组中试题的数量对试题组进行排序；按照预设规则将排序后的试题组划分为多组数据集，并按照试题的数量对数据集进行排序；其中，预设规则包括：对排序后的试题组划分后，当前数据集中所述试题的数量，占当前数据集中的试题的数量和排序在数据集之后的所有数据集中的试题的数量之和的比值达到预设阈值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图7所示，图7所示的电子设备700包括：处理器701和存储器703。其中，处理器701和存储器703相连，如通过总线702相连。可选地，电子设备700还可以包括收发器704。需要说明的是，实际应用中收发器704不限于一个，该电子设备700的结构并不构成对本申请实施例的限定。

处理器701可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线702可包括一通路，在上述组件之间传送信息。总线702可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器703用于存储执行本申请方案的应用程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种试题知识点识别方法，其特征在于，包括：

获取待识别试题；

2.根据权利要求1所述的方法，其特征在于，所述试题知识点识别子模型包括相关联的试题识别模型和正则匹配规则。

3.根据权利要求1所述的方法，其特征在于，所述根据所述待识别试题，通过训练完成的试题知识点识别模型，识别所述待识别试题的知识点，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述待识别试题，通过训练完成的试题知识点识别模型，识别所述待识别试题的知识点，还包括：

5.根据权利要求2所述的方法，其特征在于，试题知识点识别模型的训练包括：

6.根据权利要求5所述的方法，其特征在于，所述基于任一组数据集和排序在该组数据集之后的所有数据集训练一个所述试题识别模型，基于任一组数据集和排序在该组数据集之后的所有数据集构造一个所述正则匹配规则之前，还包括：

7.根据权利要求5所述的方法，其特征在于，在获取多组所述数据集之前，还包括：

获取多个所述试题和与每个试题相关联的知识点；

按照所述试题组中试题的数量对所述试题组进行排序；

8.一种试题知识点识别装置，其特征在于，包括：

获取模块，用于获取待识别试题；

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。