CN114021555A

CN114021555A - 知识点自动标注的方法、装置、设备及可读存储介质

Info

Publication number: CN114021555A
Application number: CN202111278965.3A
Authority: CN
Inventors: 熊丹妮; 邓璇; 汤博阳; 张新访; 邓嘉
Original assignee: Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Information Industry Co Ltd
Priority date: 2021-10-31
Filing date: 2021-10-31
Publication date: 2022-02-08

Abstract

本申请涉及一种知识点自动标注的方法、装置、设备及可读存储介质，涉及教育技术领域，包括创建实体名称表模型，将待标注题目文本导入实体名称表模型，得到待标注题目文本中的知识实体特征向量；对待标注题目文本中的公式进行抽取，并基于抽取出的公式创建公式树，基于公式树确定出待标注题目文本的公式特征向量；将待标注题目文本进行词嵌入处理，得到题目文本向量；将题目文本向量、知识实体特征向量和公式特征向量进行拼接，得到新的待标注题目文本；对新的待标注题目文本进行分类，得到分类结果；基于分类结果对新的待标注题目文本进行知识点标注。本申请极大程度地保留了公式结构及公式信息，引入多维特征，提升了知识点自动标注的准确度。

Description

知识点自动标注的方法、装置、设备及可读存储介质

技术领域

本申请涉及教育技术领域，特别涉及一种知识点自动标注的方法、装置、设备及可读存储介质。

背景技术

随着人工智能技术的持续深入和快速发展，人工智能已经渗入到教育行业的许多方面，使得教育领域在人工智能的推动下，正在经历着巨大的变化，而人工智能和教育结合的价值，在于能够为广大的学生提供大规模的个性化学习方式。比如，通过人工智能技术可以基于知识点对题库中大量的题目进行分类，学生可以通过某一类型的题目来巩固和强化某一知识点，也可通过不同类型的题目来评价自身对不同知识点的掌握程度，进而有针对性的进行知识点的强化训练。而若想实现上述个性化学习，首先需要通过人工智能技术对题目进行知识点标注。

相关技术中，主要通过NLP(Natural Language Processing，自然语言处理)相似度算法进行知识点标注或利用分类模型进行知识点标注。具体而言，NLP相似度算法往往仅针对题目文本数据，利用简单的one-hot(独热)编码或TF-IDF(term frequency-inversedocument frequency，词频-逆向文件频率)机器学习等算法，对题目文本及题库文本进行文本表征，采用余弦相似度搜索出相近题目并返回其知识点作为结果，不过对于理科学科而言，公式往往蕴含重要信息，而NLP相似度算法只是简单地将题干中的公式信息作为文本处理，粗暴地对公式进行直接分词，致使模型无法学习到公式结构中的隐含信息，进而导致无法准确标注知识点；而分类模型算法往往仅基于题库标注数据集进行文本表征及训练，利用深度学习模型进行学习，从而对待输入文本进行自动标注，不过由于题目自带的文本信息较少，以致直接利用分类模型无法捕捉到与知识点高度相关的词语信息，使得模型分类的结果准确性较差。

发明内容

本申请提供一种知识点自动标注的方法、装置、设备及可读存储介质，以解决相关技术中存在的知识点标注结果准确性较差的问题。

第一方面，提供了一种知识点自动标注的方法，包括以下步骤：

创建实体名称表模型，将待标注题目文本导入所述实体名称表模型，得到所述待标注题目文本中的知识实体特征向量；

对所述待标注题目文本中的公式进行抽取，并基于抽取出的公式创建公式树，基于所述公式树确定出所述待标注题目文本的公式特征向量；

将所述待标注题目文本进行词嵌入处理，得到题目文本向量；

将所述题目文本向量、所述知识实体特征向量和所述公式特征向量进行拼接，得到新的待标注题目文本；

对所述新的待标注题目文本进行分类，得到分类结果；

基于所述分类结果对所述新的待标注题目文本进行知识点标注。

一些实施例中，在所述对所述新的待标注题目文本进行分类，得到分类结果的步骤之前，还包括：

基于分类特征对历史题库中的题目进行Faiss处理，得到搜索库，所述搜索库包括各个题目对应的分类特征与知识点之间的映射关系。

一些实施例中，所述对所述新的待标注题目文本进行分类，得到分类结果，包括：

将所述新的待标注题目文本分别与搜索库中的各个题目进行相似度计算；

根据所述相似度确定出所述新的待标注题目文本对应的相似题；

将所述相似题的分类特征作为所述新的待标注题目文本的分类结果。

一些实施例中，所述实体名称表模型中包含多个学科知识词表，所述创建实体名称表模型，包括：

基于BiLSTM-CRF模型和BERT-CRF模型对某一学科中已标注知识实体数据进行训练得到训练结果，并对所述某一学科中的非结构化数据进行知识实体抽取，得到知识实体抽取结果；

基于SentenceTransformer模型和词频矩阵对所述某一学科中的非结构化文本进行关键词抽取，得到关键词抽取结果；

对所述训练结果、所述知识实体抽取结果和所述关键词抽取结果进行合并和清洗处理，得到处理后的结果；

获取处理后的结果的别名信息，基于所述别名信息和所述处理后的结果形成某一学科的学科知识词表。

一些实施例中，所述将待标注题目文本导入所述实体名称表模型，得到所述待标注题目文本中的知识实体特征向量，包括：

将待标注题目文本导入所述实体名称表模型；

所述实体名称表模型基于正向最大匹配算法和所述学科知识词表对所述待标注题目文本进行知识实体抽取处理，得到所述待标注题目文本中的知识实体特征向量。

第二方面，提供了一种知识点自动标注的装置，包括：

知识抽取单元，其用于创建实体名称表模型，将待标注题目文本导入所述实体名称表模型，得到所述待标注题目文本中的知识实体特征向量；

公式抽取单元，其用于对所述待标注题目文本中的公式进行抽取，并基于抽取出的公式创建公式树，基于所述公式树确定出所述待标注题目文本的公式特征向量；

文本分类单元，其用于将所述待标注题目文本进行词嵌入处理，得到题目文本向量；将所述题目文本向量、所述知识实体特征向量和所述公式特征向量进行拼接，得到新的待标注题目文本；对所述新的待标注题目文本进行分类，得到分类结果；

知识点标注单元，其用于基于所述分类结果对所述新的待标注题目文本进行知识点标注。

一些实施例中，所述装置还包括处理单元，其用于：

一些实施例中，所述文本分类单元具体用于：

第三方面，提供了一种知识点自动标注的设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的知识点自动标注的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行前述的知识点自动标注的方法。

本申请提供的技术方案带来的有益效果包括：极大程度地保留了公式结构及公式信息，引入了多维特征，有效提升了知识点自动标注的准确度。

本申请提供了一种知识点自动标注的方法、装置、设备及可读存储介质，包括创建实体名称表模型，将待标注题目文本导入所述实体名称表模型，得到所述待标注题目文本中的知识实体特征向量；对所述待标注题目文本中的公式进行抽取，并基于抽取出的公式创建公式树，基于所述公式树确定出所述待标注题目文本的公式特征向量；将所述待标注题目文本进行词嵌入处理，得到题目文本向量；将所述题目文本向量、所述知识实体特征向量和所述公式特征向量进行拼接，得到新的待标注题目文本；对所述新的待标注题目文本进行分类，得到分类结果；基于所述分类结果对所述新的待标注题目文本进行知识点标注。本申请通过对知识实体信息和公式信息进行抽取并以特征向量的形式引入待标注题目文本中，实现了对题干中重要信息的增强，极大程度地保留了公式结构及公式信息，引入了多维特征，可有效避免直接对题干进行文本分类而导致的信息缺失，提升了知识点自动标注的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种知识点自动标注的方法的流程示意图；

图2为本申请实施例提供的一种知识点自动标注的装置的结构示意图；

图3为本申请实施例提供的一种知识点自动标注的设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种知识点自动标注的方法、装置、设备及可读存储介质，其能解决相关技术中存在的知识点标注结果准确性较差的问题。

图1是本申请实施例提供的一种知识点自动标注的方法，包括以下步骤：

步骤S10：创建实体名称表模型，将待标注题目文本导入所述实体名称表模型，得到所述待标注题目文本中的知识实体特征向量；

示范性的，本实施例中，在进行知识特征向量的抽取之前，需要构建离线知识词表，因此，本申请利用NER(Named Entity Recognition，命名实体识别，其中，NER是NLP(Natural Language Processing，自然语言处理)中一项非常基础的任务，其是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具)构建实体名称表模型，该实体名称表模型中由多个学科知识词表组成，其具体创建过程为：

基于BiLSTM-CRF模型(其中，BiLSTM-CRF模型由BiLSTM(Bi-directional LongShort-Term Memory，双向长短词记忆模型)与CRF(Conditional Random Field，条件随机场模型)组成)和BERT-CRF模型(其中，BERT-CRF模型由BERT(预训练语言模型)与CRF组成)对某一学科中已标注知识实体数据进行训练得到训练结果，并对所述某一学科中的非结构化数据(该非结构化数据包括但不限于开源标注数据，其中，开源标注数据示例参见表1所示，表1中的左侧数据为字粒度的文本数据，右侧为单字对应的标注标签，采用BIO标记(B为begin，代表实体的开头，I为in，代表实体除首字外的其他字，O为Out，代表非实体相关文本))进行知识实体抽取，得到知识实体抽取结果；其中，知识实体指的是文本中有特定意义的实体，或者也可认为为具有特定学科含义的词，比如，初中数学试题中的知识实体就包括但不限于多边形、对角线、三角形、抽样调查、直方图；

表1开源标注数据示例

待标注文本数据	标注标签
		平	B-MAT
方	I-MAT
		根	I-MAT
是	O
		开	B-MAT
方	I-MAT
		运	O
算	O
		的	O
基	O
		础	O
。	O

基于SentenceTransformer(无监督的句子嵌入模型)模型和词频矩阵对所述某一学科中的非结构化文本(该非结构化文本包括但不限于课本和网上公开数据)进行关键词抽取，得到关键词抽取结果；然后对所述训练结果、所述知识实体抽取结果和所述关键词抽取结果进行合并和清洗处理，得到处理后的结果；再通过爬取技术对网上公开数据进行爬取，获取处理后的结果的别名信息，比如，处理后的结果为矩形，那么其别名为长方形；最后将别名信息和处理后的结果进行合即可形成某一学科的学科知识词表，将所有学科的学科知识词表均按照上述步骤进行创建，待所有学科知识词表创建完成即可实现实体名称表模型的构建。

本实施例中，将获取到的待标注题目文本导入实体名称表模型，该实体名称表模型将基于正向最大匹配算法和学科知识词表对所述待标注题目文本进行知识实体抽取处理，就可得到所述待标注题目文本中的知识实体特征向量。

步骤S20：对所述待标注题目文本中的公式进行抽取，并基于抽取出的公式创建公式树，基于所述公式树确定出所述待标注题目文本的公式特征向量；

示范性的，在本实施例中，利用正则表达式匹配算法对所述待标注题目文本中的Mathml(Mathematical Markup Language，数学置标语言)公式进行定位抽取，并对抽取出的Mathml公式中的无关符号进行清洗，再将Mathml中的运算符号转换为字符格式，即将公式转换为通用的公式格式；然后利用Tangent Combined FastText模型对清洗后的公式字符中的运算部分及非运算符部分进行进行SLT、OPT操作，即构建Operator tree(符号树)和Simple layout tree(排列树)，得到tuple id(元组标识)，利用该tuple id与词向量矩阵的对应关系可得到一个公式对应的多个tuple的向量，将多个tuple的向量进行求平均，即可得到一个词向量来表示一个公式，再对待标注题目文本中的多个公式对应的词向量求均值，并将该均值作为待标注题目文本的公式特征向量，最后利用fastText(词向量与文本分类工具)对待标注题目文本的公式进行表征。

步骤S30：将所述待标注题目文本进行词嵌入处理，得到题目文本向量；比如，将待标注题目文本中原有公式对应的运算部分转换为文字描述，如“+”转换为“加”。

步骤S40：将所述题目文本向量、所述知识实体特征向量和所述公式特征向量进行拼接，得到拼接向量，该拼接向量作为新的待标注题目文本。

步骤S50：对所述新的待标注题目文本进行分类，得到分类结果；

步骤S60：基于所述分类结果对所述新的待标注题目文本进行知识点标注。

示范性的，在本实施例中，基于XGBoost分类器对新的待标注题目文本进行分类，即可得到分类特征；不过，由于通过XGBoost分类器进行分类时，可能存在分类结果为空值的情况，以致可能造成无对应知识点标注结果，因此在对新的待标注题目文本进行分类之前，可通过Faiss工具基于分类特征对历史题库中的题目进行Faiss处理，得到搜索库，所述搜索库包括各个题目对应的分类特征与知识点之间的映射关系；具体的，先将历史题库中的题目聚成若干个类，然后对每个类执行矢量量化编码；

因此，在对新的待标注题目文本进行分类时，可将新的待标注题目文本分别与搜索库中的各个题目进行相似度计算，根据所述相似度确定出所述新的待标注题目文本对应的相似题，将所述相似题的分类特征作为所述新的待标注题目文本的分类结果；即可通过Faiss工具根据搜索库中每个类的中心与拼接向量的距离取若干个类，然后将这若干个类中的相似题与待标注题目文本进行相似度计算，进而根据相似度确定新的待标注题目文本的分类特征，再根据分类特征与知识点之间的映射关系即可确定新的待标注题目文本的知识点，最后将该知识点标注至待标注题目文本处；由此可见，通过Faiss工具创建搜索库实现了对查找空间的进一步划分，不仅可有效缩小查找范围，提高检索效率，且将相似题对应的知识点作为结果补充，可减少漏标率。

因此，本申请通过对知识实体信息和公式信息进行抽取并以特征向量的形式引入待标注题目文本中，实现了对题干中重要信息的增强，极大程度地保留了公式结构及公式信息，引入了多维特征，可有效避免直接对题干进行文本分类而导致的信息缺失，提升了知识点自动标注的准确度。同时利用Faiss相似索引代替传统相似度查找算法能极大地改善算法效率，缩短查询时间，从而在实际应用场景中具有更好的实时性表现。

参见图2所示，本申请实施例还提供了一种知识点自动标注的装置，包括：

本申请通过对知识实体信息和公式信息进行抽取并以特征向量的形式引入待标注题目文本中，实现了对题干中重要信息的增强，极大程度地保留了公式结构及公式信息，引入了多维特征，可有效避免直接对题干进行文本分类而导致的信息缺失，提升了知识点自动标注的准确度。

更进一步的，在本申请实施例中，所述装置还包括处理单元，其用于：

更进一步的，在本申请实施例中，所述文本分类单元具体用于：

更进一步的，在本申请实施例中，所述实体名称表模型中包含多个学科知识词表，知识抽取单元具体用于：

更进一步的，在本申请实施例中，知识抽取单元具体用于：

将待标注题目文本导入所述实体名称表模型；

需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述知识点自动标注的方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的知识点自动标注的设备上运行。

本申请实施例还提供了一种知识点自动标注的设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的知识点自动标注的方法的全部步骤或部分步骤。

其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

本申请施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现前述的知识点自动标注的方法的全部步骤或部分步骤。

本申请实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的仼何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only memory，ROM)、随机存取存储器(Random Accessmemory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种知识点自动标注的方法，其特征在于，包括以下步骤：

对所述新的待标注题目文本进行分类，得到分类结果；

2.如权利要求1所述的知识点自动标注的方法，其特征在于，在所述对所述新的待标注题目文本进行分类，得到分类结果的步骤之前，还包括：

3.如权利要求2所述的知识点自动标注的方法，其特征在于，所述对所述新的待标注题目文本进行分类，得到分类结果，包括：

4.如权利要求1所述的知识点自动标注的方法，其特征在于，所述实体名称表模型中包含多个学科知识词表，所述创建实体名称表模型，包括：

5.如权利要求4所述的知识点自动标注的方法，其特征在于，所述将待标注题目文本导入所述实体名称表模型，得到所述待标注题目文本中的知识实体特征向量，包括：

将待标注题目文本导入所述实体名称表模型；

6.一种知识点自动标注的装置，其特征在于，包括：

7.如权利要求6所述的知识点自动标注的装置，其特征在于，所述装置还包括处理单元，其用于：

8.如权利要求7所述的知识点自动标注的装置，其特征在于，所述文本分类单元具体用于：

9.一种知识点自动标注的设备，其特征在于，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现权利要求1至5中任一项所述的知识点自动标注的方法。

10.一种计算机可读存储介质，其特征在于：所述计算机存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行权利要求1至5中任一项所述的知识点自动标注的方法。