CN116401373A

CN116401373A - 一种试题知识点的标注方法、存储介质及设备

Info

Publication number: CN116401373A
Application number: CN202310233658.6A
Authority: CN
Inventors: 张育博; 张立波; 武延军
Original assignee: Zhongke Nanjing Software Technology Research Institute; Institute of Software of CAS
Current assignee: Zhongke Nanjing Software Technology Research Institute; Institute of Software of CAS
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-07-07

Abstract

本发明公开了一种试题知识点的标注方法、存储介质及设备；包括S1：确定试题与知识点间关系，构建试题‑知识点关系模型；S2：搜集各类学科试题并进行人工知识点标注，然后构建出知识点题库；S3：对知识点题库中内容进行预处理；S4：结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型，通过预处理后的试题文本进行特征提取，以实现对试题相关知识点进行标注的训练；S5：将训练完成后的试题知识点标注模型进行测试，然后应用到试题中知识点的识别标注。上述方案明确了试题、学科与知识点间的关系，以能够同时识别多门学科、多类别的知识点，无需再为各个学科单独构建模型，并对冷门知识点的预测也能保持较高准确率。

Description

一种试题知识点的标注方法、存储介质及设备

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种试题知识点的标注方法、存储介质及设备。

背景技术

互联网时代下的知识共享提供了丰富的学习资源，为了辅助学习，需要将试题与知识点关联起来，对知识点进行标注。一道试题可能涉及很多个知识点，如果能对这些知识点进行标注，就能帮助理解试题所想考察的知识。然而人工标注的成本很高，难度很大，因此试题知识点的标注是一项具有很大挑战性的任务。

对知识点进行标注，仅依靠人工标注是非常困难的：1)难以制定统一的标注标准，会带有标注人很强的主观性；2)标注者需要是相关领域的教师和专家，人力成本大；3)试题和知识点的数目是不断在增长的，依赖人工标注的时间和精力耗费巨大，是不可持续的方式。因此，有方法尝试探索如何自动提取试题中的知识点，如基于知识点与试题文本间的相似度、试题关键词等对试题涉及的知识点进行标注。但是仅仅依靠试题中出现的关键词预测知识点容易出现偏差，还需要在整体语义上的把握。近年来，人工智能技术的发展带动了教育的改革创新，将长短时记忆网络(long short term memory network，LSTM)、卷积神经网络(convolutional neural network，CNN)等结构应用于试题知识点的自动标注任务中，标注效果有了很大提升，但是这些方法仍然存在着特征弱化、样本分布失衡等问题。同时试题知识点的自动标注还面临很多的挑战：1)试题文本长短不一，长试题能达到几百甚至上千字；2)试题文本中可能出现符号或数字等复杂信息；3)每个试题关联的知识点往往不只一个；4)大型试题会涉及大量知识点和多个学科领域。

现有的知识点识别方法有关注知识点与相似题组、隐形话题等之间的关系，如中国发明专利CN110377802A和CN105023214B。在这些场景中，仅依靠相似题组、隐形话题等容易出现偏差，导致知识点标注的效果较差；同时在其他更多的场景中，可能没有相似题组，可能隐形话题间的关系不是那么的明显，这些都会给知识点标注带来更大的挑战。这就需要更多地从整体语义上进行把握，获取更多的上下文信息，提高知识点标注的准确性。

发明内容

本发明针对现有技术中的不足，提供一种试题知识点的标注方法、存储介质及设备；以针对现有技术中知识点识别对题目要求高、速度慢以及准确率低的问题，使得本申请能够提取更全面的语义特征，能够同时提取多门学科、多个类别的知识点，帮助学习和教学。

为实现上述目的，本发明采用以下技术方案：

一种试题知识点的标注方法，包括以下步骤：

S1：确定试题与知识点之间的关系，构建试题-知识点的关系模型；

S2：搜集各类学科试题并进行人工知识点的标注，然后基于步骤S1所构建的关系模型构建出知识点题库；

S3：对知识点题库中的内容进行预处理；

S4：结合多距离上下文融合模块以及BERT编码器构建试题知识点标注模型，通过对步骤S3预处理后的试题文本进行特征提取，从而实现对试题相关知识点进行标注的训练；

S5：将训练完成后的试题知识点标注模型进行测试，然后应用到试题中知识点的识别标注。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1的具体内容为：

所述试题与知识点之间的关系为一道试题至少对应着一个知识点，而知识点之间又存在层级关系，包括父子关系，即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系，即某多个知识点之间所包含的知识范围是并列关系、依赖关系，即多个知识点之间互相依赖，某个或都多个知识点是作为另外某个或某多个知识点的预备知识，通过知识点之间存在的层级关系，自顶向下构建知识点之间的树状结构；

基于上述试题与知识点之间的关系构建试题-知识点的关系模型。

进一步地，步骤S2的具体内容为：

S2.1：搜集各类学科的试题，筛选出清楚完整的试题；

S2.2：由于试题由题目、相对应的答案、解析构成，通过对这三者进行标注，使得每个试题都有对应的一个或多个知识点；

S2.3：通过步骤S1构建的试题-知识点关系模型对试题及相对应的知识点进行整理，构成得到知识点题库。

进一步地，在步骤S2.3中，对成的知识点题库进行预处理：

S3.1：对试题中的文本进行清洗，去掉无用符号、停用词；

S3.2：对试题中的文本进行分词，其中对于中文文本，把每个字和标点符号都作为一个“词”进行分割；对于英文文本，先划分出每个单词和标点，然后识别单词中的子词，并进行子词分割，将每个子词和标点都作为一个“词”；

S3.3：标记试题中的文本边界，即在句子的头部加上[CLS]分类标记，句子的尾部加上[SEP]分隔标记；

S3.4：生成固定长度的文本序列，即设定试题文本长度的最大长度值，记为max_len，对长度超过max_len的试题进行截断，长度不足的则进行填充，填充标记使用[PAD]；

S3.5：生成序列编码，即通过查找词汇表将每个“词”映射为对应的整数编码；

S3.6：对试题中的文本进行词嵌入，通过BERT嵌入层将词离散的整数编码转化为一个低维的连续分布的词向量，然后对试题中的文本进行段嵌入和位置嵌入；其中段嵌入表示词所属句子的信息，对于试题的知识点标注任务，词的来源即当前试题的文本，不涉及第二个文本序列，所以对于每个词段向量的每个位置均为0；位置嵌入表示每个词在句子中的位置信息，位置编号从1开始，遵从词嵌入相同的方式将离散的位置编码转换为连续的位置嵌入；最后将词嵌入、段嵌入、位置嵌入进行信息整合，这里采用对应位置元素相加的方式，得到预处理后的试题文本表示。

进一步地，步骤S4的具体内容为：

S4.1：基于BERT编码器融合词左右两个方向的语义信息，得到试题中文本上下文双向嵌入表达T＝[T_CLS,T₁,T₂,...,T_n,T_SEP]，其中T_CLS是分类标记[CLS]所对应位置的上下文双向嵌入表达，T_SEP是分类标记[SEP]所对应位置的上下文双向嵌入表达，T_i,i＝1,2...,n是各对应位置编码处的上下文双向嵌入表达；

S4.2：由多距离上下文融合模块进一步融合上下文信息，利用CNN关注局部细节对特征进行提取，其中CNN神经网络使用了六类卷积核，大小分别为(3×H),(4×H),(5×H),(10×H),(50×H),(100×H)，其中卷积核的第一维表示卷积窗口覆盖的上下文距离，即词的个数；第二维表示在整个词向量上进行卷积，H表示词向量的长度；

S4.3：对不同卷积核输出的数据，使用LeakyReLU激活函数提取更丰富的非线性特征，然后使用K Max Pooling提炼特征；

S4.4：最后将不同卷积核经过步骤S4.3处理后得到的特征进行连接并展平，得到整个试题中文本的特征；

S4.5：将步骤S4.4提取到的整个试题中文本特征映射到标签空间，通过sigmoid激活层得到试题包含各个知识点的概率，然后选择交叉熵损失函数作为试题知识点标注模型的优化目标，实现对试题知识点标注模型的训练。

进一步地，在步骤S4.2中，CNN神经网络中使用的六类卷积核中，每类卷积核的数量为50个。

一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序使计算机执行如上述的试题知识点标注方法。

一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如如上述的试题知识点标注方法。

本发明的有益效果是：

1、识别速度快：BERT嵌入层通过线性变换将离散向量转换为低维空间的连续向量，减少了存储和计算资源的消耗，提高了识别速度。

2、识别准确率高：多距离上下文融合模块提取不同上下文距离的特征，这样提取的语义特征也更全面，能够提高知识点识别的准确率。

3、识别鲁棒性高：多距离上下文融合模块在提高准确率的同时，对新出现的知识点、冷门的知识点也有着很好的表现，适用性更好，鲁棒性更高。

4、识别效率高：尽管试题可能属于多个学科，知识点间可能存在层级关系、依赖关系，但是通过构建知识点标注模型可以同时考虑多门学科、多种类别的知识点，而无需再为各个学科单独构建模型，无需关注知识点的内部关系，从而可以大大简化知识点标注的流程，提高知识点标注的效率。

附图说明

图1是本发明试题知识点标注模型结构示意图。

具体实施方式

下面结合附图详细说明本发明。

参考图1，本申请整体技术方案如下：

一种试题知识点的标注方法，包括以下步骤：

S3：对知识点题库中的内容进行预处理；

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1的具体内容为：

一道试题属于一个学科，该试题相应的知识点也属于这个学科；所述试题与知识点之间的关系为一道试题至少对应着一个知识点，而知识点之间又存在层级关系，包括父子关系，即某个知识点所包含的知识范围包括了其他知识点所包含的知识范围、兄弟关系，即某多个知识点之间所包含的知识范围是并列关系、依赖关系，即多个知识点之间互相依赖，某个或都多个知识点是作为另外某个或某多个知识点的预备知识，通过知识点之间存在的层级关系，自顶向下构建知识点之间的树状结构；

进一步地，步骤S2的具体内容为：

S2.1：搜集各类学科的试题，筛选出清楚完整的试题；

进一步地，在步骤S2.3中，由于试题文本的原始数据长短不一，且可能存在OOV问题，因此对成的知识点题库进行预处理：

S3.1：对试题中的文本进行清洗，去掉无用符号、停用词；

S3.2：对试题中的文本进行分词，对于中文文本，把每个字或者标点符号都作为一个“词”(token)进行分割；对于英文文本，先划分每个单词和标点，然后对单词进行子词分割，如“playing”会被进一步分割为“play”和“ing”，这样有利于压缩词汇表，子词表达的意思也更加清晰明确；

进一步地，试题文本的长短各异，长试题可以到达几百甚至上千字，如果不能从整体语义上对试题进行把握，容易导致预测出现偏差，本发明中提出特征提取方法，利用BERT编码器提取文本的全局语义特征，融合卷积神经网络补充不同局部视野的语义信息，使模型在长短试题文本上都能全面地提取特征。因此步骤S4的具体内容为：

本发明提出的方法基于BERT编码器，提出了新的多距离上下文融合模块，在提取文本的全局语义特征的基础上，融合卷积神经网络从细节补充不同局部视野的语义信息，提高了知识点识别的准确率，同时使模型在长短试题文本上都能全面地提取特征，增强了模型的适用性。设计的试题知识点标注模型能够更全面地提取特征，可以同时对多门学科、多种类别的知识点进行识别，速度更快，精度更高，鲁棒性更强，效率更高。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种试题知识点的标注方法，其特征在于，包括以下步骤：

S3：对知识点题库中的内容进行预处理；

2.根据权利要求1所述的一种试题知识点的标注方法，其特征在于，步骤S1的具体内容为：

3.根据权利要求1所述的一种试题知识点的标注方法，其特征在于，步骤S2的具体内容为：

S2.1：搜集各类学科的试题，筛选出清楚完整的试题；

4.根据权利要求1所述的一种试题知识点的标注方法，其特征在于，在步骤S2.3中，对成的知识点题库进行预处理：

S3.1：对试题中的文本进行清洗，去掉无用符号、停用词；

5.根据权利要求1所述的一种试题知识点的标注方法，其特征在于，步骤S4的具体内容为：

S4.3：对不同卷积核输出的数据，使用LeakyReLU激活函数提取更丰富的非线性特征，然后使用KMaxPooling提炼特征；

6.根据权利要求5所述的一种试题知识点的标注方法，其特征在于，在步骤S4.2中，CNN神经网络中使用的六类卷积核中，每类卷积核的数量为50个。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序使计算机执行如权利要求1-6任一项所述的试题知识点标注方法。

8.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如权利要求1-6任一项所述的所述的试题知识点标注方法。