CN112395858A

CN112395858A - 融合试题数据和解答数据的多知识点标注方法和系统

Info

Publication number: CN112395858A
Application number: CN202011282980.0A
Authority: CN
Inventors: 黄涛; 刘三女牙; 杨宗凯; 杨华利; 刘子迁; 张�浩; 胡盛泽; 田刚鸿
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-23
Anticipated expiration: 2040-11-17
Also published as: CN112395858B

Abstract

本发明公开了一种融合试题数据和解答数据的多知识点标注方法及系统。该方法包括步骤：采集试题数据，所述试题数据包括题目文本和解答文本，将所述题目文本和所述解答文本输入预先训练好的语言模型，以分别提取所述题目文本和所述解答文本的词向量，获得题目文本词向量和解答文本词向量；将所述题目文本词向量和所述解答文本词向量进行向量融合处理，获得融合词向量；将所述融合词向量输入预先训练好的多知识点分类模型，获得所述试题数据的知识点标签。本发明通过对信息表达有效性的提升，以及增加并扩充特征信息，即从纵向和横向提升了特征信息的准确性和维度，从而改进了最终知识点标注的准确度。

Description

融合试题数据和解答数据的多知识点标注方法和系统

技术领域

本发明属于自然语言处理技术领域，更具体地，涉及一种融合试题数据和解答数据的多知识点标注方法及系统。

背景技术

文本分类是指利用计算机处理技术将无类别信息的文本数据划分到已知的类别的过程。文本分类是自然语言处理(NLP)方法中常见的应用，基于计算机的文本分类技术是文本挖掘与机器学习领域的重要研究内容之一，被广泛用于数字图书馆、个性化推荐以及智慧教育等领域。相对于人工分类，基于计算机的文本分类技术可以提升知识点标注的效率，节约时间和费用，并且同时保证较高的准确性。

知识点是指在教育教学活动过程当中对于教学信息的基本的组织单元和传递单元，它包括概念、公式、定义、定理、定律等，同时也属于布鲁姆分类学对于目标的陈述中的名词部分。知识点标注任务就是为试题数据标注其考察的知识点，属于文本分类的应用之一。现在技术中，使用较为广泛的试题自动标注都是单一知识点的自动分类。但是，在实际应用中，试题所考察的知识点通常并不唯一，所以现有的知识点标注方法无法满足为每道试题标注多个知识点的需求，导致不能利用计算机准确地进行多知识点标注，无法为各种应用场景提供有效的数据信息。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种融合试题数据和解答数据的多知识点标注方法及系统，可以提升多知识点标注的准确度。

为实现上述目的，按照本发明的第一方面，提供了一种融合试题数据和解答数据的多知识点标注方法，包括步骤：

采集试题数据，所述试题数据包括题目文本和解答文本，将所述题目文本和所述解答文本输入预先训练好的语言模型，以分别提取所述题目文本和所述解答文本的词向量，获得题目文本词向量和解答文本词向量；

将所述题目文本词向量和所述解答文本词向量进行向量融合处理，获得融合词向量；

将所述融合词向量输入预先训练好的多知识点分类模型，获得所述试题数据的知识点标签。

优选的，所述语言模型的训练包括步骤：

按照停顿符号将所述题目文本和所述解答文本进行分割，获得多行第一文本，从多行所述第一文本中的任意一行开始，选取多个不超过预设长度的文本，获得多个第二文本，按照预设比例将所述第二文本中的部分用掩码或其他单词替换，获得多个第一预训练样本；

利用所述第一预训练样本对所述特征提取模型进行训练；

利用所述题目文本和所述解答文本的关联关系，构建多个第二预训练样本；

利用所述第二预训练样本对所述特征提取模型进行训练。

优选的，所述向量融合处理包括步骤：

分别提取所述题目文本词向量和所述解答文本词向量的类别向量，获得题目文本类别向量和解答文本类别向量；

分别将所述题目文本词向量和所述解答文本词向量输入到注意力网络，获得题目文本全局向量和解答文本全局向量；

将题目文本类别向量、题目文本全局向量、解答文本类别向量和解答文本全局向量进行融合处理。

优选的，所述多知识点分类模型包括多个二分类器，所述二分类器的数量和知识点标签的总类别数量相同。

优选的，所述二分类器的激活函数为sigmod函数，损失函数为二元交叉熵函数。

优选的，将所述试题文本和所述解答文本输入到所述特征提取模型前，对所述试题文本和所述解答文本进行文本规范化处理、数学公式转换处理和数学实体同义化处理。

优选的，所述文本规范化处理包括步骤：

预先构建映射表，所述映射表采用哈希地图存储有不规范字符和规范字符间的映射关系；

遍历所述题目文本和所述解答文本中的字符，根据所述映射表将所述题目文本和所述解答文本中的不规范字符替换为规范字符；

优选的，所述数学公式转换处理包括步骤：

将所述题目文本和所述解答文本中图片格式的数学公式转换为文本格式；

优选的，所述数学实体同义化处理包括步骤：

预先构建本体库，所述本体库中存储有单词和本体词的映射关系；

遍历所述题目文本和所述解答文本中的单词，根据所述本体库将所述题目文本和所述解答文本中的单词替换为本体词。

按照本发明的第二方面，提供了一种融合试题数据和解答数据的多知识点标注系统，包括：

词向量提取模块，用于采集试题数据，所述试题数据包括题目文本和解答文本，将所述题目文本和所述解答文本输入预先训练好的特征提取模型，以分别提取所述题目文本和所述解答文本的词向量，获得题目文本词向量和解答文本词向量；

向量融合处理模块，用于将所述题目文本词向量和所述解答文本词向量进行向量融合处理，获得融合词向量；

标签输出模块，用于将所述融合词向量输入预先训练好的多知识点分类模型，获得所述试题数据的知识点标签。

总体而言，本发明实施例针对多知识点标注任务进行了实现。将预训练语言模型和迁移学习应用于多知识点标注任务，能极大增加词向量所表达信息的有效性，有利于对试题信息在计算机中的表达。将多特征融合应用于多知识点标注任务，能增加并扩充特征信息，有利于标注任务准确度的提升。通过对信息表达有效性的提升，将会使用于分类的文本信息表达更为精准，使其更贴合于当前标注任务；通过增加并扩充特征信息，使特征信息的数量更加丰富，携带的信息量更大。综合以上两项的情况，即从纵向和横向提升了特征信息的准确性和维度，从而改进了最终标注结果的准确度。

附图说明

图1是本发明实施例的多知识点标注方法的原理示意图；

图2是本发明实施例的向量融合处理的原理示意图；

图3是本发明实施例的多知识点分类模型的原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例的一种融合试题数据和解答数据的多知识点标注方法，是基于利用计算机处理技术实现的，将无类别信息的试题数据划分到已知的多个知识点标签类别的过程。知识点标注是自然语言处理(NLP)方法中常见的应用，可以广泛用于数字图书馆、个性化推荐以及智慧教育等领域。上述融合试题数据和解答数据的多知识点标注方法可以在服务器或者计算机终端上实现。

图1为本发明实施例的一种融合试题数据和解答数据的多知识点标注方法的原理示意图。该多知识点标注方法，包括步骤S1至S3。

S1，采集试题数据，该试题数据包括题目文本和解答文本，将题目文本和解答文本输入预先训练好的语言模型，以分别提取题目文本和解答文本的词向量，获得题目文本词向量和解答文本词向量。

以下以试题为数据试题作为示例进行说明。

优选的，将试题文本和解答文本输入到特征提取模型前，对试题文本和解答文本进行文本规范化处理、数学公式转换处理(Latex转换)和数学实体同义化处理。

文本规范化是指将不规范的文本和符号进行替换或删除。优选的，文本规范化处理包括步骤：

预先构建映射表，映射表采用哈希地图(HashMap)存储有不规范字符和规范字符间的映射关系，例如将“，空格字符”替换为“,”将保存在文件中的规范符号规范映射表加载到内存；遍历题目文本和解答文本中的字符，根据映射表将题目文本和解答文本中的不规范字符替换为规范字符，返回规范化后的新字符串；

优选的，数学公式转换处理包括步骤：将题目文本和解答文本中图片格式的数学公式转换为文本格式。数学公式转换是指数学试题中通常涉及文字和图片，图片以链接的形式嵌入到数学文本的表述当中，图片并非指初中数学中的几何图形，而是指数学文本中的数学公式，需要提前将图片格式的数学公式转换成文字格式。

优选的，数学实体同义化处理包括步骤：预先构建本体库，本体库中存储有单词和本体词的映射关系；遍历题目文本和解答文本中的单词，根据本体库将题目文本和解答文本中的单词替换为本体词，即查看每个词是否能匹配到库中的本体，若能匹配则将对应的单词替换为本体词表示的统一形式；如果匹配不到，代表不是本体领域词，则保留原单词。

提取题目文本和解答文本的词向量是使用预先训练好的语言模型实现的，语言模型可采用改进的Bert模型。预训练阶段分为两个任务，分别是掩码预测任务(MaskedLanguage Model，MLM)和解答文本预测任务(Question-Resolve Prediction，QRP)。掩码预测任务需要预测文本中被掩盖位置的正确单词，解答文本预测任务需要判断下一句是否是解答文本。

语言模型的训练包括步骤：按照停顿符号将题目文本和解答文本进行分割，获得多行第一文本，从多行第一文本中的任意一行开始，选取多个不超过预设长度的文本，获得多个第二文本，按照预设比例将第二文本中的部分用掩码或其他单词替换，获得多个第一预训练样本；利用第一预训练样本对特征提取模型进行训练；利用题目文本和解答文本的关联关系，构建多个第二预训练样本；利用第二预训练样本对特征提取模型进行训练。

具体说明上述训练的优选实现方式。

对于MLM任务，给定一段带有“[MASK]”标志的数学试题，预测“[MASK]”标志替换掉的单词，预训练阶段需要生成大量的带有“[MASK]”标志的预训练文本。具体地，预训练文本的生成包括主要分为两个阶段，第一阶段按照停顿符号将数学试题切割成多行，由于数学集合中点的表示会使用逗号，所以分割时不适用逗号进行切割；第二阶段从多行文本的任意一行出发，选取不超过指定长度的数学文本，按照15％的比例对数学文本中部分单词用“[MASK]”或者字典中的其他词语进行替换。为能够从少量的数学试题生成大量的训练数据，每一道数学试题采样10个训练样本。

由于在输入中加入了答案的输入信息，因此充分利用题目和答案本身的关联关系，设计了通过题目预测下一句是否是解答的“Question-Resolve Prediction”任务。

最后在使用了海量数据量进行了预训练的标准模型基础上，继续使用我们的数学试题文本进一步预训练，并保存结果。最后进行训练，生成充分学习了语言结构信息的768维词向量。

S2，将题目文本词向量和解答文本词向量进行向量融合处理，获得融合词向量。

通常依据特征融合是在训练分类器之前还是之后将特征融合划分为前期融合和后期融合，前期融合通常简单高效，将不同种类的特征归一化之后共同构建特征矩阵，使用组合的特征矩阵完成最后的分类，而后期融合则是在分类器之后，基于一定的规则融合多个分类器的结果实现特征的融合，这里的规则最朴素的就是投票规则。具体首先使用不同的分类器得到不同特征的输出类别，之后由各个分类器的分类结果投票决定最终模型的分类结果。而本发明实施例中使用了前期融合，除了简单高效之外，在分类器之前的特征保留了必要的、显著的信息，既降低原始数据的冗余性，减少数据噪声，又比分类器决策结果有更充分的数据信息，数据量和数据维度适中，因此在这个层次上进行融合是本方法最优的选择。

图2是向量融合处理的优选实现方式的原理示意图。该向量融合处理包括步骤：

S21，分别提取题目文本词向量和解答文本词向量的类别向量，获得题目文本类别向量和解答文本类别向量。

S22，分别将题目文本词向量和解答文本词向量输入到注意力网络，获得题目文本全局向量和解答文本全局向量。通过对试题词向量和解答词向量分别加入注意力网络层，使模型学习到前后的关联信息，分别生成各自的全局向量。

S23，将题目文本类别向量、题目文本全局向量、解答文本类别向量和解答文本全局向量进行融合处理。可使用Concatenate作为融合层，融合四个向量。

S3，将融合词向量输入预先训练好的多知识点分类模型，获得试题数据的知识点标签。

使用多知识点分类器判断出试题所属的知识点，给予对应的知识点标签，可适用于多个知识点的标注。

图3是多知识点分类模型的优选实现方式的原理示意图。优选的，多知识点分类模型包括多个二分类器，二分类器的数量和知识点标签的总类别数量相同。即假设所有的试题数据包括N个知识点，则会预定义N个知识点标签，某一试题数据可能会被标注这N个知识点标签中的一个或多个。那么多知识点分类模型中也包括N个二分类器。每个分类器对应其中一种知识点的分类，对在每个分类器中的运算值大于0.5的类别，则认为试题数据包含该类别。

通过上述方法，将对多标签的处理采用了转化为单标签分类的思想，即通过在多个标签上的分别构造二分模型，将多标签分类问题转换为类似于多任务模型的多个单标签二分类预测问题。

优选的，二分类器的激活函数为sigmod函数，损失函数为二元交叉熵函数(binary_crossentropy)，使得模型在训练过程中不断降低输出和标签之间的交叉熵。

上述多知识点标准方法除了包括知识点预测功能外，还可以包括人工纠错、自动训练功能。

知识点预测。经过了一些相关数据集的训练，具有比较高的预测准确率，当使用对象批量的导入题目信息时，系统会自动的预测每个试题涉及的知识点。

人工纠错。多知识点分类模型预测的准确度无法保证为100％。因此，赋予了教师等使用者人工纠错的权限，修改预测错误的知识点，记录并保存修改日志。

自动训练。当检测到增加了题库信息，或者有人工纠错的记录，则系统会定时地在使用低频率时间段对当前整个现有题库的数据集进行自动训练。

与现有技术相比，本发明实施例具有以下优点的至少一个：

1.现在，使用较为广泛的试题自动标注都是单一知识点的自动分类，但实际情况下每个试题往往对应多个知识点。本发明实施例针对数学多知识点标注任务进行了实现。

2.目前，对于文本数据的表示，大多选择的是使用word2vec的词向量表示方法。但是其存在表示不准确，并且不能针对新的文本提供动态词向量表示的问题。本发明实施例使用预训练语言模型——BERT，并且通过改进预训练阶段的任务来动态表示词向量。

3.目前，试题自动标注大多采用只输入题目特征信息的单输入模型，使得分类的准确性一直存在瓶颈，本发明实施例充分利用已有信息，增加了题目解答的信息作为输入，并在最后环节采用前期融合方式横向扩充了决策信息。并为以后BERT处理其他问题的多输入提供了解决方案和思路。

本发明实施例的一种融合试题数据和解答数据的多知识点标注系统，包括：

词向量提取模块，用于采集试题数据，试题数据包括题目文本和解答文本，将题目文本和解答文本输入预先训练好的特征提取模型，以分别提取题目文本和解答文本的词向量，获得题目文本词向量和解答文本词向量；

向量融合处理模块，用于将题目文本词向量和解答文本词向量进行向量融合处理，获得融合词向量；

标签输出模块，用于将融合词向量输入预先训练好的多知识点分类模型，获得试题数据的知识点标签。

多知识点标注系统的实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合试题数据和解答数据的多知识点标注方法，其特征在于，包括步骤：

2.如权利要求1所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述语言模型的训练包括步骤：

利用所述第一预训练样本对所述特征提取模型进行训练；

利用所述第二预训练样本对所述特征提取模型进行训练。

3.如权利要求1所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述向量融合处理包括步骤：

4.如权利要求1所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述多知识点分类模型包括多个二分类器，所述二分类器的数量和知识点标签的总类别数量相同。

5.如权利要求4所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述二分类器的激活函数为sigmod函数，损失函数为二元交叉熵函数。

6.如权利要求1所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，将所述试题文本和所述解答文本输入到所述特征提取模型前，对所述试题文本和所述解答文本进行文本规范化处理、数学公式转换处理和数学实体同义化处理。

7.如权利要求6所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述文本规范化处理包括步骤：

遍历所述题目文本和所述解答文本中的字符，根据所述映射表将所述题目文本和所述解答文本中的不规范字符替换为规范字符。

8.如权利要求6所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述数学公式转换处理包括步骤：

将所述题目文本和所述解答文本中图片格式的数学公式转换为文本格式。

9.如权利要求6所述的一种融合试题数据和解答数据的多知识点标注方法，其特征在于，所述数学实体同义化处理包括步骤：

10.一种融合试题数据和解答数据的多知识点标注系统，其特征在于，包括：