CN113657089A

CN113657089A - 一种英语阅读理解辅助出题方法及系统

Info

Publication number: CN113657089A
Application number: CN202110963497.7A
Authority: CN
Inventors: 李辉; 司一鸣; 祖航
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-16

Abstract

本发明公开了一种英语阅读理解辅助出题方法及系统，包括：获取用户输入的文本，将用户输入的文本划分为若干文本片段；根据划分得到的文本片段生成问题；根据生成的问题预测问题的答案；对生成的问题以及预测得到问题的答案进行过滤，得过滤后的问题以及预测得到的答案，然后根据过滤后的问题以及预测得到的答案构建问题集，该方法及系统能够解决现有机器阅读理解技术结果可用性差的问题。

Description

一种英语阅读理解辅助出题方法及系统

技术领域

本发明属于计算机技术领域，涉及一种英语阅读理解辅助出题方法及系统。

背景技术

机器阅读理解技术为计算机赋予了阅读、分析和归纳文本的能力。机器阅读理解技术。随着该技术的发展，可以被应用于智能教育，利用计算机辅助人类学习语言。

机器阅读理解在智能教育的领域经常被用于生成给定问题的答案。例如专利“基于人工智能的阅读理解方法及相关设备”(CN111753521A)提出了一种基于人工智能的阅读理解方法，可以给出需要进行阅读理解的目标文档匹配的目标问题的答案。在这一领域的应用还有自动问题生成。例如专利一种关于英语阅读理解测试疑问式简答题的自动化命题方法(CN103823794A)，该方法基于词频密度、段落长度和句义近似度选取考点句子；根据词汇功能语法理论将陈述句转化为疑问句；最后对疑问句实施同义词替换和代词替换，形成疑问式简答题。

现有的专利只关注阅读理解问题生成或者问题回答的一端，只能输出给定文本相关的答案，或者给定文本相关问题的答案。并且基于语言学对原文进行同义词替换的传统方法，其生成的结果无法挖掘文章深层的信息。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种英语阅读理解辅助出题方法及系统，该方法及系统能够解决现有机器阅读理解技术结果可用性差的问题。

为达到上述目的，本发明所述的英语阅读理解辅助出题方法包括：

获取用户输入的文本，将用户输入的文本划分为若干文本片段；

根据划分得到的文本片段生成问题；

根据生成的问题预测问题的答案；

对生成的问题以及预测得到问题的答案进行过滤，得过滤后的问题以及预测得到的答案，然后根据过滤后的问题以及预测得到的答案构建问题集。

根据生成的问题利用预训练语言模型BERT预测问题的答案。

将用户输入的文本利用python的开源自然语言处理库spaCy的语言模型划分为若干文本片段。

对用户输入的文本进行sentence segment及NER。

根据准确率及召回率对生成的问题以及预测得到问题的答案进行过滤。

还包括：显示过滤后的问题、预测得到的答案、用户输入的文本以及对应的片段。

一种英语阅读理解辅助出题系统包括：

文本分段模块，用于获取用户输入的文本，将用户输入的文本划分为若干文本片段；

问题自动生成模块，用于根据划分得到的文本片段生成问题；

答案生成模块，用于根据生成的问题预测问题的答案；

问答筛选模块，用于对生成的问题以及预测得到问题的答案进行过滤，得过滤后的问题以及预测得到的答案。

本发明具有以下有益效果：

本发明所述的英语阅读理解辅助出题方法及系统在具体操作时，将用户输入的文本分为若干文本片段，再获取各文本片段对应的问题及答案，然后进行过滤掉质量较差的问题及其对应的答案，在实际操作时，可以根据过滤后的问题及答案生成问题集，便于用户进行选择，以解决现有机器阅读理解技术结果可用性差的问题。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的系统架构图；

图2为用户输入的结构图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

参考图1及图2，本发明所述的英语阅读理解辅助出题方法包括以下步骤：

1)获取用户输入文本，将用户输入文本分隔为若干片段；

由于现有主流的自动问题生成技术依赖于问题的答案，即生成答案为给定片段的问题，这些片段称为answer span。以原文的每一句话作为划分是比较自然也符合文章逻辑的方式。本发明将文本划分成句子的集合，利用python的开源自然语言处理库spaCy的语言模型en_core_web_sm够预测文本的语言特征，具体的，语言模型en_core_web_sm首先将文本标记化生成Doc对象，再依次在几个不同的处理管道中处理Doc，本发明使用其中的句子分割sentence segment(句子分割)和ner(命名实体识别)处理管道的结果，前者为模型预测的句子分割结果，包含一句话及其开始位置；后者得到模型预测原文中命名实体的列表。运用二者可以构建初始化后的文章，其中，分割后的句子或者命名实体作为该片段的answer span，即原始答案，同时记录其在原文中的起始位置，并最终保存于pickle文件中。

2)根据各片段的answer span生成答案，为这些span的问题。具体的，采用开源的预训练语言模型GPT-2，其中，开源的预训练语言模型GPT-2为基于带有解码器的Transformer的预训练语言模型，可应用于自动问题生成等自然语言生产(NLG)任务。问题生成任务定义为：给定答案和原文信息(context)，预测最有可能作为该答案的问题，预训练语言模型GPT-2预测输入文本空间的概率分布，并通过解码器进行解码，其中，本发明采用微调过的GPT-2模型。

具体操作过程为：分别对段落及其answer span采用GPT2tokenizer进行令牌化，使用词表中的ID表示成张量，再采用GPT-2的segment embedding对序列进行分割嵌入，指出answer span在段落中的位置。参考图2，模型的输入包含segment embedding段落的分割嵌入，positional embedding位置嵌入以及word embedding词嵌入向量。

然后对输入的序列进行采样，以解码问题，具体的，输入段落信息，通过模型进行一次前向传播，得到的隐藏状态作为迭代的初始化状态past，对于同一段落的answerspan，复用同一段落信息的缓存。在之后的迭代中，模型的输出logits及past被迭代更新。对于模型的输出张量logits即表示当前词汇的未归一化的条件概率分布，输出张量logits的大小为词表的大小。为将该分布映射到某一个具体的词上，需要进行解码，本发明使用top-p核采样，采样后在softMax层进行归一化，得输出单词的概率，并解码出的单词加入到生成的问题中。

本发明采用开源的、训练好的GPT2语言模型，该模型训练阶段给训练集中的每个问题打上一个一般性(specificity)标签，对其是一般疑问句还是特殊疑问句进行标记。在利用该模型进行推理生成问题时，也需要输入一个一般性标签，以生成属于该标签的问题。本发明对一个具体的answer span做以下处理，当answer span为某一句话时，标签为“general”，利用该句生成一个一般疑问句；输入为命名实体时，标签为“specific”，利用该命名实体生成一个特殊疑问句。例如，文章的某一句话可能对应一个或多个一般疑问句或特殊疑问句，一定程度上可以保证生成问题的多样性，因此得到一系列的span以及对应的问题，将两者结合起来作为初步的问题-答案对，然后将得到的问题-答案对保存为json文件，保存的格式采用斯坦福的机器阅读理解数据集SQuAD2.0的格式，包含段落(context)，问题以及问题的答案(answer span)及位置。

3)获取步骤2)得到的问题，利用预训练语言模型BERT预测问题的答案，本发明采用BERT官方实现的机器阅读理解的微调代码run_squad.py，由于上一步保存的原文和问题的格式采用SQuAD2.0的格式，可以比较容易地得到问题的答案。

4)对步骤3)得到的答案及其对应的问题进行过滤，以删除问答对质量不佳的；

BERT的squad_eval_utils可以计算原文和预测答案的一些metrics。在过滤阶段，本发明利用这些metrics设计了一种启发式的过滤方法，分两步进行：1)计算问题的答案与原始答案(answer span)的重叠分数，以此决定是否保留某些问答对，并决定最终的答案使用answer span还是BERT预测的答案。BERT模型的evaluate工具可以输出一些指标，包括答案和原文的绝对匹配度(exact_match)及答案和原文的f1匹配度(f1_match)，当答案和answer span完全不重叠，则说明该问答对和原文(answer span)不匹配，则过滤掉该答案。对于答案与answer span部分重叠的情况，采用BERT预测的答案作为最终的答案，同时保留answer span为该问题的answer span。2)，通过准确率及召回率来考察问题和答案，对这些问题和答案按照这两个指标排序后，根据上述过滤分数过滤掉最小的若干问答对。

得过滤后的结果，包含用户输入原文、answer span、问题及答案，按照answerspan排序后，合并重叠的span。并将对应的问答对组织在一起，表示为一个知识点(answerspan)对应的问答对。由所有answer span覆盖整篇文章，按照answer span组织成“answerspan–问答对集合”的对象。

5)对过滤后的结果进行显示，其中，一篇文章包含若干自然段，自然段中包含若干可以点按的片段，这些片段被点击后可以显示其中包含的问题及答案，以这些片段为单位重新构建原文，用户可以像平时阅读文章那样浏览文章，并交互式地查看任意片段对应的问题和答案，并进行选择，最后输出为文件。

一种英语阅读理解辅助出题系统包括：

答案生成模块，用于根据生成的问题预测问题的答案；

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种英语阅读理解辅助出题方法，其特征在于，包括：

根据划分得到的文本片段生成问题；

根据生成的问题预测问题的答案；

2.根据权利要求1所述的英语阅读理解辅助出题方法，其特征在于，根据生成的问题利用预训练语言模型BERT预测问题的答案。

3.根据权利要求1所述的英语阅读理解辅助出题方法，其特征在于，将用户输入的文本利用python的开源自然语言处理库spaCy的语言模型划分为若干文本片段。

4.根据权利要求1所述的英语阅读理解辅助出题方法，其特征在于，对用户输入的文本进行sentence segment及NER。

5.根据权利要求1所述的英语阅读理解辅助出题方法，其特征在于，利用BERT的squad_eval_utils生成的指标对生成的问题以及预测得到问题的答案进行过滤。

6.根据权利要求1所述的英语阅读理解辅助出题方法，其特征在于，还包括：显示过滤后的问题、预测得到的答案、用户输入的文本以及对应的片段。

7.一种英语阅读理解辅助出题系统，其特征在于，包括：

答案生成模块，用于根据生成的问题预测问题的答案；