CN113657089A - 一种英语阅读理解辅助出题方法及系统 - Google Patents
一种英语阅读理解辅助出题方法及系统 Download PDFInfo
- Publication number
- CN113657089A CN113657089A CN202110963497.7A CN202110963497A CN113657089A CN 113657089 A CN113657089 A CN 113657089A CN 202110963497 A CN202110963497 A CN 202110963497A CN 113657089 A CN113657089 A CN 113657089A
- Authority
- CN
- China
- Prior art keywords
- question
- questions
- text
- answers
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000012634 fragment Substances 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 13
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 8
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 6
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 5
- 238000005070 sampling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000021110 pickles Nutrition 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种英语阅读理解辅助出题方法及系统,包括:获取用户输入的文本,将用户输入的文本划分为若干文本片段;根据划分得到的文本片段生成问题;根据生成的问题预测问题的答案;对生成的问题以及预测得到问题的答案进行过滤,得过滤后的问题以及预测得到的答案,然后根据过滤后的问题以及预测得到的答案构建问题集,该方法及系统能够解决现有机器阅读理解技术结果可用性差的问题。
Description
技术领域
本发明属于计算机技术领域,涉及一种英语阅读理解辅助出题方法及系统。
背景技术
机器阅读理解技术为计算机赋予了阅读、分析和归纳文本的能力。机器阅读理解技术。随着该技术的发展,可以被应用于智能教育,利用计算机辅助人类学习语言。
机器阅读理解在智能教育的领域经常被用于生成给定问题的答案。例如专利“基于人工智能的阅读理解方法及相关设备”(CN111753521A)提出了一种基于人工智能的阅读理解方法,可以给出需要进行阅读理解的目标文档匹配的目标问题的答案。在这一领域的应用还有自动问题生成。例如专利一种关于英语阅读理解测试疑问式简答题的自动化命题方法(CN103823794A),该方法基于词频密度、段落长度和句义近似度选取考点句子;根据词汇功能语法理论将陈述句转化为疑问句;最后对疑问句实施同义词替换和代词替换,形成疑问式简答题。
现有的专利只关注阅读理解问题生成或者问题回答的一端,只能输出给定文本相关的答案,或者给定文本相关问题的答案。并且基于语言学对原文进行同义词替换的传统方法,其生成的结果无法挖掘文章深层的信息。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种英语阅读理解辅助出题方法及系统,该方法及系统能够解决现有机器阅读理解技术结果可用性差的问题。
为达到上述目的,本发明所述的英语阅读理解辅助出题方法包括:
获取用户输入的文本,将用户输入的文本划分为若干文本片段;
根据划分得到的文本片段生成问题;
根据生成的问题预测问题的答案;
对生成的问题以及预测得到问题的答案进行过滤,得过滤后的问题以及预测得到的答案,然后根据过滤后的问题以及预测得到的答案构建问题集。
根据生成的问题利用预训练语言模型BERT预测问题的答案。
将用户输入的文本利用python的开源自然语言处理库spaCy的语言模型划分为若干文本片段。
对用户输入的文本进行sentence segment及NER。
根据准确率及召回率对生成的问题以及预测得到问题的答案进行过滤。
还包括:显示过滤后的问题、预测得到的答案、用户输入的文本以及对应的片段。
一种英语阅读理解辅助出题系统包括:
文本分段模块,用于获取用户输入的文本,将用户输入的文本划分为若干文本片段;
问题自动生成模块,用于根据划分得到的文本片段生成问题;
答案生成模块,用于根据生成的问题预测问题的答案;
问答筛选模块,用于对生成的问题以及预测得到问题的答案进行过滤,得过滤后的问题以及预测得到的答案。
本发明具有以下有益效果:
本发明所述的英语阅读理解辅助出题方法及系统在具体操作时,将用户输入的文本分为若干文本片段,再获取各文本片段对应的问题及答案,然后进行过滤掉质量较差的问题及其对应的答案,在实际操作时,可以根据过滤后的问题及答案生成问题集,便于用户进行选择,以解决现有机器阅读理解技术结果可用性差的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的系统架构图;
图2为用户输入的结构图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
参考图1及图2,本发明所述的英语阅读理解辅助出题方法包括以下步骤:
1)获取用户输入文本,将用户输入文本分隔为若干片段;
由于现有主流的自动问题生成技术依赖于问题的答案,即生成答案为给定片段的问题,这些片段称为answer span。以原文的每一句话作为划分是比较自然也符合文章逻辑的方式。本发明将文本划分成句子的集合,利用python的开源自然语言处理库spaCy的语言模型en_core_web_sm够预测文本的语言特征,具体的,语言模型en_core_web_sm首先将文本标记化生成Doc对象,再依次在几个不同的处理管道中处理Doc,本发明使用其中的句子分割sentence segment(句子分割)和ner(命名实体识别)处理管道的结果,前者为模型预测的句子分割结果,包含一句话及其开始位置;后者得到模型预测原文中命名实体的列表。运用二者可以构建初始化后的文章,其中,分割后的句子或者命名实体作为该片段的answer span,即原始答案,同时记录其在原文中的起始位置,并最终保存于pickle文件中。
2)根据各片段的answer span生成答案,为这些span的问题。具体的,采用开源的预训练语言模型GPT-2,其中,开源的预训练语言模型GPT-2为基于带有解码器的Transformer的预训练语言模型,可应用于自动问题生成等自然语言生产(NLG)任务。问题生成任务定义为:给定答案和原文信息(context),预测最有可能作为该答案的问题,预训练语言模型GPT-2预测输入文本空间的概率分布,并通过解码器进行解码,其中,本发明采用微调过的GPT-2模型。
具体操作过程为:分别对段落及其answer span采用GPT2tokenizer进行令牌化,使用词表中的ID表示成张量,再采用GPT-2的segment embedding对序列进行分割嵌入,指出answer span在段落中的位置。参考图2,模型的输入包含segment embedding段落的分割嵌入,positional embedding位置嵌入以及word embedding词嵌入向量。
然后对输入的序列进行采样,以解码问题,具体的,输入段落信息,通过模型进行一次前向传播,得到的隐藏状态作为迭代的初始化状态past,对于同一段落的answerspan,复用同一段落信息的缓存。在之后的迭代中,模型的输出logits及past被迭代更新。对于模型的输出张量logits即表示当前词汇的未归一化的条件概率分布,输出张量logits的大小为词表的大小。为将该分布映射到某一个具体的词上,需要进行解码,本发明使用top-p核采样,采样后在softMax层进行归一化,得输出单词的概率,并解码出的单词加入到生成的问题中。
本发明采用开源的、训练好的GPT2语言模型,该模型训练阶段给训练集中的每个问题打上一个一般性(specificity)标签,对其是一般疑问句还是特殊疑问句进行标记。在利用该模型进行推理生成问题时,也需要输入一个一般性标签,以生成属于该标签的问题。本发明对一个具体的answer span做以下处理,当answer span为某一句话时,标签为“general”,利用该句生成一个一般疑问句;输入为命名实体时,标签为“specific”,利用该命名实体生成一个特殊疑问句。例如,文章的某一句话可能对应一个或多个一般疑问句或特殊疑问句,一定程度上可以保证生成问题的多样性,因此得到一系列的span以及对应的问题,将两者结合起来作为初步的问题-答案对,然后将得到的问题-答案对保存为json文件,保存的格式采用斯坦福的机器阅读理解数据集SQuAD2.0的格式,包含段落(context),问题以及问题的答案(answer span)及位置。
3)获取步骤2)得到的问题,利用预训练语言模型BERT预测问题的答案,本发明采用BERT官方实现的机器阅读理解的微调代码run_squad.py,由于上一步保存的原文和问题的格式采用SQuAD2.0的格式,可以比较容易地得到问题的答案。
4)对步骤3)得到的答案及其对应的问题进行过滤,以删除问答对质量不佳的;
BERT的squad_eval_utils可以计算原文和预测答案的一些metrics。在过滤阶段,本发明利用这些metrics设计了一种启发式的过滤方法,分两步进行:1)计算问题的答案与原始答案(answer span)的重叠分数,以此决定是否保留某些问答对,并决定最终的答案使用answer span还是BERT预测的答案。BERT模型的evaluate工具可以输出一些指标,包括答案和原文的绝对匹配度(exact_match)及答案和原文的f1匹配度(f1_match),当答案和answer span完全不重叠,则说明该问答对和原文(answer span)不匹配,则过滤掉该答案。对于答案与answer span部分重叠的情况,采用BERT预测的答案作为最终的答案,同时保留answer span为该问题的answer span。2),通过准确率及召回率来考察问题和答案,对这些问题和答案按照这两个指标排序后,根据上述过滤分数过滤掉最小的若干问答对。
得过滤后的结果,包含用户输入原文、answer span、问题及答案,按照answerspan排序后,合并重叠的span。并将对应的问答对组织在一起,表示为一个知识点(answerspan)对应的问答对。由所有answer span覆盖整篇文章,按照answer span组织成“answerspan–问答对集合”的对象。
5)对过滤后的结果进行显示,其中,一篇文章包含若干自然段,自然段中包含若干可以点按的片段,这些片段被点击后可以显示其中包含的问题及答案,以这些片段为单位重新构建原文,用户可以像平时阅读文章那样浏览文章,并交互式地查看任意片段对应的问题和答案,并进行选择,最后输出为文件。
一种英语阅读理解辅助出题系统包括:
文本分段模块,用于获取用户输入的文本,将用户输入的文本划分为若干文本片段;
问题自动生成模块,用于根据划分得到的文本片段生成问题;
答案生成模块,用于根据生成的问题预测问题的答案;
问答筛选模块,用于对生成的问题以及预测得到问题的答案进行过滤,得过滤后的问题以及预测得到的答案。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (7)
1.一种英语阅读理解辅助出题方法,其特征在于,包括:
获取用户输入的文本,将用户输入的文本划分为若干文本片段;
根据划分得到的文本片段生成问题;
根据生成的问题预测问题的答案;
对生成的问题以及预测得到问题的答案进行过滤,得过滤后的问题以及预测得到的答案,然后根据过滤后的问题以及预测得到的答案构建问题集。
2.根据权利要求1所述的英语阅读理解辅助出题方法,其特征在于,根据生成的问题利用预训练语言模型BERT预测问题的答案。
3.根据权利要求1所述的英语阅读理解辅助出题方法,其特征在于,将用户输入的文本利用python的开源自然语言处理库spaCy的语言模型划分为若干文本片段。
4.根据权利要求1所述的英语阅读理解辅助出题方法,其特征在于,对用户输入的文本进行sentence segment及NER。
5.根据权利要求1所述的英语阅读理解辅助出题方法,其特征在于,利用BERT的squad_eval_utils生成的指标对生成的问题以及预测得到问题的答案进行过滤。
6.根据权利要求1所述的英语阅读理解辅助出题方法,其特征在于,还包括:显示过滤后的问题、预测得到的答案、用户输入的文本以及对应的片段。
7.一种英语阅读理解辅助出题系统,其特征在于,包括:
文本分段模块,用于获取用户输入的文本,将用户输入的文本划分为若干文本片段;
问题自动生成模块,用于根据划分得到的文本片段生成问题;
答案生成模块,用于根据生成的问题预测问题的答案;
问答筛选模块,用于对生成的问题以及预测得到问题的答案进行过滤,得过滤后的问题以及预测得到的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110963497.7A CN113657089A (zh) | 2021-08-20 | 2021-08-20 | 一种英语阅读理解辅助出题方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110963497.7A CN113657089A (zh) | 2021-08-20 | 2021-08-20 | 一种英语阅读理解辅助出题方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113657089A true CN113657089A (zh) | 2021-11-16 |
Family
ID=78491861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110963497.7A Pending CN113657089A (zh) | 2021-08-20 | 2021-08-20 | 一种英语阅读理解辅助出题方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657089A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823794A (zh) * | 2014-02-25 | 2014-05-28 | 浙江大学 | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 |
CN110210021A (zh) * | 2019-05-22 | 2019-09-06 | 北京百度网讯科技有限公司 | 阅读理解方法及装置 |
CN110795543A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的非结构化数据抽取方法、装置及存储介质 |
CN111428467A (zh) * | 2020-02-19 | 2020-07-17 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN111553159A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种问句生成方法及系统 |
KR20200119358A (ko) * | 2019-03-15 | 2020-10-20 | (주) 데이터뱅크 | 인공지능 기계학습 기반 자동채점을 이용한 토플 강의 추천 서비스 제공 시스템 |
CN112052680A (zh) * | 2020-10-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 问题生成方法、装置、设备及存储介质 |
CN112183091A (zh) * | 2020-10-12 | 2021-01-05 | 深圳壹账通智能科技有限公司 | 问答对生成方法、装置、电子设备及可读存储介质 |
CN112307773A (zh) * | 2020-12-02 | 2021-02-02 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN112507727A (zh) * | 2020-11-18 | 2021-03-16 | 北京科技大学 | 一种基于文本的文本视觉问答系统及方法 |
KR20210042845A (ko) * | 2019-10-10 | 2021-04-20 | 주식회사 렉스퍼 | 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템 |
KR102253609B1 (ko) * | 2020-09-14 | 2021-05-18 | 정해영 | 하이브리드 독해력 학습 증진 시스템 |
CN113010655A (zh) * | 2021-03-18 | 2021-06-22 | 华南理工大学 | 一种机器阅读理解的回答与干扰项生成方法、装置 |
-
2021
- 2021-08-20 CN CN202110963497.7A patent/CN113657089A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823794A (zh) * | 2014-02-25 | 2014-05-28 | 浙江大学 | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 |
KR20200119358A (ko) * | 2019-03-15 | 2020-10-20 | (주) 데이터뱅크 | 인공지능 기계학습 기반 자동채점을 이용한 토플 강의 추천 서비스 제공 시스템 |
CN110210021A (zh) * | 2019-05-22 | 2019-09-06 | 北京百度网讯科技有限公司 | 阅读理解方法及装置 |
CN110795543A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的非结构化数据抽取方法、装置及存储介质 |
KR20210042845A (ko) * | 2019-10-10 | 2021-04-20 | 주식회사 렉스퍼 | 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템 |
CN111428467A (zh) * | 2020-02-19 | 2020-07-17 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN111553159A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种问句生成方法及系统 |
KR102253609B1 (ko) * | 2020-09-14 | 2021-05-18 | 정해영 | 하이브리드 독해력 학습 증진 시스템 |
CN112183091A (zh) * | 2020-10-12 | 2021-01-05 | 深圳壹账通智能科技有限公司 | 问答对生成方法、装置、电子设备及可读存储介质 |
CN112052680A (zh) * | 2020-10-14 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 问题生成方法、装置、设备及存储介质 |
CN112507727A (zh) * | 2020-11-18 | 2021-03-16 | 北京科技大学 | 一种基于文本的文本视觉问答系统及方法 |
CN112307773A (zh) * | 2020-12-02 | 2021-02-02 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN113010655A (zh) * | 2021-03-18 | 2021-06-22 | 华南理工大学 | 一种机器阅读理解的回答与干扰项生成方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN117253576B (zh) | 基于中文医疗大模型的门诊电子病历生成方法 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Xu et al. | Sentence segmentation for classical Chinese based on LSTM with radical embedding | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
Gong | Study on machine translation teaching model based on translation parallel corpus and exploitation for multimedia Asian information processing | |
CN113657089A (zh) | 一种英语阅读理解辅助出题方法及系统 | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
CN115114396A (zh) | 一种语言模型的训练方法、样本数据的构建方法及装置 | |
Thotad et al. | Automatic question generator using natural language processing | |
CN109885827B (zh) | 一种基于深度学习的命名实体的识别方法和系统 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
Wang et al. | Distill-AER: Fine-Grained Address Entity Recognition from Spoken Dialogue via Knowledge Distillation | |
CN115563987B (zh) | 一种评论文本分析处理方法 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
de Lima et al. | Automatic Punctuation Verification of School Students’ Essay in Portuguese | |
CN115048924B (zh) | 基于否定前后缀信息的否定句识别方法 | |
CN115563972B (zh) | 一种结构化的六联情感分析模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |