CN111428467A - 生成阅读理解的问题题目的方法、装置、设备及存储介质 - Google Patents

生成阅读理解的问题题目的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111428467A
CN111428467A CN202010103758.3A CN202010103758A CN111428467A CN 111428467 A CN111428467 A CN 111428467A CN 202010103758 A CN202010103758 A CN 202010103758A CN 111428467 A CN111428467 A CN 111428467A
Authority
CN
China
Prior art keywords
target
phrase
text
vector
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010103758.3A
Other languages
English (en)
Other versions
CN111428467B (zh
Inventor
王燕蒙
许开河
王烨
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010103758.3A priority Critical patent/CN111428467B/zh
Publication of CN111428467A publication Critical patent/CN111428467A/zh
Priority to PCT/CN2020/121523 priority patent/WO2021164284A1/zh
Application granted granted Critical
Publication of CN111428467B publication Critical patent/CN111428467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Educational Technology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种生成阅读理解的问题题目的方法、装置、设备及存储介质;本发明首先获取待处理的阅读理解源文本,对阅读理解源文本按照词组类型进行分词处理,使得阅读理解源文本具有多个不同词组类型的特征词组;从所述词组类型中确定目标词组类型,从预设存储区域中获取与目标词组类型对应的预设目标答案向量;从各特征词组中选取与目标词组类型对应的目标特征词组,生成与目标特征词组对应的目标词向量;获取目标特征词组在阅读理解源文本中的位置信息,生成与位置信息对应的位置向量;将与目标词组类型对应的目标词向量、位置向量、以及预设目标答案向量送入预设序列到序列模型中,最后自动生成更加贴合阅读理解源文本本意的问题题目文本。

Description

生成阅读理解的问题题目的方法、装置、设备及存储介质
技术领域
本发明涉及大数据分析领域,尤其涉及一种生成阅读理解的问题题目的方法、装置、设备及存储介质。
背景技术
从学校教育到职业培训,无论是语言学习还是特定学科和技术的学习,都离不开文本文献的阅读和理解能力。要提高阅读能力,需要学生大量进行阅读并根据相关内容回答问题,提高对文章的理解能力,更重要的是老师需要一种可靠的手段检查学生是否阅读了老师指定的篇章,掌握学生的学习进度,并根据效果安排调整学习计划。传统方法都是人工出题,看学生是否能够正确回答相关问题。伴随着新教材和文章的涌现,人工出题耗时耗力,检查流程无法实现自动化。
目前,越来越多的神经网络被成功的应用于问答系统和其他的阅读理解任务,甚至在某些方面已经超越了人类,但是它们在达到较好水平的同时需要大量的数据来进行支持,而这些数据如果全部通过人工标注又过于需要人力。于是,文本生成问题技术应运而生,问题生成技术要解决的是通过一段文字来生成与之对应的问题,可用于数据增强、对话系统,同时对阅读理解有很大的帮助,针对一段文本生成问题,以用于数据增强、对话系统、阅读理解。
但是,现有技术中基于文章阅读理解文本生成问题这项技术通常为基于种子词使用模板来进行扩展和检查,这种生成方式容易出现没有结合文本原文本意的现象,通过这种方式生成的问题可能会存在可以从文章中找到多种答案的情况,即通过这种方式生成的文本句式过于单一化,生成的问题过于简单,无法有效地替代人工出题,效果不理想。
发明内容
本发明的主要目的在于提供了一种生成阅读理解的问题题目的方法、装置、设备及存储介质,旨在解决目前利用现有技术来自动生成阅读理解的问题题目过于单一化,生成的问题过于简单,效果不理想,无法有效地替代人工出题的技术问题。
为实现上述目的,本发明提供了一种生成阅读理解的问题题目方法,所述方法包括以下步骤:
获取待处理的阅读理解源文本;
对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组;
从所述词组类型中确定目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量存在预设映射关系;
从各特征词组中选取与所述目标词组类型对应的目标特征词组,生成与所述目标特征词组对应的目标词向量;
获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量;
将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本。
优选地,所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本的步骤之前,还包括:
从所述预设存储区域中获取与目标词组类型对应的目标样本文本;
对所述目标样本文本进行分词,使得所述目标样本文本具有样本文本词组;
生成与所述样本文本词组对应的样本词向量;
将与所述目标词组类型对应的预设目标答案向量和所述样本词向量进行相加,将相加结果作为所述目标样本文本的特征向量;
将所述特征向量作为输入序列送入预设序列到序列seq2seq模型中进行训练,将训练结果作为问题生成模型;
所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本的步骤,具体包括:
将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入所述问题生成模型中,生成与所述目标词组类型对应的问题题目文本。
优选地,所述获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量的步骤之后,还包括:
根据所述位置信息确定所述目标特征词组对应的目标句子文本;
对所述目标句子文本进行分词,使得所述目标句子文本具有多个不同词性的词性特征词;
分别将所述目标句子文本的各个词性特征词转换为词性特征词向量;
并获取各个词性特征词在所述目标句子文本中出现的位置先后顺序;
所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入所述问题生成模型中,生成与所述目标词组类型对应的问题题目文本的步骤,具体包括:
将所述目标词组类型对应的所述目标词向量、所述位置向量、所述预设目标答案向量作为所述问题生成模型的输入特征序列;
按照所述位置先后顺序对各个词性特征词向量进行遍历,将遍历到的词性特征词向量作为所述问题生成模型的输出特征序列;
将所述输入特征序列以及所述输出特征序列送入所述问题生成模型中进行计算,直至遍历完毕,将计算结果作为目标向量数据;
将所述目标向量数据转换为与所述目标词组类型对应的问题题目文本。
优选地,所述问题生成模型用以下公式进行表征:
Figure BDA0002387326410000031
其中,x表征所述输入特征序列,yt表示位于所述目标句子文本中第t个词性特征词对应的词性特征词向量,ny表示所述目标句子文本中词性特征词的数量,P(y|x)表征所述目标向量数据。
优选地,所述对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组的步骤,包括:
对所述阅读理解源文本按照语义规则进行分段处理,得到多个段落文本;
分别对各个段落文本按照词组类型进行分词处理,使得每个段落文本具有多个不同词组类型的特征词组;
所述获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量的步骤,具体包括:
获取所述目标特征词组在所述段落文本中的位置信息,生成与所述位置信息对应的位置向量。
优选地,所述词组类型包括人物词组类型、时间词组类型、以及地点词组类型中的至少一项。
可选地,所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本的步骤之后,还包括:
获取与所述预设目标答案向量对应的预设目标答案;
建立所述预设目标答案与所述问题题目文本之间的映射关系,将所述映射关系以及所述问题题目文本存储到所述预设存储区域中。
此外,为实现上述目的,本发明还提出一种生成阅读理解的问题题目的装置,所述装置包括:
获取模块,用于获取待处理的阅读理解源文本;
分词模块,用于对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组;
确定模块,用于从所述词组类型中确定目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量预设存在预设映射关系;
选取模块,用于从各特征词组中选取与所述目标词组类型对应的目标特征词组,生成与所述目标特征词组对应的目标词向量;
记录模块,用于获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量;
生成模块,用于将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本。
此外,为实现上述目的,本发明还提出一种用于生成阅读理解的问题题目的设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的生成阅读理解的问题题目的程序,所述生成阅读理解的问题题目的程序配置为实现如上所述的生成阅读理解的问题题目方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质为计算机可读存储介质;所述计算机可读存储介质存储有生成阅读理解的问题题目的程序,所述生成阅读理解的问题题目的程序配置为实现如上所述的生成阅读理解的问题题目的方法的步骤。
本发明首先获取待处理的阅读理解源文本,对阅读理解源文本按照词组类型进行分词处理,使得阅读理解源文本具有多个不同词组类型的特征词组;从所述词组类型中确定目标词组类型,从预设存储区域中获取与目标词组类型对应的预设目标答案向量;从各特征词组中选取与目标词组类型对应的目标特征词组,生成与目标特征词组对应的目标词向量;获取目标特征词组在阅读理解源文本中的位置信息,生成与位置信息对应的位置向量;将与目标词组类型对应的目标词向量、位置向量、以及预设目标答案向量送入预设序列到序列模型中,生成与所述目标词组类型对应的问题题目文本,发明将位置信息向量与人工预先设置的答案本文结合,同时结合序列到序列模型能够自动生成更加贴合阅读理解源文本本意的题目,生成的题目对应的答案也更加具有唯一性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的用于生成阅读理解的问题题目的设备的结构示意图;
图2为本发明一种生成阅读理解的问题题目的方法一实施例的流程示意图;
图3为本发明一种生成阅读理解的问题题目的方法第二实施例的流程示意图;
图4为本发明一种生成阅读理解的问题题目的方法第三实施例流程示意图;
图5为本发明一种生成阅读理解的问题题目的装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1,图1为本发明实施例方案涉及的硬件运行环境的用于生成阅读理解的问题题目的设备的结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对所述设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。所述生成阅读理解的问题题目的设备可以是台式电脑主机。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括计算机操作系统、网络通信模块、用户接收模块以及生成阅读理解的问题题目的程序。
在图1所示的设备中,本发明的生成阅读理解的问题题目的设备通过处理器1001调用存储器1005中存储的生成阅读理解的问题题目程序,并执行生成阅读理解的问题题目方法的步骤。
参照图2,图2本发明一种生成阅读理解的问题题目方法第一实施例的流程示意图。
本实施例中,所述生成阅读理解的问题题目方法包括以下步骤:
步骤S10:获取待处理的阅读理解源文本;
需要说明的是,本实施例的执行主体是上述用于生成阅读理解的问题题目的设备(本实施例简称计算机系统),所述设备装载有生成阅读理解的问题题目程序。本实施例的实施场景可以以老师想要为某一篇英文文章生成若干的阅读理解题目为例。所述阅读理解源文本即为英文文章。
步骤S20:对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组;
需要说明的是,本实施例的词组类型包括人物词组类型、时间词组类型、以及地点词组类型中的至少一项;
可理解的是,人物词组类型可对应人物答案词、时间词组类型可对应日期答案词、地点词组类型可对应地点答案词;此外,所述词组类型还包括一些非答案词组类型、机构答案词组类型、数字答案词类型等等。
在具体实现中,针对所述阅读理解源文本会使用专有分词工具,对所述阅读理解源文本按照词组类型进行分词处理,分词结果中会包括所述阅读理解源文本中出现的标注出人名、地名、机构名、时间、数量、日期等专有名词。
具体地,本实施例所使用的专有分词工具可以是NLTK工具(Natural LanguageToolkit,自然语言处理工具包工具),NLTK工具是基于python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag,POS-tag)、命名实体识别(Named Entity Recognition,NER)、句法分析(Syntactic Parse)等各项NLP领域的功能。使用NLTK工具按照词组类型对所述阅读理解源文进行分词,识别所述阅读理解源文本中出现的人名、地名、机构名、时间、数量、日期等专有名词,并对这些专有名词进行标注。
步骤S30:从所述词组类型中确定目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量存在预设映射关系;
在具体实现中,每种词组类型都会对应一些标准答案,例如所述阅读理解源文本中出现过的时间(时间词组类型)、地点(地点词组类型)、人物(人物词组类型)都对应一些标准答案文本,这些标准答案文本属于出题人预先准备好的文本,这些文本会存储于预设存储区域中,所述预设存储区域可以为数据库,该数据库可装载于所述生成阅读理解的问题题目的设备中。
需要说明的是,本实施例中的这些不同词组类型对应的标准答案会以能够匹配seq2seq模型的向量的形式预先存储到数据库中。所述目标词组类型与所述预设目标答案向量预设存在预设映射关系。
具体地,本实施例中,每个题型可对应一种词组类型,一种词组类型可以对应四个标准答案文本,这四个标准答案文本均需要与该词组类型建立预设映射关系;
相应地,本实施例会预先通过NLTK工具将每个标准答案文本转换为文本向量,进而得到答案向量(answer type embedding),这样在答案文本与词组类型存在预设映射关系的基础上,所述词组类型与所述预设目标答案向量也存在所述预设映射关系。
可理解的是,由于老师要为阅读理解源文本出若干题型,因此计算机系统会对所述阅读理解源文本中各个词组类型进行遍历,将遍历到的词组类型作为目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量预设存在预设映射关系;
步骤S40:从各特征词组中选取与所述目标词组类型对应的目标特征词组,生成与所述目标特征词组对应的目标词向量;
可理解的是,在进行分词处理之后,计算机系统会从所述阅读理解源文本中的多个特征词组选取与所述目标词组类型对应的目标特征词组,然后通过NLTK工具将所述目标特征词组转换为向量形式,即生成与所述目标特征词组对应的目标词向量(wordembedding)。
步骤S50:获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量;
可理解的是,计算机系统会确定所述目标特征词组在所述阅读理解源文本中出现的位置,将位置信息转换为向量形式,即生成与所述位置信息对应的位置向量(positionalembedding),本实施例引入位置信息向量,这样生成的阅读理解的问题能够更加结合原文的本意。
步骤S60:将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本。
可理解的是,序列到序列Seq2Seq模型是输出的长度不确定时采用的模型,它的模型结构为编码encoder-解码decoder模型。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。
在具体实现中,本实施例将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,编码encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码。解码decoder,就是将之前生成的固定向量再转化成输出序列,解码阶段可以看做编码的逆过程:即首先将目标词向量、位置向量、以及答案向量作为输入特征序列,将这些向量看作是这个输入序列的语义,计算机系统根据这些给定的语义向量预测可能出现的文本,对这些预测出的文本作为输出序列进行输出。
具体地,计算机系统首先将上述输入特征序列输入到seq2seq模型的multi-headself-attention层,再做残差连接(residual connection)处理和归一化处理(LayerNormalization);然后将经过处理的输入特征序列输入到seq2seq模型的position-wisefeed-forward network层中,再进行残差连接处理和归一化处理,生成输入处理序列;
进一步地,对所述目标特征词所在的句子进行分词,将分词结果作为输出特征序列,然后将所述输入处理序列输入到multi-head self-attention层,做残差连接处理和归一化处理,生成输出处理序列;
将输入处理序列和输出处理序列一并输入到multi-head context-attention(多头注意力机制)层,再做残差连接处理和归一化处理;
最后将输入position-wise feed-forward network,再做残差连接处理和归一化处理,通过线性变换处理后输出所述目标词组类型对应的问题题目文本。
可理解的是,multi-head self attention层的机制能够用于进行自动特征交叉学习以提升CTR预测任务的精度,其CTR预测任务模型结构包括输入、嵌入、特征提取、以及输出;而引入多头注意力机制(Multi-head attention),能够使得seq2seq模型从不同向量所表征的空间上获取关于句子更多层面的信息,提高模型的特征表达能力;同时在现有的词向量和位置向量作为网络输入的基础上,进一步引入依存句法特征和相对核心谓词依赖特征,其中依存句法特征包括当前词的依存关系值和所依赖的父节点位置,从而使模型进一步准确地获取更多的文本句法信息。
本实施例首先获取待处理的阅读理解源文本,对阅读理解源文本按照词组类型进行分词处理,使得阅读理解源文本具有多个不同词组类型的特征词组;从所述词组类型中确定目标词组类型,从预设存储区域中获取与目标词组类型对应的预设目标答案向量;从各特征词组中选取与目标词组类型对应的目标特征词组,生成与目标特征词组对应的目标词向量;获取目标特征词组在阅读理解源文本中的位置信息,生成与位置信息对应的位置向量;将与目标词组类型对应的目标词向量、位置向量、以及预设目标答案向量送入预设序列到序列模型中,生成与所述目标词组类型对应的问题题目文本,本实施例将位置信息向量与人工预先设置的答案本文结合,同时结合序列到序列模型能够自动生成更加贴合阅读理解源文本本意的题目,生成的题目对应的答案也更加具有唯一性。
进一步地,参照图3,图3本发明一种生成阅读理解的问题题目方法第二实施例的流程示意图;基于上述生成阅读理解的问题题目方法的第一实施例,提出本发明一种生成阅读理解的问题题目方法第二实施例。
本实施例中,所述步骤S60之前,还包括:
步骤S031:从所述预设存储区域中获取与目标词组类型对应的目标样本文本。
可理解的是,本实施例会在数据库中(即预设存储区域)中预先存储有多个与不同的词组类型(例如人名、地名、机构名、时间、数量、日期等)相关的样本文本作为训练语料(即目标样本文本);并建立不同的训练语料与目标词组类型之间的映射关系;同时基于seq2seq模型对这些语料进行训练,进而生成问题生成模型,所述问题生成模型的生成方式具体为下述步骤S032到步骤S035:
步骤S032:对所述目标样本文本进行分词,使得所述目标样本文本具有样本文本词组;
步骤S033:生成与所述样本文本词组对应的样本词向量;
步骤S034:将与所述目标词组类型对应的预设目标答案向量和所述样本词向量进行相加,将相加结果作为所述目标样本文本的特征向量;
步骤S035:将所述特征向量作为输入序列送入预设序列到序列seq2seq模型中进行训练,将训练结果作为问题生成模型。
进一步地,所述步骤S50之后,还包括:
步骤S51:根据所述位置信息确定所述目标特征词组对应的目标句子文本;
步骤S52:对所述目标句子文本进行分词,使得所述目标句子文本具有多个不同词性的词性特征词;
可理解的是,本实施例会对所述目标特征词所在的句子进行分词,分词结果为所述目标句子文本具有多个不同词性的词性特征词;
步骤S53:分别将所述目标句子文本的各个词性特征词转换为词性特征词向量;
步骤S54:并获取各个词性特征词在所述目标句子文本中出现的位置先后顺序;
可理解的是,这里的位置顺序为一篇文章的某句话中,词语从左到右的顺序。
相应地,所述步骤S60具体为“将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入所述问题生成模型中,生成与所述目标词组类型对应的问题题目文本”;
此外,所述步骤60又进一步包括:
步骤S601:将所述目标词组类型对应的所述目标词向量、所述位置向量、所述预设目标答案向量作为所述问题生成模型的输入特征序列;
可理解的是,本实施例用x表征上述输入特征序列,计算机系统首先将上述输入特征序列x输入到seq2seq模型的multi-head self-attention层,再做残差连接处理和归一化处理;然后将经过处理的输入特征序列输入到seq2seq模型的position-wise feed-forward network层中,再进行残差连接处理和归一化处理,生成输入处理序列;
步骤S602:按照所述位置先后顺序对各个词性特征词向量进行遍历,将遍历到的词性特征词向量作为所述问题生成模型的输出特征序列;
可理解的是,用y表示各个词性特征词向量,在上述步骤中已获取各个词性特征词在所述目标句子文本中出现的位置先后顺序t,那么计算机系统会对目标句子文本中的出现过的每一个词性特征词向量y进行遍历,将遍历到的第t个词性特征词向量记作yt,将yt作为所述问题生成模型的输出特征序列;
步骤S603:将所述输入特征序列以及所述输出特征序列送入所述问题生成模型中进行计算,直至遍历完毕,将计算结果作为目标向量数据;
本实施例中,所述问题生成模型用以下公式进行表征:
Figure BDA0002387326410000121
其中,x表征所述输入特征序列,yt表示位于所述目标句子文本中第t个词性特征词对应的词性特征词向量,ny表示所述目标句子文本中词性特征词的数量,P(y|x)表征所述目标向量数据;
上述公式可理解为:将每一个词性特征词向量y(最多有t=ny个词性特征词向量),与输入特征序列x送入所述问题生成模型,生新的向量数据,并将ny个新的向量数据相加,最终得到目标向量数据P(y|x)。
步骤S604:将所述目标向量数据转换为与所述目标词组类型对应的问题题目文本。
具体地,本实施例可通过NLTK工具将所述目标向量数据由向量转换为与文本格式,最终生成更加的贴合阅读理解文章的本意、更加有水平的的题目,生成的题目对应的答案也更加具有唯一性。
进一步地,参照图4,图4本发明一种生成阅读理解的问题题目方法第三实施例的流程示意图;基于上述生成阅读理解的问题题目方法的第一实施例或第二实施例,提出本发明一种生成阅读理解的问题题目方法第三实施例。
本实施例中,所述步骤S20,具体包括:
步骤S201:对所述阅读理解源文本按照语义规则进行分段处理,得到多个段落文本;
在具体实现中,本实施例可以使用NLTK工具将所述阅读理解源文本按照语义规则切分成多个语义完整的段落,每段保证具备主语。
步骤S202:分别对各个段落文本按照词组类型进行分词处理,使得每个段落文本具有多个不同词组类型的特征词组;
所述步骤S50,具体包括:
步骤S500:获取所述目标特征词组在所述段落文本中的位置信息,生成与所述位置信息对应的位置向量。
本实施例将一篇阅读理解文本切分成若干个语义段落,每个段落描述的子主题都各不相同,都是各自独立的。将文本中描述相似内容的部分聚合在一起,使得语义段落内部具有最大的语义一致性。对文本的分析可从原先对篇章的研究,缩小到对语义段落的研究;这种分割的形式与对文章划分自然段类似,旨在从大量的文本中快速准确地获得所需要的信息。
进一步地,在一实施例中,在所述步骤S60之后,
步骤:获取与所述预设目标答案向量对应的预设目标答案;
步骤:建立所述预设目标答案与所述问题题目文本之间的映射关系,将所述映射关系以及所述问题题目文本存储到所述预设存储区域中。
可理解的是,本实施例将生成的问题题目文本、以及所述预设目标答案与所述问题题目文本之间的映射关系存储到数据库中,便于下次出题直接使用。
此外,参照图5,本发明还提出一种生成阅读理解的问题题目装置,所述装置包括:
获取模块10,用于获取待处理的阅读理解源文本;
分词模块20,用于对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组;
确定模块30,用于从所述词组类型中确定目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量预设存在预设映射关系;
选取模块40,用于从各特征词组中选取与所述目标词组类型对应的目标特征词组,生成与所述目标特征词组对应的目标词向量;
记录模块50,用于获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量;
生成模块60,用于将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本。
可理解的是,本实施的生成阅读理解的问题题目装置可以是一种计算机应用程序,该计算机应用程序装载在上述实施例的生成阅读理解的问题题目设备中,所述用于生成阅读理解的问题题目的设备可以是出题人使用的电脑主机。本发明生成阅读理解的问题题目装置的具体实现方式可参照上述生成阅读理解的问题题目方法实施例,此处不再赘述。
此外,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有生成阅读理解的问题题目程序,所述生成阅读理解的问题题目程序被处理器执行时实现如上所述的生成阅读理解的问题题目方法步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种生成阅读理解的问题题目的方法,其特征在于,所述方法包括:
获取待处理的阅读理解源文本;
对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组;
从所述词组类型中确定目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量存在预设映射关系;
从各特征词组中选取与所述目标词组类型对应的目标特征词组,生成与所述目标特征词组对应的目标词向量;
获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量;
将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本。
2.如权利要求1所述的方法,其特征在于,所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本的步骤之前,还包括:
从所述预设存储区域中获取与目标词组类型对应的目标样本文本;
对所述目标样本文本进行分词,使得所述目标样本文本具有样本文本词组;
生成与所述样本文本词组对应的样本词向量;
将与所述目标词组类型对应的预设目标答案向量和所述样本词向量进行相加,将相加结果作为所述目标样本文本的特征向量;
将所述特征向量作为输入序列送入预设序列到序列seq2seq模型中进行训练,将训练结果作为问题生成模型;
所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本的步骤,具体包括:
将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入所述问题生成模型中,生成与所述目标词组类型对应的问题题目文本。
3.如权利要求2所述的方法,其特征在于,所述获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量的步骤之后,还包括:
根据所述位置信息确定所述目标特征词组对应的目标句子文本;
对所述目标句子文本进行分词,使得所述目标句子文本具有多个不同词性的词性特征词;
分别将所述目标句子文本的各个词性特征词转换为词性特征词向量;
并获取各个词性特征词在所述目标句子文本中出现的位置先后顺序;
所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入所述问题生成模型中,生成与所述目标词组类型对应的问题题目文本的步骤,具体包括:
将所述目标词组类型对应的所述目标词向量、所述位置向量、所述预设目标答案向量作为所述问题生成模型的输入特征序列;
按照所述位置先后顺序对各个词性特征词向量进行遍历,将遍历到的词性特征词向量作为所述问题生成模型的输出特征序列;
将所述输入特征序列以及所述输出特征序列送入所述问题生成模型中进行计算,直至遍历完毕,将计算结果作为目标向量数据;
将所述目标向量数据转换为与所述目标词组类型对应的问题题目文本。
4.如权利要求3所述的方法,其特征在于,所述问题生成模型用以下公式进行表征:
Figure FDA0002387326400000021
其中,x表征所述输入特征序列,yt表示位于所述目标句子文本中第t个词性特征词对应的词性特征词向量,ny表示所述目标句子文本中词性特征词的数量,P(y|x)表征所述目标向量数据。
5.如权利要求1-4任一项所述的方法,其特征在于,所述对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组的步骤,包括:
对所述阅读理解源文本按照语义规则进行分段处理,得到多个段落文本;
分别对各个段落文本按照词组类型进行分词处理,使得每个段落文本具有多个不同词组类型的特征词组;
所述获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量的步骤,具体包括:
获取所述目标特征词组在所述段落文本中的位置信息,生成与所述位置信息对应的位置向量。
6.如权利要求5所述的方法,其特征在于,所述词组类型包括人物词组类型、时间词组类型、以及地点词组类型中的至少一项。
7.如权利要求1-4任一项所述的方法,其特征在于,所述将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本的步骤之后,还包括:
获取与所述预设目标答案向量对应的预设目标答案;
建立所述预设目标答案与所述问题题目文本之间的映射关系,将所述映射关系以及所述问题题目文本存储到所述预设存储区域中。
8.一种生成阅读理解的问题题目的装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的阅读理解源文本;
分词模块,用于对所述阅读理解源文本按照词组类型进行分词处理,使得所述阅读理解源文本具有多个不同词组类型的特征词组;
确定模块,用于从所述词组类型中确定目标词组类型,从预设存储区域中获取与所述目标词组类型对应的预设目标答案向量,所述目标词组类型与所述预设目标答案向量预设存在预设映射关系;
选取模块,用于从各特征词组中选取与所述目标词组类型对应的目标特征词组,生成与所述目标特征词组对应的目标词向量;
记录模块,用于获取所述目标特征词组在所述阅读理解源文本中的位置信息,生成与所述位置信息对应的位置向量;
生成模块,用于将与所述目标词组类型对应的所述目标词向量、所述位置向量、以及所述预设目标答案向量送入预设序列到序列seq2seq模型中,生成与所述目标词组类型对应的问题题目文本。
9.一种用于生成阅读理解的问题题目的设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的生成阅读理解的问题题目的程序,所述生成阅读理解的问题题目的程序配置为实现如权利要求1至7中任一项所述的生成阅读理解的问题题目方法的步骤。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质;所述计算机可读存储介质存储有生成阅读理解的问题题目的程序,所述生成阅读理解的问题题目的程序配置为实现如权利要求1至7中任一项所述的生成阅读理解的问题题目的方法的步骤。
CN202010103758.3A 2020-02-19 2020-02-19 生成阅读理解的问题题目的方法、装置、设备及存储介质 Active CN111428467B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010103758.3A CN111428467B (zh) 2020-02-19 2020-02-19 生成阅读理解的问题题目的方法、装置、设备及存储介质
PCT/CN2020/121523 WO2021164284A1 (zh) 2020-02-19 2020-10-16 生成阅读理解的问题题目的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010103758.3A CN111428467B (zh) 2020-02-19 2020-02-19 生成阅读理解的问题题目的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111428467A true CN111428467A (zh) 2020-07-17
CN111428467B CN111428467B (zh) 2024-05-07

Family

ID=71551596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010103758.3A Active CN111428467B (zh) 2020-02-19 2020-02-19 生成阅读理解的问题题目的方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111428467B (zh)
WO (1) WO2021164284A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489652A (zh) * 2020-12-10 2021-03-12 北京有竹居网络技术有限公司 一种语音信息的文本获取方法、装置和存储介质
CN112487139A (zh) * 2020-11-27 2021-03-12 平安科技(深圳)有限公司 基于文本的自动出题方法、装置及计算机设备
CN113065332A (zh) * 2021-04-22 2021-07-02 深圳壹账通智能科技有限公司 基于阅读模型的文本处理方法、装置、设备及存储介质
CN113220854A (zh) * 2021-05-24 2021-08-06 中国平安人寿保险股份有限公司 机器阅读理解的智能对话方法及装置
CN113255351A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 语句意图识别方法、装置、计算机设备及存储介质
WO2021164284A1 (zh) * 2020-02-19 2021-08-26 平安科技(深圳)有限公司 生成阅读理解的问题题目的方法、装置、设备及存储介质
CN113627137A (zh) * 2021-10-11 2021-11-09 江西软云科技股份有限公司 一种题目生成方法、系统、存储介质及设备
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN115600587A (zh) * 2022-12-16 2023-01-13 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)(Cn) 数学应用题生成系统、方法、智能终端及可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713065B (zh) * 2022-11-08 2023-09-15 贝壳找房(北京)科技有限公司 一种生成问题的方法、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质
CN110210021A (zh) * 2019-05-22 2019-09-06 北京百度网讯科技有限公司 阅读理解方法及装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
WO2019242297A1 (zh) * 2018-06-21 2019-12-26 深圳壹账通智能科技有限公司 基于机器阅读理解的智能对话方法、装置、终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329995B (zh) * 2017-06-08 2018-03-23 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及系统
CN107463699A (zh) * 2017-08-15 2017-12-12 济南浪潮高新科技投资发展有限公司 一种基于seq2seq模型的实现问答机器人的方法
CN109062937B (zh) * 2018-06-15 2019-11-26 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN111428467B (zh) * 2020-02-19 2024-05-07 平安科技(深圳)有限公司 生成阅读理解的问题题目的方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
WO2019242297A1 (zh) * 2018-06-21 2019-12-26 深圳壹账通智能科技有限公司 基于机器阅读理解的智能对话方法、装置、终端
CN110210021A (zh) * 2019-05-22 2019-09-06 北京百度网讯科技有限公司 阅读理解方法及装置
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164284A1 (zh) * 2020-02-19 2021-08-26 平安科技(深圳)有限公司 生成阅读理解的问题题目的方法、装置、设备及存储介质
CN112487139A (zh) * 2020-11-27 2021-03-12 平安科技(深圳)有限公司 基于文本的自动出题方法、装置及计算机设备
CN112487139B (zh) * 2020-11-27 2023-07-14 平安科技(深圳)有限公司 基于文本的自动出题方法、装置及计算机设备
CN112489652A (zh) * 2020-12-10 2021-03-12 北京有竹居网络技术有限公司 一种语音信息的文本获取方法、装置和存储介质
CN113065332B (zh) * 2021-04-22 2023-05-12 深圳壹账通智能科技有限公司 基于阅读模型的文本处理方法、装置、设备及存储介质
CN113065332A (zh) * 2021-04-22 2021-07-02 深圳壹账通智能科技有限公司 基于阅读模型的文本处理方法、装置、设备及存储介质
CN113220854A (zh) * 2021-05-24 2021-08-06 中国平安人寿保险股份有限公司 机器阅读理解的智能对话方法及装置
CN113220854B (zh) * 2021-05-24 2023-11-07 中国平安人寿保险股份有限公司 机器阅读理解的智能对话方法及装置
CN113255351A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 语句意图识别方法、装置、计算机设备及存储介质
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN113627137A (zh) * 2021-10-11 2021-11-09 江西软云科技股份有限公司 一种题目生成方法、系统、存储介质及设备
CN115600587B (zh) * 2022-12-16 2023-04-07 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 数学应用题生成系统、方法、智能终端及可读存储介质
CN115600587A (zh) * 2022-12-16 2023-01-13 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)(Cn) 数学应用题生成系统、方法、智能终端及可读存储介质

Also Published As

Publication number Publication date
CN111428467B (zh) 2024-05-07
WO2021164284A1 (zh) 2021-08-26

Similar Documents

Publication Publication Date Title
CN111428467B (zh) 生成阅读理解的问题题目的方法、装置、设备及存储介质
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
Juola et al. A prototype for authorship attribution studies
CN111259631B (zh) 一种裁判文书结构化方法及装置
CN110795552A (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN109635197B (zh) 搜索方法、装置、电子设备及存储介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
US11907665B2 (en) Method and system for processing user inputs using natural language processing
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
KR20040024619A (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN110765241B (zh) 推荐题的超纲检测方法、装置、电子设备和存储介质
CN115757723A (zh) 文本处理方法及装置
Shauki et al. Developing a corpus of entrepreneurship emails (COREnE) for business courses in Malaysian university using integrated moves approach
CN112800032A (zh) 基于表格数据的faq知识库自动构建方法和装置
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Wang et al. Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics.
Sautter et al. Empirical evaluation of semi-automated XML annotation of text documents with the GoldenGATE editor
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN109947953B (zh) 英语领域知识本体的构造方法、系统及设备
KR20130083002A (ko) Xml 기반의 디지털 교육 콘텐츠 관리 장치 및 방법
CN112328737B (zh) 一种拼写数据的生成方法
CN114742050A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant