CN115563954A - 机器阅读理解方法、装置、设备和计算机可读存储介质 - Google Patents

机器阅读理解方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN115563954A
CN115563954A CN202110743042.4A CN202110743042A CN115563954A CN 115563954 A CN115563954 A CN 115563954A CN 202110743042 A CN202110743042 A CN 202110743042A CN 115563954 A CN115563954 A CN 115563954A
Authority
CN
China
Prior art keywords
reading understanding
information
model
training
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110743042.4A
Other languages
English (en)
Inventor
杜明宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan TCL Group Industrial Research Institute Co Ltd
Original Assignee
Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan TCL Group Industrial Research Institute Co Ltd filed Critical Wuhan TCL Group Industrial Research Institute Co Ltd
Priority to CN202110743042.4A priority Critical patent/CN115563954A/zh
Publication of CN115563954A publication Critical patent/CN115563954A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供一种机器阅读理解方法、装置、设备和计算机可读存储介质;方法包括:获取待处理的阅读理解信息;通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的;本申请的技术方案中预设阅读理解模型是根据问题类型设置注意力机制和交叉熵损失函数训练得到的,提高了得到答题信息的准确率。

Description

机器阅读理解方法、装置、设备和计算机可读存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种机器阅读理解方法、装置、设备和计算机可读存储介质。
背景技术
机器阅读理解(MachineReadingComprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。
近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角,目前的机器阅读理解模型通常是对全部的文本信息和问题信息进行模型训练,模型较为复杂,且处理准确性低。
发明内容
本申请提供一种机器阅读理解方法、装置、设备和计算机可读存储介质,旨在解决现有的阅读理解不可以针对问题类型进行数据处理,阅读理解的准确性低的技术问题。
一方面,本申请提供一种机器阅读理解方法,包括:
获取待处理的阅读理解信息;
通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;
将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,所述预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
另一方面,本申请还提供一种机器阅读理解装置,包括:
获取模块,用于获取待处理的阅读理解信息;
编码模块,用于通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;
输出模块,用于将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,所述预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
另一方面,本申请还提供一种机器阅读理解设备,机器阅读理解设备包括处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序以实现上述的机器阅读理解方法中的步骤。
另一方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行以实现上述的机器阅读理解方法中的步骤。
本申请的技术方案中预设阅读理解模型是根据问题类型设置注意力机制和交叉熵损失函数,通过注意力机制和交叉熵损失函数结合训练神经网络生成问题类型对应的逻辑回归层,以得到最终的预设阅读理解模型,这样可以避免预设阅读理解模型过拟合,使得模型较为简单,同时,将预训练模型中的编码器对文本内容进行编码,得到文本特征,并将文本特征阅读理解信息中的文本内容和问题信息输入至预设阅读理解模型各问题类型对应的逻辑回归层,可以实现阅读理解信息的全面特征分析提取针对性分析,有效地提高阅读理解答题信息的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1是本申请实施例提供的机器阅读理解方法的场景示意图;
图2是本申请实施例中提供的机器阅读理解方法的一个实施例流程示意图;
图3是本申请实施例中机器阅读理解方法中预训练模型提取文本特征的一个实施例具体场景示意图;
图4为本申请实施例中机器阅读理解方法中预先构建预设阅读理解模型的一个实施例流程示意图;
图5为本申请实施例中提供的机器阅读理解方法中结合注意力机制进行训练预设阅读理解模型的流程示意图;
图6为本申请实施例中机器阅读理解方法中预设阅读理解模型进行阅读理解处理的一个实施例具体场景示意图;
图7为本申请实施例中提供的机器阅读理解方法中非固定类型问题阅读理解处理的流程示意图;
图8是本申请实施例中提供的机器阅读理解装置的一个实施例结构示意图;
图9是本申请实施例中提供的机器阅读理解设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所得到的所有其他实施例,都属于本申请包含的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
本申请实施例中提供一种机器阅读理解方法、装置、设备及计算机可读存储介质,以下分别进行详细说明。
本申请实施例中的机器阅读理解方法应用于机器阅读理解装置,机器阅读理解装置设置于机器阅读理解设备,机器阅读理解设备中设置有一个或多个处理器、存储器,以及一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现机器阅读理解方法;机器阅读理解设备可以是终端,机器阅读理解设备还可以是一台服务器,或者多台服务器组成的服务集群。
如图1所示,图1为本申请实施例机器阅读理解方法的场景示意图,本申请实施例中阅读理解场景中包括机器阅读理解设备100,机器阅读理解设备100中集成有机器阅读理解装置,运行阅读理解对应的计算机可读存储介质,以执行阅读理解的步骤。
可以理解的是,图1所示机器阅读理解方法的具体应用场景中的机器阅读理解设备,或者机器阅读理解设备中包含的装置并不构成对本申请实施例的限制,即,机器阅读理解方法的具体应用场景中包含的设备数量、设备种类,或者各个设备中包含的装置数量、装置种类不影响本申请实施例中技术方案整体实现,均可以算作本申请实施例要求保护技术方案的等效替换或衍生。
本申请实施例中机器阅读理解设备100主要用于:获取待处理的阅读理解信息;通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息;其中,预设阅读理解模型是通过注意力机制和交叉熵损失函数对神经网络训练得到的,且预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
本申请实施例中该机器阅读理解设备100可以是独立的机器阅读理解设备,也可以是机器阅读理解设备组成的机器阅读理解设备网络或机器阅读理解设备集群,例如,本申请实施例中所描述的机器阅读理解设备100,其包括但不限于计算机、网络主机、单个网络机器阅读理解设备、多个网络机器阅读理解设备集或多个机器阅读理解设备构成的云机器阅读理解设备。其中,云机器阅读理解设备由基于云计算(CloudComputing)的大量计算机或网络机器阅读理解设备构成。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的机器阅读理解设备,或者机器阅读理解设备网络连接关系,例如图1中仅示出1个机器阅读理解设备,可以理解的,该机器阅读理解方法的具体应用场景还可以包括一个或多个其他机器阅读理解设备,具体此处不作限定;该机器阅读理解设备100中还可以包括存储器。
此外,本申请机器阅读理解方法的具体应用场景中机器阅读理解设备100可以设置显示装置,或者机器阅读理解设备100中不设置显示装置与外接的显示装置200通讯连接,显示装置200用于输出机器阅读理解设备中机器阅读理解方法执行的结果。机器阅读理解设备100可以访问后台数据库300(后台数据库可以是机器阅读理解设备的本地存储器中,后台数据库还可以设置在云端),后台数据库300中保存有阅读理解相关的信息。
需要说明的是,图1所示的机器阅读理解方法的场景示意图仅仅是一个示例,本申请实施例描述的机器阅读理解方法的具体应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。
基于上述机器阅读理解方法的具体应用场景,提出了机器阅读理解方法的实施例。
参照图2,图2为本申请实施例中机器阅读理解方法的一个实施例流程示意图,该机器阅读理解方法包括步骤201-步骤203:
201,获取待处理的阅读理解信息。
本实施例中的机器阅读理解方法应用在机器阅读理解设备,机器阅读理解设备种类不作具体限定,例如,机器阅读理解设备可以是终端或者服务器。
机器阅读理解设备接收阅读理解答题请求,其中,阅读理解答题请求的触发方式不作具体限定,即,阅读理解答题请求可以是用户主动触发的,例如,用户在机器阅读理解设备选中:“xxx文本内容和问题信息作为阅读理解信息”,触发阅读理解答题请求;此外,阅读理解答题请求还可以是机器阅读理解设备自动触发的,例如,机器阅读理解设备检测到更新的阅读理解信息时,自动触发阅读理解答题请求。
机器阅读理解设备接收阅读理解答题请求之后,机器阅读理解设备获取阅读理解答题请求对应待处理的阅读理解信息,其中,阅读理解信息的数量和具体形式不作限定,例如,阅读理解信息可以是中文的还可以是英文等等,阅读理解信息中包括文本内容和问题信息。
本实施例中机器阅读理解设备对阅读理解信息处理的方式不作具体限定,具体地,包括:
202,通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征。
机器阅读理解设备中预训练模型,预训练模型中包含编码器,预训练模型是指预先设置的文本内容识别模型,预训练模型可以进行分词处理,并将文本内容转化为文本特征,文本特征可以是词向量也可以是文本向量,例如,本实施例中预训练模型是采用是完全开源的预训练模型BERT。如图3所示,图3是本申请实施例中机器阅读理解方法中预训练模型提取文本特征的一个实施例具体场景示意图。
机器阅读理解设备将阅读理解信息中的文本内容输入预训练模型,通过预训练模型中的编码器对文本内容进行编码,得到文本特征,本实施例中通过预训练模型处理文本内容是为了保证文本内容特征提取的全面性。
203,将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
机器阅读理解设备将文本特征和阅读理解信息中的文本内容和问题信息输入至预设阅读理解模型中各问题类型对应的逻辑回归层,其中,逻辑回归层是根据问题类型训练得到的,机器阅读理解设备获取各逻辑回归层的输出,机器阅读理解设备将各逻辑回归层的输出进行权重比对,得到问题信息对应的答案信息并输出;具体地,步骤203包括:
(1)、将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型,通过预设阅读理解模型提取文本内容和问题信息的语义向量;
(2)、将语义向量和文本特征对应的文本向量进行连接并输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息。
即,机器阅读理解设备将文本特征和阅读理解信息中的文本内容和问题信息输入至预设阅读理解模型,通过预设阅读理解模型提取文本内容和问题信息的特征信息,根据注意力机制处理特征信息得到语义向量;机器阅读理解设备将语义向量和文本特征对应的文本向量进行连接并输入至预设阅读理解模型中各问题类型对应的逻辑回归层,得到问题信息对应的答案信息并输出。
本实施例中预设阅读理解模型是根据问题类型设置注意力机制和交叉熵损失函数,通过注意力机制和交叉熵损失函数结合训练神经网络生成问题类型对应的逻辑回归层,以得到最终的预设阅读理解模型,这样可以避免预设阅读理解模型过拟合,使得模型较为简单,同时,将预训练模型中的编码器对文本内容进行编码,得到文本特征,并将文本特征阅读理解信息中的文本内容和问题信息输入至预设阅读理解模型各问题类型对应的逻辑回归层,可以实现阅读理解信息的全面特征分析提取针对性分析,有效地提高阅读理解答题信息的准确率。
参照图4,图4为本申请实施例中机器阅读理解方法中预先构建预设阅读理解模型的一个实施例流程示意图。
本实施例中给出了机器阅读理解设备预先构建预设阅读理解模型,包括步骤301-步骤304:
301,提供具有标记的阅读理解信息作为训练样本。
机器阅读理解设备获取海量阅读理解信息,机器阅读理解设备将海量阅读理解信息添加标记,标记的具体内容可以根据模型功能设定,例如标记的内容包括但不仅限于问题类型标记和问题答案标记等等,本实施例中添加标记的方式不作限定,即,添加标记可以是人工标记,例如,机器阅读理解设备输出样本阅读理解信息,机器阅读理解设备采集用户基于样本阅读理解信息输入的问题类型标记和答案标记,机器阅读理解设备将问题类型标记和答案标记进行关联;此外,还可以机器阅读理解设备还可以设置机器自动标记,例如,机器阅读理解设备中预先定义包含是或非等关键字的问题为是非的问题类型,机器阅读理解设备按照预定义的规则自动为样本阅读理解信息添加问题类型标记。
302,按照预定义的问题类型分类规则对标记后的训练样本进行分类,得到各问题类型对应的训练样本集。
机器阅读理解设备中预定义的问题类型分类规则,预定义的问题类型分类规则中包含分类策略,例如,对训练样本中的每一个问题,需要基于预定义的问题类型分类规则对该问题划分问题类型,答案为空字符串即为unknown类,答案是yes即为yes类,答案是no即为no类,答案是0到10之间的数字即为num类,问题中包含“or”且答案在问题中即为option类,除开这五类即为可使用抽取逻辑的非固定类,又叫,span类。
本实施例中按照预定义的问题类型分类规则对标记后的训练样本进行分类,得到各问题类型对应的训练样本集,这样可以针对各问题类型的训练样本集进行模型训练,使得训练得到的阅读理解训练模型更加准确。
303,分别从各训练样本集中抽取训练样本,按照预设的注意力机制处理抽取的训练样本对神经网络模型进行训练,得到阅读理解训练模型。
机器阅读理解设备中预设注意力机制,注意力机制可以是通过训练样本的数据量统计得到,注意力机制还可以是根据用户经验设置。
本实施例中机器阅读理解设备分别从各训练样本集中抽取训练样本,然后对训练样本进行特征提取,形成特征向量,机器阅读理解设备将特征向量按照预设的注意力机制中的权重进行加权处理,得到训练向量,机器阅读理解设备通过训练向量对神经网络进行训练,得到各问题类型对应的逻辑层,机器阅读理解设备将各个问题类型对应的逻辑层进行封装,得到阅读理解训练模型。
304,采用预设的交叉熵损失函数对阅读理解训练模型的参数进行迭代更新,得到预设阅读理解模型。
本实施例中机器阅读理解设备中预设交叉熵损失函数,交叉熵损失函数为:
Figure BDA0003143376570000081
其中,p(xi)为问题类型xi的概率,-log(p(xi))为问题类型X=xi的数据量,H(x)为梯度模长。
机器阅读理解设备中采用预设的交叉熵损失函数对阅读理解训练模型的参数进行迭代更新,得到预设阅读理解模型;具体地,步骤304包括:
(1)、按照阅读理解训练模型计算预设的交叉熵损失函数的梯度模长;
(2)、根据梯度模长对阅读理解训练模型的参数进行迭代更新,得到更新后的阅读理解训练模型;
(3)、获取更新后的阅读理解训练模型的识别准确率,将识别准确率高于预设准确率的阅读理解训练模型作为预设阅读理解模型。
即,本实施例中机器阅读理解设备按照阅读理解训练模型计算预设的交叉熵损失函数的梯度模长。机器阅读理解设备根据梯度模长对阅读理解训练模型的参数进行迭代更新,得到更新后的阅读理解训练模型,例如,梯度模长为第一等级,则参数调整率为增加10%;机器阅读理解设备获取更新后的阅读理解训练模型的识别准确率,机器阅读理解设备将阅读理解训练模型的识别准确率与预设准确率进行比对,其中,预设准确率可以根据识别需求设置,例如,预设准确率设置为95%。
若阅读理解训练模型的识别准确率不高于预设准确率,机器阅读理解设备则继续迭代训练阅读理解训练模型,直至更新后的阅读理解训练模型的识别准确率高于预设准确率,若阅读理解训练模型的识别准确率高于预设识别准确率,机器阅读理解设备则训练终止。机器阅读理解设备将识别准确高于预设准确率的阅读理解训练模型作为预设阅读理解模型。
本实施例中通过预设阅读理解模型,预设阅读理解模型是根据问题类型设置注意力机制和交叉熵损失函数结合训练,在增强模型泛化性的同时,也能提高模型在不同应用场景中的识别准确率。
参照图5,图5为本申请实施例中提供的机器阅读理解方法中结合注意力机制进行训练预设阅读理解模型的流程示意图。
本实施例中给出了机器阅读理解设备设置注意力机制的一种具体实现方式,包括步骤401-步骤405:
401,将训练样本集中的训练样本按照各自问题类型对应的答案类型进行分类,得到训练样本子集。
机器阅读理解设备将训练样本集中的训练样本按照各自问题类型对应的答案类型进行分类,得到训练样本子集,例如是非类型的训练样本集,可以按照答案类型,分为是答案类型的训练样本子集和非答案类型的训练样本子集。
402,统计训练样本子集中训练样本的第一数量和训练样本集中训练样本的第二数量,按照第一数量和第二数量设置权重值,汇总权重值形成预设的注意力机制。
机器阅读理解设备统计训练样本子集中训练样本的第一数量,统计训练样本集中训练样本的第二数量,机器阅读理解设备计算第一数量与第二数量的比值,机器阅读理解设备计算第二数量和总样本数量的比值,机器阅读理解设备按照两个比值结合设置权重值,汇总权重值形成预设的注意力机制。
403,分别从各训练样本集中抽取训练样本,将抽取的训练样本进行编码形成字符向量,以及按照注意力机制为字符向量添加权重形成语义向量;
404,对训练样本中的文本内容进行编码,获得文本特征;
405,将语义向量和文本特征对应的文本向量进行连接后对神经网络模型进行训练,得到阅读理解训练模型。
机器阅读理解设备分别从各训练样本集中抽取的训练样本,将训练样本进行编码形成字符向量,机器阅读理解设备按照注意力机制为字符向量添加权重,形成语义向量;机器阅读理解设备将训练样本集中的训练样本输入预训练模型,通过预训练模型中的编码器对训练样本中的文本内容进行编码,得到文本特征;机器阅读理解设备将语义向量和文本特征对应的文本向量进行连接,对神经网络进行训练,得到阅读理解训练模型。
本实施例中模型训练过程中将文本特征,与按照注意力机制为字符向量添加权重,形成语义向量进行拼接形成的结合特征融合训练,使得保证模型训练过程中数据的全面性和特征性,使得预设阅读理解的识别更加准确。
进一步地,识别阅读理解信息的语言种类;调用语言种类对应的预训练模型和预设阅读理解模型。本实施例中可以对不同语言种类进行分别训练,以适用不同的应用场景。
为了方便理解,本实施例中给出了一种预设阅读理解模型训练的具体实现方式,包括:
如图6所示,图6为本申请实施例中机器阅读理解方法中预设阅读理解模型进行阅读理解处理的一个实施例具体场景示意图,阅读理解设置将阅读逻辑信息对应的文本内容(Context)和问题信息(Query)进行拼接后输入到编码器中,编码器是采用是完全开源的预训练模型BERT(也可以选用其他预训练模型),拿到编码器的context部分的文本特征,机器阅读理解设备采用注意力(Attention)机制与逻辑,将文本特征拼接到代表context与query交互后的语义向量上,后续接上多个独立的softmax层,分别对应前五类答案类型中的某一类,context部分输出同时也会接上针对span类型答案的全连接层用来定位答案的起始位置和结束位置。
可以理解的是,机器阅读理解设备还需要进一步对问题类型子类型划分,简单的对应到0-10是一个子类,对option类本方案只支持二分类,即需要进一步划分的子类型只包含“or”的左边A和“or”的右边B,本实施例中针对不同的答案的类型,设置了不同的学习任务:前三类为二分类任务、num类为12分类任务、option类为3分类任务、span类为多分类任务(同时定位起始和结束的位置)。基于多任务学习的机器阅读理解的解决方案,结合英文阅读理解场景的特性,细化出多个学习任务,同时充分挖掘数据集中的监督信息,在增强模型泛化性的同时,也能提高模型在应用场景中的识别准确率。
参照图7,图7为本申请实施例中提供的机器阅读理解方法中非固定类型问题阅读理解处理的流程示意图。
本实施例中给出了机器阅读理解设备非固定类型问题阅读理解处理的流程示意图,包括步骤501-步骤502:
501,将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,得到问题信息对应的问题类型。
机器阅读理解设备将文本特征和阅读理解信息中的文本内容和问题信息输入至预设阅读理解模型中各问题类型对应的逻辑回归层,机器阅读理解设备获取若各逻辑回归层输出的权重结果,并提取最高权重,若最高权重不高于预设的类型权重,机器阅读理解设备将问题信息对应的问题类型作为非固定类型。
502,若问题信息对应的问题类型为非固定类型,则将文本特征输入预设阅读理解模型中全连接层进行处理,输出问题信息对应答案信息的起始位置和结束位置。
若问题信息对应的问题类型为非固定类型,则机器阅读理解设备将文本特征输入至预设阅读理解模型中全连接层,通过全连接层得到问题信息对应答案信息的起始位置和结束位置并输出。本实施例中可以对非固定类型的问题进行答案标记,使得阅读理解更加便捷。
如图8所示,图8是机器阅读理解装置的一个实施例结构示意图。
为了更好实施本申请实施例中机器阅读理解方法,在机器阅读理解方法基础之上,本申请实施例中还提供一种机器阅读理解装置,机器阅读理解装置包括:
获取模块601,用于获取待处理的阅读理解信息;
编码模块602,用于通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;
输出模块603,用于将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
在本申请一些实施例中,机器阅读理解装置,还包括:
标记模块,用于提供具有标记的阅读理解信息作为训练样本;
分类模块,用于按照预定义的问题类型分类规则对训练样本进行分类,得到各问题类型对应的训练样本集;
训练模块,用于分别从各训练样本集中抽取训练样本,按照预设的注意力机制处理抽取的训练样本对神经网络模型进行训练,得到阅读理解训练模型,阅读理解训练模型包括各问题类型对应的逻辑分类层;
更新模块,用于采用预设的交叉熵损失函数对阅读理解训练模型的参数进行迭代更新,得到预设阅读理解模型。
在本申请一些实施例中,机器阅读理解装置,还包括:
分类模块,用于将训练样本集中的训练样本按照各自问题类型对应的答案类型进行分类,得到训练样本子集;
统计模块,用于统计训练样本子集中训练样本的第一数量和训练样本集中训练样本的第二数量,按照第一数量和第二数量设置权重值,汇总权重值形成注意力机制;
在分别从各训练样本集中抽取训练样本,按照预设的注意力机制处理抽取的训练样本对神经网络模型进行训练,得到阅读理解训练模型方面,上述训练模块,具体用于:
分别从各训练样本集中抽取的训练样本,将抽取的训练样本进行编码形成字符向量,以及按照注意力机制为字符向量添加权重,形成语义向量;
对训练样本中的文本内容进行编码,获得文本特征;
将对将语义向量和文本特征对应的文本向量进行连接,后对神经网络模型进行训练,获得得到阅读理解训练模型。
在本申请一些实施例中,在采用预设的交叉熵损失函数对阅读理解训练模型的参数进行迭代更新,得到预设阅读理解模型方面,上述更新模块具体用于:
按照阅读理解训练模型计算预设的交叉熵损失函数的梯度模长;
根据梯度模长对阅读理解训练模型的参数进行迭代更新,获得得到更新后的阅读理解训练模型;
获取更新后的阅读理解训练模型的识别准确率,将识别准确率高于预设准确率的阅读理解训练模型作为预设阅读理解模型;
其中,预设的交叉熵损失函数为:
Figure BDA0003143376570000131
p(xi)为问题类型xi的概率,-log(p(xi))为问题类型X=xi的数据量,H(x)为梯度模长。
在本申请一些实施例中,输出模块603具体用于:
将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型,通过预设阅读理解模型提取文本内容和问题信息的语义向量;
将语义向量和文本特征对应的文本向量进行连接并输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息。
在本申请一些实施例中,输出模块603具体用于:
将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,得到问题信息对应的问题类型;
若问题信息对应的问题类型为非固定类型,则将文本特征输入预设阅读理解模型中全连接层进行处理,输出问题信息对应答案信息的起始位置和结束位置。
在本申请一些实施例中,机器阅读理解装置,还包括:
识别模块,用于识别阅读理解信息的语言种类;
调用模块,用于调用语言种类对应的预训练模型和预设阅读理解模型。
本实施例中机器阅读理解装置预设阅读理解模型是根据问题类型设置注意力机制和交叉熵损失函数,通过注意力机制和交叉熵损失函数结合训练神经网络生成问题类型对应的逻辑回归层,以得到最终的预设阅读理解模型,这样可以避免预设阅读理解模型过拟合,使得模型较为简单,同时,将预训练模型中的编码器对文本内容进行编码,得到文本特征,并将文本特征阅读理解信息中的文本内容和问题信息输入至预设阅读理解模型各问题类型对应的逻辑回归层,可以实现阅读理解信息的全面特征分析提取针对性分析,有效地提高阅读理解答题信息的准确率
本申请实施例还提供一种机器阅读理解设备,如图9所示,图9是本申请实施例中提供的机器阅读理解设备的一个实施例结构示意图。
机器阅读理解设备集成了本申请实施例所提供的任一种机器阅读理解装置,机器阅读理解设备包括处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序以实现任一项机器阅读理解方法中的步骤。
具体来讲:机器阅读理解设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图9中示出的机器阅读理解设备结构并不构成对机器阅读理解设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该机器阅读理解设备的控制中心,利用各种接口和线路连接整个机器阅读理解设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行机器阅读理解设备的各种功能和处理数据,从而对机器阅读理解设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据机器阅读理解设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
机器阅读理解设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该机器阅读理解设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息。
尽管未示出,机器阅读理解设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,机器阅读理解设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:
获取待处理的阅读理解信息;
通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;
将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质可以包括:只读存储器(ROM,ReadOnlyMemory)、随机存取记忆体(RAM,RandomAccessMemory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种机器阅读理解方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
获取待处理的阅读理解信息;
通过预训练模型中的编码器对阅读理解信息中的文本内容进行编码,得到文本特征;
将文本特征、文本内容以及阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出问题信息对应的答案信息,预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种机器阅读理解方法进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种机器阅读理解方法,其特征在于,包括:
获取待处理的阅读理解信息;
通过预训练模型中的编码器对所述阅读理解信息中的文本内容进行编码,得到文本特征;
将所述文本特征、所述文本内容以及所述阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出所述问题信息对应的答案信息,所述预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述通过预训练模型中的编码器对所述阅读理解信息中的文本内容进行编码,得到文本特征之前,所述方法还包括:
提供具有标记的阅读理解信息作为训练样本;
按照预定义的问题类型分类规则对所述训练样本进行分类,得到各问题类型对应的训练样本集;
分别从各所述训练样本集中抽取训练样本,按照预设的注意力机制处理抽取的训练样本对神经网络模型进行训练,得到阅读理解训练模型,所述阅读理解训练模型包括各问题类型对应的逻辑分类层;
采用预设的交叉熵损失函数对所述阅读理解训练模型的参数进行迭代更新,得到所述预设阅读理解模型。
3.根据权利要求2所述的方法,其特征在于,所述按照预定义的问题类型分类规则对所述训练样本进行分类,得到各问题类型对应的训练样本集之后,所述方法还包括:
将所述训练样本集中的训练样本按照各自所述问题类型对应的答案类型进行分类,得到训练样本子集;
统计所述训练样本子集中训练样本的第一数量和所述训练样本集中训练样本的第二数量,按照所述第一数量和所述第二数量设置权重值,汇总所述权重值形成所述注意力机制;
所述分别从各所述训练样本集中抽取训练样本,按照预设的注意力机制处理抽取的训练样本对神经网络模型进行训练,得到阅读理解训练模型,包括:
分别从各所述训练样本集中抽取训练样本,将抽取的训练样本进行编码形成字符向量,以及按照所述注意力机制为所述字符向量添加权重形成语义向量;
对所述训练样本中的文本内容进行编码,获得文本特征;
将所述语义向量和所述文本特征对应的文本向量进行连接后对神经网络模型进行训练,得到所述阅读理解训练模型。
4.根据权利要求2所述的方法,其特征在于,所述采用预设的交叉熵损失函数对所述阅读理解训练模型的参数进行迭代更新,得到所述预设阅读理解模型,包括:
按照所述阅读理解训练模型计算预设的交叉熵损失函数的梯度模长;
根据所述梯度模长对所述阅读理解训练模型的参数进行迭代更新,得到更新后的阅读理解训练模型;
获取所述更新后的阅读理解训练模型的识别准确率,将识别准确率高于预设准确率的阅读理解训练模型作为所述预设阅读理解模型;
其中,所述交叉熵损失函数为:
Figure FDA0003143376560000021
所述p(xi)为问题类型xi的概率,所述-log(p(xi))为问题类型X=xi的数据量,所述H(x)为梯度模长。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述文本特征、所述文本内容以及所述阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出所述问题信息对应的答案信息,包括:
将所述文本特征、所述文本内容以及所述阅读理解信息中的问题信息输入所述预设阅读理解模型,通过所述预设阅读理解模型提取所述文本内容和所述问题信息的语义向量;
将所述语义向量和所述文本特征对应的文本向量进行连接并输入所述预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出所述问题信息对应的答案信息。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述文本特征、所述文本内容以及所述阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出所述问题信息对应的答案信息,包括:
将所述文本特征、所述文本内容以及所述阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,得到所述问题信息对应的问题类型;
若所述问题信息对应的问题类型为非固定类型,则将所述文本特征输入所述预设阅读理解模型中全连接层进行处理,输出所述问题信息对应答案信息的起始位置和结束位置。
7.根据权利要求1所述的方法,其特征在于,所述获取待处理的阅读理解信息之后,所述方法还包括:
识别所述阅读理解信息的语言种类;
调用所述语言种类对应的预训练模型和预设阅读理解模型。
8.一种机器阅读理解装置,其特征在于,包括:
获取模块,用于获取待处理的阅读理解信息;
编码模块,用于通过预训练模型中的编码器对所述阅读理解信息中的文本内容进行编码,得到文本特征;
输出模块,用于将所述文本特征、所述文本内容以及所述阅读理解信息中的问题信息输入预设阅读理解模型中各问题类型对应的逻辑回归层进行处理,输出所述问题信息对应的答案信息,所述预设阅读理解模型是基于不同问题类型的阅读理解信息训练得到的。
9.一种机器阅读理解设备,其特征在于,所述机器阅读理解设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述的机器阅读理解方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的机器阅读理解方法中的步骤。
CN202110743042.4A 2021-07-01 2021-07-01 机器阅读理解方法、装置、设备和计算机可读存储介质 Pending CN115563954A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110743042.4A CN115563954A (zh) 2021-07-01 2021-07-01 机器阅读理解方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110743042.4A CN115563954A (zh) 2021-07-01 2021-07-01 机器阅读理解方法、装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115563954A true CN115563954A (zh) 2023-01-03

Family

ID=84737944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110743042.4A Pending CN115563954A (zh) 2021-07-01 2021-07-01 机器阅读理解方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115563954A (zh)

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111831826B (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN115115914B (zh) 信息识别方法、装置以及计算机可读存储介质
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN114444476B (zh) 信息处理方法、装置和计算机可读存储介质
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN116975711A (zh) 多视图数据分类方法以及相关设备
CN117649567B (zh) 数据标注方法、装置、计算机设备和存储介质
CN114676705B (zh) 一种对话关系处理方法、计算机及可读存储介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN116975622A (zh) 目标检测模型的训练方法及装置、目标检测方法及装置
CN114443904B (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
CN116978087A (zh) 模型更新方法、装置、设备、存储介质及程序产品
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN115563954A (zh) 机器阅读理解方法、装置、设备和计算机可读存储介质
CN115129930A (zh) 一种视频的信息处理方法、装置、计算机设备和存储介质
CN113569041A (zh) 文本检测方法、装置、计算机设备以及可读存储介质
US20240256601A1 (en) Model training method and apparatus, computer device, and storage medium
CN118568568B (zh) 内容分类模型的训练方法以及相关设备
CN116992031B (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN115102852B (zh) 物联网业务开通方法、装置、电子设备及计算机介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination