CN113553837A - 阅读理解模型的训练方法和装置、文本分析的方法和装置 - Google Patents

阅读理解模型的训练方法和装置、文本分析的方法和装置 Download PDF

Info

Publication number
CN113553837A
CN113553837A CN202010329215.3A CN202010329215A CN113553837A CN 113553837 A CN113553837 A CN 113553837A CN 202010329215 A CN202010329215 A CN 202010329215A CN 113553837 A CN113553837 A CN 113553837A
Authority
CN
China
Prior art keywords
decoder
training data
reading understanding
speech
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010329215.3A
Other languages
English (en)
Inventor
李长亮
陈楠
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Software Co Ltd
Kingsoft Corp Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd, Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN202010329215.3A priority Critical patent/CN113553837A/zh
Publication of CN113553837A publication Critical patent/CN113553837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供一种阅读理解模型的训练方法和装置、文本分析的方法和装置,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接,所述训练方法包括:获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量;确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值;调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,直至达到训练停止条件,提高阅读理解模型的泛化效果,进而提高阅读理解模型在做机器阅读理解时的准确率。

Description

阅读理解模型的训练方法和装置、文本分析的方法和装置
技术领域
本申请涉及文本处理领域,特别涉及一种阅读理解模型的训练方法和装置、文本分析的方法和装置、计算设备以及计算机可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
对于自然语言处理任务,能够用双向注意力神经网络模型模型(BidirectionalEncoder Representation from Transformers,BERT)进行处理。BERT模型可以通过当前次的左、右两侧上下文来预测当前词,还可以通过当前句子预测下一个句子的语义,具体地,机器阅读理解包括抽取式阅读理解和生成式阅读理解,抽取式阅读理解是文章中有答案原句,模型通过确定答案的起点和终点可以确定答案;生成式阅读理解即文章中没有答案原句,模型需要理解问题和文章,然后生成答案。
现有技术中,BERT模型在进行阅读理解任务时,使用额外的命名实体识别模型和词性识别模型提前分别对阅读理解数据进行命名实体识别和词性标注。再将识别的命名实体和词性标签转化成向量信息,直接加在BERT模型输出的词向量上,或是拼接在BERT输出的词向量上,给模型带来的参数和噪音比带来的词性信息更多,并且外部的命名实体识别和词性标注的模型准确率不高,导致BERT模型的预测准确率下降。
发明内容
有鉴于此,本申请实施例提供了一种阅读理解模型的训练方法和装置、文本分析的方法和装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种阅读理解模型的训练方法,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接,所述训练方法包括:
获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,其中,每个组合训练数据集包括阅读理解训练数据、命名实体训练数据和词性训练数据;
将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量;
将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值;
根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,完成当前次训练并进行下次训练直至达到训练停止条件。
本申请实施例还公开了一种文本分析的方法,包括:
接收原文本和问题;
将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,其中,所述阅读理解模型通过所述阅读理解模型的训练方法训练得到的。
本申请实施例还公开了一种阅读理解模型的训练装置,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接,所述训练装置包括:
提取模块,被配置为获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,其中,每个组合训练数据集包括阅读理解训练数据、命名实体训练数据和词性训练数据;
编码模块,被配置为将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量;
确定模块,被配置为将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值;
调整模块,被配置为根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,完成当前次训练并进行下次训练直至达到训练停止条件。
本申请实施例还公开了一种文本分析的装置,包括:
接收模块,被配置为接收原文本和问题;
获取模块,被配置为将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,其中,所述阅读理解模型通过所述阅读理解模型的训练方法训练得到的。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的阅读理解模型的训练方法或文本分析的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的阅读理解模型的训练方法或文本分析的方法的步骤。
本申请提供的一种阅读理解模型的训练方法和装置、文本分析的方法和装置,通过在编码器分别连接命名实体解码器和词性解码器,并提取所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集进行组合以生成至少一个组合训练数据集,实现阅读理解训练任务、命名实体识别训练任务以及词性识别训练任务,换言之在阅读理解模型进行阅读理解训练任务的基础上,再加上预测命名实体识别训练任务和词性标注的训练任务,使得阅读理解模型能够学习命名实体识别以及词性标注的知识,最终根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,也就是使用多任务学习的方法增强阅读理解模型的语法知识,提高阅读理解模型的泛化效果,进而提高阅读理解模型在做机器阅读理解时的准确率。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请第一实施例阅读理解模型的训练方法的流程示意图;
图3是本申请第一实施例阅读理解模型的结构示意图;
图4是本申请第二实施例阅读理解模型的训练方法的流程示意图;
图5是本申请第三实施例文本分析的方法的流程示意图;
图6是本申请实施例阅读理解模型的训练装置结构示意图;
图7是本申请实施例文本分析的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
机器阅读理解(Machine Reading Comprehension):主要是根据问题通过对应的段落给出该问题的答案,对于自然语言处理中的阅读理解模型,其训练方法通常包括两个阶段,其一为使用大量的无监督文本对模型进行预训练,其二是使用预训练的模型在具体的下游任务即阅读理解任务中进行微调。微调阶段主要对与编码层连接的线性网络层进行训练。其中,预训练的模型的网络架构由多层的Transformer的编码器组成,线性网络对编码器最后一层的输出进行线性变换,得到模型最后的输出结果。
抽取式阅读理解:文章中有答案原句,模型通过确定答案的起点和终点可以确定答案。
生成式阅读理解:文章中没有答案原句,模型需要理解问题和文章,然后生成答案。
Transformer:Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed ForwardNeural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,比如通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder。
阅读理解模型(Bidirectional Encoder Representations from Transformers,BERT):一种双向注意力神经网络模型,一种通用预训练语言表示模型。BERT模型可以通过当前次的左、右两侧上下文来预测当前词,还可以通过当前句子预测下一个句子的语义。BERT模型的目标是利用大规模无标注语料训练、获得包含丰富语义信息的文本语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
阅读理解训练数据集:在阅读理解训练任务中用于训练BERT模型的训练数据的集合,可以是斯坦福发布的机器阅读理解数据集(Squad)。
命名实体训练数据集:在命名实体识别训练任务中用于训练BERT模型的训练数据的集合。
词性训练数据集:在词性标注训练任务中用于训练BERT模型的训练数据的集合。
组合训练数据集:包括至少一个阅读理解训练数据、至少一个命名实体训练数据和至少一个词性训练数据的集合。
标签:网络模型训练阶段,每个训练数据对应的真实结果。
编码器:将输入词序列转化成一个固定维度的稠密向量。
阅读理解解码器:将编码器输出的稠密向量解码生成预测的答案。
命名实体解码器:将编码器输出的稠密向量解码生成预测的命名实体。
词性解码器:将编码器输出的稠密向量解码生成每个词预测的词性。
样本文本:对阅读理解模型进行训练的文本。
损失值:模型输出的预测值与真实值的误差。
原文本:阅读理解模型根据原文本和问题,阅读理解模型输出问题的答案。
损失函数:是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
交叉熵损失函数(Cross-entropy cost function):是用来衡量卷积神经网络的预测值与实际值的一种方式。与二次代价函数相比,它能更有效地促进卷积神经网络的训练。
在本申请中,提供了一种阅读理解模型的训练方法和装置、文本分析的方法和装置、计算设备以及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请第一实施例的阅读理解模型的训练方法的示意性流程图,包括步骤202至步骤208。
步骤202:获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,其中,每个组合训练数据集包括阅读理解训练数据、命名实体训练数据和词性训练数据。
参见图3所示,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接。
所述阅读理解训练数据集可以为斯坦福发布的机器阅读理解数据集,当然,所述阅读理解训练数据集也可以为其它阅读理解数据集,比如,一条阅读理解训练数据的样本文本为“‘落霞与孤鹜齐飞,秋水共长天一色’出自王勃所作的《滕王阁序》”,样本问题包括“《滕王阁序》的作者是谁?”,阅读理解训练数据对应的标签包括答案存在信息“有答案”和样本答案“王勃”。
所述命名实体训练数据集中的样本文本中命名实体已完成标注,比如,所述命名实体训练数据的样本文本为“张三今天去北京的鸟巢参观了”,标注的命名实体“张三”、“北京”和“鸟巢”作为命名实体训练数据对应的标签。
所述词性训练数据集中的样本文本中各个词的词性已完成标注,比如所述词性训练数据集中的样本文本为“我吃苹果”,分别标注的“我”、“吃”和“苹果”的词性“代词”、“动词”和“名词”作为词性训练数据对应的标签。
所述组合训练数据集包括词性训练数据、阅读理解训练数据和命名实体训练数据,可以分别提取阅读理解训练数据集、命名实体训练数据集和词性训练数据集中的部分数据组合成一条组合训练数据集,一条组合训练数据集对阅读理解模型进行一次训练,确保下述步骤中阅读理解模型能够分别学习阅读理解、命名实体识别以及词性标注的知识。
步骤204:将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量。
本步骤中阅读理解模型的编码器对组合训练数据集中所有的训练数据进行编码。
具体地,假设一条组合训练数据集中包括阅读理解训练数据A、命名实体训练数据B和词性训练数据C,组合训练数据集为[A、B、C]。
在进行步骤202将至少一个组合训练数据集输入至编码器中进行编码之前,还包括:
对所述组合训练数据集中的阅读理解训练数据、命名实体训练数据和词性训练数据分别设置对应标志。
比如将阅读理解训练数据、命名实体训练数据和词性训练数据分别对应设置标志0、1和2。
也就是一条组合训练数据集中阅读理解训练数据A对应的标志为0,命名实体训练数据B对应的标志为1,词性训练数据C对应的标志为2。
将所述组合训练数据集[A、B、C]输入至编码器中进行编码,获得所述编码器输出的所述组合训练数据集对应的编码向量[a、b、c]。
步骤206:将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值。
具体地,确定具有阅读理解训练数据对应的标志“0”的阅读理解编码向量a,所述阅读理解解码器对具有阅读理解训练数据对应的标志“0”的阅读理解编码向量a进行解码。
确定具有命名实体训练数据对应的标志“1”的命名实体编码向量b,所述命名实体解码器对具有命名实体训练数据对应的标志“1”的命名实体编码向量b进行解码。
确定具有词性训练数据对应的标志“2”的词性编码向量c,所述词性解码器对具有词性训练数据对应的标志“2”的词性编码向量c进行解码。
上述阅读理解解码器、命名实体解码器和词性解码器分别对所述编码向量进行解码是并列进行的,没有先后顺序。
具体地,通过下述并列的步骤2062至步骤2066来确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值。
所述阅读理解训练数据集包括阅读理解训练数据对应的标签向量、命名实体训练数据集对应的标签向量和词性训练数据集对应的标签向量。
步骤2062:将所述阅读理解编码向量输入至阅读理解解码器,所述阅读理解解码器对阅读理解编码向量进行解码并输出阅读理解解码向量,基于所述阅读理解解码向量和所述阅读理解训练数据对应的标签向量,确定所述阅读理解解码器对应的损失值。
由于所述阅读理解训练数据可以为一条或者两条以上,在所述阅读理解训练数据可以为两条以上的情况下。
基于单条所述阅读理解训练数据对应的标签向量以及该阅读理解训练数据对应的解码向量,确定所述组合训练数据集中每条阅读理解训练数据对应的所述阅读理解解码器输出的损失值,均化每条阅读理解训练数据对应的损失值得到均值作为所述阅读理解解码器对应的损失值。
步骤2064:将所述命名实体编码向量输入至命名实体解码器,所述命名实体解码器对命名实体编码向量进行解码并输出命名实体解码向量,基于所述命名实体解码向量和所述命名实体训练数据对应的标签向量,确定所述命名实体解码器对应的损失值。
基于单条所述命名实体训练数据对应的标签向量以及该命名实体训练数据对应的解码向量,确定所述组合训练数据集中每条命名实体训练数据对应的所述命名实体解码器输出的损失值,均化每条命名实体训练数据对应的损失值得到均值作为所述命名实体解码器对应的损失值。
步骤2066:将所述词性编码向量输入至词性解码器,所述词性解码器对词性编码向量进行解码并输出词性解码向量,基于所述词性解码向量和所述词性训练数据对应的标签向量,确定所述词性解码器对应的损失值。
基于单条所述词性训练数据对应的标签向量以及该词性训练数据对应的解码向量,确定所述组合训练数据集中每条词性训练数据对应的所述词性解码器输出的损失值,均化每条词性训练数据对应的损失值得到均值作为所述词性解码器对应的损失值。
上述确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值通过交叉熵损失函数计算得到。
最后,基于所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值以及每个损失值对应的权重系数,确定所述编码器对应的权重损失值。
比如,所述阅读理解解码器、命名实体解码器和词性解码器分别得到的损失值对应的权重系数为0.7、0.2和0.1,则计算得到所述编码器对应的权重损失值。
步骤208:根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,完成当前次训练并进行下次训练直至达到训练停止条件。
基于所述阅读理解解码器对应的损失值调整阅读理解解码器的参数,基于所述命名实体解码器对应的损失值调整命名实体解码器的参数,基于所述词性解码器对应的损失值调整词性解码器的参数,基于所述权重损失值调整所述编码器的参数。
其中,所述训练停止条件可以包括权重损失值的变化率小于预设稳定阈值。
本实施例中通过在编码器还分别连接命名实体解码器和词性解码器,并提取所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集进行组合以生成至少一个组合训练数据集,实现阅读理解训练任务、命名实体识别训练任务以及词性识别训练任务,换言之基于阅读理解模型进行阅读理解训练任务的基础上,再加上预测命名实体识别训练任务和词性标注的训练任务,使得阅读理解模型能够学习命名实体识别以及词性标注的知识,最终根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,也就是使用多任务学习的方法增强阅读理解模型的语法知识,提高阅读理解模型的泛化效果,进而提高阅读理解模型在做机器阅读理解时的准确率。
图4是示出了根据本申请第二实施例的阅读理解模型的训练方法的示意性流程图,包括步骤402至步骤424。
步骤402:获取所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集,根据所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集的数据量确定数据提取比例。
所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接。
假设确定所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集的数据量分别为900M、200M和100M,所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集的数据量的比例为9:2:1。
步骤404:按所述数据提取比例提取阅读理解训练数据集、命名实体训练数据集和词性训练数据集数据并进行组合,生成至少一个组合训练数据集。
其中,每个组合训练数据集包括至少一个阅读理解训练数据、至少一个命名实体训练数据和至少一个词性训练数据。
上例中,则按照9:2:1的比例来分别提取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,比如在所述阅读理解训练数据集中提取900KB的阅读理解训练数据,在所述命名实体训练数据集中提取200KB的命名实体训练数据,在所述词性数据训练集中提取100KB的词性训练数据,组合900KB的阅读理解训练数据、200KB的命名实体训练数据和100KB的词性训练数据得到第一条组合训练数据集,再进行下一个组合训练数据集的提取,最终可以生成一千条,当然可以根据实际情况,也可以生成一定量的组合训练数据集,这样能够完全利用阅读理解训练数据集、命名实体训练数据集和词性训练数据集,确保阅读理解模型能够更好地进行训练。
步骤406:对所述组合训练数据集中的阅读理解训练数据、命名实体训练数据和词性训练数据分别设置对应标志。
比如将阅读理解训练数据、命名实体训练数据和词性训练数据分别对应设置标志0、1和2,当然,所述标志还可以为其它形式,只要能够分别标注阅读理解训练数据、命名实体训练数据和词性训练数据。
一条组合训练数据集中阅读理解训练数据A对应的标志为0,命名实体训练数据B对应的标志为1,词性训练数据C对应的标志为2。
将所述组合训练数据集[A、B、C]输入至编码器中进行编码,获得所述编码器输出的所述组合训练数据集对应的编码向量[a、b、c],确保阅读理解解码器、命名实体解码器和词性解码器能够分别解码对应的编码向量,保证阅读理解解码器、命名实体解码器和词性解码器能够准确地分别输出对应的损失值。
步骤408:将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量。
将所述组合训练数据集整个输入至编码器中先进行编码,以此获得所述编码器输出的组合训练数据集对应的编码向量[a、b、c],编码向量[a、b、c]中分别对应有标志0、1和2,以此确保下述步骤能够对编码向量中具有标志0、1和2分别对应进行解码。
下述步骤410、步骤414和步骤418是并列进行的,没有先后顺序,也就是所述阅读理解解码器、命名实体解码器和词性解码器分别对所述编码向量进行解码。
步骤410:确定具有阅读理解训练数据对应的标志的阅读理解编码向量,所述阅读理解解码器对具有阅读理解训练数据对应的标志的阅读理解编码向量进行解码。
本步骤中先确定具有阅读理解训练数据对应的标志“0”的阅读理解编码向量[a],这样阅读理解解码器对具有阅读理解训练数据对应的标志“0”的阅读理解编码向量[aE1]进行解码获得[aD1]。
步骤412:基于单条所述阅读理解训练数据对应的标签向量以及该阅读理解训练数据对应的解码向量,确定所述组合训练数据集中每条阅读理解训练数据对应的所述阅读理解解码器输出的损失值,均化每条阅读理解训练数据对应的损失值得到均值作为所述阅读理解解码器对应的损失值。
由于所述阅读理解训练数据可以为一条或者两条以上,在所述阅读理解训练数据为两条以上的情况下。
沿用上例,第一条阅读理解训练数据对应的标志“0”的阅读理解编码向量[aE1]进行解码获得[aD1],第一条所述阅读理解训练数据对应的标签向量Ta1通过交叉熵函数计算得到第一条阅读理解训练数据对应的损失值为La1
第二条阅读理解训练数据对应的标志“0”的阅读理解编码向量[aE2]进行解码获得[aD2],第二条所述阅读理解训练数据对应的标签向量Ta2通过交叉熵函数计算得到第二条阅读理解训练数据对应的损失值为La2,以此类推,分别计算每条阅读理解训练数据对应的损失值,均化每条阅读理解训练数据对应的损失值得到均值作为所述阅读理解解码器对应的损失值La
步骤414:确定具有命名实体训练数据对应的标志的命名实体编码向量,所述命名实体解码器对具有命名实体训练数据对应的标志的命名实体编码向量进行解码。
本步骤中先确定具有命名实体训练数据对应的标志“1”的命名实体编码向量[b],这样阅读理解解码器对具有命名实体训练数据对应的标志“1”的命名实体编码向量[bE1]进行解码获得[bD1]。
步骤416:基于单条所述命名实体训练数据对应的标签向量以及该命名实体训练数据对应的解码向量,确定所述组合训练数据集中每条命名实体训练数据对应的所述命名实体解码器输出的损失值,均化每条命名实体训练数据对应的损失值得到均值作为所述命名实体解码器对应的损失值。
沿用上例,第一条命名实体训练数据对应的标志“1”的命名实体编码向量[bE1]进行解码获得[bD1],第一条所述命名实体训练数据对应的标签向量Tb1通过交叉熵函数计算得到第一条命名实体训练数据对应的损失值为Lb1
第二条命名实体训练数据对应的标志“1”的命名实体编码向量[bE2]进行解码获得[bD2],第二条所述命名实体训练数据对应的标签向量Tb2通过交叉熵函数计算得到第二条命名实体训练数据对应的损失值为Lb2,以此类推,分别计算每条命名实体训练数据对应的损失值,均化每条命名实体训练数据对应的损失值得到均值作为所述命名实体解码器对应的损失值Lb
步骤418:确定具有词性训练数据对应的标志的词性编码向量,所述词性解码器对具有词性训练数据对应的标志的词性编码向量进行解码。
本步骤中先确定具有词性训练数据对应的标志“2”的命名实体编码向量[C],这样词性解码器对具有词性训练数据对应的标志“2”的词性编码向量[CE1]进行解码获得[CD1]。
步骤420:基于单条所述词性训练数据对应的标签向量以及该词性训练数据对应的解码向量,确定所述组合训练数据集中每条词性训练数据对应的所述词性解码器输出的损失值,均化每条词性训练数据对应的损失值得到均值作为所述词性解码器对应的损失值。
沿用上例,第一条词性训练数据对应的标志“2”的词性编码向量[CE1]进行解码获得[CD1],第一条所述词性训练数据对应的标签向量TC1通过交叉熵函数计算得到第一条词性训练数据对应的损失值为LC1
第二条词性训练数据对应的标志“2”的词性编码向量[CE2]进行解码获得[CD2],第二条所述词性训练数据对应的标签向量TC2通过交叉熵函数计算得到第二条词性训练数据对应的损失值为LC2,以此类推,分别计算每条词性训练数据对应的损失值,均化每条词性训练数据对应的损失值得到均值作为所述词性解码器对应的损失值LC
步骤422:基于所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值以及每个损失值对应的权重系数,确定所述编码器对应的权重损失值。
最后,基于所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值La、Lb和LC以及每个损失值对应的权重系数为0.7、0.2和0.1,确定所述编码器对应的权重损失值为L=0.7La+0.2Lb+0.1LC。保证下述步骤中能够更好地调整所述编码器的参数。
步骤424:基于所述阅读理解解码器对应的损失值调整阅读理解解码器的参数,基于所述命名实体解码器对应的损失值调整命名实体解码器的参数,基于所述词性解码器对应的损失值调整词性解码器的参数,基于所述权重损失值调整所述编码器的参数。
基于损失值La、Lb和LC分别调整阅读理解解码器、命名实体解码器和词性解码器的参数,并基于所述权重损失值L调整所述编码器的参数,完成当前次的训练,并向所述编码器输入第二条组合训练数据进行下一次训练。
本实施例中通过在编码器还分别连接命名实体解码器和词性解码器,并提取所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集进行组合以生成至少一个组合训练数据集,实现阅读理解训练任务、命名实体识别训练任务以及词性识别训练任务,换言之基于阅读理解模型进行阅读理解训练任务的基础上,再加上预测命名实体识别训练任务和词性标注的训练任务,使得阅读理解模型能够学习命名实体识别以及词性标注的知识,最终根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,也就是使用多任务学习的方法增强阅读理解模型的语法知识,提高阅读理解模型的泛化效果,进而提高阅读理解模型在做机器阅读理解时的准确率。
第三实施例提供一种文本分析的方法,参见图5,包括步骤502至步骤504。
步骤502:接收原文本和问题。
所述原文本是阅读理解文本,所述问题是根据原文本待解答的问题,也就是阅读理解模需要根据原文本和问题来对答案进行预测。
步骤504:将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,其中,所述阅读理解模型通过上述阅读理解模型的训练方法训练得到的。
将所述原文本和问题输入至阅读理解模型的编码器中获取所述编码器输出的编码向量,将所述编码向量输入至阅读理解模型的阅读理解解码器中,获得所述阅读理解解码器输出的解码向量。
根据所述阅读理解解码器输出的解码向量,生成所述原文本和问题对应的答案。
本实施例中利用的阅读理解模型是通过上述阅读理解模型的训练方法训练得到的,上述阅读理解模型根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,也就是使用多任务学习的方法增强阅读理解模型的语法知识,提高阅读理解模型的泛化效果,将接收原文本和问题输入至训练好的阅读理解模型,能够提高阅读理解模型输出答案的准确率。
第四实施例提供一种阅读理解模型的训练装置,参见图6,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接;
所述训练装置包括:
提取模块602,被配置为获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,其中,每个组合训练数据集包括阅读理解训练数据、命名实体训练数据和词性训练数据;
编码模块604,被配置为将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量;
确定模块606,被配置为将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值;
调整模块608,被配置为根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,完成当前次训练并进行下次训练直至达到训练停止条件。
提取模块602,被进一步配置为获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集;根据所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集的数据量确定数据提取比例;按所述数据提取比例提取阅读理解训练数据集、命名实体训练数据集和词性训练数据集数据并进行组合,生成至少一个组合训练数据集。
所述编码向量包括阅读理解编码向量、命名实体编码向量和词性编码向量;
编码模块604,被进一步配置为将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的所述组合训练数据集对应的阅读理解编码向量、命名实体编码向量和词性编码向量。
所述阅读理解训练数据集包括阅读理解训练数据对应的标签向量、命名实体训练数据集对应的标签向量和词性训练数据集对应的标签向量;
确定模块606,被进一步配置为将所述阅读理解编码向量输入至阅读理解解码器,所述阅读理解解码器对阅读理解编码向量进行解码并输出阅读理解解码向量,基于所述阅读理解解码向量和所述阅读理解训练数据对应的标签向量,确定所述阅读理解解码器对应的损失值;
将所述命名实体编码向量输入至命名实体解码器,所述命名实体解码器对命名实体编码向量进行解码并输出命名实体解码向量,基于所述命名实体解码向量和所述命名实体训练数据对应的标签向量,确定所述命名实体解码器对应的损失值;
将所述词性编码向量输入至词性解码器,所述词性解码器对词性编码向量进行解码并输出词性解码向量,基于所述词性解码向量和所述词性训练数据对应的标签向量,确定所述词性解码器对应的损失值。
所述训练装置还包括:
设置模块,被配置为对所述组合训练数据集中的阅读理解训练数据、命名实体训练数据和词性训练数据分别设置对应标志;
确定模块606,被进一步配置为确定具有阅读理解训练数据对应的标志的阅读理解编码向量,所述阅读理解解码器对具有阅读理解训练数据对应的标志的阅读理解编码向量进行解码;
确定具有命名实体训练数据对应的标志的命名实体编码向量,所述命名实体解码器对具有命名实体训练数据对应的标志的命名实体编码向量进行解码;
确定具有词性训练数据对应的标志的词性编码向量,所述词性解码器对具有词性训练数据对应的标志的词性编码向量进行解码。
确定模块606,被进一步配置为基于单条所述阅读理解训练数据对应的标签向量以及该阅读理解训练数据对应的解码向量,确定所述组合训练数据集中每条阅读理解训练数据对应的所述阅读理解解码器输出的损失值,均化每条阅读理解训练数据对应的损失值得到均值作为所述阅读理解解码器对应的损失值;
基于单条所述命名实体训练数据对应的标签向量以及该命名实体训练数据对应的解码向量,确定所述组合训练数据集中每条命名实体训练数据对应的所述命名实体解码器输出的损失值,均化每条命名实体训练数据对应的损失值得到均值作为所述命名实体解码器对应的损失值;
基于单条所述词性训练数据对应的标签向量以及该词性训练数据对应的解码向量,确定所述组合训练数据集中每条词性训练数据对应的所述词性解码器输出的损失值,均化每条词性训练数据对应的损失值得到均值作为所述词性解码器对应的损失值。
调整模块608,被进一步配置为基于所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值以及每个损失值对应的权重系数,确定所述编码器对应的权重损失值;
基于所述阅读理解解码器对应的损失值调整阅读理解解码器的参数,基于所述命名实体解码器对应的损失值调整命名实体解码器的参数,基于所述词性解码器对应的损失值调整词性解码器的参数,基于所述权重损失值调整所述编码器的参数。
所述训练停止条件包括:所述权重损失值的变化率小于预设稳定阈值。
本实施例中通过在编码器还分别连接命名实体解码器和词性解码器,并提取所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集进行组合以生成至少一个组合训练数据集,实现阅读理解训练任务、命名实体识别训练任务以及词性识别训练任务,换言之基于阅读理解模型进行阅读理解训练任务的基础上,再加上预测命名实体识别训练任务和词性标注的训练任务,使得阅读理解模型能够学习命名实体识别以及词性标注的知识,最终根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,也就是使用多任务学习的方法增强阅读理解模型的语法知识,提高阅读理解模型的泛化效果,进而提高阅读理解模型在做机器阅读理解时的准确率。
第五实施例提供一种文本分析的装置,参见图7所示,包括:
接收模块702,被配置为接收原文本和问题;
获取模块704,被配置为将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,其中,所述阅读理解模型通过上述阅读理解模型的训练方法训练得到的。
所述获取模块704被进一步配置为将所述原文本和问题输入至阅读理解模型的编码器中获取所述编码器输出的编码向量,将所述编码向量输入至阅读理解模型的阅读理解解码器中,获得所述阅读理解解码器输出的解码向量;根据所述阅读理解解码器输出的解码向量,生成所述原文本和问题对应的答案。
本实施例中利用的阅读理解模型是通过上述阅读理解模型的训练方法训练得到的,上述阅读理解模型根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,也就是使用多任务学习的方法增强阅读理解模型的语法知识,提高阅读理解模型的泛化效果,将接收原文本和问题输入至训练好的阅读理解模型,能够提高阅读理解模型输出答案的准确率。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述阅读理解模型的训练方法或文本分析的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述阅读理解模型的训练方法或文本分析的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述阅读理解模型的训练方法或文本分析的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述阅读理解模型的训练方法或文本分析的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种阅读理解模型的训练方法,其特征在于,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接,所述训练方法包括:
获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,其中,每个组合训练数据集包括阅读理解训练数据、命名实体训练数据和词性训练数据;
将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量;
将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值;
根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,完成当前次训练并进行下次训练直至达到训练停止条件。
2.根据权利要求1所述的训练方法,其特征在于:获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,包括:
获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集;
根据所述阅读理解训练数据集、命名实体训练数据集和词性训练数据集的数据量确定数据提取比例;
按所述数据提取比例提取阅读理解训练数据集、命名实体训练数据集和词性训练数据集数据并进行组合,生成至少一个组合训练数据集。
3.根据权利要求1所述的训练方法,其特征在于,所述编码向量包括阅读理解编码向量、命名实体编码向量和词性编码向量;
将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量,包括:
将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的所述组合训练数据集对应的阅读理解编码向量、命名实体编码向量和词性编码向量。
4.根据权利要求3所述的训练方法,其特征在于,所述阅读理解训练数据集包括阅读理解训练数据对应的标签向量、命名实体训练数据集对应的标签向量和词性训练数据集对应的标签向量;
将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,包括:
将所述阅读理解编码向量输入至阅读理解解码器,所述阅读理解解码器对阅读理解编码向量进行解码并输出阅读理解解码向量,基于所述阅读理解解码向量和所述阅读理解训练数据对应的标签向量,确定所述阅读理解解码器对应的损失值;
将所述命名实体编码向量输入至命名实体解码器,所述命名实体解码器对命名实体编码向量进行解码并输出命名实体解码向量,基于所述命名实体解码向量和所述命名实体训练数据对应的标签向量,确定所述命名实体解码器对应的损失值;
将所述词性编码向量输入至词性解码器,所述词性解码器对词性编码向量进行解码并输出词性解码向量,基于所述词性解码向量和所述词性训练数据对应的标签向量,确定所述词性解码器对应的损失值。
5.根据权利要求4所述的训练方法,其特征在于,在将至少一个组合训练数据集输入至编码器中进行编码之前,还包括:
对所述组合训练数据集中的阅读理解训练数据、命名实体训练数据和词性训练数据分别设置对应标志;
将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,包括:
确定具有阅读理解训练数据对应的标志的阅读理解编码向量,所述阅读理解解码器对具有阅读理解训练数据对应的标志的阅读理解编码向量进行解码;
确定具有命名实体训练数据对应的标志的命名实体编码向量,所述命名实体解码器对具有命名实体训练数据对应的标志的命名实体编码向量进行解码;
确定具有词性训练数据对应的标志的词性编码向量,所述词性解码器对具有词性训练数据对应的标志的词性编码向量进行解码。
6.根据权利要求5所述的训练方法,其特征在于,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,包括:
基于单条所述阅读理解训练数据对应的标签向量以及该阅读理解训练数据对应的解码向量,确定所述组合训练数据集中每条阅读理解训练数据对应的所述阅读理解解码器输出的损失值,均化每条阅读理解训练数据对应的损失值得到均值作为所述阅读理解解码器对应的损失值;
基于单条所述命名实体训练数据对应的标签向量以及该命名实体训练数据对应的解码向量,确定所述组合训练数据集中每条命名实体训练数据对应的所述命名实体解码器输出的损失值,均化每条命名实体训练数据对应的损失值得到均值作为所述命名实体解码器对应的损失值;
基于单条所述词性训练数据对应的标签向量以及该词性训练数据对应的解码向量,确定所述组合训练数据集中每条词性训练数据对应的所述词性解码器输出的损失值,均化每条词性训练数据对应的损失值得到均值作为所述词性解码器对应的损失值。
7.根据权利要求1至6任一项所述的训练方法,其特征在于:根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,包括:
基于所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值以及每个损失值对应的权重系数,确定所述编码器对应的权重损失值;
基于所述阅读理解解码器对应的损失值调整阅读理解解码器的参数,基于所述命名实体解码器对应的损失值调整命名实体解码器的参数,基于所述词性解码器对应的损失值调整词性解码器的参数,基于所述权重损失值调整所述编码器的参数。
8.根据权利要求7所述的训练方法,其特征在于,所述训练停止条件包括:
所述权重损失值的变化率小于预设稳定阈值。
9.一种文本分析的方法,其特征在于,包括:
接收原文本和问题;
将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,其中,所述阅读理解模型通过权利要求1至8任一项阅读理解模型的训练方法训练得到的。
10.根据权利要求9所述的方法,其特征在于,将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,包括:
将所述原文本和问题输入至阅读理解模型的编码器中获取所述编码器输出的编码向量,将所述编码向量输入至阅读理解模型的阅读理解解码器中,获得所述阅读理解解码器输出的解码向量;
根据所述阅读理解解码器输出的解码向量,生成所述原文本和问题对应的答案。
11.一种阅读理解模型的训练装置,其特征在于,所述阅读理解模型包括编码器和阅读理解解码器,所述编码器还分别与命名实体解码器和词性解码器连接,所述训练装置包括:
提取模块,被配置为获取阅读理解训练数据集、命名实体训练数据集和词性训练数据集,生成至少一个组合训练数据集,其中,每个组合训练数据集包括阅读理解训练数据、命名实体训练数据和词性训练数据;
编码模块,被配置为将所述组合训练数据集输入至编码器中进行编码,获得所述编码器输出的编码向量;
确定模块,被配置为将所述编码向量分别输入至阅读理解解码器、命名实体解码器和词性解码器进行解码,确定所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值;
调整模块,被配置为根据所述阅读理解解码器、命名实体解码器和词性解码器分别对应的损失值,调整所述阅读理解解码器、命名实体解码器、词性解码器和所述编码器的参数,完成当前次训练并进行下次训练直至达到训练停止条件。
12.一种文本分析的装置,其特征在于,包括:
接收模块,被配置为接收原文本和问题;
获取模块,被配置为将所述原文本和问题输入至阅读理解模型中,获取所述阅读理解模型输出的答案,其中,所述阅读理解模型通过权利要求1至8任一项阅读理解模型的训练方法训练得到的。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1至8或权利要求9至10任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8或权利要求9至10任意一项所述方法的步骤。
CN202010329215.3A 2020-04-23 2020-04-23 阅读理解模型的训练方法和装置、文本分析的方法和装置 Pending CN113553837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329215.3A CN113553837A (zh) 2020-04-23 2020-04-23 阅读理解模型的训练方法和装置、文本分析的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329215.3A CN113553837A (zh) 2020-04-23 2020-04-23 阅读理解模型的训练方法和装置、文本分析的方法和装置

Publications (1)

Publication Number Publication Date
CN113553837A true CN113553837A (zh) 2021-10-26

Family

ID=78129516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329215.3A Pending CN113553837A (zh) 2020-04-23 2020-04-23 阅读理解模型的训练方法和装置、文本分析的方法和装置

Country Status (1)

Country Link
CN (1) CN113553837A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663679A (zh) * 2023-07-25 2023-08-29 南栖仙策(南京)高新技术有限公司 一种语言模型训练方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置
CN110222152A (zh) * 2019-05-29 2019-09-10 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110309305A (zh) * 2019-06-14 2019-10-08 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质
JP2019220142A (ja) * 2018-06-18 2019-12-26 日本電信電話株式会社 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
JP2019220142A (ja) * 2018-06-18 2019-12-26 日本電信電話株式会社 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
CN110222152A (zh) * 2019-05-29 2019-09-10 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置
CN110309305A (zh) * 2019-06-14 2019-10-08 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐霄玲;郑建立;尹梓名;: "机器阅读理解的技术研究综述", 小型微型计算机系统, no. 03, pages 18 - 24 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663679A (zh) * 2023-07-25 2023-08-29 南栖仙策(南京)高新技术有限公司 一种语言模型训练方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN113901191A (zh) 问答模型的训练方法及装置
CN111783423A (zh) 解题模型的训练方法及装置、解题方法及装置
CN113536801A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN114091452A (zh) 一种基于适配器的迁移学习方法、装置、设备及存储介质
CN116610795B (zh) 文本检索方法及装置
CN113823259A (zh) 将文本数据转换为音素序列的方法及设备
CN117764035A (zh) 文本润色、模型训练方法和一体机
CN113553837A (zh) 阅读理解模型的训练方法和装置、文本分析的方法和装置
CN112257432A (zh) 一种自适应意图识别方法、装置及电子设备
Baas et al. Transfusion: Transcribing speech with multinomial diffusion
CN112800186B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN115310429A (zh) 一种多轮倾听对话模型中的数据压缩与高性能计算方法
CN115129826A (zh) 电力领域模型预训练方法、精调方法、装置及设备
Jalaja et al. A behavioral chatbot using encoder-decoder architecture: Humanizing conversations
CN114638238A (zh) 一种神经网络模型的训练方法及装置
Xu et al. Neural dialogue model with retrieval attention for personalized response generation
CN112685543A (zh) 一种基于文本回答问题的方法及装置
Yolchuyeva Novel NLP Methods for Improved Text-To-Speech Synthesis
CN114282552B (zh) 非自回归翻译模型的训练方法及其装置
Ma Research on Computer Intelligent Proofreading System for English Translation Based on Deep Learning
Zhu et al. [Retracted] Leveraging Multimodal Out‐of‐Domain Information to Improve Low‐Resource Speech Translation
Chang et al. A Study on Text Generation of Kinmen Culture Vocabulary based on GPT-2

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination