CN114385803A

CN114385803A - 一种基于外部知识和片段选择的抽取式阅读理解方法

Info

Publication number: CN114385803A
Application number: CN202210034681.8A
Authority: CN
Inventors: 张璞; 谢陈; 金诗鸿
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22
Anticipated expiration: 2042-01-13
Also published as: CN114385803B

Abstract

本发明属于自然语言处理技术与机器阅读理解领域，具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法，包括获取数据并对数据进行预处理；将预处理后数据送入训练好的抽取式阅读理解模型，通过抽取式阅读理解模型输出针对数据的问题的最佳答案；抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块；本发明采用SpanBERT模型对文本和问题进行处理，处理后判断问题是否可回答，提高了识别不可回答问题的准确率，减少错误概率，同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制，丰富了文本和问题的特征表示，使用片段选择方法处理文本中存在多个相同答案内容情况，取得更好的模型抽取效果，提升了出去答案的准确率。

Description

一种基于外部知识和片段选择的抽取式阅读理解方法

技术领域

本发明属于自然语言处理技术与机器阅读理解领域，具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法。

背景技术

机器阅读理解(Machine Reading Comprehension,MRC)是自然语言处理(NaturalLanguage Processing，NLP)领域的热门研究方向，利用机器对数据集中的文本内容进行理解和分析，回答提出的问题，能够最大程度地评估机器理解语言的能力。抽取式阅读理解的形式是给定文本并提出问题，模型能够根据问题从文本中找出连续的片段作为答案，这也是目前应用领域最广泛，研究方法最多的一种机器阅读理解方式。抽取式阅读理解任务中的问题一般由人工提出，答案可能存在长度上的差距，同时存在问题无答案的可能，这种任务相比机器阅读理解的其它任务类型更加贴合现实生活中的应用场景，所以提高抽取式阅读理解的抽取准确性，是把机器阅读理解技术应用到生活中的必要条件。

目前大多数抽取式阅读理解模型的网络架构由嵌入层、编码层、信息交互层和答案预测层组成。嵌入层主要是把文本和问题映射成包含相关文本信息的向量表示；编码层通常是利用神经网络对文本和问题进行编码，得到一些上下文的信息；信息交互层将文本和问题的编码信息进行融合，最后得到包含了问题信息的文本向量表示；答案预测层根据上一层的交互向量抽取出答案边界，最终得到预测答案。有学者提出通过带有注意力机制的LSTM模型进行文本和问题信息匹配，然后将融合后的向量通过LSTM编码得到新的文本表示；也有部分学长提出了双向注意力机制模型BiDAF，让文本和问题以及问题和文本进行两次注意力计算，使模型更加明确文本中哪些信息是和问题相关的；在双向注意力机制模型BiDAF的基础上，部分学者针对BiDAF模型存在的多段落信息间相关性考虑不充分的问题，提出了PR-BiDAF模型，根据文本和问题的关联匹配度进行排序来选择最有可能存在答案的段落；此外还针对BiDAF模型训练的文本内部语义信息易丢失的问题，提出了BiDAF+模型，该模型利用自注意力机制实现了对文本语义信息的更深层次建模，弥补了使用LSTM所导致的出现遗忘语义信息的缺点。

但是，以上现有技术都无法准确判断问题是否可回答，同时文本和问题的特征表示不够丰富，无法处理文本中存在多个相同答案内容的情况，从而导致抽取答案的准确性较低。

发明内容

为解决上述问题，本发明提供了一种基于外部知识和片段选择的抽取式阅读理解方法，包括获取数据并对数据进行预处理；将预处理后数据送入训练好的抽取式阅读理解模型，通过抽取式阅读理解模型输出针对数据的问题的最佳答案；抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块；

训练抽取式阅读理解模型的过程包括以下步骤：

S1.获取原始阅读理解数据集，对原始阅读理解数据集进行预处理，得到预处理后的文本和问题；

S2.将预处理后的文本和问题输入到SpanBERT编码模块，获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答，若可回答，则进入步骤S3，若不可回答，则进入步骤S5；

S3.从外部知识融合模块得到预处理后的问题相关的知识信息向量，并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合，得到融合文本；

S4.根据融合文本，采用全连接操作获取预处理后的问题的答案，若存在多个答案相同的片段，则启用片段选择模块得到抽取结果；设置迭代次数的初始值；

S5.采用交叉熵损失函数对抽取结果计算损失值，根据损失值计算抽取式阅读理解模型的优化结果并反向传播，调整抽取式阅读理解模型的参数；

S6.设置最大迭代次数，判断迭代次数是否达到最大迭代次数，若达到，则完成抽取式阅读理解模型的训练，否则返回步骤S5，且迭代次数加1。

进一步的，对原始阅读理解数据集进行预处理包括：

S11.设定文本长度阈值，判断每个文本的长度是否超过文本长度阈值；

S12.若超过文本长度阈值，则计算文本中的每个句子和问题的相似度；

S13.相似度计算完成后按降序排列，留下和问题最相关的TOP K个句子；

其中相似度计算公式为：

S_qp表示问题和文本句的相似度得分，cos(θ)表示余弦相似度计算，Q_i表示问题句中的第i个单词，P_i表示文本句中的第i个单词，n表示文本的最大长度。

进一步的，获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为：

S21.将预处理后的的文本和问题进行组合，组合后的格式为：

W(P,Q)＝[CLS],P₁,…,P_n,[SEP],Q₁,…,Q_m,[SEP_end]；

S22.对组合后的文本和问题添加位置信息，得到词嵌入表示序列并输入SpanBERT编码模块，词嵌入表示序列的计算公式为：

S23.采用融合外部知识的多头自注意力机制处理词嵌入表示序列，得到包含句子语义的向量序列；

S24.将包含句子语义的向量序列经过多层Transformer编码器提取特征向量；

S25.将特征向量中的第一个标记[CLS]作为分类任务中该向量的总表示，根据[CLS]判断问题是否可回答，若[CLS]＝[0]，则不可回答，若[CLS]＝[1]，则可回答；

其中，P＝(P₁,…,P_i,…,P_n)表示文本句，Q＝(Q₁,…Q_j,…,Q_m)表示问题句，P_i表示文本句中的第i个单词，Q_j表示问题句中的第j个单词，[CLS]表示分类标志，[SEP]表示分隔标志，[SEP_end]表示结尾标志，

为词嵌入表示序列中第i个词的词嵌入，

为词嵌入表示序列中第i个词的位置嵌入，

为词嵌入表示序列中第i个词的段落嵌入。

进一步的，采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括：

S31.根据词嵌入表示序列，从外部知识库中获取候选知识，采用双线性公式计算候选知识与词嵌入表示序列的相关性，双线性公式为：

S32.引入知识哨兵向量来判断某个单词是否需要加入外部知识信息，其公式为：

S33.若需要加入，则将候选知识中的知识向量与知识哨兵向量融合，得到知识状态向量，融合公式为：

S34.将知识状态向量与词嵌入表示序列进行拼接，得到融合外部知识的词嵌入表示序列，融合公式为：

f_i＝[h_i；k_i]；

S35.对融合外部知识的词嵌入表示计算多头注意力，计算公式为：

A_s＝Concat(head₁,…,head_h)W^O；

其中，f(·)表示双线性函数，e₁表示主体实体向量，e₂表示对象实体向量，r表示e₁和e₂的关系，M_r表示关系的嵌入矩阵，α_ij表示注意力权重，c_j表示候选知识中的第j个知识向量，

表示候选知识中第j个知识向量的转置，W表示可训练权重参数，h_i为词嵌入表示序列中第i个词的词嵌入向量表示；σ表示sigmoid函数，h表示隐藏层的输出，W_i表示预处理后的文本和问题组合后的序列中第i个词，β_i表示注意力权重，

表示知识哨兵向量的转置，W_b、U表示可训练权重参数；

表示知识哨兵向量，k_i表示知识状态向量；f_i表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识，[；]表示向量拼接操作；Q表示查询向量、K表示键向量、V表示值向量；head_i表示不同头的注意力；W_i ^Q、W_i ^K、W_i ^V和W^O表示可训练权重参数；Concat(·)表示将不同的注意力拼接；A_s表示多头注意力的结果。

进一步的，对答案内容相同的片段进行片段选择的过程包括：

S41.采用全连接操作计算融合后的文本中每个单词作为答案开始和结束位置的概率分布；

S42.根据开始和结束位置的概率分布乘积得到最优的答案边界；

S43.若存在多个相同的最优答案边界，则采用Jacard分别计算每个边界上下文和问题的相关度，选择相关度高的边界为最终抽取的答案。

进一步的，相关度计算公式为：

其中，P_s:e表示答案片段，Q表示问题句；len(P_s:e and Q)表示答案片段和问题句中都包含的单词长度；len(P_s:e or Q)表示答案片段和问题句中所有不重复单词的长度；α表示可调整的超参数；abs表示求绝对值函数。

进一步的，交叉熵损失函数为：

其中，θ是所有需训练的权重参数的集合，N是训练时每次传进抽取式阅读理解模型的数据大小，P¹和P²是文本中开始索引和结束索引的概率分布，

和

是第i个样例中正确答案的开始和结束位置。

进一步的，采用Adam算法计算抽取式阅读理解模型的优化结果，Adam算法的优化公式为：

θ_t+1＝θ_t+Δθ_t；

其中，Δθ_t表示时间步t时的Adam更新值，μ表示步长，

表示修正后一阶矩的偏差，

表示修正后二阶矩的偏差，δ表示用于数值稳定的小常数，θ_t+1表示时间步t+1时更新后的值，θ_t表示时间步t时的值。

本发明的有益效果：

本发明采用SpanBERT模型对文本和问题进行处理，处理后得到文本和问题的上下文特征表示，并根据输出的[CLS]标记判断问题是否可回答，解决了以往方法中无法判断问题是否可回答的情况，提高了识别不可回答问题的准确率，减少错误概率，同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制，丰富了文本和问题的特征表示，使用片段选择方法处理文本中存在多个相同答案内容情况，对文本中存在多个相同正确答案的片段进行打分选择，取得更好的模型抽取效果，提升了抽取答案精度。

附图说明

图1为本发明的模型训练过程图；

图2为本发明的模型结构图；

图3为SpanBERT模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于外部知识和片段选择的抽取式阅读理解方法，获取数据并对其进行预处理；将预处理后的数据输入到训练好的抽取式阅读理解模型中，并将数据中的每个单词作为答案，预测该答案开始和结束位置的得分，根据得分输出最佳答案；所述抽取式阅读理解模型由SpanBERT编码、外部知识融合以及片段选择模块组成。

在一实施例中，一种基于外部知识和片段选择的抽取式阅读理解方法的具体过程如图2所示，包括：

S1.获取文本和该文本对应的多个问题，对文本和问题进行预处理；

S2.将预处理后的文本和问题输入到SpanBERT编码模块，获取文本和问题的上下文特征表示并判断该问题是否可回答；

S3.若不可回答，则该问题无答案，若可回答，则从外部知识融合模块得到该问题相关的知识信息向量，并将知识信息向量通过哨兵机制和问题的上下文特征表示融合；

S4.融合后，采用全连接操作获取问题答案，若存在多个问题答案相同的片段，则进行片段选择，得到答案抽取结果。

在一实施例中，训练抽取式阅读理解模型的过程如图1所示，包括以下步骤：

S11.获取原始阅读理解数据集，对原始阅读理解数据集进行预处理，得到训练集和测试集；

S12.将训练集输入到SpanBERT编码模块，获取训练集中的文本和问题的上下文特征表示；

S13.判断获取的问题是否可回答，若可回答，则进入步骤S14，若不可回答，则进入步骤S16；

S14.从外部知识融合模块得到训练集中当前问题相关的知识信息向量，并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合；

S15.融合后，采用全连接操作获取问题答案，若存在多个问题答案相同的片段，则进行片段选择，得到抽取结果；设置迭代次数的初始值；

S16.采用交叉熵损失函数对抽取结果计算损失值，根据损失值计算模型性能优化结果并反向传播，训练抽取式阅读理解模型；

S17.设置最大迭代次数，判断迭代次数是否达到最大迭代次数，若达到，则完成抽取式阅读理解模型的训练，否则返回步骤S16，且迭代次数加1。

当训练完成后，采用测试集对训练完成的抽取式阅读理解模型进行性能评估。

优选地，采用F1和EM的评价指标对模型性能进行评价，其中，F1是综合精确率(Precision)和召回率(Recall)两个指标的评估指标，用于综合反映整体的指标，Precision和Recall是广泛应用在信息检索和统计学分类领域的两个度量值，用来评价结果的质量。精确率是指正确预测正样本占实际预测为正样本的比例，其计算公式为：

其中，TP表示正确地把正样本预测为正的数目，FP表示错误地把负样本预测为正的数目。

召回率是指正确预测正样本占正样本的比例，其计算公式为：

其中，TP表示正确地把正样本预测为正的数目，FN表示错误地把正样本预测为负的数目。

F1能够对Precision和Recall进行整体评价，其计算公式为：

EM(Exact Match)是问答系统的一种常见的评价标准，它用来评价预测中匹配到正确答案的百分比，其计算公式为：

其中，N_real代表模型所预测答案与真实答案完全匹配的数目，N_all代表真实答案的总数目。

在一实施例中，采用斯坦福公开的阅读理解数据集SQuAD 2.0作为原始阅读理解数据集，数据集划分为三部分，其中训练集包含130319个问题，验证集包含11873个问题，测试集包含8862个问题。首先对输入数据进行预处理，将每个文本的最大长度设置为500，长度超过500的则将文本中的每个句子和问题进行相似度计算后，留下和问题最相关的TOP K个句子，相似度计算公式如下：

将预处理过后的文本和问题进行组合，组合后的格式为：

W(P,Q)＝[CLS],P₁,…,P_n,[SEP],Q₁,…,Q_m,[SEP_end]；

其中，P＝(P₁,…,P_i,…,P_n)表示文本句，Q＝(Q₁,…Q_j,…,Q_m)表示问题句，P_i表示文本句中的第i个单词，Q_j表示问题句中的第j个单词，[CLS]表示分类标志，[SEP]表示分隔标志，[SEP_end]表示结尾标志。

对组合后的文本和问题添加位置信息，得到词嵌入表示序列，将其输入SpanBERT模型，词嵌入表示序列的计算公式为：

为词嵌入表示序列中第i个词的词嵌入，

为词嵌入表示序列中第i个词的位置嵌入，h_i为词嵌入表示序列中第i个词的词嵌入向量表示。

SpanBERT模型如图3所示，包括多个Transformer Encoder，对组合后的文本和问题即token embedding添加位置信息position embedding，得到词嵌入表示序列，将词嵌入序列输入SpanBERT编码模块进行编码。

采用融合外部知识的多头自注意力机制处理词嵌入表示序列，得到包含句子语义的向量序列；

具体地，融合外部知识的过程包括：

外部知识库中的知识都是由三元组的形式存储，表示形式为：

(主体，关系，对象)

对于预处理后的文本和问题组合后的序列中每一个词W_i，先获得其词嵌入表示序列中第i个词的词嵌入向量表示h_i，并从外部知识库中检索出潜在的知识向量集合，知识检索的方式为：给定文本和问题中的每个词，从知识库中将它的同义词作为候选知识；或者使用命名实体识别方法识别出文本和问题中的每个实体，然后使用字符串匹配的方法根据每个主体分别从知识库中将匹配的结果作为候选知识。

再使用双线性运算来衡量候选知识和词嵌入表示序列的相关性，其公式为：

其中，f(·)表示双线性函数，e₁表示主体实体向量，即词嵌入表示序列，e₂表示对象实体向量，即候选知识，r表示e₁和e₂的关系，M_r表示关系的嵌入矩阵，α_ij表示注意力权重，

表示候选知识中每个知识向量的转置，W表示可训练权重参数。

由于这些潜在的知识不一定和每个单词都相关，所以引入知识哨兵向量来判断某个单词是否需要加入外部知识信息，其公式为：

其中，σ表示sigmoid函数，h表示隐藏层的输出，W_i表示预处理后的文本和问题组合后的序列中第i个词，β_i表示注意力权重，

表示知识哨兵向量的转置，W_b、U和W表示可训练权重参数。

具体地，根据这个词的上下文信息来判断是否加入外部知识信息，如果这个词的上下文信息和外部知识信息相关则加入该外部知识，如果不相关就不加入。

将检索得到的候选知识中的知识向量c_j和知识哨兵向量

根据注意力权重融合，得到知识状态向量k_i，其公式为：

将知识状态向量和词嵌入表示序列中对应的词嵌入向量拼接，得到融合了外部知识的词嵌入表示，其公式为：

f_i＝[h_i；k_i]；

其中，f_i表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识，[；]表示向量拼接操作。

将f＝(f₁,…,f_m+n)作为输入进行多头自注意力计算，其公式为：

Q、K、V＝f；

A_s＝Concat(head₁,…,head_h)W^O；

其中，m表示问题的长度，n表示文本的长度，Q表示查询向量、K表示键向量、V表示值向量；head_i表示不同头的注意力；W_i ^Q、W_i ^K、W_i ^V和W^O表示可训练权重参数；Concat(·)表示将不同的注意力拼接；A_s表示多头注意力的结果。

再将上一层Transformer中多头自注意力的输出作为下一层Transformer的输入，一共经过12层Transformer，得到最后的隐藏层输出的特征向量，根据隐藏层输出的特征向量的第一个位置判断该问题是否可回答，Transformer和问题是否可回答的公式如下：

其中，A_s[0]表示多头自注意力输出中的[CLS]，Tanh表示激活函数，Transformer(·)表示不同层的Transformer计算，

表示最后一层Transformer的隐藏层输出，T_[CLS]表示经过SpanBERT模型后的[CLS]。

如果问题可回答，则融合外部知识来丰富文本和问题的上下文特征表示，其融合外部知识的过程如下：

对于每一个W_i，先获得其特征表示

并从外部知识库中检索出潜在的知识向量集合，使用双线性运算来衡量知识和每个单词特征表示的相关性，其公式为：

其中，α′_ij表示注意力权重，

表示每个知识向量的转置，W表示可训练权重参数。

其中，β′_i表示注意力权重，

表示知识哨兵向量的转置，W表示可训练权重参数。

然后将检索得到的知识向量z_j和知识哨兵向量

根据注意力权重融合，其公式为：

其中，k′_i表示知识状态向量；

最后将知识状态向量k′_i和对应的上下文特征向量拼接，得到加入外部知识的上下文特征表示，其公式为：

其中，u_i表示加入外部知识后文本和问题的上下文特征表示，[；]表示向量拼接操作。

因为文本中可能存在多个相同的正确答案内容片段，为了提高最后答案抽取的准确性，采用片段选择方法来从多个相同内容片段中选择出正确的答案片段边界，先采用全连接操作计算文本中每个词作为答案开始和结束位置的概率分布，其公式为：

其中，向量u_i通过全连接操作后会变成一个二维向量，使用split将二维向量分割成两个一维向量，最终计算出来就是两个概率分布，

表示文本中每个单词作为答案开始位置的概率，

表示文本中每个单词作为答案结束位置的概率，FC(·)表示全连接操作。

然后根据开始位置和结束位置的概率分布乘积得到最优的答案边界得分，其公式为：

其中，Score表示文本中第i个单词到第j个单词之间内容作为答案的得分。

如果存在多个相同的最优答案边界，则使用Jacard分别计算每个边界上下文和问题的相关度，选择相关度高的边界为最终抽取的答案，相关度计算公式为：

得到最终抽取答案后，将该答案与正确答案进行损失函数计算，来判断模型训练的好坏，损失函数计算公式为：

和

是第i个样例中正确答案的开始和结束位置。

根据损失函数的计算，需要对模型参数进行优化，采用Adam优化算法。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重，Adam通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率，Adam的主要更新公式为：

θ_t+1＝θ_t+Δθ_t；

其中，Δθ_t表示时间步t时的Adam更新值，μ表示步长，

表示修正后一阶矩的偏差，

表示修正后二阶矩的偏差，δ表示用于数值稳定的小常数，θ_t+1表示更新后的值。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，包括获取数据并对数据进行预处理；将预处理后数据送入训练好的抽取式阅读理解模型，通过抽取式阅读理解模型输出针对数据的问题的最佳答案；抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块；

训练抽取式阅读理解模型的过程包括以下步骤：

S2.将预处理后的文本和问题输入到SpanBERT编码模块，获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答，若可回答，则进入步骤S3；

S4.根据融合文本，采用全连接操作获取预处理后的问题的答案，若存在多个答案相同的片段，则启用片段选择模块得到抽取结果；设置迭代次数初始值；

2.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，对原始阅读理解数据集进行预处理包括：

其中相似度计算公式为：

3.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为：

S21.将预处理后的的文本和问题进行组合，组合后的格式为：

W(P,Q)＝[CLS],P₁,…,P_n,[SEP],Q₁,…,Q_m,[SEP_end]；

为词嵌入表示序列中第i个词的词嵌入，

为词嵌入表示序列中第i个词的位置嵌入。

4.根据权利要求3所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括：

f_i＝[h_i；k_i]；

head_i＝Att(QW_i ^Q,KW_i ^K,VW_i ^V)；

A_s＝Concat(head₁,…,head_h)W^O；

表示知识哨兵向量的转置，W_b、U表示可训练权重参数；

5.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，对答案内容相同的片段进行片段选择的过程包括：

S41.采用全连接操作计算融合文本中每个单词作为答案时，其开始位置和结束位置的概率分布；

S42.根据开始位置和结束位置的概率分布乘积得到最优的答案边界；

6.根据权利要求5所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，相关度计算公式为：

其中，P_s:e表示答案片段，Q表示问题句；len(P_s:eand Q)表示答案片段和问题句中都包含的单词长度；len(P_s:eor Q)表示答案片段和问题句中所有不重复单词的长度；α表示可调整的超参数；abs表示求绝对值函数。

7.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，交叉熵损失函数为：

和

是第i个问题中正确答案的开始和结束位置。

8.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法，其特征在于，采用Adam算法计算抽取式阅读理解模型的优化结果，Adam算法的优化公式为：

θ_t+1＝θ_t+Δθ_t；

其中，Δθ_t表示时间步t时的Adam更新值，μ表示步长，

表示修正后一阶矩的偏差，