CN113268601A

CN113268601A - 信息提取方法、阅读理解模型训练方法及相关装置

Info

Publication number: CN113268601A
Application number: CN202110232060.6A
Authority: CN
Inventors: 李直旭; 刘庆升; 唐夕云
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-08-17
Anticipated expiration: 2041-03-02
Also published as: CN113268601B

Abstract

本发明公开了一种信息提取方法、阅读理解模型训练方法及相关装置，该方法包括：获取基础文本和目标信息标识，基础文本包含目标信息；将基础文本和目标信息标识输入阅读理解模型，利用阅读理解模型从基础文本中提取目标信息，阅读理解模型是基于文本问答方式训练得到的。通过上述方式，本发明能够准确地获取目标信息。

Description

信息提取方法、阅读理解模型训练方法及相关装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种信息提取方法、阅读理解模型训练方法及相关装置。

背景技术

近年来，随着大数据和人工智能的飞速发展，知识图谱(Knowledge Graph,简称KG)作为一种结构化的人类知识形式，以其强大的数据描述能力，引起了学术界和工业界的广泛关注。知识图谱本质上是一种揭示实体间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化描述。

提取信息事实是一项复杂而耗时的工作。有些“保守”策略的目标是提高精确度，但它们往往会受到低召回率的影响。近十几年来，阅读理解得到了研究人员的广泛关注。并且许多实际应用已经观察到知识的演变，即新知识的生成受历史结构的影响。

发明内容

本发明主要解决的技术问题是提供一种信息提取方法、阅读理解模型训练方法及相关装置，能够准确地获取目标信息。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种信息提取方法，该信息提取方法包括：获取基础文本和目标信息标识，基础文本包含目标信息；将基础文本和目标信息标识输入阅读理解模型，利用阅读理解模型从所述基础文本中提取所述目标信息，阅读理解模型是基于文本问答方式训练得到的。

其中，目标信息标识为问题文本，目标信息为问题文本的回答。

其中，利用阅读理解模型从基础文本中提取目标信息包括：分别对基础文本和问题文本进行语义编码，获取基础语义向量和问题语义向量；将基础语义向量和问题语义向量输入注意力层，以获取基础文本和所述问题文本间关联的向量表示；基于向量表示，获得目标信息。

其中，分别对基础文本和问题文本进行语义编码，获取基础语义向量和问题语义向量包括：将基础文本和问题文本分别输入Bert网络；利用Bert网络分别对基础文本和问题文本进行编码，提取文本向量和问题向量；将文本向量和问题向量输入transformer编码器，提取基础语义向量和所述问题语义向量。

其中，注意力层包括至少两个不同层级的注意力层，将基础语义向量和问题语义向量输入注意力层，以获取基础文本和问题文本间关联的向量表示，基于向量表示，获得目标信息包括：将基础语义向量和问题语义向量输入所述不同层级的注意力层，得到至少两个不同层级的向量表示；将至少两个不同层级的向量表示进行非线性聚合，得到融合向量表示；基于融合向量表示，获得目标信息。

其中，将基础语义向量和问题语义向量输入注意力层，以获取基础文本和问题文本间关联的向量表示，基于向量表示，获得目标信息包括：将基础文本的语义向量和问题文本的语义向量输入注意力交互层，学习基础文本和问题文本之间的语义交互信息，得到第一基础句间级语义向量和问题句间级语义向量；基于第一基础句间级语义向量和问题句间级语义向量，获得目标信息。

其中，将基础语义向量和问题语义向量输入注意力层，以获取基础文本和问题文本间关联的向量表示，基于向量表示，获得目标信息包括：将基础语义向量和问题语义向量输入注意力交互层，学习基础文本和问题文本之间的交互信息，得到第一基础句间级语义向量和问题句间级语义向量；将第一基础句间级语义向量和问题句间级语义向量输入融合自注意力层，得到基础句中级语义向量；基于基础句中级语义向量，获得目标信息。

其中，将基础语义向量和问题语义向量输入注意力层，以获取基础文本和问题文本间关联的向量表示，基于向量表示，获得目标信息包括：将基础语义向量和问题语义向量输入注意力交互层，学习基础文本和问题文本之间的交互信息，得到第一基础句间级语义向量和问题句间级语义向量；将第一基础句间级语义向量和问题句间级语义向量输入融合自注意力层，得到基础句中级语义向量；将第一基础句间级语义向量和基础句中级语义向量进行非线性聚合，得到融合语义向量；基于融合语义向量，获得目标信息。

其中，将第一基础句间级语义向量和问题句间级语义向量输入融合自注意力层，得到基础句中级语义向量包括：将问题语义向量和问题句间级语义向量进行拼接和维度转换处理，得到第二基础句间级语义向量；将基础句间级语义向量和第二基础句间级语义向量进行拼接，得到第三基础句间级语义向量；利用多头自注意力机制处理第三基础句间级语义向量，得到基础句中级语义向量。

其中，学习基础文本和问题文本之间的交互信息，得到第一基础句间级语义向量和问题句间级语义向量包括：利用基础语义向量和问题语义向量获取段落文本与问题文本间的权重概率分布；利用权重概率分布计算输出第一基础句间级语义向量和问题句间级语义向量。

其中，基于基础文本和问题文本间关联的向量表示，获取目标信息包括：利用向量表示计算答案本文在基础文本中的起始位置和结束位置；提取起始位置和结束位置之间的文本，得到答案文本。

其中，目标信息包括三元组元素和时间元素。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种阅读理解模型训练方法，该阅读理解模型训练方法包括：获取若干组训练样本，每组训练样本包括基础文本、问题文本和答案文本；将若干组训练样本输出初始模型，初始模型结构包括Bert层和注意力层；迭代优化Bert层和注意力层的参数，得到阅读理解模型。

其中，注意力层包括注意力交互层；或注意力层包括注意力交互层和融合自注意力层。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种信息提取设备，该信息提取设备包括处理器，处理器用于执行指令以实现上述的信息提取方法。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储指令/程序数据，指令/程序数据能够被执行以实现上所述的信息提取方法。

本发明的有益效果是：区别于现有技术的情况，本发明通过使用阅读理解模型，对基础文本和目标信息标识进行学习，能够很好的提取基础文本和目标信息标识中的有效信息，以准确地获取目标信息。

附图说明

图1是本申请实施方式中一信息提取方法的流程示意图；

图2是本申请实施方式中另一信息提取方法的流程示意图；

图3是本申请实施方式中一注意力层提取目标时间信息的流程示意图；

图4是本申请实施方式中另一注意力层提取目标时间信息的流程示意图；

图5是本申请实施方式中一阅读理解模型训练的流程示意图；

图6是本申请实施方式中一阅读理解模型的结构示意图；

图7是本申请实施方式中信息提取装置的结构示意图；

图8是本申请实施方式中信息提取设备的结构示意图；

图9是本申请实施方式中计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。

本申请提供一种信息提取方法，该方法通过使用阅读理解模型，对基础文本和目标信息标识进行学习，能够很好的提取基础文本和目标信息标识中的有效信息，以准确地获取目标信息。

请参阅图1，图1是本申请实施方式中一信息提取方法的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施方式包括：

S110：获取基础文本和目标信息标识。

该实施方式中，要提取目标信息，首先获取包含目标信息的基础文本，和目标信息相关的目标信息标识，目标信息标识中部含有目标信息。

S130：将基础文本和目标信息标识输入阅读理解模型，利用阅读理解模型从基础文本中提取目标信息。

阅读理解模型是基于文本问答方式训练得到的。

该实施方式中，通过使用阅读理解模型，对基础文本和目标信息标识进行学习，能够很好的提取基础文本和目标信息标识中的有效信息，以准确地获取目标信息。

本申请提供的信息提取方法中，通过获含有目标信息的基础文本和与目标信息相关的目标信息标识，以提取目标信息。目标信息标识可以有多种形式，可以为陈述句文本、问题文本、词语文本等。目标信息可以是地点信息、时间信息、事件信息等，以下实施方式中以目标信息标识为问题文本，目标信息为时间信息为例，但不限于此形式的目标信息标识，也不限于此目标信息。而提取目标信息利用的阅读理解模型包括输入层、语义理解层、注意力层和输出层。

请参阅图2，图2是本申请实施方式中另一信息提取方法的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，本实施方式包括：

S210：获取基础文本和目标信息标识。

在一实施方式中，目标信息标识为问题文本。该实施方式中，要提取目标时间信息A，首先获取包含时间信息的基础文本P，和目标时间信息相关的问题文本Q，问题文本Q中部含有目标时间信息A。

S230：分别对基础文本和目标信息标识进行语义编码，获取基础语义向量和目标信息标识语义向量。

在一实施方式中，目标表示语义向量为问题语义向量，使用语义理解模型分别对基础文本P和问题文本Q进行语义编码。在一实施方式中，使用的语义理解模型为Bert模型。

将基础文本P输入到Bert模型中，对基础文本P中的字词进行编码，得到文本向量，将文本向量输入transformer编码器中，初步学习基础文本P中的语义信息，提取基础语义向量H_p，计算公式如下：

H_p＝BERT(P)，

将问题文本Q输入到Bert模型中，对问题文本Q中的字词进行编码，得到问题向量，将问题向量输入transformer编码器中，初步学习问题文本Q中的语义信息，提取问题语义向量H_q，计算公式如下：

H_q＝BERT(Q)，

其中，H_p∈R^|P|×h，H_q∈R^|Q|×h，|P|是基础文本P的字词长度，|Q|是问题文本Q的字词长度，h是Bert模型中神经元的个数。

S250：将基础语义向量和目标信息标识语义向量输入注意力层，以获取基础文本和问题文本间关联的向量表示，基于向量表示，获得目标时间信息。

将基础语义向量H_p和问题语义向量H_q输入注意力层，注意力层可以为一种层级的注意力层，进行一次特征提取，得到基础文本P和问题文本Q间关联的向量表示，基于向量表示，获得目标时间信息A；注意力层也可以为多种不同层级的注意力层，进行多次特征提取，得到基础文本P和问题文本Q间关联的不同层级的向量表示，将至少两个不同层级的向量表示进行非线性聚合，以获得目标时间信息A。

该实施方式中，通过将文本和问题输入Bert模型中，分别学习各自的语义信息，再输入注意力层，利用Bert模型和注意力机制结合的方法，加深了对模型有效时间的获取，利用模型快速、准确地获取目标时间答案。

在一实施方式中，采用一层注意力层获取基础文本P和问题文本Q间关联的向量表示，该一层注意力层为注意力交互层。请参阅图3，图3是本申请实施方式中一注意力层提取目标时间信息的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。如图3所示，本实施方式包括：

S310：将基础语义向量和问题语义向量输入注意力交互层，得到第一基础句间级语义向量和问题句间级语义向量。

将基础语义向量H_p和问题语义向量H_q输入注意力交互层，利用注意力机制识别基础文本中的重要词语，学习基础文本P和问题文本Q之间的语义交互信息。

学习基础文本P中每个字词包含的问题文本Q的语义信息，得到基础文本P与问题文本Q句间级别的对齐分布向量，第一基础句间级语义向量Att_pq，计算公式如下：

学习问题文本Q中每个字词包含的基础文本P的语义信息，得到问题文本Q与基础文本P句间级别的对齐分布向量，问题句间级语义向量Att_qp，计算公式如下：

其中，

为注意力交互矩阵，注意力交互矩阵

表示基础文本P和问题文本Q之间的权重概率分布，由第一可训练权重参数W_pq计算得到，计算公式如下：

其中，W_pq∈R^h×h，tanh是一种非线性的激活函数。

S330：基于第一基础句间级语义向量和问题句间级语义向量，获得目标时间信息。

该实施方式中，通过将文本和问题输入Bert模型中，分别学习各自的语义信息，再输入注意力交互层，能够学习到文本和问题之间的交互隐藏信息，利用Bert模型和注意力机制结合的方法，加深了对模型有效时间的获取，利用模型快速、准确地获取目标时间答案。

在一实施方式中，采用两层注意力层获取基础文本P和问题文本Q之间关联的向量表示，该两层注意力层为注意力交互层和融合自注意力层。请参阅图4，图4是本申请实施方式中另一注意力层提取目标时间信息的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。如图4所示，本实施方式包括：

S410：将基础语义向量和问题语义向量输入注意力交互层，得到第一基础句间级语义向量和问题句间级语义向量。

其中，

为注意力交互矩阵，注意力交互矩阵

其中，W_pq∈R^h×h，tanh是一种非线性的激活函数。

S430：将第一基础句间级语义向量和问题句间级语义向量输入融合自注意力层，得到基础句中级语义向量。

将第一基础句间级语义向量Att_pq和问题句间级语义向量Att_qp输入融合自注意力层，利用自注意力机制动态地获取基础文本自身的字词权重分布，学习基础文本中更全局性的句中级语义向量。

先将问题语义向量H_q和问题句间级语义向量Att_qp进行拼接处理，获取问题文本Q自身和句间级的向量结合，得到[H_q；Att_qp]，将拼接结果进行维度转换，得到第二基础句间级语义向量Att_q，计算公式如下：

其中，符号[；]表示向量在最后一维度进行拼接。将第一基础句间级语义向量Att_pq与第二基础句间级语义向量Att_q进行拼接处理，得到第三基础句间级语义向量Att_p，计算公式如下：

Att_p＝relu([Att_pq；Att_q]W_p)，

其中，W_p∈R^3h×h是第二可训练权重参数，ralu是一种非线性的激活函数。利用基础本文中更深层次的与问题文本Q相关的语义信息，进一步学习基础文本P中的语义信息。基于第三基础句间级语义向量Att_p，利用多头的自注意力机制计算得到基础句中级语义向量Att_self，计算公式如下：

Att_self＝self-attention(Att_p,Att_p,Att_p)。

S450：将第一基础句间级语义向量和基础句中级语义向量进行非线性聚合，得到融合语义向量。

采用类似残差网络结构的启发式方法动态地确定使用哪一层网络的输出，从而得到完整地表达基础文本语义信息的融合语义向量。

分别选取第三基础句间级语义向量Att_p和基础句中级语义向量Att_self，将两种不同层级的语义向量进行非线性拼接，计算公式如下：

g_a＝σ([Att_p；Att_self；Att_p-Att_self；Att_p⊙Att_self]W_g)，

将拼接结果再与第一基础句间级语义向量Att_p和基础句中级语义向量Att_self进行非线性聚合，交叉学习不同层级的基础文本语义信息，得到融合语义向量，计算公式如下：

F_att＝W_fg(g_a⊙Att_p+(1-g_a)⊙Att_self)，

其中，W_g∈R^4h×h是第三可训练权重参数，W_fg∈R^h×h是第四可训练权重参数，σ是sigmoid激活函数。

S470：基于融合语义向量，获得目标时间信息。

通过结合融合语义向量F_att和基础语义向量H_p，提取目标时间信息A在基础文本P中的起始位置向量P_s，计算公式如下：

P_s＝soft max([H_p；F_att]W_s)，

计算目标时间信息A在基础文本P中的结束位置向量P_e，计算公式如下：

P_e＝soft max([H_p；P_s]W_e)，

其中，W_s∈R^2h是第五可训练权重参数，W_e∈R^2h是第六可训练权重参数，softmax是归一化激活函数。

提取起始位置和结束位置之间的文本，得到目标时间信息A。

该实施方式中，通过将文本和问题输入Bert模型中，分别学习各自的语义信息，再输入注意力交互层，能够学习到文本和问题之间的交互隐藏信息，再输入融合的自注意力层，进一步学习文本的内部信息。利用Bert模型和注意力机制结合的方法，加深了对模型有效时间的获取，利用模型快速、准确地获取目标时间答案。

在一实施方式中，提取目标信息利用的阅读理解模型是基于文本问答方式训练得到的，获取若干组训练样本，每组、训练样本包括基础文本、问题文本和答案文本；将若干组训练样本输出初始模型，初始模型结构包括Bert层和注意力层。注意力层包括注意力交互层和/或融合自注意力层。迭代优化所述Bert层和注意力层的参数，得到阅读理解模型。

在一实施方式中，阅读理解模型包括输入层、Bert网络层、注意力交互层、融合自注意力层和输出层。

请参阅图5，图5是本申请实施方式中一阅读理解模型训练的流程示意图。请参阅图6，图6是本申请实施方式中一阅读理解模型的结构示意图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。如图5所示，本实施方式包括：

S510：构造阅读理解模型训练集。

首先，构造阅读理解模型训练集，训练集中包含基础文本、问题文本和答案文本。获取三元组形式的带时间信息的基础本文，三元组形式的文本是指文本句子中包含主语实体、关系和宾语实体，在三元组始终的文本中加入时间维度的信息，得到基础文本。利用基础文本构建有关时间维度问题的问题文本，在基础文本中选取一个连续的句子作为问题文本的正确答案，该实施方式中，正确答案为连续且带有时间维度的句子，该正确答案作为答案文本。

S520：训练阅读理解模型中的Bert网络层。

对Bert网络进行预训练，可以采用已有的预训练网络，也可以基于三元组文本数据重新做预训练，预训练使用Masked LM和NextSentence Prediction。

S530：训练阅读理解模型中的注意力交互层。

将基础语义向量和问题语义向量输入自意力交互层，利用第一可训练权重参数W_pq计算得到注意力交互矩阵。利用语义向量和注意力交互矩阵分别计算第一基础句间级语义向量和问题句间级语义向量。该训练层中，通过最终结果调整第一可训练权重参数W_pq以达到模型训练效果。

S540：训练阅读理解模型中的融合自注意力层。

将第一基础句间级语义向量和问题句间级语义向量输入融合自注意力，利用注意力交互矩阵

和第二可训练权重参数W_p计算得到更深层次的基础句中级语义向量，并计算基础句中级语义向量。

利用类似残差网络结构的方法，结合不同层级的语义向量，通过第三可训练权重参数W_g和第四可训练权重参数W_fg计算得到聚合语义向量。

该训练层中，通过最终结果调整第二可训练权重参数W_p，第三可训练权重参数W_g和第四可训练权重参数W_fg以达到模型训练效果。

S550：训练阅读理解模型中的输出层。

结合基础语义向量和聚合语义向量，通过第五可训练权重参数W_s和第六可训练权重参数W_e计算目标时间信息的起始位置向量和结束位置向量，以得到输出答案。

该训练层中，通过最终结果调整第五可训练权重参数W_s和第六可训练权重参数W_e以达到模型训练效果。

S560：阅读理解模型调整。

利用输出答案计算模型概率分布P(A|P,Q)，通过交叉熵损失函数不断调整第一、第二、第三、第四、第五、第六可训练权重参数的值，来拟合输出答案与答案文本A之间的误差，以使得模型概率分布P(A|P,Q)最大化。

该实施方式中，通过对Bert模型、注意力交互层和融合的自注意力层进行训练，根据训练结果对训练参数进行微调，使的模型能快速、准确地获取目标时间答案。

请参阅图7，图7是本申请实施方式中信息提取装置的结构示意图。该实施方式中，信息提取装置包括获取模块71和提取模块72。

其中获取模块71用于获取基础文本和目标信息标识，基础文本包含目标信息；提取模块72用于将基础文本和目标信息标识输入阅读理解模型，利用阅读理解模型从基础文本中提取所述目标信息，阅读理解模型是基于文本问答方式训练得到的。该信息提取装置通过使用阅读理解模型，对基础文本和目标信息标识进行学习，能够很好的提取基础文本和目标信息标识中的有效信息，以准确地获取目标信息。

请参阅图8，图8是本申请实施方式中信息提取设备的结构示意图。该实施方式中，信息提取设备81包括处理器82。

处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器82也可以是任何常规的处理器等。

信息提取设备81可以进一步包括存储器(图中未示出)，用于存储处理器82运行所需的指令和数据。

处理器82用于执行指令以实现上述本申请信息提取方法任一实施例及任意不冲突的组合所提供的方法。

请参阅图9，图9是本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质91存储有指令/程序数据92，该指令/程序数据92被执行时实现本申请神经网络压缩方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据92可以形成程序文件以软件产品的形式存储在上述存储介质91中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质91包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息提取方法，其特征在于，包括：

获取基础文本和目标信息标识，所述基础文本包含所述目标信息；

分别对所述基础文本和所述目标信息标识进行语义编码，获取基础语义向量和目标信息标识语义向量；

获取所述基础文本和所述目标信息标识间关联的向量表示；

基于所述向量表示，获得所述目标信息。

2.根据权利要求1所述的信息提取方法，其特征在于，

所述目标信息标识为问题文本，所述目标信息为所述问题文本的回答，所述目标表示语义向量为问题语义向量。

3.根据权利要求2所述的信息提取方法，其特征在于，

所述获取所述基础文本和所述目标信息标识间关联的向量表示包括：

将所述基础语义向量和所述问题语义向量输入注意力层，以获取所述基础文本和所述问题文本间关联的向量表示。

4.根据权利要求3所述的信息提取方法，其特征在于，所述分别对所述基础文本和所述目标信息标识进行语义编码，获取所述基础语义向量和所述问题语义向量包括：

将所述基础文本和所述问题文本分别输入Bert网络；

利用所述Bert网络分别对所述基础文本和所述问题文本进行编码，提取基础向量和问题向量；

将所述基础向量和所述问题向量输入transformer编码器，提取所述基础语义向量和所述问题语义向量。

5.根据权利要求3所述的信息提取方法，其特征在于，

所述注意力层包括至少两个不同层级的注意力层，所述将基础语义向量和所述问题语义向量输入注意力层，以获取所述基础文本和所述问题文本间关联的向量表示，基于所述向量表示，获得所述目标信息包括：

将所述基础语义向量和所述问题语义向量输入所述不同层级的注意力层，得到至少两个不同层级的向量表示；

将所述至少两个不同层级的向量表示进行非线性聚合，得到融合向量表示；

基于所述融合向量表示，获得所述目标信息。

6.根据权利要求3所述的信息提取方法，其特征在于，

所述将基础语义向量和所述问题语义向量输入注意力层，以获取所述基础文本和所述问题文本间关联的向量表示，基于所述向量表示，获得所述目标信息包括：

将所述基础语义向量和所述问题语义向量输入注意力交互层，学习所述基础文本和所述问题文本之间的语义交互信息，得到第一基础句间级语义向量和问题句间级语义向量；

基于所述第一基础句间级语义向量和所述问题句间级语义向量，获得所述目标信息。

7.根据权利要求3所述的信息提取方法，其特征在于，

将所述第一基础句间级语义向量和所述问题句间级语义向量输入融合自注意力层，得到基础句中级语义向量；

基于所述基础句中级语义向量，获得所述目标信息。

8.根据权利要求7所述的信息提取方法，其特征在于，

将所述基础语义向量和所述问题语义向量输入注意力交互层，学习所述基础文本和所述问题文本之间的交互信息，得到第一基础句间级语义向量和问题句间级语义向量；

将所述第一基础句间级语义向量和问题句间级语义向量输入融合自注意力层，得到所述基础句中级语义向量；

将所述第一基础句间级语义向量和所述基础句中级语义向量进行非线性聚合，得到融合语义向量；

基于所述融合语义向量，获得所述目标信息。

9.根据权利要求7或8所述的信息提取方法，其特征在于，

所述将第一基础句间级语义向量和问题句间级语义向量输入融合自注意力层，得到基础句中级语义向量包括：

将所述问题语义向量和所述问题句间级语义向量进行拼接和维度转换处理，得到第二基础句间级语义向量；

将所述第一基础句间级语义向量和所述第二基础句间级语义向量进行拼接，得到第三基础句间级语义向量；

利用多头自注意力机制处理所述第三基础句间级语义向量，得到所述基础句中级语义向量。

10.根据权利要求6-8任一项所述的信息提取方法，其特征在于，

所述学习基础文本和所述问题文本之间的交互信息，得到第一基础句间级语义向量和问题句间级语义向量包括：利用所述基础语义向量和所述问题语义向量获取所述段落文本与问题文本间的权重概率分布；

利用所述权重概率分布计算输出所述第一基础句间级语义向量和问题句间级语义向量。

11.根据权利要求3～8任一项所述的信息提取方法，其特征在于，

所述基于所述基础文本和所述问题文本间关联的向量表示，获取目标信息包括：

利用所述向量表示计算答案本文在所述基础文本中的起始位置和结束位置；

提取所述起始位置和所述结束位置之间的文本，得到所述答案文本。

12.根据权利要求1～8任一项所述的信息提取方法，其特征在于，

所述目标信息包括三元组元素和时间元素。

13.一种阅读理解模型训练方法，其特征在于，

获取若干组训练样本，每组所述训练样本包括基础文本、问题文本和答案文本；

将所述若干组训练样本输出初始模型，所述初始模型结构包括Bert层和注意力层；

迭代优化所述Bert层和注意力层的参数，得到阅读理解模型，所述阅读理解模型可用于执行如权利要求1-12任一项所述的信息提取方法。

14.根据权利要求13所述的阅读理解模型训练方法，其特征在于，

所述注意力层包括注意力交互层；或

所述注意力层包括注意力交互层和融合自注意力层。

15.一种信息提取设备，其特征在于，所述信息提取设备包括处理器，所述处理器用于执行指令以实现如权利要求1-12中任一项所述的信息提取方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令/程序数据，所述指令/程序数据能够被执行以实现如权利要求1-12中任一项所述的信息提取方法。