CN111324717B

CN111324717B - 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统

Info

Publication number: CN111324717B
Application number: CN202010111750.1A
Authority: CN
Inventors: 彭敏; 李冬; 郭天翼; 武涵; 胡星灿; 张鼎
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-06-27
Anticipated expiration: 2040-02-24
Also published as: CN111324717A

Abstract

本发明公开了一种面向开放域问答的基于机器阅读理解的答案获取方法，采用基于BERT的语义编码模块和信息交互注意力网络，深入地捕获问题和文档的潜在语义表示，有效地提取并融合问题和文档间的信息，捕获问题与文档的全局特征；采用基于Pointer Networks的答案获取模块，将注意力权重作为指针，更加准确地定位所预测答案的起止位置。本发明提出的一种面向开放域问答的基于阅读理解的答案获取方法，在CMRC 2018数据集上进行实证评估。实验结果表明，该发明能够达到开放域问答任务标准水平，并取得了优异的表现。

Description

一种面向开放域问答的基于机器阅读理解的答案获取方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种面向开放域问答的基于机器阅读理解的答案获取方法及系统。

背景技术

随着人工智能技术的发展，人机交互也变得越来越重要。其中，人机交互的智能问答是目前技术开发的重点。

在自然语言处理领域，问答系统即是给定一个语料库和一个问题，算法系统将从语料库中进行检索，并用准确、简洁的自然语言组织答案返回给用户。随着检索技术与知识库技术的不断发展，面向大量文档知识库的开放域问答发展起来。国外早期开发的具有代表性的开放域问答系统有麻省理工大学的Start、密歇根大学的AnswerBus、华盛顿大学的MULDER系统等。中文问答系统的研究开始较晚，具有代表性的有中国科学院计算所开发的NKI系统，它能够使用户通过自然语言进行提问,如天气预报、人物、中医疾病、地理等方面的问题,并可以获得较为满意的答案。然而，人们随之发现建造一个新知识库是十分耗时耗力的，并且知识库单一的结构也使很多问题得不到令人满意的答案。以往的问答系统的主要研究对象是事实类、列举类等简单问句,面向开放域问答复杂类问句的语义理解研究还不深入,甚至忽略了复杂类问题中蕴含的事件语义信息。这对问答系统中的问题理解技术提出了很高的要求。

阅读理解是建立在阅读基础上的理解，可以被抽象地概括为通过阅读从文本中抽取信息并理解意义的过程。机器阅读理解，即是向神经网络模型给出一段材料和问题，让机器阅读大量的材料后对相关的问题做出回答，其涉及到语言理解、知识推理和摘要生成等技术。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

智能问答是人工智能技术发展的一个重点任务，尤其在开放域问答任务上，智能问答仍面临着诸多挑战。现有的问答系统的主要研究对象是事实类、列举类等简单问句,对面向开放域问答复杂类问句的语义理解研究还不深入,甚至忽略了复杂类问题中蕴含的事件语义信息。并且，现有方法在信息提取和融合方法存在不足，使得答案获取的效果不佳。

发明内容

有鉴于此，本发明提供了一种面向开放域问答的基于机器阅读理解的答案获取方法及系统，用以解决或者至少部分解决现有方法由于在信息提取和融合方法存在不足，使得答案获取的效果不佳的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种面向开放域问答的基于机器阅读理解的答案获取方法，包括：

S1：获取阅读理解数据集，划分出训练集、验证集和测试集，对获取的阅读理解数据集进行预处理；

S2：构建阅读理解的答案获取模型，阅读理解的答案获取模型包括文档和问题的语义编码模块、信息交互编码模块以及答案获取模块，其中，文档和问题的语义编码模块用于从输入的数据集中捕获和编码得到文档的上下文语义表示和问题的上下文语义表示，信息交互编码模块用于根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，答案获取模块用于根据与问题相关的文档编码表示，获取答案；

S3：根据划分出的训练集和设置的损失函数，对阅读理解的答案获取模型包含的文档和问题的语义编码模块、信息交互编码模块以及答案获取模块进行联合训练，获得训练好的阅读理解的答案获取模型；

S4：利用训练好的阅读理解的答案获取模型对待处理的数据进行预测，得到对应的答案。

在一种实施方式中，S1包括：

S1.1：从已有的数据源获取阅读理解数据集，划分出训练集、验证集和测试集，其中，阅读理解数据集中包括文档和问题；

S1.2：对阅读理解数据集中包含的文档和问题进行拆分，使得每个问题与文档进行对应，删除数据集中的无效数据。

在一种实施方式中，文档和问题的语义编码模块采用BERT的预训练语言模型，BERT的预训练语言模型包括多头自注意力层，S2中文档和问题的语义编码模块用于从输入的数据集中捕获和编码得到文档的上下文语义表示和问题的上下文语义表示，包括：

通过以下公式计算自注意力：

其中，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，T表示矩阵的转置操作，d_k是一个参数；

根据计算出的多组自注意力，得到多头注意力层的最终输出：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，head₁、head_h分别表示第一组和第h组自注意力，W^O是一个权重矩阵，并且，在输入嵌入的基础上增加位置嵌入来标记并保存文本间的位置信息，从而得到问题与文档的序列信息，多头注意力层的最终输出为文档的上下文语义表示和问题的上下文语义表示。

在一种实施方式中，信息交互编码模块采用信息交互注意力网络，S2中信息交互编码模块用于根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，包括：

计算注意力矩阵中的元素：

W_ij＝v^Ttanh(W′[p_i；q_j])

此处的W′与v分别是权重矩阵和权重向量，p_i表示文档的上下文语义表示，q_j表示问题的上下文语义表示；

基于注意力矩阵的元素，得到文档对问题的注意力上下文向量c_i：

将注意力上下文向量与文档上下文语义表示进行并联，得到新的带注意力的文档向量，作为与问题相关的文档编码表示p′_i：

p′_i＝[p_i；c_i]。

在一种实施方式中，答案获取模块采用指针网络Pointer Networks，指针网络包括RNN编码器和解码器，答案获取模块用于根据与问题相关的文档编码表示，获取答案，包括：

将与问题相关的文档编码表示输入RNN编码器处理，通过注意力向量进行解码，取归一化后的注意力向量中的最大值所对应的位置作为解码器的当前输出，解码公式如下：

其中，e_j是RNN编码器的隐状态，d_i表示解码器的第i个隐状态，j∈(1,...m)，PointerNetworks的解码次数为两次，i∈{1,2}，C_i表示第i个指针指向的位置；

根据s＝softmax(u¹)、e＝softmax(u²)获得答案的开始位置概率向量与结束位置概率向量，从而得到预测的答案。

在一种实施方式中，S3具体包括：

将文档和问题的语义编码模块、信息交互编码模块以及答案获取模块进行联合训练，目标是学习表示函数f(·)，使得通过这个函数使得给定文档P、问题Q，令真实答案位置(s⁺,e⁺)的置信度高于其他答案位置(s^-,e^-)，使用交叉熵来构建损失函数，损失函数如下：

其中，I(*)是一个指示函数，当*代表的条件为真时函数值为1，否则为0。

基于同样的发明构思，本发明第二方面提供了一种面向开放域问答的基于机器阅读理解的答案获取系统，包括：

预处理模块，用于获取阅读理解数据集，划分出训练集、验证集和测试集，对获取的阅读理解数据集进行预处理；

模型构建模块，用于构建阅读理解的答案获取模型，阅读理解的答案获取模型包括文档和问题的语义编码模块、信息交互编码模块以及答案获取模块，其中，文档和问题的语义编码模块用于从输入的数据集中捕获和编码得到文档的上下文语义表示和问题的上下文语义表示，信息交互编码模块用于根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，答案获取模块用于根据与问题相关的文档编码表示，获取答案；

训练模块，用于根据划分出的训练集和设置的损失函数，对阅读理解的答案获取模型包含的文档和问题的语义编码模块、信息交互编码模块以及答案获取模块进行联合训练，获得训练好的阅读理解的答案获取模型；

答案预测模块，用于利用训练好的阅读理解的答案获取模型对待处理的数据进行预测，得到对应的答案。

在一种实施方式中，预处理模块具体用于：

从已有的数据源获取阅读理解数据集，划分出训练集、验证集和测试集，其中，阅读理解数据集中包括文档和问题；

对阅读理解数据集中包含的文档和问题进行拆分，使得每个问题与文档进行对应，删除数据集中的无效数据。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种面向开放域问答的基于机器阅读理解的答案获取方法，首先获取阅读理解数据集并进行预处理；然后构建阅读理解的答案获取模型，其包括文档和问题的语义编码模块、信息交互编码模块以及答案获取模块，接着根据划分出的训练集和设置的损失函数，对阅读理解的答案获取模型包含的文档和问题的语义编码模块、信息交互编码模块以及答案获取模块进行联合训练，获得训练好的阅读理解的答案获取模型；最后利用训练好的阅读理解的答案获取模型对待处理的数据进行预测，得到对应的答案。

由于本发明中的文档和问题的语义编码模块，可以用于捕获和编码得到文档的上下文语义表示和问题的上下文语义表示；信息交互编码模块用于捕获和编码得到与问题相关的文档编码表示；答案获取模块用于抽取和预测答案的起始和结束位置(即获取对应的答案)。即通过文档和问题的语义编码模块在字级别对文档和问题进行深层语义编码，然后通过信息交互编码模块进一步得到与问题相关的文档编码表示，最后通过答案获取模块，从文档中定位得到所预测答案的起始和结束位置。通过这种答案获取方法，本发明将问题和文档进行深层次匹配，挖掘问题和文档之间的潜在语义关联，最终得到训练好的基于机器阅读理解的答案获取模型。解决了现有方法由于在信息提取和融合方法存在不足，使得答案获取的效果不佳的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的面向开放域问答的基于机器阅读理解的答案获取方法的实现流程示意图；

图2为本发明实施例的模型结构示意图；

图3位本发明实施例的信息交互与答案获取模型结构示意图；

图4为本发明实施例中面向开放域问答的基于机器阅读理解的答案获取系统的结构框图；

图5为本发明实施例中一种计算机可读存储介质的结构框图；

图6为本发明实施例中计算机设备的结构图。

具体实施方式

本发明旨在发明一种基于语义理解和注意力机制的机器阅读理解神经网络，实现面向开放域问答系统的答案获取方法，在一定程度上解决了在开放域问答任务中，能够从语义层面更好地匹配文档和问题，并获取到与问题相关的答案片段。本发明的整个系统能够实现一个面向开放域的智能问答系统，满足用户的问答功能，并且提供了一种面向开放域问答的基于机器阅读理解的答案获取方法。

本发明的总体发明构思如下：

首先对获取的阅读理解数据集进行预处理；然后构建阅读理解的答案获取模型，通过文档和问题的语义编码模块对文档和问题进行语义编码、通过信息交互编码模块根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，通过答案获取模块根据与问题相关的文档编码表示，获取答案；接着训练阅读理解的答案获取模型；最后预测问题所对应的答案段。

本发明采用基于BERT的语义编码模块和信息交互注意力网络，深入地捕获问题和文档的潜在语义表示，有效地提取并融合问题和文档间的信息，捕获问题与文档的全局特征；采用基于Point Networks的答案获取模块，将注意力权重作为指针，更加准确地定位所预测答案的起止位置。本发明提出的一种面向开放域问答的基于阅读理解的答案获取方法，在CMRC 2018数据集上进行实证评估。实验结果表明，该发明能够达到开放域问答任务标准水平，并取得了优异的表现。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种面向开放域问答的基于机器阅读理解的答案获取方法，请参见图1，该方法包括：

S1：获取阅读理解数据集，划分出训练集、验证集和测试集，对获取的阅读理解数据集进行预处理。

具体来说，阅读理解数据集可以从已有的数据源获取，预处理包括结构化处理、数据清洗等。

S2：构建阅读理解的答案获取模型，阅读理解的答案获取模型包括文档和问题的语义编码模块、信息交互编码模块以及答案获取模块，其中，文档和问题的语义编码模块用于从输入的数据集中捕获和编码得到文档的上下文语义表示和问题的上下文语义表示，信息交互编码模块用于根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，答案获取模块用于根据与问题相关的文档编码表示，获取答案。

具体来说，阅读理解的答案获取模型为一种神经网络模型，其包括文档和问题的语义编码模块、信息交互编码模块和答案获取模块三部分。输入的数据集中包含文档和问题，目的是根据问题，从文档中获得与问题对应的答案。

S3：根据划分出的训练集和设置的损失函数，对阅读理解的答案获取模型包含的文档和问题的语义编码模块、信息交互编码模块以及答案获取模块进行联合训练，获得训练好的阅读理解的答案获取模型。

具体来说，S3是对构建的答案获取模型进行训练。

具体来说，S4是利用训练好的阅读理解的答案获取模型对答案进行预测。

在一种实施方式中，S1包括：

具体来说，由于阅读理解任务需要大量的数据，因此首先需要阅读理解数据集，在本实施方式中，获取本发明采用第二届“讯飞杯”中文机器阅读理解评测(CMRC 2018)所使用的数据。本数据集中，训练集包含2403篇文档，10142个问题，每个问题有1个答案；验证集包含848篇文档，3219个问题，每个问题有3个答案。

S1.2：本实施例将短文与对应的问题拆开，保证每个问题直接对应文档。语料库中存在问题或答案缺失的现象，称之为无效数据。本发明移除数据集中的无效数据，整理数据集的格式后形成新的数据集。

通过以下公式计算自注意力：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

具体来说，在得到清洗后的语料库后，本实施例首先使用内部信息编码模块捕获并初始编码问题和文档的序列信息，具体地，本发明创新性地使用了称为BERT的预训练语言模型成功捕获了顺序结构信息。

BERT使用Transformer作为模型架构的基石，它由编码器和解码器两部分组成。编码器由6个相同的层堆叠在一起，每一层包含一个多头自注意力层和一个全连接前馈层。自注意力层的输入包括三部分：查询矩阵Q、键矩阵K与值矩阵V。

多头自注意力通过采用多组结构相同参数不同的自注意力结构，允许模型在不同的表示子空间里学习到相关的信息，有效地扩展了针对不同位置的词汇的注意力。最后将由上式得到的多组注意力输出(分别用表示head₁…head_h)连接形成最终的输出MultiHead(Q,K,V),即档的上下文语义表示和问题的上下文语义表示。

其中，为了在注意力模块中保留文本的顺序信息，模型在输入嵌入的基础上增加了位置嵌入来标记并保存文本间的位置信息。维数为d_pos的第p个(从0开始)位置嵌入的第i个位置由以下公式生成：

BERT以Transformer为基础，构建了多层的双向Transformer网络，以网络的输出作为整个BERT模块的输出。将问题与文档的原始文本输入BERT模型，BERT模型会为输入的每一个词汇分配编码向量，并通过BERT模型的Transformer结构进行运算，经由训练机制学习到合适的编码向量，最终得到问题与文档的编码P＝{p₁,p₂,…,p_m}、Q＝{q₁,q₂,...,q_n}

计算注意力矩阵中的元素：

W_ij＝v^Ttanh(W＇[p_i；q_j])

p′_i＝[p_i；c_i]。

具体来说，通过信息交互注意力网络捕获并编码问题和文档的交互信息。信息交互注意力网络是一种注意机制，它为文档提供一组求和权重向量。图3的(a)部分描述了本发明的信息交互注意力网络模块的结构，BERT输出的文档的编码为P＝{p₁,p₂,...,p_m}，问题的编码为Q＝{q₁,q₂,...,q_n}，然后计算注意力矩阵W的各个元素W_ij，得到的注意力矩阵的规模为m×n。

具体来说，答案获取模块通过对文档向量进行处理，以获取最有可能是答案边界的位置。本发明采用Pointer Networks(指针网络)对答案边界位置进行获取。图3的(b)部分描述了本发明的答案获取神经网络模块结构。Pointer Networks通过将文档向量输入RNN编码器处理，通过注意力向量进行解码，取归一化后的注意力向量中的最大值所对应的位置作为解码器的当前输出。

在进行验证时，为了保证答案的开始位置一定在结束位置前，可以计算联合概率矩阵M＝(s)^Te，取M的上三角进行预测，即可得到答案的起始位置与结束位置，因此可以得到预测的答案。

在一种实施方式中，S3具体包括：

表示函数代表整个模型的运作机制，它以文档P和问题Q作为输入，以答案位置(s,e)或者每个答案位置(s,e)是正确答案的置信度作为输出。损失函数是衡量模型所构建的表示函数与真实的阅读理解运作过程中的表示函数之间差距的函数，损失函数的值越小，模型就越接近真实的阅读理解。

本发明提供的一种面向开放域问答的基于机器阅读理解的答案获取方法中，构建的阅读理解的答案获取模块包括语义编码模块、信息交互编码模块和答案获取模块；语义编码模块用于捕获并编码问题与文档的序列信息；信息交互编码模块用于捕获并编码问题与文本的交互信息；答案获取模块用于计算并获取文档中与问题相关的文本段。整体的模型原理图如图2所示，S4中，在对待处理的数据(包括问题和文档)进行预测时，将问题和文档输入语义编码模块获得文档的上下文语义表示和问题的上下文语义表示，也就是问题与文档的序列信息，然后通过信息交互编码模块捕获和编码得到与问题相关的文档编码表示，即问题与文本的交互信息，再通过答案获取模块获取问题的答案(通过答案起始位置和终止位置获得)，即文档中与问题相关的文本段。

本发明的创新点包括：

(1)基于BERT的文档和问题的语义编码方法

本发明采用基于BERT的文档和问题的语义编码，来深入挖掘问题和文档的上下文语义信息。机器阅读理解常见的几种编码方式，能够有效地得到文档和问题的编码，但是未能更好地捕获到上下文相关的语义信息。本发明使用基于BERT的文档和问题的语义编码方法，通过BERT模型进行特征向量提取，获得问题的上下文语义编码表示和文档的上下文语义编码表示。

(2)基于注意力机制的信息交互与匹配方法

本发明采用基于注意力机制的信息交互与匹配方法来建模问题与文档之间的信息交互过程与匹配过程，来对问题和文档间的信息进行有选择的提取与融合。依据BERT输出的问题与文档的上下文语义编码表示，通过对问题与文档的编码依次进行线性组合后输入感知机，得到问题编码与文档编码间的注意力权值矩阵。通过权值矩阵对编码表示进行加权求和，捕获文档与问题的交互信息，并融合问题与文档信息，得到问题与文档的全局特征。

(3)基于Pointer Networks的答案获取方法

本发明采用Pointer Networks的结构预测答案的起始位置和结束位置。依据给定的文档表示，将Attention权重分数作为一个指针，选取答案在文档中的起始位置与结束位置。Pointer Networks通过输入文档的全局特征向量，基于循环神经网络的改进形式进行处理，对输出进行变形，输出若干个指针，分别指向若干个文档中的位置。取指针的前两个作为预测到的答案的起始位置与结束位置，即可获取到问题的答案。

此外，本发明通过计算F1(模糊匹配率)与EM(精准匹配率)两个指标，将得到的结果与BiDAF、R-NET等基准模型比较答案抽取质量。

实验结果如表1所示，本发明的实验效果要优于其他基准模型。结果表明，本发明的BERT预训练语言模型与信息交互注意力网络方法比其他方法更优越地捕获了文档和问题的交互信息。因此，给定一个问题与文档，本发明可以抽取到更准确的答案。

表1结果

模型	F1	EM
			BiDAF	0.4677	0.2229
R-NET	0.7335	0.5011
			GM-Reader	0.8004	0.6047
本发明	0.8312	0.6247

最后，为说明本发明的实验效果，本发明分别在内网环境与外网环境对答案抽取进行了多次实验。在内网环境中，答案抽取的响应时间为250ms到300ms之间，外网环境中，响应时间在400ms到500ms之间，基本可以满足实时性的要求。同时，抽取到的答案的综合满意度约为84.8％，证明了本发明的可行性和高效性。本发明的答案获取示例如下所示。

示例一

文档：

余杭站是沪昆客运专线的一个车站，位于浙江省杭州市余杭区南苑街道联胜社区以东。余杭火车站(简称余杭站)，是沪杭客运专线上新建的一个车站。余杭站设置基本站台和侧式站台各1座，到发线2条(不含2条正线)。高铁余杭站的开通运营，使得余杭区临平副城成为得天独厚的“双铁之城”，高速驶入大上海、大杭州“30分钟都市生活圈”。余杭站站房总长度约174米。车站设计充分运用良渚文化元素，外立面主打横线条，打造一座“玉琮城”。车站主体为地上二层岛式车站，这也是整条沪杭高铁上唯一一座高架车站。旅客在一楼进车站，过安检，到候车室。检票后坐到二楼乘车，候车大厅两边各有两部电梯，能够保证旅客快速上二楼。余杭站南侧广场将包括地下汽车库、地上广场以及高铁站南北两侧地下通道，广场面积约4.81万平方米，地下室面积约4.84万平方米。余杭站设置基本站台和侧式站台各1座，到发线4条(含2条正线)。杭州地铁1号线途径余杭站，并在此设有余杭高铁站地铁站。车站现设有A口和C口共两个出入口，从C口出站即可直接到达余杭站。余杭站北侧为公交枢纽站——高铁余杭站，472路、763路、765路、775路、786路、786区间在此始发。另外，位于车站东侧迎宾路上的火车浜公交站距余杭站700米，途径该站的公交线路有309路、309路夜间线、339路、387路、399路、472路、761路、763路、765路、786路、786区间。前往超山风景名胜区可乘坐786区间，前往塘栖古镇景区可乘坐786路或786区间。

问题：哪几路公交车在余杭站北侧始发？

答案：472路、763路、765路、775路、786路、786区间在此始发。

示例二

文档：

上知令，(平假名：じょうちれい、あげちれい)，是指从1840年代到1870年代，江户幕府及明治政府所发出的土地没收政令，有时也表记成「上地令」。江户时代，寺院及神社的领地(称寺社领)是得到当时政府认可的，同时可免缴地租。在1871年(明治4年)及1875年(明治8年)，政府先后发出两次上知令将那些土地没收。在废藩置县的同时，由于给予寺社领的领主权力已被瓦解，寺社领本身已失去了法律依据。由于实行地租改正，在全国土地均要上缴地租的原则下，先前拥有免税特权的土地，包括寺社领等，均一一取消。带有相似目的的「解放令」，将秽多、非人的所有地「秽地」的免税特权取消的政令，也同时间进行。

问题：上知令的含义是什么？

答案：是指从1840年代到1870年代，江户幕府及明治政府所发出的土地没收政令。

此外，需要说明是，本实施例中对于答案的抽取还可以采用其他的神经网络架构，而本实施例对此不作具体的限定和说明。

实施例二

基于同样的发明构思，本实施例提供了一种面向开放域问答的基于机器阅读理解的答案获取系统，请参见图4，该系统包括：

在一种实施方式中，预处理模块具体用于：

由于本发明实施例二所介绍的系统，为实施本发明实施例一中一种面向开放域问答的基于机器阅读理解的答案获取方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

实施例三

请参见图5，基于同一发明构思，本申请还提供了一种计算机可读存储介质300，其上存储有计算机程序311，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中面向开放域问答的基于机器阅读理解的答案获取方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，请参见图6，包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403，处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中面向开放域问答的基于机器阅读理解的答案获取方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向开放域问答的基于机器阅读理解的答案获取方法，其特征在于，包括：

S4：利用训练好的阅读理解的答案获取模型对待处理的数据进行预测，得到对应的答案；

其中，文档和问题的语义编码模块采用BERT的预训练语言模型，BERT的预训练语言模型包括多头自注意力层，S2中文档和问题的语义编码模块用于从输入的数据集中捕获和编码得到文档的上下文语义表示和问题的上下文语义表示，包括：

通过以下公式计算自注意力：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

其中，head₁、head_h分别表示第一组和第h组自注意力，W^o是一个权重矩阵，并且，在输入嵌入的基础上增加位置嵌入来标记并保存文本间的位置信息，从而得到问题与文档的序列信息，多头注意力层的最终输出为文档的上下文语义表示和问题的上下文语义表示；

信息交互编码模块采用信息交互注意力网络，S2中信息交互编码模块用于根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，包括：

计算注意力矩阵中的元素：

p′_i＝[p_i；c_i]。

2.如权利要求1所述的方法，其特征在于，S1包括：

3.如权利要求1所述的方法，其特征在于，答案获取模块采用指针网络PointerNetworks，指针网络包括RNN编码器和解码器，答案获取模块用于根据与问题相关的文档编码表示，获取答案，包括：

4.如权利要求1所述的方法，其特征在于，S3具体包括：

5.一种面向开放域问答的基于机器阅读理解的答案获取系统，其特征在于，包括：

答案预测模块，用于利用训练好的阅读理解的答案获取模型对待处理的数据进行预测，得到对应的答案；

其中，文档和问题的语义编码模块采用BERT的预训练语言模型，BERT的预训练语言模型包括多头自注意力层，文档和问题的语义编码模块用于从输入的数据集中捕获和编码得到文档的上下文语义表示和问题的上下文语义表示，包括：

通过以下公式计算自注意力：

其中，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，

表示矩阵的转置操作，d_k是一个参数；

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

信息交互编码模块采用信息交互注意力网络，信息交互编码模块用于根据文档的上下文语义表示和问题的上下文语义表示，捕获和编码得到与问题相关的文档编码表示，包括：

计算注意力矩阵中的元素：

p′_i＝[p_i；c_i]。

6.如权利要求5所述的系统，其特征在于，预处理模块具体用于：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至4中任一项权利要求所述的方法。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任一项权利要求所述的方法。