CN110222152A

CN110222152A - 一种基于机器阅读理解的问题答案获取方法及系统

Info

Publication number: CN110222152A
Application number: CN201910455756.8A
Authority: CN
Inventors: 胡铮; 周成瑜; 张春红; 唐晓晟
Original assignee: Hainan Zhixin Information Technology Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Hainan Zhixin Information Technology Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-10
Anticipated expiration: 2039-05-29
Also published as: CN110222152B

Abstract

本发明实施例提供一种基于机器阅读理解的问题答案获取方法及系统。其中，方法包括：将问题和对应的文档集输入至训练后的神经网络模型，获取训练后的神经网络模型的输出结果；根据输出结果，从文档集中确定问题对应的答案；其中，训练后的神经网络模型根据训练集训练得到，训练集包括多个样本问题以及每个样本问题对应的样本文档集和样本标签集。本发明实施例提供的方法及系统，通过将问题和对应的文档集输入至训练后的神经网络模型，根据训练后的神经网络模型的输出结果，从文档集中确定问题对应的答案。填补了描述类问题机器阅读理解模型的短缺，有效的利用了多文档的特点，保留了更多文档信息，能够更加精准地提取描述类问题的答案。

Description

一种基于机器阅读理解的问题答案获取方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于机器阅读理解的问题答案获取方法及系统。

背景技术

机器阅读理解，即是向神经网络模型给出一段材料和问题，让该模型给出正确答案。根据已有的阅读理解数据集，从形式上看，问题可分为cloze问题、选择题和问答题。根据数据集中答案的长短，又可将问答题分为YesNo问题、简单实事类(实体类、短语类)问题和描述类问题。针对cloze问题和简单实事类问题，已提出了众多的神经网络模型解决上述两类问题，而针对描述类问题的研究较少。即，无法通过现有技术中的神经网络模型获取描述类问题的答案。

因此，提出一种适用于描述类问题的基于机器阅读理解的问题答案获取方法成为了亟待解决的问题。

发明内容

为了解决现有技术中的问题，本发明实施例提供一种基于机器阅读理解的问题答案获取方法及系统。

第一方面，本发明实施例提供一种基于机器阅读理解的问题答案获取方法，包括：

将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果；

根据所述输出结果，从所述文档集中确定所述问题对应的答案；

其中，所述训练后的神经网络模型根据训练集训练得到，所述训练集包括多个样本问题以及每个样本问题对应的样本文档集和样本标签集；

所述样本文档集包括多个样本文档，每个样本文档包括多个样本句子，每个样本句子包括多个样本分词；

所述样本标签集包括第一标签子集、第二标签子集、第三标签子集和第四标签子集，所述第一标签子集用于表征所述样本文档集中各样本文档是否包含答案，所述第二标签子集用于表征所述样本文档集中各样本句子是否包含于答案，所述第三标签子集用于表征所述样本文档集中各样本分词是否为答案的开始位置，所述第四标签子集用于表征所述样本文档集中各样本分词是否为答案的结束位置。

第二方面，本发明实施例提供一种基于机器阅读理解的问题答案获取系统，包括：

输出结果获取模块，用于将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果；

答案获取模块，用于根据所述输出结果，从所述文档集中确定所述问题对应的答案；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种基于机器阅读理解的问题答案获取方法及系统，通过将问题和对应的文档集输入至训练后的神经网络模型，根据训练后的神经网络模型的输出结果，从文档集中确定问题对应的答案。填补了描述类问题机器阅读理解模型的短缺，有效的利用了多文档的特点，保留了更多文档信息，能够更加精准地提取描述类问题的答案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于机器阅读理解的问题答案获取方法流程图；

图2为本发明实施例提供的一种神经网络模型的结构示意图；

图3为本发明实施例提供的一种抽取层结构的结构示意图；

图4为本发明实施例提供的一种第二神经网络模型的结构示意图；

图5为本发明实施例提供的一种基于机器阅读理解的问题答案获取系统的结构示意图；

图6为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于机器阅读理解的问题答案获取方法流程图，如图1所示，该方法包括：

步骤101，将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果。

具体地，步骤101中的问题可以为“**品牌的手机具有哪些优点”，将该问题输入至搜索引擎，可搜索得到多个与该问题相关的文档，将这多个文档作为该问题对应的文档集。需要说明的是，本发明实施例中的问题的文本类别可以为中文、英文、德文等各类文本，本发明实施例对此不作具体限定，可以理解的是，若问题的文本为中文文本，则该问题对应的文档集为中文文档集，该问题对应的答案为中文答案。

文档集包括多个文档，每个文档包括多个句子，每个句子包括多个分词。需要说明的是，对于不同文本类别的文档集，其分句、分词手段均不同，但不管对于哪种文本类别的文档集，现有技术中均有相应的分句、分词手段，本发明实施例对此不作具体限定。

将问题和对应的文档集输入至训练后的神经网络模型，可获取该模型的输出结果，例如，输出结果可为该问题对应的答案在文档集中的位置，进一步地，输出结果可为该问题对应的答案在文档集中的开始位置和结束位置。举个例子，对于问题A，通过搜索引擎搜索到了3个与该问题相关的文档，分别为文档1、文档2和文档3，其中，每个文档包括5个句子，每个句子包括10个分词。将这3个文档称为问题A的文档集，将问题A和文档集均输入至训练后的神经网络模型，获取该模型的输出结果，其中，输出结果可为文档2的第3个句子的第4个分词位置和文档2的第5个句子的第7个分词位置，此时，文档2的第3个句子的第4个分词位置即为问题A对应的答案在文档集中的开始位置，文档2的第5个句子的第7个分词位置即为问题A对应的答案在文档集中的结束位置。

其中，所述训练后的神经网络模型根据训练集训练得到，所述训练集包括多个样本问题以及每个样本问题对应的样本文档集和样本标签集。

所述样本文档集包括多个样本文档，每个样本文档包括多个样本句子，每个样本句子包括多个样本分词。

所述样本标签集包括第一标签子集、第二标签子集、第三标签子集和第四标签子集，其中：

所述第一标签子集用于表征所述样本文档集中各样本文档是否包含答案，即，第一标签子集包括多个第一标签，且第一标签的个数与样本文档集中样本文档的个数相等，多个第一标签与多个样本文档一一对应，每个第一标签用于表征对应的样本文档是否包含答案，若包含，则第一标签为1，若不包含，则第一标签为0。需要说明的是，将第一标签设为1或0仅为一种示例，本发明实施例对第一标签的具体设定不作具体限定。

所述第二标签子集用于表征所述样本文档集中各样本句子是否包含于答案，即，第二标签子集包括多个第二标签，且第二标签的个数与样本文档集中样本句子的个数相等，多个第二标签与多个样本句子一一对应，每个第二标签用于表征对应的样本句子是否包含于答案，即，句子是否为答案的一部分，若是，则第二标签为1，若不是，则第二标签为0。需要说明的是，将第二标签设为1或0仅为一种示例，本发明对第二标签的具体设定不作具体限定。

所述第三标签子集用于表征所述样本文档集中各样本分词是否为答案的开始位置，即，第三标签子集包括多个第三标签，且第三标签的个数与样本文档集中样本分词的个数相等，多个第三标签与多个样本分词一一对应，每个第三标签用于表征对应的样本分词是否为答案的开始位置，若是，则第三标签为1，若不是，则第三标签为0。需要说明的是，将第三标签设为1或0仅为一种示例，本发明对第三标签的具体设定不作具体限定。

所述第四标签子集用于表征所述样本文档集中各样本分词是否为答案的结束位置。即，第四标签子集包括多个第四标签，且第四标签的个数与样本文档集中样本分词的个数相等，多个第四标签与多个样本分词一一对应，每个第四标签用于表征对应的样本分词是否为答案的结束位置，若是，则第四标签为1，若不是，则第四标签为0。需要说明的是，将第四标签设为1或0仅为一种示例，本发明对第四标签的具体设定不作具体限定。

需要说明的是，由于样本文档集的样本文档和样本句子的噪声较多，因此，通过第一标签子集和第二标签子集对神经网络模型进行训练，使得在训练的过程中，样本文档包含答案的概率逐渐逼近第一标签子集中记录的该样本文档的第一标签，样本句子包含于答案的概率逐渐逼近第二标签子集中记录的该样本句子的第二标签，完成对噪声的过滤。通过第三标签子集和第四标签子集对神经网络模型进行训练，使得在训练的过程中，样本文档集中各样本分词为答案的开始位置的概率逐渐逼近第三标签子集中记录的各样本分词的第三标签，样本文档集中各样本分词为答案的结束位置的概率逐渐逼近第四标签子集中记录的各样本分词的第四标签。

通过第一标签子集、第二标签子集、第三标签子集和第四标签子集对神经网络模型进行训练，能够使得神经网络模型参数得到优化，能够得到更加精准的输出结果，为确定问题对应的答案奠定了良好的基础。

步骤102，根据所述输出结果，从所述文档集中确定所述问题对应的答案。

具体地，若输出结果为该问题对应的答案在文档集中的开始位置和结束位置，则可将开始位置对应的分词、开始位置和结束位置之间的分词以及结束位置对应的分词作为问题对应的答案。

例如，若输出结果为文档2的第3个句子的第4个分词位置和文档2的第5个句子的第7个分词位置，那么，文档2的第3个句子的第4个分词位置即为答案在文档集中的开始位置，文档2的第5个句子的第7个分词位置即为答案在文档集中的结束位置，此时，将开始位置对应的文档2的第3个句子的第4个分词、结束位置对应的文档2的第5个句子的第7个分词、以及文档2的第5个句子的第7个分词作为问题对应的答案。

本发明实施例提供的方法，通过将问题和对应的文档集输入至训练后的神经网络模型，根据训练后的神经网络模型的输出结果，从文档集中确定问题对应的答案。填补了描述类问题机器阅读理解模型的短缺，有效的利用了多文档的特点，保留了更多文档信息，能够更加精准地提取描述类问题的答案。

在上述各实施例的基础上，本发明实施例对训练后的神经网络模型的获取进行说明，即，将问题和对应的文档集输入至训练后的神经网络模型，之前还包括：

步骤001，获取多个样本问题以及每个样本问题对应的样本文档集和样本标签集；

步骤002，将每个样本问题及对应的样本文档集和样本标签集作为一个训练样本；

步骤003，得到多个训练样本，将所述多个训练样本作为训练集，通过所述训练集对神经网络模型进行训练，得到训练后的神经网络模型。

具体地，在将问题和对应的文档集输入至训练后的神经网络模型之前，还需对神经网络模型进行训练，具体训练过程如下：

首先，获取多个样本问题以及每个样本问题对应的样本文档集和样本标签集。其中，样本问题可随意构造，将构造好的样本问题输入至搜索引擎，可搜索得到该样本问题相关的多个样本文档，将这多个样本文档作为该样本问题对应的样本文档集，并获取对应的样本标签集。需要说明的是，样本标签集已在上述实施例中详细说明，此处不再赘述。

然后，将一个样本问题、该样本问题对应的样本文档集和样本标签集作为一个训练样本，从而可得到多个训练样本。

最后，将多个训练样本依次输入至神经网络模型，根据神经网络模型的每一次输出结果对神经网络模型参数进行调整，最终完成神经网络模型的训练，得到训练后的神经网络模型。

在上述各实施例的基础上，本发明实施例对神经网络模型的训练过程进行进一步具体说明，即，通过所述训练集对神经网络模型进行训练，包括：

步骤0031，对于任意一个训练样本，将所述训练样本中的样本问题和对应的样本文档集输入至所述神经网络模型的嵌入层、编码层和交互层，输出所述样本问题对应的样本第一向量、所述样本文档集对应的样本第二向量集和样本第三向量集；

步骤0032，将所述样本第一向量和所述样本第二向量集输入至所述神经网络模型的第一验证层结构，输出所述样本文档集中各样本文档包含答案的概率；

步骤0033，将所述样本第一向量和所述样本第三向量集输入至所述神经网络模型的第二验证层结构，输出所述样本文档集中各样本句子包含于答案的概率；

步骤0034，将所述样本第一向量和所述样本第二向量集输入至所述神经网络模型的抽取层结构，输出所述样本文档集中各样本分词为答案的开始位置的概率和各样本分词为答案的结束位置的概率；

步骤0035，基于联合损失函数，根据各样本文档包含答案的概率、各样本句子包含于答案的概率、各样本分词为答案的开始位置的概率、各样本分词为答案的结束位置的概率和所述样本标签集，获取所述神经网络模型的联合损失值；

步骤0036，若所述联合损失值小于预设阈值，则所述神经网络模型训练完成。

需要说明的是，上述步骤编号并不代表各步骤的时序关系。

此处结合图2对本发明实施例进行具体说明，图2为本发明实施例提供的一种神经网络模型的结构示意图，如图2所示，该模型包括：

嵌入层21、编码层22、交互层23、第一验证层结构24、第二验证层结构25和抽取层结构26。

对于任意一个训练样本，首先，将训练样本中的样本问题和对应的样本文档集输入至嵌入层21，进而依次通过编码层22和交互层23，得到交互层23的输出结果，即，样本问题对应的样本第一向量、样本文档集对应的样本第二向量集和样本第三向量集。其中，样本第二向量集中包含与样本文档集中多个样本文档一一对应的多个样本第二向量，样本第三向量集中包含与样本文档集中多个样本句子一一对应的多个样本第三向量。

具体地，编码层22优选为双向长短时记忆网络(Bi-LSTM)，样本问题和对应的样本文档集依次输入至嵌入层21和编码层22，编码层22可输出样本问题的语义编码、样本文档集的语义编码以及样本文档集中各样本句子组成的样本句子集的语义编码。

将样本问题的语义编码、样本文档集的语义编码以及样本文档集中各样本句子组成的样本句子集的语义编码输入至交互层23，交互层23基于Attention&Fuse机制，输出样本文档集对应的样本第二向量集和样本第三向量集。需要说明的是，通过自对齐方法，基于样本问题的语义编码得到样本问题对应的样本第一向量。

然后，将样本第一向量和样本第二向量集输入至第一验证层结构24，得到第一验证层结构24的输出结果，即样本文档集中各样本文档包含答案的概率；将样本第一向量和样本第三向量集输入至第二验证层结构25，得到第二验证层结构25的输出结果，即样本文档集中各样本句子包含于答案的概率；将样本第一向量和样本第二向量集输入至抽取层结构26，得到抽取层结构26的输出结果，即样本文档集中各样本分词为答案的开始位置的概率和各样本分词为答案的结束位置的概率。

具体地，第一验证层结构24包括两个全连接层和一个sigmoid层，将样本第一向量和样本第二向量集依次通过两个全连接层和一个sigmoid层，可得到样本文档集中各样本文档包含答案的概率。

第二验证层结构25包括两个全连接层和一个sigmoid层，将样本第一向量和样本第三向量集依次通过两个全连接层和一个sigmoid层，可得到样本文档集中各样本句子包含于答案的概率。

结合图3对抽取层结构26进行具体说明，图3为本发明实施例提供的一种抽取层结构的结构示意图，如图3所示：

抽取层结构包括：第一Bi-LSTM层261、全连接Dense层262和第二Bi-LSTM层263。

将样本第一向量和样本第二向量集输入至第一Bi-LSTM层261，得到向量M，将向量M输入至全连接Dense层262，得到向量U1，向量U1经过softmax得到开始位置在样本文档集中各样本分词上的概率分布即样本文档集中各样本分词为答案的开始位置的概率，将向量U1和向量M拼接作为第二Bi-LSTM层263的输入，得到向量U2，向量U2经过softmax得到结束位置在样本文档集中各样本分词上的概率分布即样本文档集中各样本分词为答案的结束位置的概率。

最后，基于联合损失函数，根据第一验证层结构24的输出结果、第二验证层结构25的输出结果、抽取层结构26的输出结果和样本标签集，获取神经网络模型的联合损失值。其中，联合损失函数为交叉熵损失函数。在计算获得联合损失值之后，本次训练过程结束，再利用误差反向传播算法更新神经网络模型参数，之后再进行下一次训练。在训练的过程中，若针对某个训练样本计算获得的联合损失值小于预设阈值，则神经网络模型训练完成，得到训练后的神经网络模型。

本发明实施例提供的方法，基于联合损失函数，根据第一验证层结构的输出结果、第二验证层结构的输出结果、抽取层结构的输出结果和样本标签集，获取神经网络模型的联合损失值，并根据联合损失值与预设阈值的大小对神经网络模型进行训练或判定其训练完成，该方法基于深度学习的思想对神经网络模型进行训练，使得神经网络模型学习文档集中的文本特征，有利于通过训练后的神经网络模型得到问题对应的答案。

在上述各实施例的基础上，本发明实施例对联合损失值的计算过程进行具体说明，即，基于联合损失函数，根据各样本文档包含答案的概率、各样本句子包含于答案的概率、各样本分词为答案的开始位置的概率、各样本分词为答案的结束位置的概率和所述样本标签集，获取所述神经网络模型的联合损失值，包括：

步骤00351，基于所述联合损失函数中的第一损失函数，根据各样本文档包含答案的概率和所述样本标签集中的第一标签子集，获取第一损失函数值；

步骤00352，基于所述联合损失函数中的第二损失函数，根据各样本句子包含于答案的概率和所述样本标签集中的第二标签子集，获取第二损失函数值；

步骤00353，基于所述联合损失函数中的第三损失函数，根据各样本分词为答案的开始位置的概率、各样本分词为答案的结束位置的概率、所述样本标签集中的第三标签子集和第四标签子集，获取第三损失函数值；

步骤00354，根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值，获取所述神经网络模型的联合损失值。

具体地，联合损失函数l为：

l＝l_AE+λl_NAP+(1-λ)l_NAS

其中，l_NAP为第一损失函数，l_NAS为第二损失函数，l_AE为第三损失函数，λ为权重。

其中，第一损失函数l_NAP为：

为第一标签子集中记录的样本文档集中第i个样本文档对应的标签，若该样本文档包含答案，则为1，否则为0，为第一验证层结构输出的样本文档集中第i个样本文档包含答案的概率，K为样本文档集中样本文档的个数。

第二损失函数l_NAS为：

为第二标签子集中记录的样本文档集中第i个样本句子对应的标签，若该样本句子包含于答案，则为1，否则为0，为第二验证层结构输出的样本文档集中第i个样本句子包含于答案的概率，K为样本文档集中样本文档的个数，N为每个样本文档中样本句子的个数。

第三损失函数l_AE为：

为第三标签子集中记录的样本文档集中第i个样本分词对应的标签，若该样本分词为答案的开始位置，则为1，否则为0，为抽取层结构输出的样本文档集中第i个样本分词为答案的开始位置的概率；为第四标签子集中记录的样本文档集中第i个样本分词对应的标签，若该样本分词为答案的结束位置，则为1，否则为0，为抽取层结构输出的样本文档集中第i个样本分词为答案的结束位置的概率；M为样本文档集中样本分词的个数。

通过第一标签子集计算得到第一损失函数值，通过第二标签子集计算得到第二损失函数值，通过第三标签子集和第四标签子集计算得到第三损失函数值，进而通过第一损失函数值、第二损失函数值和第三损失函数值计算得到联合损失函数值，进而通过联合损失函数值的大小来调整神经网络模型的参数，使得在训练过程中，滤除样本文档集中各样本文档和样本句子的噪声，得到更加合理的样本第二向量集和样本第三向量集，并且，能够使得在训练的过程中，样本文档集中各样本分词为答案的开始位置的概率逐渐逼近第三标签子集中记录的各样本分词的第三标签，样本文档集中各样本分词为答案的结束位置的概率逐渐逼近第四标签子集中记录的各样本分词的第四标签。

本发明实施例提供的方法，通过第一标签子集、第二标签子集、第三标签子集和第四标签子集计算得到第一损失函数值、第二损失函数值和第三损失函数值，进而得到联合损失函数值，根据联合损失函数值的大小对神经网络模型进行训练，训练过程通过多个损失函数级联学习的方式，由粗到细的设计答案验证任务，采用多任务学习的思想，能够使得神经网络模型参数得到优化，得到更加精准的输出结果，为确定问题对应的答案奠定了良好的基础。

在上述各实施例的基础上，本发明实施例对训练后的神经网络模型的使用过程进行说明，即，将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果，包括：

步骤1011，将问题和对应的文档集输入至训练后的神经网络模型的嵌入层、编码层和交互层，输出所述问题对应的第一向量、所述文档集对应的第二向量集和第三向量集；

步骤1012，将所述第一向量和所述第二向量集输入至所述训练后的神经网络模型的抽取层结构，输出所述文档集中各分词为答案的开始位置的概率和各分词为答案的结束位置的概率；

步骤1013，将开始位置的概率最大的分词位置和结束位置的概率最大的分词位置作为所述训练后的神经网络模型的输出结果。

具体地，由于训练后的神经网络模型是对神经网络模型进行训练得到的，因此，训练后的神经网络模型结构与神经网络模型结构一致，均包括：嵌入层、编码层、交互层、第一验证层结构、第二验证层结构和抽取层结构。

将问题和对应的文档集输入至训练后的神经网络模型的嵌入层、编码层和交互层，可得到交互层的输出结果，即，问题对应的第一向量、文档集对应的第二向量集和第三向量集。其中，第二向量集中包含与文档集中多个文档一一对应的多个第二向量，第三向量集中包含与文档集中多个句子一一对应的多个第三向量。

不同于训练过程的是，在使用训练后的神经网络模型时，只需获取交互层的输出结果中的第一向量和第二向量集，然后将第一向量和第二向量集输入至抽取层结构，得到文档集中各分词为答案的开始位置的概率和各分词为答案的结束位置的概率。最后，将开始位置的概率最大的分词位置和结束位置的概率最大的分词位置作为训练后的神经网络模型的输出结果。

举个例子，对于问题A，通过搜索引擎搜索到了3个与该问题相关的文档，分别为文档1、文档2和文档3，其中，每个文档包括5个句子，每个句子包括10个分词。将这3个文档称为问题A的文档集，将问题A和文档集均输入至训练后的神经网络模型，获取该模型的输出结果，其中，输出结果可为文档2的第3个句子的第4个分词位置和文档2的第5个句子的第7个分词位置，此时，文档2的第3个句子的第4个分词位置即为问题A对应的答案在文档集中的开始位置，文档2的第5个句子的第7个分词位置即为问题A对应的答案在文档集中的结束位置。

在上述各实施例的基础上，本发明实施例对训练后的神经网络模型的使用过程进行进一步说明，即，根据所述输出结果，从所述文档集中确定所述问题对应的答案，包括：

将所述输出结果中开始位置的概率最大的分词位置作为答案的开始位置，将所述输出结果中结束位置的概率最大的分词位置作为答案的结束位置；

将所述开始位置对应的分词、所述开始位置和所述结束位置之间的分词以及所述结束位置对应的分词作为问题对应的答案。

具体地，若输出结果为文档2的第3个句子的第4个分词位置和文档2的第5个句子的第7个分词位置，那么，文档2的第3个句子的第4个分词位置即为答案在文档集中的开始位置，文档2的第5个句子的第7个分词位置即为答案在文档集中的结束位置，此时，将开始位置对应的文档2的第3个句子的第4个分词、结束位置对应的文档2的第5个句子的第7个分词、以及文档2的第5个句子的第7个分词作为问题对应的答案。

需要说明的是，为了得到更精准的答案，本发明实施例还包括：

将所述问题和对应的答案输入至训练后的第二神经网络模型，将所述训练后的第二神经网络模型的输出结果作为所述问题对应的最终答案；

其中，所述训练后的第二神经网络模型是根据第二训练集训练得到，所述第二训练集包括多个样本问题以及每个样本问题对应的样本答案，所述训练后的第二神经网络模型为基于seq2seq的网络模型。

具体地，将问题和上述实施例中得到该问题对应的答案输入至训练后的第二神经网络模型，将该模型的输出结果作为该问题的最终答案即更精准的答案。

以下对训练后的第二神经网络模型进行说明：

首先，获取多个样本问题以及每个样本问题对应的样本答案作为第二训练集，然后，通过第二训练集对第二神经网络模型进行训练得到训练后的第二神经网络模型。其中，第二神经网络模型和训练后的第二神经网络模型均为基于seq2seq的网络模型。

以下结合图4对第二神经网络模型的训练过程进行说明，图4为本发明实施例提供的一种第二神经网络模型的结构示意图，结合图4说明训练过程如下：

第一步，编码器(encoder)部分，对于样本问题Q，根据上述实施例中得到的样本问题Q对应的答案RA，将答案与问题Q文本进行拼接，作为一段文本(以词为粒度)一个一个逐步输入给双向长短时记忆网络(Bi-LSTM)中，得到对应的语义表示h_t：

第二步，解码器(decoder)状态部分，

在训练阶段，“精炼回答A”文本(以词为粒度)一个一个逐步输入给长短时记忆网络(LSTM)，得到解码器(decoder)的状态向量为s_t，之后利用attention机制，求得上下文向量的物理含义计算状态向量s_t与h_t之间的对准程度，并得到对准程度归一化后的h_t即

求得状态向量s_t:

attention机制求得上下文向量

在预测阶段，编码器的输入为前一个编码器的“输出词”，其他状态向量st和上下文向量的公式不变。

第三步，解码器输出部分，计算在“大词汇表”上的输出概率

得到解码器状态st和上下文向量之后，将它们拼接，输入双线性全连接层(两个全连接层W1和W2)，求得词汇分布概率P_vocab(w)，需要注意的是，词汇分布这里指的是在“大词汇表”中的所有词，并在“大词汇表”最后加上一个drop标志位(这里这么理解，本来“大词汇表”中可能有1万个词，加上一个drop标志位相当于有了一万零一个词，这里一步相当于在做一万零一的多分类任务)，drop标志位的作用是，去除描述类阅读理解回答中的冗余词，使得答案更加流畅简洁(即概率输出P_vocab(w)为drop标志位的概率最大，则直接输出空字符)：

第四步，解码器输出部分，计算在“小词汇表”上的输出概率

“小词汇表”表示在训练语料Q和QA的文本中的所有词汇，组成的小词汇。

生成概率公式正好可以是

P_Svocab(w)＝Da＝softmax(De_w)

第五步，解码器输出部分，计算使用“大词汇表”还是“小词汇表”的概率，

计算生成概率p_gen：

f_fuse为上述实施例中的第一神经网络模型得到的级联分数向量sv，与特征(问题类型、是否是数字、是否是句末分隔等)的融合向量：

f_fuse＝[sv；f₁；f₂；f₃]

其中，即，start index和end index之间的每个分词对应的2个概率求平均。

第六步，解码器输出部分，最终输出概率，

得到最终的概率分布，物理含义代表p_gen的概率在“大词汇表”上生成新的输入w，(1-p_gen)的概率在“小词汇表”上选择词汇。特殊的，如果w是超出“大词汇表”的词汇，这时P_Bvocab(w)则为0，如果w并没有出现在训练时拼接的文档集(即“小词汇表”)中，这时的P_Svocab(w)值也为0，公式如下：

P(w)＝p_genP_Bvocab(w)+(1-p_gen)P_Svocab(w)

在训练时，t时刻的损失，是目标词汇的负对数似然函数：

整体损失函数为T时刻内所有时刻的平均loss：

训练目标即为在反向传播梯度的过程中，逐步最小化整体损失函数，从而得到训练后的第二神经网络模型。

本发明实施例提供的方法，通过将问题和对应的答案输入至第二神经网络模型，融合了第一神经网络模型的级联分数与人工特征，基于生成/拷贝的方式，对于生成的描述类问题回答，进行了精炼，使得最终答案更加符合描述类问题的回答，更加简洁流畅。

基于上述任一实施例，图5为本发明实施例提供的一种基于机器阅读理解的问题答案获取系统的结构示意图，如图5所示，该系统包括：

输出结果获取模块501，用于将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果；

答案获取模块502，用于根据所述输出结果，从所述文档集中确定所述问题对应的答案；

本发明实施例提供的系统，具体执行上述各方法实施例流程，具体请详见上述各方法实施例的内容，此处不再赘述。本发明实施例提供的系统，通过将问题和对应的文档集输入至训练后的神经网络模型，根据训练后的神经网络模型的输出结果，从文档集中确定所述问题对应的答案。填补了描述类问题机器阅读理解模型的短缺，有效的利用了多文档的特点，保留了更多文档信息，能够更加精准地提取描述类问题的答案。

图6为本发明实施例提供的一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储在存储器603上并可在处理器601上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果；根据所述输出结果，从所述文档集中确定所述问题对应的答案；其中，所述训练后的神经网络模型根据训练集训练得到，所述训练集包括多个样本问题以及每个样本问题对应的样本文档集和样本标签集；所述样本文档集包括多个样本文档，每个样本文档包括多个样本句子，每个样本句子包括多个样本分词；所述样本标签集包括第一标签子集、第二标签子集、第三标签子集和第四标签子集，所述第一标签子集用于表征所述样本文档集中各样本文档是否包含答案，所述第二标签子集用于表征所述样本文档集中各样本句子是否包含于答案，所述第三标签子集用于表征所述样本文档集中各样本分词是否为答案的开始位置，所述第四标签子集用于表征所述样本文档集中各样本分词是否为答案的结束位置。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果；根据所述输出结果，从所述文档集中确定所述问题对应的答案；其中，所述训练后的神经网络模型根据训练集训练得到，所述训练集包括多个样本问题以及每个样本问题对应的样本文档集和样本标签集；所述样本文档集包括多个样本文档，每个样本文档包括多个样本句子，每个样本句子包括多个样本分词；所述样本标签集包括第一标签子集、第二标签子集、第三标签子集和第四标签子集，所述第一标签子集用于表征所述样本文档集中各样本文档是否包含答案，所述第二标签子集用于表征所述样本文档集中各样本句子是否包含于答案，所述第三标签子集用于表征所述样本文档集中各样本分词是否为答案的开始位置，所述第四标签子集用于表征所述样本文档集中各样本分词是否为答案的结束位置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于机器阅读理解的问题答案获取方法，其特征在于，包括：

2.根据权利要求1所述的基于机器阅读理解的问题答案获取方法，其特征在于，将问题和对应的文档集输入至训练后的神经网络模型，之前还包括：

获取多个样本问题以及每个样本问题对应的样本文档集和样本标签集；

将每个样本问题及对应的样本文档集和样本标签集作为一个训练样本；

得到多个训练样本，将所述多个训练样本作为训练集，通过所述训练集对神经网络模型进行训练，得到训练后的神经网络模型。

3.根据权利要求2所述的基于机器阅读理解的问题答案获取方法，其特征在于，通过所述训练集对神经网络模型进行训练，包括：

对于任意一个训练样本，将所述训练样本中的样本问题和对应的样本文档集输入至所述神经网络模型的嵌入层、编码层和交互层，输出所述样本问题对应的样本第一向量、所述样本文档集对应的样本第二向量集和样本第三向量集；

将所述样本第一向量和所述样本第二向量集输入至所述神经网络模型的第一验证层结构，输出所述样本文档集中各样本文档包含答案的概率；

将所述样本第一向量和所述样本第三向量集输入至所述神经网络模型的第二验证层结构，输出所述样本文档集中各样本句子包含于答案的概率；

将所述样本第一向量和所述样本第二向量集输入至所述神经网络模型的抽取层结构，输出所述样本文档集中各样本分词为答案的开始位置的概率和各样本分词为答案的结束位置的概率；

基于联合损失函数，根据各样本文档包含答案的概率、各样本句子包含于答案的概率、各样本分词为答案的开始位置的概率、各样本分词为答案的结束位置的概率和所述样本标签集，获取所述神经网络模型的联合损失值；

若所述联合损失值小于预设阈值，则所述神经网络模型训练完成。

4.根据权利要求3所述的基于机器阅读理解的问题答案获取方法，其特征在于，基于联合损失函数，根据各样本文档包含答案的概率、各样本句子包含于答案的概率、各样本分词为答案的开始位置的概率、各样本分词为答案的结束位置的概率和所述样本标签集，获取所述神经网络模型的联合损失值，包括：

基于所述联合损失函数中的第一损失函数，根据各样本文档包含答案的概率和所述样本标签集中的第一标签子集，获取第一损失函数值；

基于所述联合损失函数中的第二损失函数，根据各样本句子包含于答案的概率和所述样本标签集中的第二标签子集，获取第二损失函数值；

基于所述联合损失函数中的第三损失函数，根据各样本分词为答案的开始位置的概率、各样本分词为答案的结束位置的概率、所述样本标签集中的第三标签子集和第四标签子集，获取第三损失函数值；

根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值，获取所述神经网络模型的联合损失值。

5.根据权利要求1所述的基于机器阅读理解的问题答案获取方法，其特征在于，将问题和对应的文档集输入至训练后的神经网络模型，获取所述训练后的神经网络模型的输出结果，包括：

将问题和对应的文档集输入至训练后的神经网络模型的嵌入层、编码层和交互层，输出所述问题对应的第一向量、所述文档集对应的第二向量集和第三向量集；

将所述第一向量和所述第二向量集输入至所述训练后的神经网络模型的抽取层结构，输出所述文档集中各分词为答案的开始位置的概率和各分词为答案的结束位置的概率；

将开始位置的概率最大的分词位置和结束位置的概率最大的分词位置作为所述训练后的神经网络模型的输出结果。

6.根据权利要求5所述的基于机器阅读理解的问题答案获取方法，其特征在于，根据所述输出结果，从所述文档集中确定所述问题对应的答案，包括：

7.根据权利要求1-6任一所述的基于机器阅读理解的问题答案获取方法，其特征在于，还包括：

8.一种基于机器阅读理解的问题答案获取系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。