CN109753661B

CN109753661B - 一种机器阅读理解方法、装置、设备及存储介质

Info

Publication number: CN109753661B
Application number: CN201910028548.XA
Authority: CN
Inventors: 蔡世清; 江建军; 郑凯; 段立新; 王亚松
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2022-12-02
Anticipated expiration: 2039-01-11
Also published as: CN109753661A

Abstract

本申请提供了一种机器阅读理解方法、装置、设备及存储介质，包括：将问题的语义信息编码至相应的原文中，得到综合表示矩阵；针对每个原文分词，确定该原文分词以及其之后的相邻设定数目个原文分词，为该原文分词对应的候选分词；针对该原文分词对应的每个候选分词，基于综合表示矩阵，确定该原文分词为问题的答案起点且该候选分词为问题的答案终点的概率，为分词组的答案边界概率；基于综合表示矩阵，确定该原文分词至该候选分词对应的原文片段为问题的答案内容的概率，为分词组的答案内容概率；根据各个分词组的答案边界概率和答案内容概率，确定问题的答案。通过答案边界和答案内容这两个预测结果共同确定问题答案，提高了确定的答案的准确度。

Description

一种机器阅读理解方法、装置、设备及存储介质

技术领域

本申请涉及深度学习技术领域，具体而言，涉及一种机器阅读理解方法、装置、设备及存储介质。

背景技术

机器阅读理解作为自然语言处理(Natural Language Processing，NLP)的子领域，越来越受到关注。机器阅读理解能够从非结构化的原始文本中直接抽取出相应问题对应的答案，而不依赖于知识库的结构性，极大地降低了人工构建知识库的成本。

目前，相关技术提供了一种机器阅读理解模型，该机器阅读理解模型通过对原文和问题进行学习，能够分别预测问题的答案在原文中起点边界和终点边界，并输出这两个边界对应的原文片段作为问题的答案片段。

上述机器阅读理解模型虽然得到了一定的效果，但是，当预测的答案片段较长时，答案片段的起点边界和终点边界的依赖性会非常小，这就会导致模型输出的答案片段的准确度较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种机器阅读理解方法、装置、设备及存储介质，通过答案边界的预测结果与答案内容的预测结果共同确定问题的答案，提高了确定的答案的准确度。

第一方面，本申请实施例提供了一种机器阅读理解方法，包括：

将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵；以及，

针对原文中的每个原文分词，确定该原文分词以及位于该原文分词之后的相邻设定数目个原文分词，作为该原文分词对应的候选分词；

针对该原文分词对应的每个候选分词，基于所述原文对应的综合表示矩阵，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率，并将该概率作为分词组对应的答案边界概率，其中，所述问题为针对所述原文的问题，所述分词组包括该原文分词以及该候选分词；

基于所述原文对应的综合表示矩阵，确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率，并将该概率作为所述分词组对应的答案内容概率；

根据得到的各个分词组对应的答案边界概率以及各个分词组对应的答案内容概率，确定所述问题的答案。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，确定所述问题的答案，具体包括：

确定各个分词组对应的答案边界概率与相应分词组对应的答案内容概率的乘积；

将对应乘积最大的分词组中的原文分词至候选分词对应的原文片段，确定为所述问题的答案。

结合第一方面，本申请实施例提供了第一方面的第二种可能的实施方式，其中，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率，具体包括：

将所述综合表示矩阵输入到第一双向门控循环单元BiGRU模型中，得到第一表示矩阵；

将所述第一表示矩阵输入到第二BiGRU模型中，得到第二表示矩阵；

将所述第一表示矩阵和所述综合表示矩阵均输入到第一线性分类器中，得到该原文分词为所述问题的答案起点的概率；

将所述第二表示矩阵和所述综合表示矩阵均输入到第二线性分类器中，得到该候选分词为所述问题的答案终点的概率；

根据该原文分词为所述问题的答案起点的概率与该候选分词为所述问题的答案终点的概率的乘积，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率，具体包括：

将所述综合表示矩阵输入到第三BiGRU模型中，得到第三表示矩阵；

将所述第三表示矩阵输入到第四BiGRU模型中，得到第四表示矩阵；

将所述第三表示矩阵、所述第四表示矩阵和所述综合表示矩阵均输入到第三线性分类器中，得到该原文分词至该候选分词对应的原文片段中每个原文分词为所述问题的答案内容的概率；

根据该原文分词至该候选分词对应的原文片段中各个原文分词为所述问题的答案内容的概率的乘积，确定该原文分词至该候选分词对应的原文片段为所述问题答案内容的概率。

结合第一方面、第一方面的第一种可能的实施方式至第一方面的第三种可能的实施方式中任一种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵，具体包括：

基于所述原文中各原文分词对应的分词特征向量，确定所述原文对应的原文分词特征矩阵，以及，基于所述问题中各问题分词对应的分词特征向量，确定所述问题对应的问题分词特征矩阵；其中，所述分词特征向量由相应分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量拼接得到；

基于所述原文对应的原文分词特征矩阵以及所述问题对应的问题分词特征矩阵，确定所述原文对应的综合表示矩阵。

第二方面，本申请实施例还提供了一种机器阅读理解装置，包括：

编码模块，用于将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵；以及，

第一确定模块，用于针对原文中的每个原文分词，确定该原文分词以及位于该原文分词之后的相邻设定数目个原文分词，作为该原文分词对应的候选分词；

第二确定模块，用于针对该原文分词对应的每个候选分词，基于所述原文对应的综合表示矩阵，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率，并将该概率作为分词组对应的答案边界概率，其中，所述问题为针对所述原文的问题，所述分词组包括该原文分词以及该候选分词；

第三确定模块，用于基于所述原文对应的综合表示矩阵，确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率，并将该概率作为所述分词组对应的答案内容概率；

第四确定模块，用于根据得到的各个所述分词组对应的答案边界概率以及各个所述分词组对应的答案内容概率，确定所述问题的答案。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，第四确定模块，具体用于：

结合第二方面，本申请实施例提供了第二方面的第二种可能的实施方式，其中，第二确定模块，具体用于：

根据该原文分词为所述问题的答案起点的概率与该候选分词为所述问题的答案终点的概率的乘积，确定该原文分词为问题的答案起点且该候选分词为所述问题的答案终点的概率。

第三方面，本申请实施例还提供了一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有计算机可执行指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述计算机可执行指令使得所述计算机设备实现第一方面任一项所述的机器阅读理解方法。

第四方面，本申请实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现第一方面任一项所述的机器阅读理解方法。

本申请实施例提供的一种机器阅读理解方法、装置、设备及存储介质，首先将问题的语义信息编码至相应的原文中，得到原文对应的综合表示矩阵。原文中的每个原文分词以及该原文分词对应的候选分词对应一个分词组，其中，每个原文分词之后的相邻设定数目个原文分词为该原文分词对应的候选分词；然后，基于原文对应的综合表示矩阵，确定各个分词组的答案边界概率和答案内容概率；最后，通过各个分词组的答案边界概率和各个分词组对应的答案内容概率，确定问题的答案。这样，通过答案边界的预测结果和答案内容的预测结果共同确定问题的答案，提高了确定的答案的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种机器阅读理解方法的流程图。

图2示出了本申请实施例所提供的另一种机器阅读理解方法的流程图。

图3示出了本申请实施例所提供的又一种机器阅读理解方法的流程图。

图4示出了本申请实施例所提供的再一种机器阅读理解方法的流程图。

图5示出了本申请实施例所提供的进一种机器阅读理解方法的流程图。

图6示出了本申请实施例所提供的一种机器阅读理解装置的结构示意图。

图7示出了本申请实施例所提供的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中的机器阅读理解模型，在预测的答案片段较长时，模型输出的答案片段的准确度较低的问题，本申请实施例提供了一种机器阅读理解方法、装置、设备及存储介质，能够通过答案边界的预测结果与答案内容的预测结果共同确定问题的答案，提高了确定的答案的准确度。下面通过实施例进行描述。

如图1所示，为本申请实施例提供的一种机器阅读理解方法，可应用于服务器，该方法可以包括以下步骤：

S101、将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵。

本申请实施例中，服务器预先获取原文和针对该原文的问题；在获取到原文和相应的问题后，服务器基于原文中每个原文分词的分词特征，构建原文对应的原文语义内容特征矩阵，以及，基于问题中每个问题分词的分词特征，构建问题对应的问题语义内容特征矩阵；在得到原文语义内容特征矩阵和问题语义内容特征矩后，服务器融合原文语义内容特征矩阵和问题语义内容特征矩阵，该融合过程即将问题的语义信息编码至相应的原文中的过程，从而得到原文对应的综合表示矩阵。

S102、针对原文中的每个原文分词，确定该原文分词以及位于该原文分词之后的相邻设定数目个原文分词，作为该原文分词对应的候选分词。

本申请实施例，针对每个原文分词，该原文分词对应的候选分词包括该原文分词以及位于该原文分词之后的相邻设定数目个原文分词，将该原文分词以及位于该原文分词之后的相邻设定数目个原文分词，作为该原文分词对应的候选分词。这里，相邻设定数目个原文分词指的是距离该原文分词最近的设定数目个原文分词。其中，设定数目可以取0到n中的任一正整数，n为大于0的正整数；n表示原文中原文分词的总个数，也即原文长度。本申请实施例中，不对设定数目进行限定。比如，设定数目为n/2。

本申请实施例中，以设定数目为4，原文中的原文分词包括：原文分词1、原文分词2、原文分词3、原文分词4、原文分词5、原文分词6为例。针对原文分词1，位于原文分词1之后的相邻设定数目个原文分词分别为：原文分词2、原文分词3、原文分词4和原文分词5。相应的，原文分词1对应的候选分词为：原文分词1、原文分词2、原文分词3、原文分词4和原文分词5。

在本申请实施例中，针对原文中的每个原文分词，当位于该原文分词之后的原文分词的数目小于上述设定数目时，确定该原文分词以及位于该原文分词之后的所有原文分词，作为该原文分词对应的候选分词。

继续沿用上例，比如，针对原文分词3，位于原文分词3之后的原文分词个数为3个，3小于设定数目4，因此，原文分词3、原文分词4、原文分词5和原文分词6均为原文分词3对应的候选分词。

需要说明的是，这里不对S101和S102执行顺序进行限定，也可以先执行S102后执行S101，或者S101和S102同时执行。

S103、针对该原文分词对应的每个候选分词，基于所述原文对应的综合表示矩阵，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率，并将该概率作为分词组对应的答案边界概率，其中，所述问题为针对所述原文的问题，所述分词组包括该原文分词以及该候选分词。

本申请实施例中，当设定数目大于0时，每个原文分词均对应多个候选分词，每个原文分词与自身对应的每个候选分词均组成一个分词组。这样，每个原文分词均对应有多个分词组。针对每个分词组，服务器基于原文对应的综合表示矩阵，确定该分词组中的原文分词为问题的答案起点且该分词组中的候选分词为问题的答案终点的概率，并将该概率作为该分词组对应的答案边界概率。

比如，针对原文分词1，该原文分词1对应的候选分词为：原文分词1、原文分词2、原文分词3、原文分词4和原文分词5。该原文分词1对应的分词组为：原文分词1、原文分词1；原文分词1、原文分词2；原文分词1、原文分词3；原文分词1、原文分词4；原文分词1、原文分词5。针对原文分词1、原文分词2组成的分词组，该分词组的答案边界概率的确定方法如下：基于原文对应的综合表示矩阵，确定该分词组中原文分词1为问题的答案起点且该分词组中的原文分词2为问题的答案终点的概率。

S104、基于所述原文对应的综合表示矩阵，确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率，并将该概率作为所述分词组对应的答案内容概率。

本申请实施例中，每个分词组均包括一个原文分词和该原文分词对应的一个候选分词，相应的，每个分词组均对应一个原文片段，该原文片段由该原文分词、该候选分词以及该原文分词至该候选分词之间的原文分词组成。

针对每一个分词组，基于所述原文对应的综合表示矩阵，确定该分词组对应的原文片段为问题的答案内容的概率，作为该分词组对应的答案内容概率。

比如，针对原文分词1、原文分词4组成的分词组，该分词组对应的原文片段为原文分词1、原文分词2、原文分词3和原文分词4；该原文片段为问题的答案内容的概率的确定方法如下：基于原文对应的综合表示矩阵，确定该分词组对应的原文分词1、原文分词2、原文分词3和原文分词4为问题的答案内容的概率。

S105、根据得到的各个分词组对应的答案边界概率以及各个分词组对应的答案内容概率，确定所述问题的答案。

本申请实施例中，针对每个分词组，基于该分词组对应的答案边界概率和该分词组对应的答案内容概率，确定该分词组对应的联合概率；从各个分词组中选择对应的联合概率最大的分词组，作为目标分词组；将该目标分词组对应的原文片段作为问题的答案。

本申请实施例提供的上述机器阅读理解方法中，通过各个分词组对应的答案边界概率和各个分词组对应的答案内容概率共同确定问题的答案，既考虑了答案边界，又考虑了答案内容，提高了确定的答案的准确度。

如图2所示，本申请实施例提供的机器阅读理解方法中，将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵，具体包括：

S201、基于所述原文中各原文分词对应的分词特征向量，确定所述原文对应的原文分词特征矩阵，以及，基于所述问题中各问题分词对应的分词特征向量，确定所述问题对应的问题分词特征矩阵；其中，所述分词特征向量由相应分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量拼接得到。

本申请实施例中，原文中的原文分词个数为n，原文中每个原文分词对应的分词特征向量为d，得到n行d列的原文分词特征矩阵。问题中的问题分词个数为m，问题中每个问题分词对应的分词特征向量为d，得到m行d列的问题分词特征矩阵。

具体实施时，针对原文中的每个原文分词，提取该原文分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量；将该原文分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量拼接为一个特征向量，得到该原文分词对应的分词特征向量；以及，针对问题中的每个问题分词，提取该问题分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量；将该问题分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量拼接为一个特征向量，得到该问题分词对应的分词特征向量。

作为一种实施方式，针对中文版原文和问题，服务器基于语言技术平台(LanguageTechnology Plantform，LTP)工具提取中文版原文和问题中的分词；针对英文版原文和问题，服务器基于coreNLP工具提取英文版原文和问题中的分词。本申请实施例中，针对提取的原文分词和问题分词中的任一分词，使语义特征、词性特征以及命名实体特征来表征每个分词。这里，词性特征指的是各个分词所属的词性，具体可以为形容词、名词、动词、数量词等。命名实体特征指的是各个分词所属的命名实体类型，比如，人名、地名等。

基于此，针对中文版的每个分词，服务器基于Glove模型提取该分词的语义特征向量，以及，基于LTP工具提取该分词的词性标注特征向量和命名实体特征向量。针对英文版的每个分词，服务器基于Glove模型提取该分词的语义特征向量，以及，基于coreNLP工具提取该分词的词性标注特征向量和命名实体特征向量。

这里，针对提取的原文分词和问题分词中的任一分词，提取的该分词的语义特征向量为d₁，提取的该分词的词性标注特征向量为d₂，提取的该分词的命名实体识别特征向量为d₃；采用特征拼接的方式联合表示该分词为d＝(d₁；d₂；d₃)其中，“；”表示拼接，这里的分词可以是原文分词，也可以是问题分词。这里，可采用one-hot编码方式表示词性特征向量和命名实体特征向量。

本申请实施例中，将语义特征向量、词性标注特征向量和命名实体特征向量拼接为分词的分词特征向量，更能够全面的表示分词的特征。由于抽取式问答模型大多是回答事实类问题，比如‘谁、在哪儿、什么时候、多少’等问题，而人名、地名、时间、数量词等标注信息能够很好进行分词的特征表示，因此，基于词性标注特征、命名实体特征拼接得到的分词特征对于抽取式问答系统具有一定的信息增益，能够使得到的答案准确性更高。

本申请实施例中，将原文中的分词作为原文分词，将问题中的分词作为问题分词。

作为一种实施方式，服务器中预先构建阅读理解模型，该阅读理解模型依次包括嵌入层、表示层、交互层和输出层。其中，阅读理解模型中，嵌入层用于实现得到原文分词对应的分词特征向量、问题分词对应的分词特征向量以及原文分词特征矩阵和问题分词特征矩阵的步骤。其中，嵌入层在得到原文分词特征矩阵P和问题分词特征矩阵Q后，将原文分词特征矩阵P和问题分词特征矩阵Q送入表示层中，表示层基于原文分词特征矩阵P和问题分词特征矩阵Q获取原文和问题分别对应的更深层次的语义表示。

S202、基于所述原文对应的原文分词特征矩阵以及所述问题对应的问题分词特征矩阵，确定所述原文对应的综合表示矩阵。

本申请实施例中，服务器将原文对应的原文分词特征矩阵输入到第五BiGRU(双向门控循环单元)模型中，由第五BiGRU模型对原文分词特征矩阵进行编码处理，得到原文语义内容特征矩阵；其中，原文语义内容特征矩阵为原文的上下文表示。服务器还将问题对应的问题分词特征矩阵输入到第六BiGRU模型中，由第六BiGRU模型对问题分词特征矩阵进行编码处理，得到问题语义内容特征矩阵；其中，问题语义内容特征矩阵为问题的上下文表示。需要说明的是，第五BiGRU模型和第六BiGRU模型中的各个参数可以相同，也可以不同。可选地，第五BiGRU模型和第六BiGRU模型中的各个参数相同。

作为一种实施方式，服务器通过阅读理解模型的交互层获得原文语义内容特征矩阵和问题语义内容特征矩阵。其中，交互层接收嵌入层发送的原文分词特征矩阵与问题分词特征矩阵，并使用第五双向BiGRU模型和第六双向BiGRU模型分别对原文分词特征矩阵和问题分词特征矩阵进行编码，从而获得原文语义内容特征矩阵和问题语义内容特征矩阵。

其中，交互层的处理过程的公式化表示如下：

H＝BiGRU(P)∈R^n×2d；U＝BiGRU(Q)∈R^m×2d；

上述公式中，H表示原文语义内容特征矩阵；U表示问题语义内容特征矩阵；P表示原文分词特征矩阵；R为一个实数；Q表示问题分词特征矩阵；n表示原文中原文分词的个数，也即原文长度；m表示问题中问题分词的个数，也即问题长度。

本申请实施例中，服务器在获取了原文语义内容特征矩阵和问题语义内容特征矩阵之后，融合原文语义内容特征矩阵和问题语义内容特征矩阵，得到原文对应的综合表示矩阵。

具体实施方式中，阅读理解模型的交互层采用双向注意力机制构造综合表示。首先构造注意力矩阵S_tj＝α(H_:t,U_:j)；其中，S_tj表示注意力矩阵；H_:t和U_:j分别表示原文中第t个原文分词对应的分词特征向量和问题中第j个问题分词对应的分词特征向量；函数

为三线性注意力函数；其中，h表示原文语义内容特征矩阵H中的任一行分词特征向量，u表示问题语义内容特征矩阵中的任一行分词特征向量；“；”表示拼接操作；

表示按元素乘操作；w_s表示训练好的参数且w_s∈R^6d；T表示转置；令

其中，

表示按行归一化的结果，

表示按列归一化的结果，softmax_row表示按行归一化，softmax_col表示按列归一化，S表示注意力矩阵；得到

其中，

表示原文对问题的第一注意力表示矩阵，

表示问题对原文的第二注意力表示矩阵；最终得到双向注意力表示

其中，W_g表示训练好的参数且W_g∈R^8d×v，T表示转置。最终，交互层输出v维的综合表示矩阵G。

进一步的，本申请实施例提供的机器阅读理解方法中，服务器通过阅读理解模型的输出层执行确定该原文分词为问题的答案起点且该候选分词为所述问题的答案终点的概率的步骤。如图3所示，该步骤具体包括：

S301、将所述综合表示矩阵输入到第一BiGRU模型中，得到第一表示矩阵。

本申请实施例中，交互层输出综合表示矩阵G到输出层，输出层将综合表示矩阵G输入到第一BiGRU模型中，得到第一表示矩阵M₁。

S302、将所述第一表示矩阵输入到第二BiGRU模型中，得到第二表示矩阵。

本申请实施例中，交互层输出综合表示矩阵G到输出层，输出层将综合表示矩阵G输入到第二BiGRU模型中，得到第二表示矩阵M₂。

S303、将所述第一表示矩阵和所述综合表示矩阵均输入到第一线性分类器中，得到该原文分词为所述问题的答案起点的概率。

本申请实施例中，输出层使用第一线性分类器预测答案起点；其中，可采用如下公式预测答案起点：

p_start＝softmax(w₁ ^T[G；M₁])；

其中，p_start表示任一原文分词为所述问题的答案起点的概率；softmax函数是多分类的激活函数，w₁表示训练好的参数，为一常数值；T表示转置。在上述公式中，利用第一线性分类器对答案起点进行预测的过程中，综合了M₁和综合表示矩阵G，这样可以增大信息流通性，防止信息损失。

S304、将所述第二表示矩阵和所述综合表示矩阵均输入到第二线性分类器中，得到该候选分词为所述问题的答案终点的概率。

本申请实施例中，输出层使用第二线性分类器预测答案终点；其中，可采用如下公式预测答案终点：

p_end＝softmax(w₂ ^T[G；M₂])；

其中，p_end表示任一候选分词为问题的答案终点的概率，softmax函数是多分类的激活函数，w₂表示训练好的参数，为一常数值；T表示转置。其中，利用第二线性分类器对答案起点进行预测的过程中，综合了M₂和综合表示矩阵G，这样可以增大信息流通性，防止信息损失。

第一线性分类器和第二线性分类器中的参数可以相同也可以不同，可选地，第一线性分类器和第二线性分类器中的参数相同。

S305、根据该原文分词为所述问题的答案起点的概率与该候选分词为所述问题的答案终点的概率的乘积，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率。

作为一种实施方式，基于公式logP_bound(i,j)＝0.5×(logp_start(i)+logp_end(j))，确定该原文分词为问题的答案起点且该候选分词为所述问题的答案终点的概率。其中，i表示任一原文分词，j表示该任一原文分词i对应的任一候选分词j，P_bound(i,j)表示问题的答案以原文分词i为答案起点且以原文分词i对应的候选分词j为答案终点的概率；其中，公式中的乘以0.5操作是对概率数值做平滑处理。

这里，将概率表示成对数概率的形式是为了防止基于logP_bound(i,j)得到的分词组的联合概率的计算值溢出。

进一步的，本申请实施例提供的机器阅读理解方法中，服务器通过阅读理解模型的输出层执行确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率的步骤。如图4所示，该步骤具体包括：

S401、将所述综合表示矩阵输入到第三BiGRU模型中，得到第三表示矩阵。

本申请实施例中，交互层输出综合表示矩阵G到输出层，输出层将综合表示矩阵G输入到第三BiGRU模型中，得到第三表示矩阵。这里，第三BiGRU模型与第一BiGRU模型可以为同一BiGRU模型。对应的，第三表示矩阵与第一表示矩阵可以为同一表示矩阵M₁。

S402、将所述第三表示矩阵输入到第四BiGRU模型中，得到第四表示矩阵。

本申请实施例中，交互层输出综合表示矩阵G到输出层，输出层将综合表示矩阵G输入到第四BiGRU模型中，得到第四表示矩阵。这里，第四BiGRU模型与第二BiGRU模型可以为同一BiGRU模型。同样的，第四表示矩阵与第二表示矩阵可以为同一表示矩阵M₂。

S403、将所述第三表示矩阵、所述第四表示矩阵和所述综合表示矩阵均输入到第三线性分类器中，得到该原文分词至该候选分词对应的原文片段中每个原文分词为所述问题的答案内容的概率。

本申请实施例中，输出层使用第三线性分类器预测问题的答案内容，具体可采用如下公式预测问题的答案内容：

p_content＝sigmoid(w₃ ^T[G；M₁；M₂])；

其中，p_content表示为任一原文分词至该原文分词对应的任一候选分词对应的原文片段中，每个原文分词为问题的答案内容的概率。其中；sigmoid为二分类的激活函数；w₃表示训练好的参数，为一常数值；T表示转置。

S404、根据该原文分词至该候选分词对应的原文片段中各个原文分词为所述问题的答案内容的概率的乘积，确定该原文分词至该候选分词对应的原文片段为所述问题答案内容的概率。

本申请实施例中，针对原文分词和该原文分词对应的任一候选分词对应的原文片段，计算该原文片段中各个原文分词为问题的答案内容的概率的乘积；将该乘积确定为该原文片段为问题答案内容的概率；或者，确定该乘积与该原文片段中所有原文分词的总个数的比值，为该原文片段为问题答案内容的概率。

作为一种实施方式，基于公式

确定该原文分词至该候选分词对应的原文片段为所述问题答案内容的概率。

其中，P_content(i,j)从原文分词i到候选分词j对应的原文片段为问题答案内容的概率，k表示原文分词i到候选分词j对应的原文片段种的任一原文分词。这里，候选分词j为原文分词i对应的候选分词。

这里，将概率表示成对数概率的形式是为了防止基于logP_content(i,j)得到的分词组的联合概率的计算值溢出。

进一步的，本申请实施例提供的机器阅读理解方法，服务器通过阅读理解模型的输出层执行确定问题的答案的步骤。如图5所示，该步骤具体包括：

S501、确定各个分词组对应的答案边界概率与相应分词组对应的答案内容概率的乘积。

其中，针对每个分词组，确定该分词组对应的答案边界概率与该分词对应的答案内容概率的乘积，从而得到各个分词组对应的概率乘积。

本申请实施例，可基于公式logP_fused(i,j)＝0.5×(logP_bound(i,j)+logP_content(i,j))，确定各个分词组的联合后验概率；其中，该公式中，P_fused(i,j)表示原文分词i和候选分词j组成的分词组的联合后验概率，将该联合后验概率作为该分词组对应的答案边界概率与对应的答案内容概率的乘积。其中，候选分词j为原文分词i对应的候选分词。上述公式中，乘0.5的操作是对概率数值做平滑处理。

这里，将概率表示成对数概率的形式是为了防止得到的分词组的联合概率的计算值溢出。

S502、将对应乘积最大的分词组中的原文分词至候选分词对应的原文片段，确定为所述问题的答案。

本申请实施例中，选取联合概率最大的分词组对应的原文片段，作为问题答案内容的概率。

本申请实施例中，采用多任务学习框架增加问题的内容识别目标，从答案边界和答案内容这两个角度判断问题的答案在原文中的位置。其中，答案边界预测专注于判断答案的边界，防止出现多词少词的现象；答案内容预测专注于判断答案整体内容与问题的匹配性，防止出现答非所问的情况；答案边界和答案内容这二者的融合极大的提高了确定的答案的可靠性和准确性，并且这两个预测过程共享了底层网络，节省了总体的计算成本。

基于与上述机器阅读理解方法同样的发明构思，如图6所示，本申请实施例还提供了一种机器阅读理解装置，该装置包括：

编码模块601，用于将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵；

第一确定模块602，用于针对原文中的每个原文分词，确定该原文分词以及位于该原文分词之后的相邻设定数目个原文分词，作为该原文分词对应的候选分词；

第二确定模块603，用于针对该原文分词对应的每个候选分词，基于所述原文对应的综合表示矩阵，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率，并将该概率作为分词组对应的答案边界概率，其中，所述问题为针对所述原文的问题，所述分词组包括该原文分词以及该候选分词；

第三确定模块604，用于基于所述原文对应的综合表示矩阵，确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率，并将该概率作为所述分词组对应的答案内容概率；

第四确定模块605，用于根据得到的各个分词组对应的答案边界概率以及各个分词组对应的答案内容概率，确定所述问题的答案。

进一步的，如图6所示，本申请实施例提供的机器阅读理解装置中，第四确定模块605，具体用于：

进一步的，如图6所示，本申请实施例提供的机器阅读理解装置中，第二确定模块603，具体用于：

将所述综合表示矩阵输入到第一BiGRU模型中，得到第一表示矩阵；

进一步的，如图6所示，本申请实施例提供的机器阅读理解装置中，第三确定模块604，具体用于：

进一步的，如图6所示，本申请实施例提供的机器阅读理解装置中，编码模块601，具体用于：

基于所述原文中各原文分词对应的分词特征向量，确定所述原文对应的原文分词特征矩阵，以及，基于所述问题中各问题分词对应的分词特征向量，确定所述问题对应的问题分词特征矩阵，其中，所述分词特征向量由相应分词对应的语义特征向量、词性标注特征向量以及命名实体特征向量拼接得到；

本申请实施例提供的上述机器阅读理解装置，通过各个分词组对应的答案边界概率和各个分词组对应的答案内容概率共同确定问题的答案，既考虑了答案边界，又考虑了答案内容，提高了确定的答案的准确度。

如图7所示，为本申请实施例提供的一种计算机设备70，包括：处理器702、存储器701和总线，存储器701存储有计算机可执行指令，当计算机设备70运行时，处理器702与存储器701之间通过总线通信，处理器702执行所述计算机可执行指令使得计算机设备70实现上述机器阅读理解方法。

具体地，上述存储器701和处理器702能够为通用的存储器和处理器，这里不做具体限定，当处理器702运行存储器701存储的计算机程序时，能够执行上述机器阅读理解方法。

对应于上述机器阅读理解方法，本申请实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述机器阅读理解方法。

本申请实施例所提供的机器阅读理解装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种机器阅读理解方法，其特征在于，包括：

根据得到的各个分词组对应的答案边界概率以及各个分词组对应的答案内容概率，确定所述问题的答案；

其中，所述确定该原文分词至该候选分词对应的原文片段为所述问题的答案内容的概率，包括：

2.根据权利要求1所述的机器阅读理解方法，其特征在于，确定所述问题的答案，具体包括：

3.根据权利要求1所述的机器阅读理解方法，其特征在于，确定该原文分词为所述问题的答案起点且该候选分词为所述问题的答案终点的概率，具体包括：

4.根据权利要求1-3任一项所述的机器阅读理解方法，其特征在于，将问题的语义信息编码至相应的原文中，得到所述原文对应的综合表示矩阵，具体包括：

5.一种机器阅读理解装置，其特征在于，包括：

第四确定模块，用于根据得到的各个所述分词组对应的答案边界概率以及各个所述分词组对应的答案内容概率，确定所述问题的答案；

其中，在所述机器阅读理解装置中，所述第三确定模块具体用于：

6.根据权利要求5所述的机器阅读理解装置，其特征在于，第四确定模块，具体用于：

7.根据权利要求5所述的机器阅读理解装置，其特征在于，第二确定模块，具体用于：

8.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有计算机可执行指令，当所述计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述计算机可执行指令使得所述计算机设备实现权利要求1至4任一项所述的机器阅读理解方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至4任一项所述的机器阅读理解方法。