CN111858879A

CN111858879A - 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备

Info

Publication number: CN111858879A
Application number: CN202010558824.6A
Authority: CN
Inventors: 胡盟; 王文广; 陈运文; 王忠萌; 王子奕; 贺梦洁; 纪达麒
Original assignee: Datagrand Tech Inc
Current assignee: Datagrand Tech Inc
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-30
Anticipated expiration: 2040-06-18
Also published as: CN111858879B

Abstract

本发明公开了一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备。本发明通过对目标文档及文档中的段落长度、句子长度进行分割，然后从分割后的段落中筛选出候选段落，从候选段落中筛选出候选句子，从候选句子中预测出多处答案并进行拼接来获取问题的答案，通过融合不同粒度上的交互特征，有效地解决了传统的滑窗机制处理方法会损失文档级别上下文之间的层次信息以及文档过长无法使用注意力机制模型的问题。

Description

一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备。

背景技术

近几年来,随着基于注意力机制的大规模蓬勃发展,单文档单抽取片段的机器阅读理解已经取得了巨大的成功,在SQuAD2.0数据集上甚至已经超越人类的标注的水平。SQuAD2.0数据集上，主要进行短文档、单段落单答案片段的抽取,具体包括判断文档整体是否能够回答所提的问题以及预测这个文档内对于问题答案的位置的概率, 寻找概率最大的开头概率与结尾概率来抽取出最终答案。然而在实际的应用场景中,文档的长度一般比较长,且具备多个段落,很多情况下,答案也不是连续的,甚至有可能跨越自然段。

传统的解决单文档、多段落的机器阅读理解,一般会利用问题与段落的统计信息或者浅层语义信息快速过滤一系列的段落,然后将过滤后得到的段落进行拼接后进行单文档的阅读理解抽取,寻找到概率最高的若干个答案片段。这种传统做法通常无法重复利用段落浅层语义信息,会造成计算资源浪费；且如果段落本身长度较长,即使过滤一系列段落之后,拼接后依旧无法使用成熟的注意力机制模型, 更不必说使用基于注意力机制的预训练语言模型了；为了使用这些预训练语言模型,通常的做法是利用滑窗机制来依次获取序列向量组,但是这种做法破坏了句子、段落、文档之间天然的层次关系,会造成信息的损失、丢失。

发明内容

有鉴于此，本发明提供了一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备，通过对目标文档及文档中的段落长度、句子长度进行分割，然后从分割后的段落中筛选出候选段落，从候选段落中筛选出候选句子，从候选句子中预测出多处答案并进行拼接来获取问题的答案，通过融合不同粒度上的交互特征，有效地解决了传统的滑窗机制处理方法会损失文档级别上下文之间的层次信息以及文档过长无法使用注意力机制模型的问题。

一种基于机器阅读理解的问答方法，具体包括以下步骤：

S1，切分目标文档；

S2，利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量；

利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量；

S3，利用各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示，从而筛选出候选段落；

S4，利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子；

S5，利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案。

优选地，所述步骤S1中切分目标文档的具体步骤为：

判断目标文档内段落个数是否超过设定值，若超过，则将目标文档切分为多个子文档；

判断各子文档中的每个段落中的句子个数，将句子个数超过设定值的超长段落切分为多个子段落；

判断各段落中的每个句子的句子长度，将句子长度超过设定值的超长句子切分为多个子句子。

优选地，将目标文档切分为多个子文档时，以段为单位，将目标文档滑窗切分为多个独立的子文档；

将句子个数超过设定值的超长段落切分为多个子段落时，以句为单位，将超长段落滑窗切分为多个独立的子段落；

将句子长度超过设定值的超长句子切分为多个子句子时，以字符为单位，将超长句子滑窗切分为多个独立的子句子。

优选地，所述步骤S2中利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量的具体步骤为：

S21，利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示；

S22，根据同一段落内所有句子的第一句子向量与问题的向量表示，通过多头感知机模型得到该段落的第一段落向量组。

优选地，所述步骤S21中利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示的步骤为：

将切分后的目标文档中的每个句子分别组织成结构为 [CLS],

的向量组并输入bert模型得到其各自的语义向量表示，将各句子的语义向量表示中[CLS]位置处的向量作为其各自的第一句子向量，其中[CLS]为标志位，

为某个句子中第n个字的第一字向量；

将问题组织成结构为[CLS],

的向量组并输入bert 模型得到其语义向量表示，将问题的语义向量表示中[CLS]位置处的向量作为问题的向量表示，其中

为问题中第m个字的向量。

优选地，步骤S22中根据同一段落内所有句子的第一句子向量与问题的向量表示，通过多头感知机模型得到该段落的第一段落向量组的具体步骤为：

将同一段落内所有句子的第一句子向量与问题的向量表示组织成结构为[CLS],

[SEP],V_Q的第一语义向量组并将第一语义向量组输入多头感知机模型，将多头感知机模型输出的向量组中[CLS] 位置处的向量作为该段落的第一段落向量组

其中，

为某一段落中第i个句子的第一句子向量，V_Q为问题的向量表示。

优选地，步骤S2中利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量的具体步骤为：

S23，利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量；

S24，根据同一段落内所有句子的第二句子向量，通过多头感知机模型得到该段落的第二段落向量组。

优选地，所述步骤S23中利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量的具体步骤为：

将切分后的目标文档中的每个句子分别组织成结构为 [CLS],

[SEP],V_WQ1,V_WQ2,…,V_WQl的向量组并输入bert模型得到其各自的语义向量表示，将各句子的语义向量表示中[CLS]位置处的向量作为其各自的第二句子向量；

其中[CLS]为标志位，

为某个句子中第n个字的第二字向量，V_WQl为问题中第l个字的向量。

优选地，步骤S24中根据同一段落内所有句子的第二句子向量，通过多头感知机模型得到该段落的第二段落向量组的具体步骤为：

将同一段落内所有句子的第二句子向量组织成结构为 [CLS],

[SEP],V_WQ1',V_WQ2',…,V_WQl'的第二语义向量组并将第二语义向量组输入多头感知机模型，将多头感知机模型输出的向量组中 [CLS]位置处的向量作为该段落的第二段落向量组

其中，

为某一段落中第i个句子的第二句子向量。

优选地，步骤S3中利用各段落的第一段落向量组和第二段落向量组得到其段落向量表示，从而筛选出候选段落的具体步骤为：

S31,将同一段落的第一段落向量组和第二段落向量组拼接，并计算得到其中间段落向量；

S32,将目标文档中各段落的中间段落向量组织成向量组并将该向量组输入多头感知机模型，多头感知机模型输出结构为 [CLS],V_P1,V_P2,…,V_Ph的向量组并将该向量组中[CLS]位置处的向量作为该文档的文档向量表示V_C，其中，V_Ph为目标文档中第h个段落的段落向量表示；

S33,计算出各段落包含答案的概率；

S34,按照段落包含答案的概率值的大小，从目标文档中筛选出候选段落。

优选地，所述步骤S31中将同一段落的第一段落向量组和第二段落向量组拼接，并计算得到其中间段落向量的具体步骤为：

将同一段落的第一段落向量组

和第二段落向量组

拼接成向量组V_P”，通过公式V_P'＝V_P”W_p+b_p计算某一段落的中间段落向量V_P'。

优选地，段落包含答案的概率的计算公式为：

P_ppost＝softmax(V_PhW_p+b_p)，其中V_Ph为目标文档中第h个段落的段落向量表示，W_p为第一权重矩阵，b_p为第一偏置。

优选地，步骤S4中利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子的具体步骤为：

S41，将同一句子的第一句子向量和第二句子向量进行拼接，并经过全连接层映射成句拼接向量，

重复该步骤依次得到同一候选段落中各句子的句拼接向量；

S42，将同一候选段落中各句子的句拼接向量和其所属段落的段落向量表示拼合成向量序列并将该向量序列输入多头感知机模型，得到结构为[CLS],V_S1,V_S2,…,V_Si,[SEP],V_Ph,[SEP],V_C,[SEP],V_q的向量组，其中，V_Si为目标文档中第h个段落的第i个句子的句子向量表示；

S43,计算同一候选段落中各句子包含答案的第一概率；

S44，重复步骤S41-S43，依次计算出所有候选段落中各句子包含答案的第一概率，然后按照句子包含答案的第一概率值的大小，从候选段落的所有句子中筛选出候选句子。

优选地，所述句子包含答案的第一概率的计算公式为：

P_spost＝softmax(V_siW_s+b_s)，其中，V_Si为目标文档中第h个段落的第i个句子的句子向量表示，W_s为第二权重矩阵，b_s为第二偏置。

优选地，步骤S5中利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案的具体步骤为：

S51，将同一字的第一字向量和第二字向量进行拼接，并经过全连接层映射成字拼接向量，

重复该步骤依次得到每个候选句子中各个字的字拼接向量；

S52，根据同一段落内的所有候选句子中各个字的字拼接向量和其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示获取该段落中各个候选句子的句子信息向量；

重复该步骤获取每个候选句子的句子信息向量

S53，根据每个候选句子的句子信息向量分别计算各候选句子包含答案的第二概率、各候选句子中每个字的位置是答案开头的概率、各候选句子中每个字的位置是答案结尾的概率；

S54，依次将候选句子包含答案的第二概率与该句子内某一个字作为开头的概率和该句子内另一个字作为结尾的概率进行乘积得到所有疑似答案的概率，然后按照疑似答案的概率值大小，抽取出前K个疑似答案并按照出现在目标文档中的顺序进行拼合，得到针对于问题的答案。

优选地，所述步骤S52中获取候选句子的句子信息向量的具体步骤为：

将同一段落内的所有候选句子中各个字的字拼接向量与其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示进行拼合，拼合时使用1024的滑窗长度对段落中的字进行滑窗，句子与句子之间使用[SEP]分隔，从而拼合成向量序列并将该向量序列输入多头感知机模型，多头感知机模型输出结构为

[CLS],V_W1,V_W2,…,[SEP],V_W5,V_W6,…,V_Wn,[SEP],V_QW1,V_QW2,…,V_QWl[SEP],V_Ph,[SEP],V_C的向量组，

将多头感知机模型输出的向量组中[CLS]、[SEP]位置处的向量取出作为该段落中各个候选句子的句子信息向量。

优选地，候选句子包含答案的第二概率的计算公式为：

P_post＝softmax(α₁W_post+b_post)，其中α₁为某个候选句子的句子信息向量， W_post为第三权重矩阵，b_post为第三偏置；

候选句子中某个字的位置是否是答案开头的概率的计算公式为：P_s＝softmax(α₂W_S+b_S)，其中α₂为候选句子中所有字的字向量构成的向量组，W_S为第一权重向量，b_S为第四偏置；

候选句子中某个字的位置是否是答案结尾的概率的计算公式为： P_e＝softmax(α₂W_e+b_e)，其中α₂为候选句子中所有字的字向量构成的向量组，W_e为第一权重向量，b_e为第五偏置。

一种存储介质，其存储有计算机指令，该指令被处理器执行时实现所述的基于机器阅读理解的问答方法的步骤。

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现所述的基于机器阅读理解的问答方法。

一种基于机器阅读理解的问答系统，包括：

文档切分模块，用于对目标文档进行切分；

段落筛选模块，用于利用第一问题交互方法和第二问题交互方法分别获取切分后的目标文档中的各段落的第一段落向量组和第二段落向量组、每个段落中各句子的第一句子向量和第二句子向量、每个句子中各个字的第一字向量和第二字向量，并根据得到的各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示，从而筛选出候选段落；

句子筛选模块，用于利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子；

答案预测模块，用于利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案。

本发明的有益效果是：

1、利用单文档内部天然的字到句子、句子到段落、段落到文档层次的结构特征，不会像传统的使用滑窗的方法损失掉文天然的层次信息。

2、本申请对于问题与文档句子的交互采用两种不同的方式：一、先分别将问题的句子中字序列与文档句子中字序列各自经过语言模型(bert模型)获取序列向量组，然后组织段落中的句子向量表示与问题向量表示进行交互后得到段落的向量表示；二，将问题的字序列与文档每一句的句子序列拼接后进行交互，获取段落的向量表示。然后，将这两种通过不同交互方法得到的两种段落向量组进行交互后获取文档的向量表示以及答案出现在段落中的概率值，实际上进行了多层次的文档与问题的信息交互。

3、筛选句子时使用到了之前的段落信息、文档信息，即能够获得更丰富的上下文信息，又能够节省计算资源。

4、在进行句子对问题的回答时，使用到了之前步骤计算得到的段落向量表示、文档向量表示，即能够获得更丰富的上下文信息，又能够节省计算资源。

5、在进行句子对问题的回答时，首先经过了段落筛选、句子筛选，然后对每个筛选后的句子尝试回答问题，并进行排序后直接获取最终答案，这实际上是一种多粒度上的机器阅读流程。

6、在拼接最终答案时，相对于传统方法需要进行启发式规则式的后处理，能够较为简单的拼接多处答案片段以获取最终答案。

7、本申请一定程度上缓解了序列过长无法使用注意力机制模型的缺陷,相对于文档中字的个数、文档中段落的个数、段落中句子的个数，句子中字的个数相对而言更容易满足注意力模型所限制的序列长度需求。

8、能够使用预训练语言模型来获取文档内字序列所对应的序列向量组，充分利用训练预训练语言模型对数据要求不高的特性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明方法的流程图。

图2是段落筛选模块的结构图。

图3是句子筛选模块的结构图。

图4是答案预测模块的结构图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体的实施例并结合附图对本申请做进一步的详细描述。

在本申请的描述中，除非另有明确的规定和限定，术语“第一”、 “第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性；除非另有规定或说明，术语“多个”是指两个或两个以上。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明给出一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备。本方法通过对目标文档及文档中的段落长度、句子长度进行分割，然后从分割后的段落中筛选出候选段落，从候选段落中筛选出候选句子，从候选句子中预测出多处答案并进行拼接来获取问题的答案，通过融合不同粒度上的交互特征，有效地解决了传统的滑窗机制处理方法会损失文档级别上下文之间的层次信息以及文档过长无法使用注意力机制模型的问题。

具体地，本发明的基于机器阅读理解的问答方法，具体包括以下步骤：

S1，切分目标文档。

具体地，判断目标文档内段落个数是否超过设定值，若超过，则以段为单位，将目标文档滑窗切分为多个独立的子文档；若不超过，则不切分；

然后，判断各子文档中的每个段落中的句子个数，以句为单位，将句子个数超过设定值的超长段落滑窗切分为多个独立的子段落；

然后，判断各段落(上一步中经过长度切分得到的段落)中的每个句子的句子长度，以字符为单位，将句子长度超过设定值的超长句子滑窗切分为多个独立的子句子。

本实施例中，将目标文档切分为段落个数不大于512个的多个子文档，即若目标文档的段落个数大于512个，则将目标文档滑窗切分为多个子文档；

然后，判断各个子文档中每个段落所包含的句子个数，将句子个数超过256个的超长段落滑窗切分为多个子段落，经切分后得到的所有的句子个数小于256个的段落作为后续步骤的筛选基础；

然后，将长度大于256的超长句子滑窗切分为多个子句子，经切分后得到的所有的长度小于256的句子作为后续步骤的筛选基础。

S2，利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量，具体包括以下步骤：

S21，a、利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示。

具体实施步骤为：将切分后的目标文档中的每个句子分别组织成结构为[CLS],

为某个句子中第n个字的第一字向量(输入bert模型的[CLS],

向量组中[CLS] 位置处的向量为随机生成的，bert模型对输入的向量组进行一系列处理后，输出对应的语义向量表示，语义向量表示的结构与输入bert 模型的向量组的结构相同)；

将问题组织成结构为[CLS],

的向量组(组织成的该向量组中[CLS]位置处的向量也为随机生成的)并输入bert模型得到其语义向量表示，将问题的语义向量表示中[CLS]位置处的向量作为问题的向量表示V_Q，其中

为问题中第m个字的向量。

具体实施步骤为：将同一段落内所有句子的第一句子向量

与问题的向量表示V_Q组织成结构为[CLS],

[SEP],V_Q的第一语义向量组并将第一语义向量组输入多头感知机模型，将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第一段落向量组

其中，

为某一段落中第i个句子的第一句子向量，V_Q为问题的向量表示，i为正整数。

即第一问题交互方法是先获取句子的第一句子向量和问题的向量表示，再将段落内所有句子的第一句子向量与问题的向量表示进行交互得到段落的第一段落向量组。

b、利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量，具体包括以下步骤：

S23，利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量。

[SEP],V_WQ1,V_WQ2,…,V_WQl的向量组并输入bert 模型得到其各自的语义向量表示，将各句子的语义向量表示中[CLS] 位置处的向量作为其各自的第二句子向量(输入bert模型的 [CLS],

[SEP],V_WQ1,V_WQ2,…,V_WQl向量组中[CLS]位置处的向量为随机生成的，bert模型对输入的向量组进行一系列处理后，输出对应的语义向量表示，语义向量表示的结构与输入bert模型的向量组的结构相同)；

其中[CLS]为标志位，

为某个句子中第n个字的第二字向量，V_WQl为问题中第l个字的向量，n和l均为正整数。

S24，根据同一段落内所有句子的第二句子向量

通过多头感知机模型得到该段落的第二段落向量组

具体实施步骤为：将同一段落内所有句子的第二句子向量组织成结构为[CLS],

[SEP],V_WQ1',V_WQ2',…,V_WQl'的第二语义向量组并将第二语义向量组输入多头感知机模型，将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第二段落向量组

其中，

为某一段落中第i个句子的第二句子向量。

即第二问题交互方法是先使段落中的每个句子与问题进行交互得到其各自的第二句子向量，然后利用段落内各句子的第二句子向量获取得到段落的第二段落向量组。

S3，利用各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示，从而筛选出候选段落，具体包括以下步骤：

S31,将同一段落的第一段落向量组和第二段落向量组拼接，并计算得到其中间段落向量。

具体实施步骤为：将同一段落的第一段落向量组

和第二段落向量组

拼接成向量组V_P”，通过公式V_P'＝V_P”W+b计算某一段落的中间段落向量V_P'，W为全连接矩阵，b为偏置，

S32,将目标文档中各段落的中间段落向量组织成向量组并将该向量组输入多头感知机模型，多头感知机模型输出结构为 [CLS],V_P1,V_P2,…,V_Ph的向量组并将该向量组中[CLS]位置处的向量作为该文档的文档向量表示V_C，其中，

V_Ph为目标文档中第h 个段落的段落向量表示。

S33,计算出各段落包含答案的概率。

段落包含答案的概率的计算公式为：P_ppost＝softmax(V_PhW_p+b_p)，其中V_Ph为目标文档中第h个段落的段落向量表示，

W_p为第一权重矩阵，

b_p为第一偏置，

S4，利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子，具体包括以下步骤：

S41，将同一句子的第一句子向量

和第二句子向量

进行拼接，拼接成向量V_Si'，

将向量V_Si'经过全连接层映射成句拼接向量，

重复该步骤依次得到同一候选段落中各句子的句拼接向量；

S42，将同一候选段落中各句子的句拼接向量和其所属段落的段落向量表示拼合成向量序列并将该向量序列输入多头感知机模型，得到结构为[CLS],V_S1,V_S2,…,V_Si,[SEP],V_Ph,[SEP],V_C,[SEP],V_q的向量组，其中，V_Si为目标文档中第h个段落的第i个句子的句子向量表示，V_Ph为目标文档中第h个段落的段落向量表示。

S43,计算同一候选段落中各句子包含答案的第一概率。

句子包含答案的第一概率的计算公式为：P_spost＝softmax(V_siW_s+b_s)，其中，V_Si为目标文档中第h个段落的第i个句子的句子向量表示，

W_s为第二权重矩阵，

b_s为第二偏置，

S5，利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案，具体包括以下步骤：

重复该步骤依次得到每个候选句子中各个字的字拼接向量。

S52，根据同一段落内的所有候选句子中各个字的字拼接向量和其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示获取该段落中各个候选句子的句子信息向量。

具体实施步骤为：将同一段落内的所有候选句子中各个字的字拼接向量与其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示进行拼合，拼合时使用1024的滑窗长度对段落中的字进行滑窗，句子与句子之间使用[SEP]分隔，从而拼合成向量序列并将该向量序列输入多头感知机模型，多头感知机模型输出结构为 [CLS],V_W1,V_W2,…,[SEP],V_W5,V_W6,…,V_Wn,[SEP],V_QW1,V_QW2,…,V_QWl[SEP],V_Ph,[SEP],V_C的向量组；

将多头感知机模型输出的向量组中[CLS]、[SEP]位置处的代表句子信息的向量取出作为该段落中各个候选句子的句子信息向量。

重复本步骤获取每个候选句子的句子信息向量。

S53，根据每个候选句子的句子信息向量分别计算各候选句子包含答案的第二概率、各候选句子中每个字的位置是答案开头的概率、各候选句子中每个字的位置是答案结尾的概率。

第二概率用于对筛选出的候选句子包含答案的概率进行再次评估。

候选句子包含答案的第二概率的计算公式为：

P_post＝softmax(α₁W_post+b_post)，其中α₁为某个候选句子的句子信息向量；

W_post为第三权重矩阵，

b_post为第三偏置，

将α依次替换为各个候选句子的句子信息向量，即可分别求出各候选句子包含答案的第二概率。

候选句子中某个字的位置是否是答案开头的概率的计算公式为： P_s＝softmax(α₂W_S+b_S)，其中α₂为候选句子中所有字的字向量构成的向量组，W_S为第一权重向量，

b_S为第四偏置，

候选句子中某个字的位置是否是答案结尾的概率的计算公式为： P_e＝softmax(α₂W_e+b_e)，其中α₂为候选句子中所有字的字向量构成的向量组，W_e为第一权重向量，

b_e为第五偏置，

假设经过上述S1、S2、S3、S4四个步骤共筛选出5个句子，分别为句子a、句子b、句子c，每个句子中均包含有5个字，其中句子a 和句子b同属于段落A，句子c同属于段落B。

按照步骤S51和S52，根据段落A中句子a和句子b中各个字的字拼接向量与段落A的段落向量表示、所属文档的文档向量表示以及

然后，分别计算句子a、句子b和句子c包含答案的第二概率、以及这三个句子中每个字的位置是答案开头的概率、各候选句子中每个字的位置是答案结尾的概率。

然后，依次计算句子a包含答案的第二概率与其第一个字作为开头的概率P_s和第二个字作为结尾的概率P_e的乘积、句子a包含答案的第二概率与其第一个字作为开头的概率P_s和第三个字作为结尾的概率P_e的乘积、句子a包含答案的第二概率与其第二个字作为开头的概率P_s和第四个字作为结尾的概率P_e的乘积…等，句子b和句子c也依次做此计算，将计算得到的所有概率值从大到小进行排序，抽取排名前5的疑似答案并按照这5个答案在原文中出现的顺序进行拼合，从而得到针对于问题的答案。

下面通过举例具体说明本发明的基于机器阅读理解的问答方法。

以某文档为例，文档内容如下所示：

不久前某国国防部在其网站上开辟了一个专栏，通过大量图片全景式地介绍其在某岛上的“XX”军事基地，这是某军首次公开介绍其在某地的军事基地。某地战略位置险要，在此部署军事基地威慑意味不言而喻。

近年来，某国面临以X国为首的西方从东欧、中东、东北亚三个方向施加的战略挤压。为打破这种局面，某国充分发挥其作为某地国家的优势，利用长久以来经略某地积累下的军事、技术经验，进一步加大对某地的投入和开发，在三面被围的情况下选择转身一击，化解军事、政治、经济上面临的潜在危机。这形似“XX”的小小基地，暗藏着某国布局北极、寻机突围、谋求复兴的大国雄心。

一,打破西方围堵，挥师北上.严峻的形势迫使某国必须寻找战略突破口，位置特殊的某地就成为了一个重要方向。

二,开发某地航线，连接东西.全球变暖使某地冰雪逐步融化，这让大西洋和太平洋间可能出现以某地地区为中转地的新航线。对某国来说，海冰趋于减少、通航环境持续改善的某地航线为其提供了新的出海口，并使其东西部在海上连通成为可能。某地航线是联系XX 两地最短的海上路线，是连接太平洋和大西洋之间的海上捷径，西起摩尔曼斯克，依次经巴伦支海、喀拉海、拉普捷夫海、东西伯利亚海、楚科奇海、白令海到海参崴。

三,助力经济发展，获取资源.某地自然资源丰富，据某国自然资源和环境部估算，某国某地大陆架的能源储备量相当于830亿吨石油，其液态烃的资源储量占某国全储量的5％以上，石油储量占某国全储量的12.5％。能源收入在某国财政收入中所占比重极大，而由于连年开采，某国境内传统的油田、气田或多或少都面临着减产的困境。西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源经济的依赖性更强，某地丰富的能源储备给某国提供了新的经济增长点，近年来愈发受到某国的重视。某国石油公司宣布建立某地大陆架勘探和科学研究中心，某国政府也宣布在某地建设大型港口，某国政府主席团审议的“XXXX年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘探和开发，标志着某国某地资源开发进入加速实施阶段。

问题设定为“某国为什么要公开某地军事基地？”。

在执行发明的基于机器阅读理解的问答方法时，首先，根据本方法设定的切分规则对上述文档进行切分。

例如将段落“三,助力经济发展，获取资源.某地自然资源丰富，据某国自然资源和环境部估算，某国某地大陆架的能源储备量相当于 830亿吨石油，其液态烃的资源储量占某国全储量的5％以上，石油储量占某国全储量的12.5％。能源收入在某国财政收入中所占比重极大，而由于连年开采，某国境内传统的油田、气田或多或少都面临着减产的困境。西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源经济的依赖性更强，北极丰富的能源储备给某国提供了新的经济增长点，近年来愈发受到某政府的重视。某国石油公司宣布建立某地大陆架勘探和科学研究中心，某国政府也宣布在某地建设大型港口，某国政府主席团审议的“XXXX年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘探和开发，标志着某国某地资源开发进入加速实施阶段。”切分为如下句子：

1、三,助力经济发展，获取资源。

2、某地自然资源丰富，据某国自然资源和环境部估算，某国某地大陆架的能源储备量相当于830亿吨石油，其液态烃的资源储量占某国全储量的5％以上，石油储量占某国全储量的12.5％。

3、能源收入在某国财政收入中所占比重极大，而由于连年开采，某国境内传统的油田、气田或多或少都面临着减产的困境。

4、西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源经济的依赖性更强，北极丰富的能源储备给某国提供了新的经济增长点，近年来愈发受到某政府的重视。

5、某国石油公司宣布建立某地大陆架勘探和科学研究中心，某国政府也宣布在某地建设大型港口，某国政府主席团审议的“XXXX年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘探和开发，标志着某国某地资源开发进入加速实施阶段。

将这5个句子记录成来自文档的第五段。文档其他段落依次进行上述分割。

然后，分别通过第一问题交互方法和第二问题交互方法依次获取各段落的第一段落向量组和第二段落向量组、每个段落中各句子的第一句子向量和第二句子向量、每个句子中各个字的第一字向量和第二字向量。

以文档第五段为例：

利用第一问题交互方法，将文档第五段的五个句子依次组织成以下第一句子向量：

【CLS】助力经济发展，获取资源；

【CLS】某地自然资源丰富，据某国自然资源和环境部估算，某国某地大陆架的能源储备量相当于830亿吨石油，其液态烃的资源储量占某国全储量的5％以上，石油储量占某国全储量的12.5％；

【CLS】能源收入在某国财政收入中所占比重极大，而由于连年开采，某国境内传统的油田、气田或多或少都面临着减产的困境；

【CLS】西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源经济的依赖性更强，北极丰富的能源储备给某国提供了新的经济增长点，近年来愈发受到某政府的重视；

【CLS】某国石油公司宣布建立某地大陆架勘探和科学研究中心，某国政府也宣布在某地建设大型港口，某国政府主席团审议的“XXXX 年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘探和开发，标志着某国某地资源开发进入加速实施阶段。

将问题组织成向量：【CLS】某国为什么要公开某地军事基地。

将上述五个句子的向量与问题的向量组成向量组并输入多头感知机模型，多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第一段落向量组

利用第一问题交互方法，将文档第五段的五个句子分别与问题进行交互，得到各个句子的第二句子向量，如下所示：

【CLS】助力经济发展，获取资源【SEP】某国为什么要公开某地军事基地；

【CLS】某地自然资源丰富，据某国自然资源和环境部估算，某国某地大陆架的能源储备量相当于830亿吨石油，其液态烃的资源储量占某国全储量的5％以上，石油储量占某国全储量的12.5％【SEP】某国为什么要公开某地军事基地；

【CLS】能源收入在某国财政收入中所占比重极大，而由于连年开采，某国境内传统的油田、气田或多或少都面临着减产的困境【SEP】某国为什么要公开某地军事基地；

【CLS】西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源经济的依赖性更强，北极丰富的能源储备给某国提供了新的经济增长点，近年来愈发受到某政府的重视【SEP】某国为什么要公开某地军事基地；

【CLS】某国石油公司宣布建立某地大陆架勘探和科学研究中心，某国政府也宣布在某地建设大型港口，某国政府主席团审议的“XXXX 年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘探和开发，标志着某国某地资源开发进入加速实施阶段【SEP】某国为什么要公开某地事基地。

将上述五个句子的第二句子向量组成向量组并输入多头感知机模型，将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第二段落向量组

文档其他段落也如上述步骤依次得到其第一段落向量组

和第二段落向量组

然后，利用各段落的第一段落向量组和第二段落向量组得到其段落向量表示，从而筛选出候选段落，假设筛选出第三段、第四段和第五段，将这三端作为候选段落。

然后，利用第三段、第四段和第五段中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示，得到每个句子包含答案的概率，然后按照概率值的大小，筛选出概率最高的前20个句子作为候选句子。

最后，利用这20个候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案。

本发明的基于机器阅读理解的问答系统，包括文档切分模块、段落筛选模块、句子筛选模块和答案预测模块。

文档切分模块，用于对目标文档进行切分。

段落筛选模块，用于利用第一问题交互方法和第二问题交互方法分别获取切分后的目标文档中的各段落的第一段落向量组和第二段落向量组、每个段落中各句子的第一句子向量和第二句子向量、每个句子中各个字的第一字向量和第二字向量，并根据得到的各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示，从而筛选出候选段落。

句子筛选模块，用于利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于机器阅读理解的问答方法，其特征在于，具体包括以下步骤：

S1，切分目标文档；

2.根据权利要求1所述的基于机器阅读理解的问答方法，其特征在于，所述步骤S1中切分目标文档的具体步骤为：

3.根据权利要求2所述的基于机器阅读理解的问答方法，其特征在于，将目标文档切分为多个子文档时，以段为单位，将目标文档滑窗切分为多个独立的子文档；

4.根据权利要求1所述的基于机器阅读理解的问答方法，其特征在于，所述步骤S2中利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量的具体步骤为：

5.根据权利要求4所述的基于机器阅读理解的问答方法，其特征在于，所述步骤S21中利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示的步骤为：

将切分后的目标文档中的每个句子分别组织成结构为[CLS],

为某个句子中第n个字的第一字向量；

将问题组织成结构为[CLS],

的向量组并输入bert模型得到其语义向量表示，将问题的语义向量表示中[CLS]位置处的向量作为问题的向量表示，其中

为问题中第m个字的向量。

6.根据权利要求5所述的基于机器阅读理解的问答方法，其特征在于，步骤S22中根据同一段落内所有句子的第一句子向量与问题的向量表示，通过多头感知机模型得到该段落的第一段落向量组的具体步骤为：

其中，

7.根据权利要求6所述的基于机器阅读理解的问答方法，其特征在于，步骤S2中利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量的具体步骤为：

8.根据权利要求7所述的基于机器阅读理解的问答方法，其特征在于，所述步骤S23中利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量的具体步骤为：

将切分后的目标文档中的每个句子分别组织成结构为[CLS],

其中[CLS]为标志位，

9.根据权利要求8所述的基于机器阅读理解的问答方法，其特征在于，步骤S24中根据同一段落内所有句子的第二句子向量，通过多头感知机模型得到该段落的第二段落向量组的具体步骤为：

将同一段落内所有句子的第二句子向量组织成结构为[CLS],

其中，

为某一段落中第i个句子的第二句子向量。

10.根据权利要求9所述的基于机器阅读理解的问答方法，其特征在于，步骤S3中利用各段落的第一段落向量组和第二段落向量组得到其段落向量表示，从而筛选出候选段落的具体步骤为：

S32,将目标文档中各段落的中间段落向量组织成向量组并将该向量组输入多头感知机模型，多头感知机模型输出结构为[CLS],V_P1,V_P2,…,V_Ph的向量组并将该向量组中[CLS]位置处的向量作为该文档的文档向量表示V_C，其中，V_Ph为目标文档中第h个段落的段落向量表示；

S33,计算出各段落包含答案的概率；

11.根据权利要求10所述的基于机器阅读理解的问答方法，其特征在于，所述步骤S31中将同一段落的第一段落向量组和第二段落向量组拼接，并计算得到其中间段落向量的具体步骤为：

将同一段落的第一段落向量组

和第二段落向量组

12.根据权利要求10所述的基于机器阅读理解的问答方法，其特征在于，段落包含答案的概率的计算公式为：P_ppost＝softmax(V_PhW_p+b_p)，其中V_Ph为目标文档中第h个段落的段落向量表示，W_p为第一权重矩阵，b_p为第一偏置。

13.根据权利要求10所述的基于机器阅读理解的问答方法，其特征在于，步骤S4中利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子的具体步骤为：

重复该步骤依次得到同一候选段落中各句子的句拼接向量；

S43,计算同一候选段落中各句子包含答案的第一概率；

14.根据权利要求13所述的基于机器阅读理解的问答方法，其特征在于，所述句子包含答案的第一概率的计算公式为：P_spost＝softmax(V_siW_s+b_s)，其中，V_Si为目标文档中第h个段落的第i个句子的句子向量表示，W_s为第二权重矩阵，b_s为第二偏置。

15.根据权利要求14所述的基于机器阅读理解的问答方法，其特征在于，步骤S5中利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案的具体步骤为：

重复该步骤依次得到每个候选句子中各个字的字拼接向量；

重复该步骤获取每个候选句子的句子信息向量

16.根据权利要求15所述的基于机器阅读理解的问答方法，其特征在于，所述步骤S52中获取候选句子的句子信息向量的具体步骤为：

将同一段落内的所有候选句子中各个字的字拼接向量与其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示进行拼合，拼合时使用1024的滑窗长度对段落中的字进行滑窗，句子与句子之间使用[SEP]分隔，从而拼合成向量序列并将该向量序列输入多头感知机模型，多头感知机模型输出结构为[CLS],V_W1,V_W2,…,[SEP],V_W5,V_W6,…,V_Wn,[SEP],V_QW1,V_QW2,…,V_QWl[SEP],V_Ph,[SEP],V_C的向量组，

17.根据权利要求15所述的基于机器阅读理解的问答方法，其特征在于，

候选句子包含答案的第二概率的计算公式为：P_post＝softmax(α₁W_post+b_post)，其中α₁为某个候选句子的句子信息向量，W_post为第三权重矩阵，b_post为第三偏置；

候选句子中某个字的位置是否是答案结尾的概率的计算公式为：P_e＝softmax(α₂W_e+b_e)，其中α₂为候选句子中所有字的字向量构成的向量组，W_e为第一权重向量，b_e为第五偏置。

18.一种存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至17中任一项所述的基于机器阅读理解的问答方法的步骤。

19.一种计算机设备，其特征在于，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至17中任一项所述的基于机器阅读理解的问答方法。

20.一种基于机器阅读理解的问答系统，其特征在于，包括：

文档切分模块，用于对目标文档进行切分；