CN111046661A

CN111046661A - 基于图卷积网络的阅读理解方法

Info

Publication number: CN111046661A
Application number: CN201911290660.7A
Authority: CN
Inventors: 鲁伟明; 汤泽云; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-21
Anticipated expiration: 2039-12-13
Also published as: CN111046661B

Abstract

本发明公开了一种基于图卷积神经网络的阅读理解方法：该方法主要针对多篇文档中寻找答案的阅读理解场景，首先用预训练好的词向量初始化问句和文档的表示；利用双向的长短期记忆网络(LSTM)获取问句和文档的语义表示；然后构建图网络来表示每个样本，利用图卷积网络学习文档的表示；接着将图卷积网络学习的向量表示和长短期记忆网络获得的向量表示融合形成文档最终的向量表示；利用候选答案抽取，文档选择，候选答案验证3个任务一起作用抽取问题的最终答案。本发明提出了一个解决多文档的阅读理解任务的方法，能够考虑多篇文档之间的交互性，可以有效的提高多文档阅读理解任务的效果，对阅读理解，智能问答的发展具有较大的意义。

Description

基于图卷积网络的阅读理解方法

技术领域

本发明涉及基于图卷积网络的阅读理解方法，特别是涉及一种自动化图卷积网络的抽取式阅读理解，用多任务和答案验证的方式解决多篇文档的难题。

背景技术

阅读理解任务是指让机器像人一样，能够阅读文档，理解文档的意思，往往用关于文档的相关问题来验证机器理解文档的能力。阅读理解作为自然语言处理的一个重要任务，在最近几年成为学术和工业界的热点。在智能客服，自动问答系统有广泛的应用，能大大降低人工的劳动力，提高公司的效率。随着大数据，人工智能时代的到来，设计一个能够自动理解文档的阅读理解系统是非常有意义的，可以极大的促进人工智能的发展。

最近几年，自然语言处理得到了很大的发展，阅读理解任务作为自然语言处理的重要问题，吸引了广大研究学者的参与，提出了很多的用于研究的数据集。从数据集的任务上来说，阅读理解可以分为两个阶段。最早提出的SQUAD和CNN/Daily mail等数据集，提供了大量监督数据。这些数据集一般只包含一个问题，一篇文档，从提供的一篇文档中寻找答案。在此之上研究出了BIDAF，SAN等优秀的阅读理解模型。然而这样的数据集，仅提供了包含答案的一篇文档，并且只需要匹配文档中的某一个片段即可，与现实中的场景还有不小的差距，现实中的场景往往需要从多篇文档中去寻找答案。在这之后，有学者提出了TriviaQA，NarrativeQA和MSMARCO等数据集，这些数据集对每个问题，提供了多篇文档作为证据，模型需要从多篇文档中寻找答案，并添加了推理功能。在这些数据集之上，提出了VNET等高性能模型。

本发明设计并实现了一个基于图卷积网络的阅读理解方法。该方法利用目前最新的图卷积网络(GCN)来挖掘文档间的关联信息，并且利用多任务学习和答案验证的方法提高了模型的效果。

发明内容

本发明为了解决现实中从多篇文档中寻找答案，自动回答问题的场景，提出了一种基于图卷积网络的阅读理解方法，能够有效回答多篇文档的阅读理解问题。

本发明解决其技术问题采用的技术方案如下：一种基于图卷积网络的阅读理解方法，包括以下步骤：

1)词向量初始化：对于每个问题和对应的多篇文档，首先对问题和文档进行分词；用预训练好的词向量初始化分词后的问题和文档，得到问题和文档中每个词的词向量；

2)基于注意力机制的文档和问题的向量表示：对于步骤1)初始化完成的文档和问题，首先利用双向长短期记忆网络(LSTM)对文档和问题进行进一步编码，得到包含上下文信息的向量表示；然后根据双向注意力机制，获得经过注意力交互后的问题和文档的向量表示；

3)基于图卷积网络的文档交互表示：对于每个问题和对应的多篇文档，构建一个图网络表示问题和其对应的多篇文档，图网络中的节点表示一个词，每个词用步骤2)中得到的文档向量表示。因为图卷积网络表示的是整个样本的信息，将所有文档表示在一个图里，所以用图卷积网络获得向量是经过了文档之间的交互，包含了更加丰富的语义信息。构建图网络的具体过程主要分为两个步骤，第一是节点的抽取：对于问题中的每个词，首先找到文档中对应的词作为中心词，并按照一定大小的滑动窗口找到中心词周围的词，选取这些词作为图的节点；第二是图中节点边的定义，主要定义两种边的关系：第一种，在文档中，根据问题找到的词，这些词对应的节点两两相连，每两个节点连成一条边；第二种，在文档中，根据问题找到的词，以这个词为中心词，将中心词周围的词两两相连，每两个词对应的节点连成一条边。构建完图网络之后，用图卷积网络(GCN)更新图中每个节点的向量表示；

4)基于图卷积网络和双向长短期记忆网络联合表示：用步骤3)中获得的节点向量与步骤2)中获得的文档向量进行拼接得到联合向量。然后在联合向量上利用注意力机制，得到文档最终的向量表示。该处注意力机制的目的有两个，一个是为了更好的融合图卷积网络和长短期记忆网络的向量表示，把两个向量融合在同一个向量空间中；二是因为图卷积网络的更新过程并没有考虑到问题的信息，注意力机制可以将问题的信息融入进来；

5)基于多任务的答案选择：首先将步骤4)得到的文档向量，进行自注意力机制之后，输入到一个全连接网络中，输出一个文档选择分数，用于表示问题的正确答案出现在这篇文档中的概率。然后对每一篇文档，将步骤4)得到的文档向量输入到指针网络中，输出为两个指针，以两个指针之间的片段作为候选答案，以两个指针的分数之和作为该候选答案的文档抽取分数。

6)基于图卷积网络的答案交互验证：参考人做阅读理解的方式，往往会先选定多个候选答案，然后在多个答案间反复思考选择最正确的一个。本方法用图卷积网络(GCN)来模拟候选答案之间比较，选择的过程。将问题和步骤5)得到的多个候选答案文本根据步骤1)-3)得到用图卷积网络(GCN)更新后的候选答案的向量表示；用步骤3)中获得的候选答案向量与步骤2)中获得的候选答案向量进行拼接得到候选答案的联合向量，再对候选答案的联合向量之间进行自注意力机制，最后得到每个候选答案的最终向量表示，然后输入到全连接网络中，输出为每个候选答案的答案验证分数。

7)将步骤5)得到的文档选择分数和文档抽取分数与步骤6)得到的答案验证分数相加，做为每个候选答案的最终分数，选择最终分数最高的候选答案作为问题的答案。

进一步地，所述的步骤1)中，对问题和文档分词具体为：

a)将标点统一化，有中文标点的改成英文标点；

b)大小写统一，将所有单词都小写化；

c)利用空格和标点对文档和问题进行分词。

进一步地，所述的步骤2)中，用双向LSTM编码的过程具体为：利用LSTM，正向编码问题和文章，再反向编码问题和文章，然后将正向的向量和反向的向量拼接形成最终的双向LSTM编码。LSTM的公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中x_t是当前t时刻的输入，C_t-1和h_t-1是t-1时刻的细胞状态和隐层向量，σ和tanh分别是sigmoid函数和tanh函数，f_t、i_t、o_t是遗忘门,输入门和输出门，

是对当前t时刻输入信息的编码，C_t是经过当前时刻细胞状态，由上一时刻的细胞状态乘以遗忘门和当前信息乘以输入门得到，h_t是t时刻的隐层向量，由细胞状态和输出门计算得到。

进一步地，所述步骤2)中，双向注意力机制具体为：首先计算文档中的每个词和问题中的每个词的相似度，经过softmax归一化后，加权计算文档和问题的每个词的向量，将执行注意力机制之后和之前的向量拼接，从而获得经过注意力交互后的问题和文档的向量表示；

进一步地，所述步骤3)中，用图卷积网络(GCN)更新图中每个节点的向量表示的公式具体如下所示：

其中A表示的图网络的邻接矩阵，D表示的图的度矩阵，H^l表示的图中第l层的节点向量表示，θ表示的是参数向量，σ为sigmoid激活函数。当前节点使用邻接节更新，度矩阵用于做归一化；

进一步地，所述步骤4)中，注意力机制的具体公式如下所示：

r_i＝concat([v_i；p_i])

其中p_i为文档中第i个词的拼接后的联合向量表示，_j为问题中第j个词的向量表示，

是文档第i个词和问题第j个词的相似度，

是经过softmax归一化之后文档第i个词和问题第j个词的相似度，v_i是经过注意力机制后的文档第i个词的向量表示，n为问题中词的个数，然后将v_i和p_i拼接，形成文档最终的向量表示r_i；

进一步地，所述的步骤4)中，拼接得到联合向量的过程中，对于不在图网络中的词，用初始化为0的向量代替，然后通过全连接网络使向量的维度保持不变。

进一步地，所述的步骤5)中，指针网络的具体公式为：

h_t＝LSTM(h_t-1,c_t)

其中

表示文章中第k个词的注意力权重，t表示第t次的抽取。

表示第i篇文章第k个词的向量表示，h_t-1表示LSTM上一时刻的隐层状态。

表示输入序列第k个词被抽取到的概括。c_t表示LSTM下一时刻的输入，是

的加权和。根据

和

两个指针的值确定答案片段的起始点和结尾点。

进一步地，所述的步骤6)中，图卷积网络做答案间的交互验证，该图卷积网络和步骤3)中的图卷积网络不共享参数，需要单独训练。

本发明方法与现有技术相比具有的有益效果：

1.该方法提出了一种基于图卷积网络的阅读理解模型，该模型利用图卷积网络来对多篇文档间进行交互，通过多任务学习和GCN答案验证的方式，提高了在多篇文档中的阅读理解任务的效果，对现实中的搜索，自动问答具有极大的应用意义；

2.该方法在模式学习基础上，综合考虑了语义相似度、图卷积网络交互、多任务学习、图卷积网络答案验证等方法，有效提高了抽取效果。

附图说明

图1是本发明的步骤流程图；

图2是本发明的编码和多任务学习的模型图；

图3是本发明用图卷积网络做答案验证的模型图；

图4是本发明的一个实验结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供的一种基于图卷积网络的阅读理解方法，包括以下步骤：

1)词向量初始化：对于每个问题和对应的多篇文档，首先对问题和文档进行分词；用预训练好的词向量初始化分词后的问题和文档，得到问题和文档中每个词的词向量；对问题和文档分词具体为：

a)将标点统一化，有中文标点的改成英文标点；

b)大小写统一，将所有单词都小写化；

c)利用空格和标点对文档和问题进行分词。

2)基于注意力机制的文档和问题的向量表示：对于步骤1)初始化完成的文档和问题，首先利用双向长短期记忆网络(LSTM)对文档和问题进行进一步编码，得到包含上下文信息的向量表示具体为：利用LSTM，正向编码问题和文章，再反向编码问题和文章，然后将正向的向量和反向的向量拼接形成最终的双向LSTM编码。LSTM的公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

是对当前t时刻输入信息的编码，C_t是经过当前时刻细胞状态，由上一时刻的细胞状态乘以遗忘门和当前信息乘以输入门得到，h_t是t时刻的隐层向量，由细胞状态和输出门计算得到；

然后根据双向注意力机制，获得经过注意力交互后的问题和文档的向量表示；具体为：首先计算文档中的每个词和问题中的每个词的相似度，经过softmax归一化后，加权计算文档和问题的每个词的向量，将执行注意力机制之后和之前的向量拼接，从而获得经过注意力交互后的问题和文档的向量表示。

3)基于图卷积网络的文档交互表示：对于每个问题和对应的多篇文档，构建一个图网络表示问题和其对应的多篇文档，图网络中的节点表示一个词，每个词用步骤2)中得到的文档向量表示。因为图卷积网络表示的是整个样本的信息，将所有文档表示在一个图里，所以用图卷积网络获得向量是经过了文档之间的交互，包含了更加丰富的语义信息。构建图网络的具体过程主要分为两个步骤，第一是节点的抽取：对于问题中的每个词，首先找到文档中对应的词作为中心词，并按照一定大小的滑动窗口找到中心词周围的词，选取这些词作为图的节点；第二是图中节点边的定义，主要定义两种边的关系：第一种，在文档中，根据问题找到的词，这些词对应的节点两两相连，每两个节点连成一条边；第二种，在文档中，根据问题找到的词，以这个词为中心词，将中心词周围的词两两相连，每两个词对应的节点连成一条边。构建完图网络之后，用图卷积网络(GCN)更新图中每个节点的向量表示；公式具体如下所示：

其中A表示的图网络的邻接矩阵，D表示的图的度矩阵，H^l表示的图中第l层的节点向量表示，θ表示的是参数向量，σ为sigmoid激活函数。当前节点使用邻接节更新，度矩阵用于做归一化。

4)基于图卷积网络和双向长短期记忆网络联合表示：用步骤3)中获得的节点向量与步骤2)中获得的文档向量进行拼接得到联合向量，对于不在图网络中的词，用初始化为0的向量代替，然后通过全连接网络使向量的维度保持不变。然后在联合向量上利用注意力机制，得到文档最终的向量表示。该处注意力机制的目的有两个，一个是为了更好的融合图卷积网络和长短期记忆网络的向量表示，把两个向量融合在同一个向量空间中；二是因为图卷积网络的更新过程并没有考虑到问题的信息，注意力机制可以将问题的信息融入进来；注意力机制的具体公式如下所示：

r_i＝concat([v_i；p_i])

是文档第i个词和问题第j个词的相似度，

是经过softmax归一化之后文档第i个词和问题第j个词的相似度，v_i是经过注意力机制后的文档第i个词的向量表示，n为问题中词的个数，然后将v_i和p_i拼接，形成文档最终的向量表示r_i。

5)基于多任务的答案选择：首先将步骤4)得到的文档向量，进行自注意力机制之后，输入到一个全连接网络中，输出一个文档选择分数，用于表示问题的正确答案出现在这篇文档中的概率。然后对每一篇文档，将步骤4)得到的文档向量输入到指针网络中，输出为两个指针，指针网络的具体公式为：

h_t＝LSTM(h_t-1,c_t)

其中

表示文章中第k个词的注意力权重，t表示第t次的抽取，本发明中，t最大为2。

的加权和。根据

和

两个指针的值确定答案片段的起始点和结尾点。

以两个指针之间的片段作为候选答案，以两个指针的分数之和作为该候选答案的文档抽取分数。

6)基于图卷积网络的答案交互验证：参考人做阅读理解的方式，往往会先选定多个候选答案，然后在多个答案间反复思考选择最正确的一个。本方法用图卷积网络(GCN)来模拟候选答案之间比较，选择的过程。将问题和步骤5)得到的多个候选答案文本根据步骤1)-3)得到用图卷积网络(GCN)更新后的候选答案的向量表示，包含多个候选答案的图卷积网络和步骤3)中包含文档的图卷积网络不共享参数，需要单独训练；用步骤3)中获得的候选答案向量与步骤2)中获得的候选答案向量进行拼接得到候选答案的联合向量，再对候选答案的联合向量之间进行自注意力机制，最后得到每个候选答案的最终向量表示，然后输入到全连接网络中，输出为每个候选答案的答案验证分数。图卷积网络做答案间的交互验证，该图卷积网络和步骤3)中的图卷积网络不共享参数，需要单独训练。

实施例

下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

(1)如图1所示，图中的Q表示问题的输入，P1，P2，P3分别表示3篇不同的文档输入，实际情况下会有更多文档。Q和P先经过分词，然后利用预训练好的glove词向量初始化Q和P的向量，作为模型的输入，向量维度都为300维。其中，对于单词少于500的文档，用0向量补充；

(2)如图1所示，图中的LSTM+Attention编码部分就是长短期记忆网络和注意力机制，首先把输入进来的词向量表示经过双向长短期记忆网络，维度为150，双向长短期记忆网络的输出拼接后维度不变。然后对于每篇文档的表示，分别和问题的向量执行一次注意力机制，用问题的向量表示文档，并且把两个向量拼接，作为文档的表示；

(3)如图1所示，图中的图卷积网络交互部分，根据文档和问题构建出图网络来表示文档，节点的初始化由第二部分的LSTM+Attention获得，然后在图上面跑图卷积的过程，文档的每个词的向量表示为图网络节点向量和原有的向量拼接。默认图的节点数不大于500，图卷积的层数为2。

(4)如图1所示，图卷积网络和长短期记忆网络联合表示主要是将长短期记忆网络得到的向量和图卷积网络得到的向量拼接，对于没有在图网络中出现的词，用0向量表示；

(5)如图1所示，多任务学习主要是用两个不同的损失函数来联合学习模型，下层的编码部分基本一致。主要有两个任务，一个是文档的排序任务，根据文档的表示，每篇文档都会输出一个分数，表示文档含有答案的概率。另外一个任务是，每篇文档都会抽取一个片段作为这篇文档的候选答案，每个候选答案也会对应一个分数；

(6)如图2所示，图卷积网络进行答案验证的过程是通过多个答案之间的交互，重新学习答案的表示，然后在每个答案做个选择。

本实例的运行结果在附图3展示。图1为多任务学习的模型图，图2为GCN答案验证的模型图，整个流程由这两个部分组成。最终的实验结果，在微软的MS-MARCO数据集上测试，采用Rouge-L作为评估的标准，以该数据集官方提供的BiDaF Baseline模型作为baseline，在增加了上述方法之后，模型从27.6％提升到34.8％，提升7.2个百分点。实验证明，该方法对于多篇文档之间的阅读理解任务有很大的提升作用。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于图卷积网络的阅读理解方法，其特征在于，包括以下步骤：

3)基于图卷积网络的文档交互表示：对于每个问题和对应的多篇文档，构建一个图网络表示问题和其对应的多篇文档，图网络中的节点表示一个词，每个词用步骤2)中得到的文档向量表示。构建图网络的具体过程主要分为两个步骤，第一是节点的抽取：对于问题中的每个词，首先找到文档中对应的词作为中心词，并按照一定大小的滑动窗口找到中心词周围的词，选取这些词作为图的节点；第二是图中节点边的定义，主要定义两种边的关系：第一种，在文档中，根据问题找到的词，这些词对应的节点两两相连，每两个节点连成一条边；第二种，在文档中，根据问题找到的词，以这个词为中心词，将中心词周围的词两两相连，每两个词对应的节点连成一条边。构建完图网络之后，用图卷积网络(GCN)更新图中每个节点的向量表示

4)基于图卷积网络和双向长短期记忆网络联合表示：用步骤3)中获得的节点向量与步骤2)中获得的文档向量进行拼接得到联合向量。然后在联合向量上利用注意力机制，得到文档最终的向量表示；

6)基于图卷积网络的答案交互验证：将问题和步骤5)得到的多个候选答案文本根据步骤1)-3)得到用图卷积网络(GCN)更新后的候选答案的向量表示；用步骤3)中获得的候选答案向量与步骤2)中获得的候选答案向量进行拼接得到候选答案的联合向量，再对候选答案的联合向量之间进行自注意力机制，最后得到每个候选答案的最终向量表示，然后输入到全连接网络中，输出为每个候选答案的答案验证分数。

2.根据权利要求1所述的基于图卷积网络的阅读理解方法，其特征在于，所述的步骤1)中，对问题和文档分词具体为：

a)将标点统一化，有中文标点的改成英文标点；

b)大小写统一，将所有单词都小写化；

c)利用空格和标点对文档和问题进行分词。

3.根据权利要求1所述的基于图卷积网络的阅读理解方法，其特征在于，所述步骤2)中，用双向LSTM编码的过程具体为：利用LSTM，正向编码问题和文章，再反向编码问题和文章，然后将正向的向量和反向的向量拼接形成最终的双向LSTM编码。LSTM的公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

x_t是当前t时刻的输入，C_t-1和h_t-1是t-1时刻的细胞状态和隐层向量，σ和tanh分别是sigmoid函数和tanh函数，f_t、i_t、o_t是遗忘门,输入门和输出门，

是对当前t时刻输入信息的编码，C_t是经过当前时刻细胞状态，由上一时刻的细胞状态乘以遗忘门和当前信息乘以输入门得到，h_t是t时刻的隐层向量，由细胞状态和输出门计算得到，w_f，w_c，w_o，b_f，b_c，b_o分别表示3个门控机制的训练参数。

4.根据权利要求1所述的基于图卷积网络的阅读理解方法，其特征在于，所述步骤2)中，双向注意力机制具体为：首先计算文档中的每个词和问题中的每个词的相似度，经过softmax归一化后，加权计算文档和问题的每个词的向量，将执行注意力机制之后和之前的向量拼接，从而获得经过注意力交互后的问题和文档的向量表示。

5.根据权利要求1所述的基于图卷积网络的阅读理解方法，其特征在于，所述步骤3)中，用图卷积网络(GCN)更新图中每个节点的向量表示的公式具体如下所示：