CN110457710B

CN110457710B - 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端

Info

Publication number: CN110457710B
Application number: CN201910765132.6A
Authority: CN
Inventors: 李晓瑜; 段艺文; 胡孙强; 黄海滔; 洪磊; 郑德生
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-08-02
Anticipated expiration: 2039-08-19
Also published as: CN110457710A

Abstract

本发明公开了一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端，它包括：基础编码层：用于完成对输入文本段落和问题序列的交互匹配式编码，并最终以向量序列的形式输出对输入信息的编码；路由解码层：用于接收来自所述基础编码层的向量序列，经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出；输出层：将所述动态路由层输出的高级语义特征向量经过处理得到答案并输出；通过将动态路由机制引入到机器阅读理解的深度神经网络模型中，有效提高了模型对自然语言的理解和推理能力。

Description

一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端

技术领域

本发明涉及语言处理技术领域，尤其涉及一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端。

背景技术

一般来说，人们在读完一篇文章之后就会在脑海里形成一定的印象，例如这篇文章讲的是什么人，做了什么事情，出现了什么，发生在哪里等等。人们能够很轻而易举地归纳出文章中的重点内容。机器阅读理解的研究就是赋予计算机与人类同等的阅读能力，即让计算机阅读一篇文章，随后让计算机解答与文中信息相关的问题。这种对人类而言轻而易举的能力，对计算机来说却并非如此。

现目前对于自然语言处理的研究都是基于句子级别的阅读理解，例如给计算机一句话，理解句子中的主谓宾语、定状补语，谁做了什么事情等等。但是对于长文本中问题的阅读和理解一直是研究的一个难点，因为这涉及到句子和上下文之间的连贯性以及逻辑推理等更高维的研究内容，使得目前对这一块的研究还很空缺。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端，填补了目前涉及到句子和上下文之间连贯性以及逻辑推理等更高维研究内容的空缺。

本发明的目的是通过以下技术方案来实现的：一种基于动态路由机制的机器阅读理解网络模型的建立方法，它包括：

基础编码层：用于完成对输入文本段落和问题序列的交互匹配式编码，并最终以向量序列的形式输出对输入信息的编码；

路由解码层：用于接收来自所述基础编码层的向量序列，经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出；

输出层：将所述动态路由层输出的高级语义特征向量经过处理得到答案并输出。

所述路由解码层包括由多个动态路由层以级联的方式堆叠而成，每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成。

所述胶囊网络层接收来自所述基础编码层的向量序列，并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量；所述双向LSTM层在阅读理解所述高级语义特征向量的基础上对所述高级语义特征向量进行适应性的轻微重编码。

一种基于动态路由机制的机器阅读理解方法，所述方法包括以下内容：

路由解码层中最底层的胶囊网络层接收来自基础编码层的向量序列，并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量；

双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码；

重复步骤二和步骤三直到所有高级语义特征向量被映射提取以及轻微重编码后输入到输出层。

还包括输入文本段落和问题序列到基础编码层进行交互匹配式编码并输出编码后的向量序列到所述胶囊网络层的步骤。

还包括输出层对路由解码层的输出经过处理后输出答案的起始位置和结束位置的步骤。

所述胶囊网络层将携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量的具体步骤如下：

将经过编码后的向量u_i进行仿射变换，得到仿射变换后的结果

对

进行r次迭代并计算每次迭代过程中表示上一层胶囊层的第i个输入与下一层胶囊层的第j个输出之间连接的耦合系数c_ij；

计算中间变量S_j，通过压缩函数squash()得到压缩后的输出v_j。

所述双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码的具体步骤如下：

通过前向LSTM层获取上文的高级语义特征向量；

通过后向LSTM层获取下文的高级语义特征向量；

将前向和后向的高级语义特征向量进行拼接得到重编码后的向量。

一种存储介质，其内部存储有计算机程序指令，所述计算机程序指令运行时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。

一种终端，包括存储器和处理器，所述存储器上存储有可以在所述处理器上运行的计算机程序指令，所述处理器运行所述计算机程序指令时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。

本发明的有益效果是：一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端，通过将动态路由机制引入到机器阅读理解的深度神经网络模型中，有效提高了模型对自然语言的理解和推理能力。

附图说明

图1为本发明模型的结构示意图；

图2为BERT输入表示示意图；

图3为路由解码层的结构示意图；

图4为双向LSTM结构示意图；

图5为双向LSTM对输入向量编码的示意图；

图6为本发明模型相比于传统模型的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“上”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

本发明涉及到本领域的专业词汇解释为；

BiDAF(Bi-Directional Attention Flow for Machine Comprehension)：机器阅读理解的双向注意流程模型；

BERT：一种预训练的语言表示模型；

LSTM(Long Short-Term Memory)：长短期记忆网络是一种时间循环神经网络。

如图1所示，一种基于动态路由机制的机器阅读理解网络模型的建立方法，它包括：

输出层：将所述动态路由层输出的高级语义特征向量经过最大池化和softmax()运输输出答案的起始位置和结束位置，起始位置和结束位置都是由onehot向量编码。

进一步地，所述路由解码层包括由多个动态路由层以级联的方式堆叠而成，每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成。

其中，胶囊网络层接收来自所述基础编码层的向量序列，并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量；双向LSTM层在阅读理解所述高级语义特征向量的基础上对所述高级语义特征向量进行适应性的轻微重编码。

进一步地，基础编码层包括由BiDAF和BERT组成；BiDAF模型是一个分阶段的多层过程，其由字符嵌入层、词嵌入层、上下文嵌入层、注意力流层、建模层和输出层构成；如图2，BERT通过将TokenEmbedings，SegmentEmbedings，PositionEmbedings三个向量组加和得到每个词的嵌入向量，这样既包含了词的信息，段落信息，同时也包含了词的位置信息；BERT易于处理句对之间的关系，将文本段落和问题序列映射为TokenEmbedings后用[SEP]分隔符分开作为输入。

S1、输入文本段落和问题序列到基础编码层进行交互匹配式编码并输出编码后的向量序列到所述胶囊网络层；

进一步地，阅读理解任务通过可以被描述为以下形式，给定一个包含n个单词的文本段落输入，即C＝{c₁,c₂,···,c_n}，和一个包含m个单词的问题序列输入，即Q＝{q₁,q₂,···,q_m}，需要要求模型能够从给定文本段落中找对关于问题Q的答案片段S＝{c_i,c_i+1,···,c_i+j}，也就是所谓的抽取式机器阅读理解任务。

S2、路由解码层中最底层的胶囊网络层接收来自基础编码层的向量序列，并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量；

S3、双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码；

S4、重复步骤二和步骤三直到所有高级语义特征向量被映射提取以及轻微重编码后输入到输出层；

S5、输出层对路由解码层的输出经过最大池化和softmax()运输输出答案的起始位置和结束位置，起始位置和结束位置都是由one hot向量编码。

如图3所示，所述胶囊网络层将携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量的具体步骤如下：

对于动态路由而言，输入的是一个向量序列，用一个二维张量u_i[i,i_o]来表示，带上批量大小后用三维张量U[b,i,i_o]来表示；首先将文本段落和问题序列通过基础编码层得到编码后的结果，即一组向量u_i；u_i(i＝1,2,3....n)即为胶囊层输入的第i个向量，定义一组v_j为输出向量，将u_i转换为v_j的过程为：

即，

其中u_i为第i个输入向量，w_ij为权重矩阵通过初始化后训练迭代得到，

为仿射变换后的结果。

对

其中，c_ij＝leakySoftmax(b_i)。

其中，

其中，b_ij初始化为0，压缩函数squash()能使特征向量的模长压缩至0～1，从而来表示该特征向量的强度，α作为模型的超参数。

通过前向LSTM层获取上文的高级语义特征向量；

通过后向LSTM层获取下文的高级语义特征向量；

进一步地，图中C为单元状态，a为隐状态；双向LSTM相比较于传统的单向LSTM，单向LSTM中的每个词只能获取到上文信息，而双向LSTM通过前向LSTM获取上文信息，再通过后向LSTM获取下文信息，最后将前后2个LSTM的输出结合就可以得到上下文信息，从而比单向LSTM具有更高层的语义特征。

如，输入阅读理解后的高级语义特征向量[“我”，“爱”，“中”，“国”]，通过前向的LSTM_L将得到三个向量{h_L0,h_L1,h_L2}，再通过后向的LSTM_R，得到三个向量{h_R0,h_R1,h_R2}，最后将前向和后向的隐向量(隐状态)进行拼接得到[h_L0,h_R2]，[h_L1,h_R1]，[h_L2,h_R0]，即{h₀,h₁,h₂}。

如图6所示，本发明的模型相比于传统的模型在各个方面都有着有效的提高。

本发明的又一实施例提供一种存储介质，其内部存储有计算机程序指令，所述计算机程序指令运行时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。

本申请的又一实施例提供一种终端，包括存储器和处理器，所述存储器上存储有可以在所述处理器上运行的计算机程序指令，所述处理器运行所述计算机程序指令时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于动态路由机制的机器阅读理解网络模型的建立方法，其特征在于：它包括：

基础编码层：用于完成对输入文本段落和问题序列的交互匹配式编码，并最终以向量序列的形式输出对输入信息的编码；所述基础编码层包括BiDAF和BERT，其中，BiDAF是一个分阶段的多层过程，其由字符嵌入层、词嵌入层、上下文嵌入层、注意力流层、建模层和输出层构成；BERT通过将TokenEmbedings，SegmentEmbedings，PositionEmbedings三个向量组加和得到每个词的嵌入向量，BERT将文本段落和问题序列映射为TokenEmbedings后用[SEP]分隔符分开作为输入；

路由解码层：用于接收来自所述基础编码层的向量序列，经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出；所述路由解码层包括由多个动态路由层以级联的方式堆叠而成，每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成；

所述胶囊网络层接收来自所述基础编码层的向量序列，并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量；所述双向LSTM层在阅读理解所述高级语义特征向量的基础上对所述高级语义特征向量进行适应性的轻微重编码；

2.一种基于动态路由机制的机器阅读理解方法，其特征在于：所述方法包括以下内容：

路由解码层中最底层的胶囊网络层接收来自基础编码层的向量序列，经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出，所述路由解码层包括由多个动态路由层以级联的方式堆叠而成，每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成；所述胶囊网络层接收来自所述基础编码层的向量序列并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量；

对

计算中间变量S_j，通过压缩函数squash()得到压缩后的输出v_j；

双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码；所述双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码的具体步骤如下：

通过前向LSTM层获取上文的高级语义特征向量；

通过后向LSTM层获取下文的高级语义特征向量；

将前向和后向的高级语义特征向量进行拼接得到重编码后的向量；

重复步骤二和步骤三直到所有高级语义特征向量被映射提取以及轻微重编码后输入到输出层；

还包括输入文本段落和问题序列到基础编码层进行交互匹配式编码并输出编码后的向量序列到所述胶囊网络层的步骤；

3.一种存储介质，其内部存储有计算机程序指令，其特征在于：所述计算机程序指令运行时执行权利要求2所述的一种基于动态路由机制的机器阅读理解方法的步骤。

4.一种终端，包括存储器和处理器，所述存储器上存储有可以在所述处理器上运行的计算机程序指令，其特征在于：所述处理器运行所述计算机程序指令时执行权利要求2所述的一种基于动态路由机制的机器阅读理解方法的步骤。