CN111966797A

CN111966797A - 利用引入了语义信息的词向量进行机器阅读理解的方法

Info

Publication number: CN111966797A
Application number: CN202010719374.4A
Authority: CN
Inventors: 魏建国; 孔维坤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-20
Anticipated expiration: 2040-07-23
Also published as: CN111966797B

Abstract

本发明属于自然语言自动处理技术领域，为更精确地解决机器阅读理解问题，本发明，利用引入了语义信息的词向量进行机器阅读理解的方法，步骤如下：步骤一、把机器阅读理解模型所涉及到的上下文和问题中的词均使用词向量表示；步骤二、使用Retrofitting对词向量进行微调，得到词向量表示的上下文序和问题序列；步骤三、编码：分别对上下文和问题序列进行编码，得到上下文表示和问题表示；步骤四、基于迭代对编码后的上下文和问题序列进行交互；步骤五、生成答案：从步骤四得到的fully‑aware context representation中提取答案片段的起始位置和结束位置。本发明主要应用于机器自动处理语言场合。

Description

利用引入了语义信息的词向量进行机器阅读理解的方法

技术领域

本发明属于自然语言处理技术领域，尤其是涉及基于深度学习模型来实现机器阅读理解的方法。

背景技术

作为一种衡量机器对文本的理解程度的方法，机器阅读理解要求模型根据一段给定的上下文来回答针对其提出的问题，该任务是衡量机器对自然语言理解程度的标准之一。机器阅读理解的目标是缩小机器与人之间在自然语言理解方面的差距，这一目标可以形式化地表述为：给定上下文C、根据C提出的问题Q和人类给出的对于问题Q的正确答案A，要求模型通过学习函数F来给出问题Q的正确答案A：F(C，Q)＝A。机器阅读理解很可能会改变一直以来的人机交互方式，例如，由机器阅读理解解决方案提供支持的搜索引擎可以更好地处理自然语言问题，与仅返回一些相关的网页相比，这种方式将为用户提供更好的搜索体验。基于对给定文档的理解，机器阅读理解模型还可用于提供高质量的咨询服务，机器阅读理解模型也可以用于信息检索，使其更加有效，等等。

针对基于深度学习模型的机器阅读理解问题，有多种方法如循环神经网络、双向transformer(一种基于注意力机制的网络模型)、Reinforced Mnemonic Reader(增强助记符阅读器)来改进神经网络模型以实现更高效的机器阅读理解模型，但这些方法都不可避免地局限在模型结构的改进上面，而忽略了对模型使用到的词向量进行改进。本发明提出利用Retrofitting(一种词向量后处理方法)技术将语义词典中的语义信息引入到词向量中，再利用处理过的词向量处理机器阅读理解问题的方法。

发明内容

为克服现有技术的不足，本发明旨在：

1)针对机器阅读理解问题，提出一种引入知识的阅读理解方法，以更精确地解决机器阅读理解问题。

2)该方法利用Retrofitting技术对机器阅读理解模型使用的词向量进行微调，提高模型的完全匹配分数和F1分数(一种兼顾了模型的精确率和召回率的性能衡量指标)。

3)该方法能够充分考虑语义词典中蕴含的关系信息，能够将其引入到机器阅读理解所使用的词向量中去，可以更加准确地表示机器阅读理解问题涉及到的词，从而提高机器阅读理解模型的正确率。

为此，本发明采取的技术方案是，利用引入了语义信息的词向量进行机器阅读理解的方法，步骤如下：

步骤一、嵌入：把机器阅读理解模型所涉及到的上下文和问题中的词均使用词向量表示；

步骤二、使用Retrofitting对词向量进行微调，得到词向量表示的上下文序和问题序列，Retrofitting是一种通过鼓励具有相互关系的词获得更相似的向量表示，来利用语义词典中的关系信息优化向量空间表示的方法；

步骤三、编码：引入词汇信息、句法信息，包括关键词是否完全匹配，词性标签、实体标签、问题的类别，分别对上下文和问题序列进行编码，得到上下文表示和问题表示；

步骤四、基于迭代对编码后的上下文和问题序列进行交互：引入注意力机制来完成文章级别的自对齐，得到充分感知的上下文表示fully-aware contextrepresentation；

步骤五、生成答案：从步骤四得到的fully-aware context representation中提取答案片段的起始位置和结束位置。

Retrofitting详细过程为：

假设有V＝{w₁,w₂,…,w_n}为机器阅读理解数据集词表，w₁为词表V中的第1个词，w₂为词表V中的第2个词，依次类推，w_n为词表V中的第n个词；

无向图Ω＝(V,E)为编码了词表V中词与词之间语义信息的本体，E为词表V中单词之间边的集合，Ω为语义词典，其形式为无向图，词与词之间的语义信息来自于语义词典，

词w_i与词w_j之间的边

表示词w_i与词w_j之间存在语义关系，w_i与w_j为边集合E中的每一条边所连接的两个词；

q_i代表第i个词w_i的词向量，Q是由所有词的词向量的集合，

那么，Retrofitting的微调方程定义为：

α_i、β_ij分别为需要训练的参数，

表示w_i未经处的词向量，q_j表示在语义词典中与词w_i有语义关系的词的词向量；

Retrofitting过程的损失函数定义为：

α_i、β_ij分别为需要训练的参数，

代表算法在词向量集合Q上的损失函数。

详细步骤如下：

步骤一、嵌入：首先根据所采用的SQuAD(斯坦福大学阅读理解数据集)数据库统计出所有上下文和问题中的词，形成一个词表V＝{w₁,w₂,…,w_n}，再从Word2Vec和GloVe读取预训练的词向量，Word2Vec是一种由跳字模型或者连续词袋模型训练的词向量集合，GloVe是一种基于全局词频统计的词表征工具，将词表中的第i个词w_i逐一映射到V中与之对应的词向量q_i，得到词向量的集合Q；

步骤二、使用Retrofitting技术对词向量进行微调的详细过程为：

首先按照语义词典特有的结构读入语义词典Ω＝(V,E)，在模型中，使用无向图来编码词表中的词以及词与词之间的关系，如果词w_i与词w_j之间存在边

那么词w_i与词w_j之间存在着某种语义关系；

读入语义词典资源以后，按照Retrofitting的微调公式：

将知识信息引入到词向量中来，其中

通过最小化损失函数：

来训练Retrofitting；

步骤三、编码的详细过程为：

经过Retrofitting处理后，得到用改进的词向量表示的问题序列

和上下文序列

W^C代表用词向量表示的上下文序列，

是该序列中的第1个词，

是该序列中的第m个词，W^Q代表用词向量表示的问题序列，

是该序列中的第1个词，

是该序列中的第n个词，在加入词性标注POS嵌入和命名实体识别结果NER嵌入特征之后，分别得到问题和上下文的中间结果

和

使用共享权重的双向长短期记忆网络序列中的每个词其进行建模：

BiLSTM为双向长短期记忆网络，v_i为问题中第i个词经过BiLSTM的处理结果，u_j为上下文中第j个词经过BiLSTM的处理结果；

得到编码后的上下文序列V和问题序列U，分别为：

步骤四、基于迭代对编码后的上下文和问题序列进行交互步骤包括三部分，分别是交互式上下文-问题对齐器、上下文自对齐器和用于建模上下文表示的证据收集器，其中：

上下文-问题对齐器是利用：

E_ij＝f(v_i,u_j)＝relu(W_uu)^Trelu(W_uu)

E_ij为上下文对齐结果，f(v_i,u_j)代表v_i、u_j的对齐函数，relu代表线性整流单元，计算得到相似度矩阵

为维度为n和m的二维空间，用于计算基于注意力的问题向量

softmax为归一化指数函数，E_:j为相似度矩阵E的第j列，采用启发式的融合函数o＝fusion(x,y)将注意力信息高效地融合到上下文中，o＝fusion(x,y)通过以下步骤实现：

sigmoid为神经网络激活函数，o为融合了注意力信息的上下文表示，

g均为中间处理结果，利用该函数，对

进行处理：

从而得到问题相关的上下文表示：

H＝[h₁,h₂,…,h_m]

利用公式

B_ij＝1_{i≠j}f(h_i,h_j)

计算得到相似度矩阵

用于计算基于注意力的上下文表示

h_j＝H·softmax(B_:j)

再利用融合函数

得到基于自注意力的上下文表示

Z＝[z₁,z₂,…,z_m]

最后，利用一个双向长短期记忆网络来做证据收集：

R＝[r₁,r₂,…,r_m]＝BiLSTM(Z)

为了增强捕获上下文与问题之间复杂交互的能力，使用再注意力机制来完成上下文和问题之间的迭代对齐：

R¹,Z¹,E¹,B¹＝align¹(U,V)

R²,Z²,E²,B²＝align²(R¹,V,E¹,B¹)

R³,Z³,E³,B³＝align³(R²,V,E²,B²,Z¹,Z²)

align¹、align²、align³分别为第一、第二、第三步的对齐函数

最终的完全感知的上下文向量R³是通过在最后的双向长短期记忆网络中添加一个残差连接得到的：

步骤五、生成答案，详细步骤：

使用指针网络的变体来实现答案生成，将问题表示V总结成固定长度的摘要向量s：

再通过下式分别计算答案在上下文中的起始位置p_start(i)和相应大的结束位置p_end(j|i):

本发明的特点及有益效果是：

本发明采用添加了Retrofitting层的Reinforced Mnemonic Reader来解决机器阅读理解问题，能够充分利用语义词典中的关系信息，减少了嵌入层和编码层所造成的信息损失，在没有明显增加模型复杂度的前提下，提高了机器阅读理解模型的正确率。

附图说明：

图1是添加了Retrofitting层的Reinforced Mnemonic Reader模型结构图；

图2是Retrofitting过程的示意图。

具体实施方式

本发明采用Retrofitting技术将机器阅读理解模型中用到的词向量进行微调，把语义词典中的词、词与词之间的关系引入到词向量中去。通过引入语义信息，减少了上下文表示层的信息损失，提高了上下文-问题交互层的处理效率，在不增加模型复杂度的情况下提高了机器阅读理解模型的精度，具体的技术方案如下：

步骤一，嵌入：把机器阅读理解模型所涉及到的上下文和问题中的词均使用预训练的词向量表示；

步骤二，使用Retrofitting技术对词向量进行微调，Retrofitting是一种通过鼓励具有相互关系的词获得更相似的向量表示：

Retrofitting详细过程为：

假设有V＝{w₁,w₂,…,w_n},为机器阅读理解数据集词表，w₁为词表V中的第1个词，w₂为词表V中的第2个词，依次类推，w_n为词表V中的第n个词；

无向图Ω＝(V,E)为编码了词表V中词与词之间语义信息的本体，词与词之间的语义信息来自于语义词典，

词w_i与词w_j之间的边

表示词w_i与词w_j之间存在语义关系，w_i与w_j为边集合E中的每一条边所连接的两个词，q_i是词w_i的词向量，Q是由所有的词向量的集合，

那么，Retrofitting的微调方程可以被定义为：

Retrofitting过程的损失函数可以被定义为：

α_i、β_ij分别为需要训练的参数，

代表算法在词向量集合Q上的损失函数。

步骤三，编码：引入了词汇信息、句法信息，如关键词是否完全匹配，词性标签、实体标签、问题的类别等等，用上下文编码器和问题编码器分别对上下文和问题进行编码，得到上下文表示和问题表示。

步骤四，基于迭代对齐器对上下文和问题进行交互：引入注意力机制来完成文章级别的自对齐，得到充分感知的上下文表示fully-aware context representation。

步骤五，生成答案：利用附有记忆单元的答案抽取模块，从步骤四得到的fully-aware context representation中提取答案片段的起始位置和结束位置。

下面结合附图对本发明做进一步详细地描述。

如图1所示，为本发明的模型总体结构，总共分为五个模块，分别是：嵌入层、Retrofitting层、编码层、上下文-问题交互层和答案生成层。在嵌入层中，可以利用来自Word2Vec和GloVe词向量来表示上下文和问题中出现的词，嵌入层的上下文和问题表示是没有引入语义词典中关系信息的。在Retrofitting层，可以利用分别来自PPDB(一个由宾夕法尼亚大学发布的单词释义数据集)、WordNet(一个由普林斯顿大学发布的基于认知语言学的英语词典，将单词按照其的意义组成一个单词网络)和FrameNet(一种依照框架语义学概念构建的语义词典，词典中的每个词都包含有带注释的示例，显示了单词的含义和用法)这三个语义词典中的关系信息来微调词向量。编码层利用Retrofitting层的处理结果来将上下文信息和问题信息进行编码，以获得上下文表示和问题表示。上下文-问题交互层利用注意力机制来对上下文表示和问题表示进行交互，以得到问题相关的上下文表示。答案层利用上下文相关的问题表示从上下文中抽取答案片段。

嵌入层的详细过程为：

首先根据所采用的SQuAD数据库统计出所有上下文和问题中的词，形成一个词表V＝{w₁,w₂,…,w_n}，再从Word2Vec和GloVe读取预训练的词向量，将词表中的词w_i逐一映射到词向量q_i，得到词向量的集合Q。

Retrofitting层的详细过程为：

Retrofitting方法是一种通过鼓励具有相互关系的词获得更相似的向量表示，来利用语义词典中的关系信息优化向量空间表示的方法。Retrofitting层的主要目的，是在对词向量改动尽可能小的情况下，使得在语义词典中具有关系的词之间的相似度尽可能大。它通过在由语义词典构建的关系信息图上运行信念传播来工作，这使得Retrofitting几乎可以应用于任何类型的预训练词嵌入。经过Retrofitting方法处理的词向量拥有和原词向量一样的维度，可以向使用原词向量一样使用新的词向量。

那么词w_i与词w_j之间存在着某种语义关系。

读入语义词典资源以后，可以按照公式：

将知识信息引入到词向量中来，其中

表示w_i未经处的词向量，q_j表示在语义词典中与词w_i有语义关系的词的词向量，q_i代表引入知识信息之后得到的词w_i的新的词向量。

可以通过最小化损失函数：

来训练Retrofitting层。

编码层的详细过程为：

经过Retrofitting处理后，得到用改进的词向量表示的问题序列

和上下文序列

W^C代表用词向量表示的上下文序列，

是该序列中的第1个词，

是该序列中的第m个词，W^Q代表用词向量表示的问题序列，

是该序列中的第1个词，

和

可以得到编码后的上下文序列和问题序列，分别为：

上下文-问题交互层：

交互层由三个模块组成，分别是交互式上下文-问题对齐器、一个上下文自对齐器和一个用于建模上下文表示的证据收集器。

在上下文-问题对齐器中，利用

E_ij＝f(v_i,u_j)＝relu(W_uu)^Trelu(W_uu)

为维度为n和m的二维空间，用于计算基于注意力的问题向量

利用该函数，可以对

进行处理：

从而得到问题相关的上下文表示：

H＝[h₁,h₂,…,h_m]

利用公式

B_ij＝1_{i≠j}f(h_i,h_j)

计算得到相似度矩阵

用于计算基于注意力的上下文表示：

h_j＝H·softmax(B_:j)

再利用融合函数

得到基于自注意力的上下文表示：

Z＝[z₁,z₂,…,z_m]

最后，利用一个双向长短期记忆网络来做证据收集：

R＝[r₁,r₂,…,r_m]＝BiLSTM(Z)

R¹,Z¹,E¹,B¹＝align¹(U,V)

R²,Z²,E²,B²＝align²(R¹,V,E¹,B¹)

R³,Z³,E³,B³＝align³(R²,V,E²,B²,Z¹,Z²)

最终的完全感知的上下文向量是通过在最后的双向长短期记忆网络中添加一个残差连接得到的：

答案生成层：

使用指针网络的辩题来实现答案生成器，首先，将问题表示V总结成固定长度的摘要向量s：

最后通过下式分别计算答案在上下文中的起始位置p_start(i)和对应的结束位置p_end(j|i):

尽管上面结合图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种利用引入了语义信息的词向量进行机器阅读理解的方法，其特征是，步骤如下：

步骤四、基于迭代对编码后的上下文和问题序列进行交互：引入注意力机制来完成文章级别的自对齐，得到充分感知的上下文表示fully-aware context representation；

2.如权利要求1所述的利用引入了语义信息的词向量进行机器阅读理解的方法，其特征是，Retrofitting详细过程为：

词w_i与词w_j之间的边

q_i代表第i个词w_i的词向量，Q是由所有词的词向量的集合，

那么，Retrofitting的微调方程定义为：

α_i、β_ij分别为需要训练的参数，

Retrofitting过程的损失函数定义为：

α_i、β_ij分别为需要训练的参数，

代表算法在词向量集合Q上的损失函数。

3.如权利要求1所述的利用引入了语义信息的词向量进行机器阅读理解的方法，其特征是，详细步骤如下：

那么词w_i与词w_j之间存在着某种语义关系；

读入语义词典资源以后，按照Retrofitting的微调公式：

将知识信息引入到词向量中来，其中

通过最小化损失函数：

来训练Retrofitting；

步骤三、编码的详细过程为：

经过Retrofitting处理后，得到用改进的词向量表示的问题序列

和上下文序列

W^C代表用词向量表示的上下文序列，

是该序列中的第1个词，

是该序列中的第m个词，W^Q代表用词向量表示的问题序列，

是该序列中的第1个词，

和

得到编码后的上下文序列V和问题序列U，分别为：

步骤四、基于迭代对编码后的上下文和问题序列进行交互步骤包括三部分，分别是交互式上下文-问题对齐器、上下文自对齐器和用于建模上下文表示的证据收集器，其中：上下文-问题对齐器是利用：

E_ij＝f(v_i,u_j)＝relu(W_uu)^Trelu(W_uu)

为维度为n和m的二维空间，用于计算基于注意力的问题向量

g均为中间处理结果，利用该函数，对

进行处理：

从而得到问题相关的上下文表示：

H＝[h₁,h₂,…,h_m]

利用公式

B_ij＝1_{i≠j}f(h_i,h_j)

计算得到相似度矩阵

用于计算基于注意力的上下文表示：

h_j＝H·softmax(B_:j)

再利用融合函数

得到基于自注意力的上下文表示：

Z＝[z₁,z₂,…,z_m]

最后，利用一个双向长短期记忆网络来做证据收集：

R＝[r₁,r₂,…,r_m]＝BiLSTM(Z)

R¹,Z¹,E¹,B¹＝align¹(U,V)

R²,Z²,E²,B²＝align²(R¹,V,E¹,B¹)

R³,Z³,E³,B³＝align³(R²,V,E²,B²,Z¹,Z²)

align¹、align²、align³分别为第一、第二、第三步的对齐函数；最终的完全感知的上下文向量R³是通过在最后的双向长短期记忆网络中添加一个残差连接得到的：

步骤五、生成答案：