CN111460176B

CN111460176B - 一种基于哈希学习的多文档机器阅读理解方法

Info

Publication number: CN111460176B
Application number: CN202010393230.4A
Authority: CN
Inventors: 李武军; 江悦
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-11-07
Anticipated expiration: 2040-05-11
Also published as: CN111460176A

Abstract

本发明公开了一种基于哈希学习的多文档机器阅读理解方法，可以达到在线多文档阅读理解场景下预测准确率高、内存开销低的效果。该方法训练一个基于哈希学习的多文档阅读理解模型，机器在线预测时首先使用预训练自注意力模型提取问题和文档的文本特征信息，接着计算文档对应的二值矩阵表示，使用动态指针解码器预测各文档的答案及其概率，此外还预测各文档含有正确答案的概率，综合这两种概率对所有答案进行排序，选取最前面的答案输出。多文档动态指针解码器在每篇文档预测答案时考虑了其他文档的语义信息，提高了模型准确度。模型预测时将所有文档的二值矩阵表示存储在内存中，减少了存储开销。

Description

一种基于哈希学习的多文档机器阅读理解方法

技术领域

本发明涉及一种基于哈希学习的多文档机器阅读理解方法，涉及到自然语言处理技术，利用低内存开销实现高效的机器阅读理解。

背景技术

多文档阅读理解是通过阅读和理解给定问题的多篇相关文档，给出该问题的正确答案。多文档阅读理解可以应用在开放域问答系统中，阅读给定问题查询到的相关文档，直接将预测的答案返回给用户。多文档阅读理解是自然语言处理领域的重要研究方向，在工程领域中也有很高的应用价值，能够给人们的生活带来很大的便利。

现有的多文档阅读理解模型大多使用预训练的自注意力模型获取文档和问题的语义表示，在提升模型效果的同时也带来了存储开销较大的问题。预测每篇文档的答案时综合考虑其他候选文档，能够提高阅读理解的准确度，也进一步增加了存储消耗，给实际应用造成很多限制。因此，设计一种预测准确率高且存储开销低的机器阅读理解方法至关重要。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于哈希学习的多文档机器阅读理解方法，利用哈希学习技术对文档的实值矩阵表示进行压缩。在提高多文档阅读理解模型精度的同时，降低了内存的开销。

技术方案：一种基于哈希学习的多文档机器阅读理解方法，训练基于哈希学习的多文档阅读理解模型，用于实现多文档机器阅读理解的预测，多文档机器阅读理解的预测具体包括以下步骤：

1)给定一个问题和基于给定问题检索到的多篇文档，训练多文档阅读理解模型对文档进行编码，得到包含文本信息的实值矩阵；

2)对于每篇所述文档，训练多文档阅读理解模型计算其二值矩阵表示；

3)对于任一所述文档，训练多文档阅读理解模型使用该文档的所述二值矩阵表示，预测该文档中一个特定子串作为答案，计算所述特定子串关于该文档为正确答案的概率；

4)对于所述给定问题和任一所述文档，训练多文档阅读理解模型计算该文档含有正确答案的概率；

5)基于每篇所述文档的子串作为正确答案的概率和该文档含有正确答案的概率，训练多文档阅读理解模型对该文档预测的答案进行排序，输出结果。

上述步骤1)的过程为：使用预训练自注意力模型提取问题和文档的特征表示，预训练自注意力模型使用预训练语言模型编码器对问题和文档拼接后的文本进行编码，得到包含问题和文档信息的实值矩阵；

上述步骤2)的过程为：在编码器后添加一层哈希层，将所述的实值矩阵输入到哈希层，哈希层在测试时使用取符号函数sgn(x)计算该实值矩阵的二值矩阵表示，在训练时使用tanh(βx)近似该实值矩阵的二值矩阵表示，目的是正常进行梯度回传。

上述步骤3)的过程为：将哈希层输出的二值矩阵表示输入到动态指针解码层，用多轮迭代的方式预测所述各文档的答案，所述各文档的每轮迭代同步进行。

动态指针解码层的主体由一个单层长短期记忆网络构成，每次迭代就是所述单层长短期记忆网络的一个时间步，在每个时间步，所述动态指针解码层将上一个时间步预测的答案起始位置的编码，以及所述单层长短期记忆网络的隐状态输入到该单层长短期记忆网络中，输出并更新这一时间步的隐状态，每个时间步预测的答案起始位置分别由两个最大值选出神经网络决定。

最大值选出神经网络为每一篇所述文档的每个位置分别计算其是答案开始位置和结束位置的分数，答案开始位置的最大值选出网络与结束位置的最大值选出网络结构相同，但是不共享网络参数；最大值选出网络的输入包括文档词语的二值编码向量、单层长短期记忆网络当前的隐状态向量、上一次迭代时预测的答案开始和结束位置的二值编码向量、当前文档预测的答案编码向量，以及该答案经过注意力机制交互后的向量表示；在最后一次迭代时，根据所述开始位置最大值选出网络和结束位置最大值选出网络的输出，为所述每篇文档计算出该文档中作为正确答案概率最大的子串，同时得到该子串作为正确答案的概率；

当前文档预测的答案编码向量，是从该文档的二值编码矩阵截取答案起始位置，再使用最大池化操作得到的；计算每两篇文档的答案编码向量的内积，作为它们的语义相似度，将除当前文档以外的文档答案编码向量根据相似度计算加权和，得到当前文档答案经过注意力机制交互后的向量表示。

上述步骤4)的过程为：计算各所述文档含有正确答案的概率，将各所述文档的答案编码向量和答案经过注意力机制交互后的向量表示输入到一层全连接网络，将各文档通过该全连接层的输出进行指数归一化，得到各文档含有正确答案的概率。

上述步骤5)的过程为：将每篇文档的子串作为正确答案的概率，以及每篇文档含有正确答案的概率加权求和，据此加权求和结果将所有文档的预测子串进行排序，选择最前面的一个作为最终答案，输出结果。

在多文档阅读理解模型的训练过程中，其损失函数由三部分构成，使用交叉熵损失为预测的答案起始位置建模，使用分类损失为预测文档是否含有正确答案建模，使用范数损失为文档的二值矩阵建模；在求解该优化问题时，使用梯度反向传播算法优化多文档阅读理解模型的参数。

有益效果：与现有技术相比，本发明提供的基于哈希学习的多文档机器阅读理解方法，利用哈希技术学习文档的二值矩阵表示，并采用多文档动态指针解码器结构，提高了多文档阅读理解的准确率，同时降低了在线预测时的存储消耗。

附图说明

图1为本发明实施例中方法的网络结构图；

图2为本发明实施例中动态指针解码器结构图；

图3为本发明实施例中最大值选出网络结构图；

图4为本发明实施例中预测流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于哈希学习的多文档机器阅读理解方法，需要训练基于哈希学习的多文档阅读理解模型，用于实现多文档机器阅读理解的预测，如图1所示，用于训练模型的网络结构包括嵌入层、编码层、哈希层和动态指针解码层，其中嵌入层将输入的文本序列转换成向量表示，编码层融合上下文信息，得到包含问题和文档信息的实值矩阵表示，哈希层学习问题和文档信息的二值矩阵表示，动态指针解码层计算文档每个位置作为答案起始位置的概率。

首先，嵌入层将问题和文档的文本序列转换成包含词向量、位置向量、段向量的矩阵表示。

编码层将问题和文档进行编码，得到含有文本信息的编码矩阵；使用BERT预训练自注意力模型提取问题和文档的特征表示，对问题和文档拼接后的文本进行编码，得到包含问题和文档信息的实值矩阵。

哈希层学习文本实值矩阵的二值表示，在训练时，哈希层的输出是B⁽ⁱ⁾＝tanh(βH⁽ⁱ⁾)，β是模型的超参数；在预测时，哈希层的输出是其中H⁽ⁱ⁾是编码层的输出，即包含问题和第i篇文档信息的实值矩阵表示。

将哈希层的计算结果输入到动态指针解码层，图2展示了动态指针解码器的结构。用多轮迭代的方式预测各文档的答案，各文档的每轮迭代同步进行。

动态指针解码层的主体由一个循环神经网络构成，每次迭代就是循环神经网络的一个时间步，在每个时间步，动态指针解码层将上一个时间步预测的答案起始位置的编码，以及循环神经网络的隐状态输入到该循环神经网络中，输出并更新这一时间步的隐状态。

循环神经网络的网络单元选取为单层长短期记忆网络，其按照以下公式在每个时间步更新隐状态：

其中，是第i篇文档在第j个时间步的隐状态，/>是这篇文档第j-1次迭代时模型预测的答案开始位置，/>是答案结束位置，/>是答案开始位置的二值编码向量，是答案结束位置的二值编码向量。

获得第j个时间步的隐状态之后，通过以下公式来预测当前的答案起始位置：

其中和/>分别表示文档第t个词语作为答案开始和结束位置的分数，由开始位置最大值选出网络和结束位置最大值选出网络得到；m表示整个文本序列的词语个数。

图3展示了最大值选出神经网络的结构。开始位置最大值选出网络的计算公式如下：

其中，是第i篇文档第t个词语作为答案开始位置的分数，W₁、W₂和b₁是三个可训练变量，/>是第i篇文档第t个词语的二值编码向量，/>是第i篇文档预测的答案编码向量，/>是第i篇文档的答案经过注意力机制交互后的向量表示。

向量由文档编码矩阵B⁽ⁱ⁾截取答案起始位置，并经过最大池化得到，计算方式如下所示：

的计算方式如下：

s_ik代表第i篇文档和第k篇文档的答案编码的语义相似度，等于两个答案向量的内积；根据相似度将其他文档的答案向量计算加权和，得到第i篇文档的答案经过注意力机制交互后的向量表示

结束位置最大值选出网络与开始位置最大值选出网络结构相同，但是不共享网络参数。

在最后一次迭代时，根据开始位置最大值选出网络和结束位置最大值选出网络的输出，为每篇文档计算出该文档中作为正确答案概率最大的子串，同时得到该子串作为正确答案的概率。

在最后一次迭代之后，利用各文档预测的答案向量和答案经过注意力机制交互后的向量，预测每篇文档含有正确答案的概率，计算方式如下：

其中，W^s是可训练变量，是第i篇文档含有正确答案的概率。

阅读理解模型的损失函数由三部分组成：

1)为预测的答案起始位置准确度建模的交叉熵损失如下：

其中α_i,β_i分别表示模型预测的文档各位置作为答案开始和结束位置的概率，分别是答案的正确开始和结束位置；

2)为预测的文档是否含有正确答案的概率准确性建模的损失如下：

其中是模型预测的各文档含有正确答案的概率，/>是各文档是否含有正确答案的标签；

3)为文档的二值矩阵表示建模的范数损失如下：

其中B_i表示文档的实值矩阵表示，表示文档的二值矩阵表示；

结合以上三部分损失，可以得到如下优化问题：

其中λ₁,λ₂是损失系数，N是训练集中文档的数量，M是训练集中问题的数量；在求解以上优化问题时，对目标函数进行求导，使用梯度反向传播算法优化阅读理解模型的参数。

图4展示了基于多文档阅读理解模型的预测流程图。首先用BERT预训练模型获得问题和文档的文本特征表示，接着利用哈希层计算文档的二值矩阵表示，然后动态指针解码层预测各文档的答案及其概率，再预测各文档含有正确答案的概率，最后根据这两个概率的加权和将所有答案排序，选择最前面的答案作为最终结果输出。

Claims

1.一种基于哈希学习的多文档机器阅读理解方法，其特征在于：训练基于哈希学习的多文档阅读理解模型，用于实现机器阅读理解的预测，多文档机器阅读理解的预测具体包括以下步骤：

1)给定一个问题和基于给定问题检索到的多篇文档，训练多文档阅读理解模型对它们文档进行编码，得到包含文本信息的实值矩阵；

5)基于每篇所述文档的子串作为正确答案的概率和该文档含有正确答案的概率，训练多文档阅读理解模型对该文档预测的答案进行排序，输出结果；

用于训练模型的网络结构包括嵌入层、编码层、哈希层和动态指针解码层，其中嵌入层将输入的文本序列转换成向量表示，编码层融合上下文信息，得到包含问题和文档信息的实值矩阵表示，哈希层学习问题和文档信息的二值矩阵表示，动态指针解码层计算文档每个位置作为答案起始位置的概率。

2.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：嵌入层将问题和文档的文本序列转换成包含词向量、位置向量、段向量的矩阵表示。

3.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：编码层将问题和文档进行编码，得到含有文本信息的编码矩阵；使用BERT预训练自注意力模型提取问题和文档的特征表示，对问题和文档拼接后的文本进行编码，得到包含问题和文档信息的实值矩阵。

4.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：哈希层学习文本实值矩阵的二值表示，在训练时，哈希层的输出是B⁽ⁱ⁾＝tanh(βH⁽ⁱ⁾)；在预测时，哈希层的输出是其中H⁽ⁱ⁾是第i篇文档的实值矩阵表示。

5.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：将哈希层的计算结果输入到动态指针解码层，用多轮迭代的方式预测各文档的答案，各文档的每轮迭代同步进行；

动态指针解码层的主体由一个循环神经网络构成，每次迭代就是循环神经网络的一个时间步，在每个时间步，动态指针解码层将上一个时间步预测的答案起始位置的编码，以及循环神经网络的隐状态输入到该循环神经网络中，输出并更新这一时间步的隐状态；

其中，是第i篇文档在第j个时间步的隐状态，/>是这篇文档第j-1次迭代时模型预测的答案开始位置，/>是答案结束位置，/>是答案开始位置的二值编码向量，/>是答案结束位置的二值编码向量；

6.根据权利要求5所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：开始位置最大值选出网络的计算公式如下：

其中，是第i篇文档第t个词语作为答案开始位置的分数，W₁、W₂和b₁是三个可训练变量，/>是第i篇文档第t个词语的二值编码向量，/>是第i篇文档预测的答案编码向量，/>是第i篇文档的答案经过注意力机制交互后的向量表示；

的计算方式如下：

7.根据权利要求6所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：结束位置最大值选出网络与开始位置最大值选出网络结构相同，但是不共享网络参数；

在最后一次迭代时，根据开始位置最大值选出网络和结束位置最大值选出网络的输出，为每篇文档计算出该文档中作为正确答案概率最大的子串，同时得到该子串作为正确答案的概率；

其中，W^s是可训练变量，是第i篇文档含有正确答案的概率。

8.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法，其特征在于：阅读理解模型的损失函数由三部分组成：

1)为预测的答案起始位置准确度建模的交叉熵损失如下：

3)为文档的二值矩阵表示建模的范数损失如下：

结合以上三部分损失，可以得到如下优化问题：