CN111797219A

CN111797219A - 使用多通道融合模型处理答案的神经问题生成方法及系统

Info

Publication number: CN111797219A
Application number: CN202010646758.8A
Authority: CN
Inventors: 熊德意; 邱嘉作
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-20
Anticipated expiration: 2040-07-07
Also published as: CN111797219B

Abstract

本发明涉及一种使用多通道融合模型处理答案的神经问题生成方法及系统,包括：根据文档单词和答案单词的关系，分别计算硬匹配和软匹配的答案匹配编码，结合词嵌入向量，得到文档中每个单词最终的单词编码；对文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示，将所述单词编码输入至注意力机制中，对文档的隐层表示和答案的隐层表示之间的关系进行建模，将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示；根据所述最终文档表示得到文档的上下文向量，根据所述答案的隐层表示得到答案的上下文向量，根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。本发明可以将答案直接从文档中找到。

Description

使用多通道融合模型处理答案的神经问题生成方法及系统

技术领域

本发明涉及问题生成的技术领域，尤其是指一种使用多通道融合模型处理答案的神经问题生成方法及系统。

背景技术

所谓问题生成(Question Generation,QG)是自然语言处理中一个非常重要的问题，是考验计算机是否真正理解文本的一项重要途径，并广泛应用于各个领域。QG可以为问答系统(Question Answering,简称QA)创建大量的QA对，为相关任务提供数据集。同时，QG本身也可以为医疗诊断系统、家庭教育系统等提供服务。QG任务的输入通常包含文档(或句子)和答案，输出是在给定文档和目标答案的情况下，生成最有可能的问题。

一般来说，QG模型是一个序列到序列的结构(Sequence to sequence,简称seq2seq)，由一个编码器(encoder)和解码器(decoder)组成，encoder将输入的文档和目标答案编码成向量(也称为源端)，然后decoder根据这个向量逐字生成一个完整的问题(也称为目标端)。为了增强模型的性能，通常还会有注意力(attention)机制和拷贝(copy)机制，其中copy机制可以保证生成问题的可靠性。

现有模型大多是基于抽取式QA数据集的(例如SQuAD)。在这种设置下，答案是文档的一个片段，因此可以使用答案的位置信息来帮助建模答案信息。但是这样的答案位置信息无法应用于生成式答案的QA数据集中，一个主要原因就是答案无法直接从文档中找到。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中答案无法直接从文档中找到的问题，从而提供一种可以实现将答案直接从文档中找到的使用多通道融合模型处理答案的神经问题生成方法及系统。

为解决上述技术问题，本发明的一种使用多通道融合模型处理答案的神经问题生成方法，包括：根据文档单词和答案单词的关系，分别计算硬匹配答案匹配编码和软匹配答案匹配编码，结合词嵌入向量，得到文档中每个单词最终的单词编码；对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示，将所述单词编码输入至注意力机制中，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模，将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示；根据所述最终文档表示得到文档的上下文向量，根据所述答案的隐层表示得到答案的上下文向量，根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。

在本发明的一个实施例中，对于文档中的每个单词，判断该词是否出现在答案中，通过采用不同的标记得到答案匹配序列，根据所述答案匹配序列得到硬匹配答案匹配编码。

在本发明的一个实施例中，判断该词是否出现在答案中时，若出现，则标记为1，否则标记为0。

在本发明的一个实施例中，计算软匹配答案匹配编码的方法为：根据所述文档和所述答案的编码，将两者扩展到同一维度，然后计算两者的语义距离向量，根据所述语义距离向量计算所述文档中的每个单词与所述答案中每个单词的距离得到距离矩阵，并按列取最小值，根据所述最小值得到软匹配答案匹配编码。

在本发明的一个实施例中，所述语义距离向量的计算公式为：we_dist＝|we^d-we^a|，其中we^d是文档中每个词的词嵌入向量，we^a是答案中每个词的词嵌入向量。

在本发明的一个实施例中，所述答案匹配编码的计算公式为：sme^d＝min_col{we_dist}，其中sme^d是答案匹配编码，{we_dist}是距离矩阵。

在本发明的一个实施例中，对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示的方法为：使用双向LSTM分别对所述文档和所述答案进行编码。

在本发明的一个实施例中，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模的方法为：计算相似度矩阵，对所述相似度矩阵作归一化处理，计算注意力权重以及一个包含答案信息的文档表示，取所述相似度矩阵的最大值，计算另外两个包含答案信息的文档。

在本发明的一个实施例中，所述输出的上下文向量结合隐层码的隐层表示共同计算出基于词典的概率分布。

在本发明的一个实施例中，所述隐层码的隐层表示的计算方法为：分别计算文档的隐层表示和答案的隐层表示，并通过融合门将所述文档的隐层表示和答案的隐层表示进行融合，得到所述隐层码的隐层表示。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的使用多通道融合模型处理答案的神经问题生成方法及系统，使用答案匹配策略，通过使用硬匹配和软匹配两种方式计算，获取对应的答案匹配序列，旨在嵌入层加入答案信息；通过使用注意力的方式融合，使用注意力机制对于文档和答案信息进行融合，旨在编码层加入答案信息；通过以答案为导向的生成，计算上下文向量时同时考虑文档和答案信息，旨在译码器层加入答案信息。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明使用多通道融合模型处理答案的神经问题生成方法的一个流程图；

图2是本发明指标对比图；

图3是本发明前后生成问题类型的准确率；

图4是本发明的热力图。

具体实施方式

实施例一

如图1所示，本实施例提供一种使用多通道融合模型处理答案的神经问题生成方法，包括如下步骤：步骤S1：根据文档单词和答案单词的关系，分别计算硬匹配答案匹配编码和软匹配答案匹配编码，结合词嵌入向量，得到文档中每个单词最终的单词编码；步骤S2：对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示，将所述单词编码输入至注意力机制中，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模，将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示；步骤S3：根据所述最终文档表示得到文档的上下文向量，根据所述答案的隐层表示得到答案的上下文向量，根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。

本实施例所述使用多通道融合模型处理答案的神经问题生成方法，所述步骤S1中，根据文档单词和答案单词的关系，分别计算硬匹配(hard matching embedding)的答案匹配编码和软匹配(soft matching embedding)的答案匹配编码，结合词嵌入向量(wordembedding)，得到文档(document)中每个单词最终的单词编码，由于使用硬匹配和软匹配两种方式计算，获取对应的答案匹配序列，旨在嵌入层即在answer matching中加入答案信息；所述步骤S2中，对所述文档进行编码形成文档的隐层表示，对答案(answer)进行编码形成答案的隐层表示，将所述单词编码输入至注意力机制(attentive fusion)中，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模，将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示，由于通过使用注意力机制对于文档和答案信息进行融合，旨在编码层(encoder states)加入答案信息；所述步骤S3中，在以答案为导向的生成(Answer-guided generation)中，根据所述最终文档表示得到文档的上下文向量，根据所述答案的隐层表示得到答案的上下文向量，根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量(context vector)，由于在计算文档的上下文向量和答案的上下文向量时，同时考虑了文档信息和答案信息，旨在译码层加入答案信息，从而可以实现将答案直接从文档中找到。

所述步骤S1中，本发明使用的是答案匹配策略，包括硬匹配和软匹配，其中计算硬匹配答案匹配编码的方法为：对于文档中的每个单词，判断该词是否出现在答案中，通过采用不同的标记得到答案匹配序列，根据所述答案匹配序列得到硬匹配答案匹配编码。

具体地，对于文档中的每个单词，判断该词是否出现在答案中，若出现，则标记为1，否则标记为0。使用上述方法可以得到一个答案匹配序列，然后就可以学习到一个答案匹配编码hme^d。

在软匹配方法中，本发明使用一种更加细粒度的方法。其中计算软匹配答案匹配编码的方法为：根据所述文档和所述答案的编码，将两者扩展到同一维度，然后计算两者的语义距离向量，根据所述语义距离向量计算所述文档中的每个单词与所述答案中每个单词的距离得到距离矩阵，并按列取最小值，根据所述最小值得到软匹配答案匹配编码。

具体地，根据所述文档和所述答案的编码，将两者扩展到同一维度，然后计算两者的语义距离向量。所述语义距离向量的计算公式为：we_dist＝|we^d-we^a|，其中we^d是文档中每个词的词嵌入向量，we^a是答案中每个词的词嵌入向量。对于所述文档中的每个单词，计算其与所述答案中每个单词的距离，然后得到一个距离矩阵{we_dist}，并按列取最小值。所述软匹配答案匹配编码的计算公式为：sme^d＝min_col{we_dist，其中sme^d是软匹配答案匹配编码，{we_dist}是距离矩阵。

对于文档中的每个单词，上述操作的目的就是对于每个维度，去找到与所述答案中单词最小的语义距离。如果sme^d的每个维度为0，表明所述文档中的这个单词出现在了所述答案中。通常而言，sme^d中每个维度的值越小，表明文档中的这个单词与所述答案中的单词越相关。由此，对于文档中的每个单词，得到了软匹配答案匹配编码sme^d。

将硬匹配方法和软匹配方法结合起来，再结合词嵌入向量，就得到了文档中每个单词最终的单词编码。具体地，

E^d是整个文档最终的单词编码，e^d是文档中每个单词最终的单词编码，we^d是文档中每个单词的词嵌入向量，hme^d是文档中每个单词的硬匹配答案编码，sme^d是文档中每个单词的软匹配答案编码，

为文档中第i个单词的单词编码，最终的单词编码会输入到编码器中。

所述步骤S2中，使用的是注意力的方式融合。其中对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示的方法为：使用双向LSTM分别对所述文档和所述答案进行编码。

具体地，使用双向LSTM分别对所述文档和所述答案进行编码，分别得到文档的隐层表示h^d和答案的隐层表示h^a；然后使用注意力机制，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模，将答案信息融合到文档表示中。

对所述文档的隐层表示和答案的隐层表示之间的关系进行建模的方法为：计算相似度矩阵，对所述相似度矩阵作归一化处理，计算注意力权重以及一个包含答案信息的文档表示，取所述相似度矩阵的最大值，计算另外两个包含答案信息的文档。

具体地，首先计算相似度矩阵S：S＝h^d*h^a，其中h^d是所述文档的隐层表示，h^a是所述答案的文档表示。

然后，将相似度矩阵S作归一化处理，计算注意力权重，并计算出一个包含答案信息的文档表示c_o：

其中α_o是注意力分数，c_o是文档表示；

其次，基于两个方向(行和列)，对相似度矩阵S取最大值，计算另外两个包含答案信息的文档表示c_r和c_c：

其中α_r是按行取的注意力分数，c_o是按行取的文档表示，α_c是按列取注意力分数，c_c是按列取的文档表示。

上述的目的是为了计算所述文档和答案间的语义距离，和所述软匹配答案匹配编码类似，但是和软匹配答案匹配编码的区别在于，上述方法考虑了上下文信息，而软匹配答案匹配编码中只考虑了独立的单词编码。

将三个表示连接起来得到c^d，并输入另一个LSTM进行建模，从而得到一个充分包含了所述文档和答案语义关系的文档表示m^d，然后使用一个融合门，将原始表示和丰富表示进行进一步融合，通过公式：

其中g^d是融合门，h^d是文档的隐层表示，m^d是文档的融合表示，

是就是最终文档表示。

所述步骤S3中，是以答案为导向的生成，所述输出的上下文向量结合隐层码的隐层表示共同计算出基于词典的概率分布。所述隐层码的隐层表示的计算方法为：分别计算文档的隐层表示和答案的隐层表示，并通过融合门将所述文档的隐层表示和答案的隐层表示进行融合，得到所述隐层码的隐层表示。

具体地，除了所述文档中包含的答案信息，本发明也考虑直接在译码器(decoder)中加入答案信息来指导问题生成。另外，在计算输出的上下文向量时，分别计算所述文档的隐层表示和答案的隐层表示，并通过使用一个融合门，将两个表示进行进一步融合，通过公式：

其中，s_t是解码层的隐层表示，

是文档的上下文向量，h^a是答案的隐层表示，

是文档的上下文向量，

是答案的上下文向量。

将上述三种方法结合起来，就从三个角度处理了QG模型中的生成式答案。本发明在SQuAD/NarrativeQA/MS-MARCO数据集上做了实验，在BLEU/METEOR/ROUGE-L三个经典的评价指标上都比baseline有了明显的提升，实验结果如图2所示。本发明分析了模型前后生成问题类型的准确率，如图3所示，答案信息通常可以帮助QG模型更好地预测问题类型。例如，位置信息通常会提问“where”，时间信息会提问“when”或者“what date”。为了去验证本发明所述的模型是否可以使用答案信息来生成更加准确的问题类型，从每个数据集中各随机选择了100个测试例子，来计算预测正确的问题类型的比例。结果表明本发明所述的模型确实能够使用答案信息来生成更加准确的问题类型。另外，使用热力图进行了分析，如图4所示。

在硬匹配中，对于文档中的这个单词，1表明它出现在了答案中，而0表示它未出现在答案中。硬匹配序列和传统工作中的答案标签序列非常类似，区别在于本申请的“0”序列不一定连续。在软匹配中，对于每个维度进行了求平均，可以看到软匹配的方式不仅可以学习到精确匹配的情况也可以学习到语义相似的单词。而对于使用注意力的方式融合，本发明可以学习到文档和生成式答案的语义距离。

实施例二

基于同一发明构思，本实施例提供一种使用多通道融合模型处理答案的神经问题生成系统，其解决问题的原理与所述使用多通道融合模型处理答案的神经问题生成方法类似，重复之处不再赘述。

本实施例所述使用多通道融合模型处理答案的神经问题生成系统包括：

答案匹配策略模块，用于根据文档单词和答案单词的关系，分别计算硬匹配答案匹配编码和软匹配答案匹配编码，结合词嵌入向量，得到文档中每个单词最终的单词编码；

注意力融合模块，用于对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示，将所述单词编码输入至注意力机制中，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模，将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示；

答案为导向的生成模块，用于根据所述最终文档表示得到文档的上下文向量，根据所述答案的隐层表示得到答案的上下文向量，根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种使用多通道融合模型处理答案的神经问题生成方法，其特征在于，包括如下步骤：

步骤S1：根据文档单词和答案单词的关系，分别计算硬匹配答案匹配编码和软匹配答案匹配编码，结合词嵌入向量，得到文档中每个单词最终的单词编码；

步骤S2：对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示，将所述单词编码输入至注意力机制中，对所述文档的隐层表示和答案的隐层表示之间的关系进行建模，将所述答案的隐层表示与所述文档的隐层表示融合得到最终文档表示；

步骤S3：根据所述最终文档表示得到文档的上下文向量，根据所述答案的隐层表示得到答案的上下文向量，根据所述文档的上下文向量以及所述答案的上下文向量计算输出的上下文向量。

2.根据权利要求1所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：计算硬匹配答案匹配编码的方法为：对于文档中的每个单词，判断该词是否出现在答案中，通过采用不同的标记得到答案匹配序列，根据所述答案匹配序列得到硬匹配答案匹配编码。

3.根据权利要求2所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：判断该词是否出现在答案中时，若出现，则标记为1，否则标记为0。

4.根据权利要求1所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：计算软匹配答案匹配编码的方法为：根据所述文档和所述答案的编码，将两者扩展到同一维度，然后计算两者的语义距离向量，根据所述语义距离向量计算所述文档中的每个单词与所述答案中每个单词的距离得到距离矩阵，并按列取最小值，根据所述最小值得到软匹配答案匹配编码。

5.根据权利要求4所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：所述语义距离向量的计算公式为：we_dist＝|we^d-we^a|，其中we^d是文档中每个词的词嵌入向量，we^a是答案中每个词的词嵌入向量。

6.根据权利要求1所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：对所述文档进行编码形成文档的隐层表示，对答案进行编码形成答案的隐层表示的方法为：使用双向LSTM分别对所述文档和所述答案进行编码。

7.根据权利要求1所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：对所述文档的隐层表示和答案的隐层表示之间的关系进行建模的方法为：计算相似度矩阵，对所述相似度矩阵作归一化处理，计算注意力权重以及一个包含答案信息的文档表示，取所述相似度矩阵的最大值，计算另外两个包含答案信息的文档。

8.根据权利要求1所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：所述输出的上下文向量结合隐层码的隐层表示共同计算出基于词典的概率分布。

9.根据权利要求8所述的使用多通道融合模型处理答案的神经问题生成方法，其特征在于：所述隐层码的隐层表示的计算方法为：分别计算文档的隐层表示和答案的隐层表示，并通过融合门将所述文档的隐层表示和答案的隐层表示进行融合，得到所述隐层码的隐层表示。

10.一种使用多通道融合模型处理答案的神经问题生成系统，其特征在于，包括：