CN110929006A

CN110929006A - 一种数据型问答系统

Info

Publication number: CN110929006A
Application number: CN201911040513.4A
Authority: CN
Inventors: 莫迪
Original assignee: Zhongke Energy Efficiency (beijing) Technology Co Ltd
Current assignee: Zhongke Energy Efficiency (beijing) Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-03-27
Anticipated expiration: 2039-10-29
Also published as: CN110929006B

Abstract

本发明公开了一种数据型问答系统，包括一种数据型问答系统，问答系统主要技术理论方法为流水线方法，在流水线QA系统，需要选择一个段落并将其传递给段落级问答模型，其核心部分主要为A.Embedding、B.Pre‑Process、C.Attention、D.Self‑Attention、E.Prediction。本技术方案采用了流水线方法，并在置信度模型里设置了共享归一化目标，使用预测的答案、候选的句子和问题通过分类模型判断该候选句子是否该答案的支撑事实，关于支撑事实的说明，以实现即使在段落单独处理的情况下，输出仍然是全局最优。

Description

一种数据型问答系统

技术领域

本发明涉及问答模型技术领域，具体为一种数据型问答系统。

背景技术

在现有的技术中对一个问题检索出若干文档之后，会使用阅读理解模型根据该问题对这些文档里面的全部句子一一计算，获取问题可能对应的答案。

阅读理解模型是对给定问题和文档预测出答案在文档中的起始位置和结束位置，起始位置和结束位置之间字符串为答案。将整个文档放到阅读理解模型进行计算获取答案需要的计算量比较大，当文档比较长的时候，很难实现放回结果；而且，将文档全部放入到阅读理解模型会有较大的噪声，导致预测出来的结构不太正确。

解决方案是将数据库里面全部文档中的句子通过预训练语言模型先编码成一个向量。当用户提出一个新的问题，先通过预训练语言模型编码为一个向量，然后计算问题的句向量和文档中各个句子句向量的距离来判断是否包含答案的一个度量。将得分比较高的句子集中在一起，输入到阅读理解模型，最后预测答案的范围。

现有技术方案中方案内技术量较大，并且计算中并不能通过阅读理解模型判定文档中对应内容的是否为该答案的支撑事实。

发明内容

本发明的目的在于提供一种数据型问答系统，旨在改善现有技术中的问题。

本发明是这样实现的：

一种数据型问答系统，问答系统主要技术理论方法为流水线方法，在流水线QA系统，需要选择一个段落并将其传递给段落级问答模型，所述数据型问答系统包含了：

输出问题答案基于多个支持文档；

待选回答组对应支持文档；

对比输出问题支持文档和待选回答组对应支撑文档；

计算输出问题支持文档和待选回答组对应支撑文档的相识度，输出最大相识度对应的待选回答。

进一步的，问答系统主要技术理论方法为流水线方法，在流水线QA系统，需要选择一个段落并将其传递给段落级问答模型，其核心部分主要为

A. Embedding：使用预训练的词向量嵌入单词，并通过使用学习的嵌入矩阵嵌入字符，然后应用卷积神经网络和最大池，将这些与字符派生的词嵌入相结合；

B. Pre-Process：这里使用了共享的双向GRU（Bi-GRU）来处理问题与文章的嵌入；

C. Attention：通过使用双向注意流（Bi-Directional Attention Flow，BiDAF）的Attention机制来构建语言的上下文表示；

i，j ：答案范围内的单词和问题里的单词；

hi，qj：段落单词i的词向量和问题单词j的词向量；

nq，nc：问题的长度和答案范围的上下文长度；

w1、w2和w3：学习向量，是元素乘法；

ci：为每个上下文标签（开始/结束）计算的参与向量；

qc：上下文查询向量；

每个标签的最终向量是通过连接得到的，并通过一个带有ReLU激活的线性层传递结果；

D. Self-Attention：输入通过另一个双向GRU（Bi-GRU）,应用相同的Attention机制，不过这里没有qc了，而是设置

；

E. Prediction：在模型的最后一层，应用了双向GRU，然后通过线性层计算出每个开始标记的答案分数。将隐藏状态与输入相结合，再通过另一个双向GRU和线性层计算出每个结束标记的答案分数。这里应用到了softmax函数，来计算开始或结束的概率。

进一步的，还包含置信度模型

模型置信度的基准度量，是每个可能的答案区间的非标准化分数和未被指数化分数（应用softmax函数之前），这里使用的是基于边界的模型，具有开始标签和结束标签，每个答案区间的分数是开始分数和结束分数之和；

为避免模型在启发式模式下产生的过度自信（比如模型可能过于依赖去选择与问题所要求的语义类型相匹配的答案），这里尝试了4种模型训练方法，并都会将不包含答案的段落作为额外的训练点进行抽样；

（1） Shared-Normalization

使用了一个修改的目标函数，其中从相同上下文中采样的所有段落的起始和结束分数都被标准化，目的是迫使模型产生段落之间具有可比性的分数；

（2）合并

在训练期间将从同一上下文中采样的所有段落连接在一起，并在每个段落之前添加具有学习嵌入的段落分隔符标记；

（3） No-Answer选项

允许模型为每个段落选择一个特殊的无应答选项；

这里重新改写了目标函数。

sj，gj：模型为标记j生成的起始和结束边界的分数

a, b：正确的开始和结束标记

最后通过在模型末尾添加一个额外的层来计算另一个得分z，首先通过获取用于预测由开始/结束概率加权的开始/结束标记分数的RNN的总和隐藏状态，并在自我关注层的输出上使用学习的关注向量来构建输入向量，最后将这些矢量送到具有80维隐藏层的两层网络和ReLU激活，结果z就是其唯一输出；

（4） Sigmoid

考虑具有S形损失目标函数的训练模型，通过将sigmoid函数应用于每个标记的开始/结束分数来计算每个标记的开始/结束概率，交叉熵损失用于每个单独的概率。

进一步的，供句子级别的支持推理线索（supporting fact），允许 QA 系统用强大的监督进行推理，并对预测结果进行解释；

进一步的，提供了新型模拟比较型问题，来测试 QA 系统提取相关线索、执行必要对比的能力。

与现有技术相比，本发明的有益效果是：当在多个段落中使用段落级QA模型时，Shared-Normalization始终优于其他方法。且其对非答案段落进行抽样的训练方法表现更为突出。结合段落选择的建议（对不包含答案的段落，也要作为额外的训练点进行抽样），使用求和的训练目标和模型设计，可以推进TriviaQA的最新技术发展，输入到阅读理解模型。最后预测答案的范围。在获得了预期的答案之后。将问题、答案和文档中的每个句子，输入到判别模型里面判断该句子是否支撑事实可以大幅度减少计算量，并且避免过多的无用句子引入噪声，导致正确率下降。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明放开域问答系统的段落级问答模型。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

现有特征中问答系统，需要选择一个段落并将其传递给段落级问答模型，其包含了获取原始问题、得到待选回答组、计算参考回答与待选回答组中各个待回答的相似度，输出最大相识度对应的待选回答。

本技术方案在现有技术的特征上提出了一种数据型问答系统，问答系统主要技术理论方法为流水线方法，所述数据型问答系统包含了：

输出问题答案基于多个支持文档；

待选回答组对应支持文档；

对比输出问题支持文档和待选回答组对应支撑文档；

供句子级别的支持推理线索（supporting fact），允许 QA 系统用强大的监督进行推理，并对预测结果进行解释。

提供了新型模拟比较型问题，来测试 QA 系统提取相关线索、执行必要对比的能力。

在流水线QA系统中，并给出对应的支撑事实，方便人的理解和判断问答系统主要技术理论方法为流水线方法，在流水线QA系统，需要选择一个段落并将其传递给段落级问答模型：段落选择

如果只有一个源文档，选择与问题具有最小“TF-IDF余弦距离”的段落。

如果有多个输入文档，使用一个相同TF-IDF分数的线性分类器，分类器在远程监督的目标上进行训练，该目标选择包含至少一个答案跨度的段落。

噪声标签处理

在远程监督的设置中，将匹配答案文本的所有文本范围标记为正确。并使用总和目标函数（summed objective function），来优化选择任何正确答案范围的负对数似然，一次降低选择非必要答案范围的概率。此外，通过模型对每个可能出现的答案范围，做范围跨度的开始与结束标签

其核心部分主要为

i，j ：答案范围内的单词和问题里的单词；

hi，qj：段落单词i的词向量和问题单词j的词向量；

nq，nc：问题的长度和答案范围的上下文长度；

w1、w2和w3：学习向量，是元素乘法；

ci：为每个上下文标签（开始/结束）计算的参与向量；

qc：上下文查询向量；

；

进一步的，还包含置信度模型

（1） Shared-Normalization

（2）合并

（3） No-Answer选项

允许模型为每个段落选择一个特殊的无应答选项；

这里重新改写了目标函数。

sj，gj：模型为标记j生成的起始和结束边界的分数

a, b：正确的开始和结束标记

（4） Sigmoid

实施例，本文选取了4个数据集：

· 未过滤的TriviaQA，来自琐事数据库的问题数据集，通过完成问题的web搜索找到的文档配对;

· TriviaQA wiki，相同的数据集，但仅包括维基百科的文章;

· TriviaQA web，源自TriviaQA的未过滤数据集，通过将文档中包含问题答案的每个问题文档对作为单独的训练点来处理。

· SQuAD，维基百科文章和众包问题的集合。

预处理

对于TriviaQA web而言，它的文档通常包含许多小段落，因此作者通过将连续段落合并到目标大小来重构了文档，并通过在合并的段落之间添加具有学习嵌入的段落分隔符，来保留格式信息。其中最大段落的大小设置为400。

抽样选取段落

· 对于SQUAD和TriviaQA web数据集，从每个时期的四个时期中抽取2个不同的段落进行训练，对包含答案的排名最高的段落进行抽样，其频率是其他段落的两倍。

· 对于TriviaQA wiki数据集，重复这个过程，但使用前8个段落。

· 对于未过滤的TriviaQA数据集，使用前16个段落。

其中，在使用方法1（Shared-Normalization）和方法2（合并）进行置信度模型训练时，还要求至少有一个段落包含答案范围，并且这两个段落都包含在同一批中。

模型训练与测试

使用Adadelta优化器进行模型训练。

· 对于SQUAD，设置训练时的批处理大小45，答案区间的跨度大小为17，GRU维度为100维，每个Attention机制的线性层大小为200维。

· 对于TriviaQA，设置训练时的批处理大小60，答案区间的跨度大小小于等于8，GRU维度为140维，每个Attention机制的线性层大小为280维。（这是因为TriviaQA数据集的数据量更大）

此外，在训练期间，权重的指数移动平均值，衰减率保持为0.999。测试时使用权重平均值。且训练期间不会对单词向量进行更新。最后，我们将我们的模型与web搜索后端结合起来，构建了一个端到端的QA系统演示，系统显示它在TREC问答任务中的问题上表现良好。

在多个段落中使用段落级QA模型时，Shared-Normalization始终优于其他方法。且其对非答案段落进行抽样的训练方法表现更为突出。结合段落选择的建议（对不包含答案的段落，也要作为额外的训练点进行抽样），使用求和的训练目标和模型设计，可以推进TriviaQA的最新技术发展，输入到阅读理解模型。最后预测答案的范围。在获得了预期的答案之后。将问题、答案和文档中的每个句子，输入到判别模型里面判断该句子是否支撑事实。

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据型问答系统，问答系统主要技术理论方法为流水线方法，在流水线QA系统，需要选择一个段落并将其传递给段落级问答模型，其包含了获取原始问题、得到待选回答组、计算参考回答与待选回答组中各个待回答的相似度，输出最大相识度对应的待选回答，其特征在于：所述数据型问答系统包含了：

输出问题答案基于多个支持文档；

待选回答组对应支持文档；

对比输出问题支持文档和待选回答组对应支撑文档；

2.根据权利要求1所述数据型问答系统，其特征在于：段落级问答模型其核心部分主要为

i，j ：答案范围内的单词和问题里的单词；

hi，qj：段落单词i的词向量和问题单词j的词向量；

nq，nc：问题的长度和答案范围的上下文长度；

w1、w2和w3：学习向量，是元素乘法；

ci：为每个上下文标签（开始/结束）计算的参与向量；

qc：上下文查询向量；

；

E. Prediction：在模型的最后一层，应用了双向GRU，然后通过线性层计算出每个开始标记的答案分数，

将隐藏状态与输入相结合，再通过另一个双向GRU和线性层计算出每个结束标记的答案分数，这里应用到了softmax函数，来计算开始或结束的概率。

3.根据权利要求2所述的一种数据型问答系统，其特征在于，还包含置信度模型：

（1） Shared-Normalization

（2）合并

（3） No-Answer选项

允许模型为每个段落选择一个特殊的无应答选项；

这里重新改写了目标函数，

sj，gj：模型为标记j生成的起始和结束边界的分数

a, b：正确的开始和结束标记

（4） Sigmoid

4.根据权利要求1或3所述数据型问答系统，其特征在于：供句子级别的支持推理线索，允许 QA 系统用强大的监督进行推理，并对预测结果进行解释。

5.根据权利要求4所述数据型问答系统，其特征在于：提供了新型模拟比较型问题，来测试 QA 系统提取相关线索、执行必要对比的能力。