CN111460092A

CN111460092A - 一种基于多文档的复杂问题自动化求解方法

Info

Publication number: CN111460092A
Application number: CN202010165743.XA
Authority: CN
Inventors: 徐建; 吴蔚; 李晓冬; 王鑫鹏; 徐琳; 阮国庆; 王羽
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-28
Anticipated expiration: 2040-03-11
Also published as: CN111460092B

Abstract

本发明提供了一种基于多文档的复杂问题自动化求解方法，本发明采用阅读理解加答案排序的策略，并针对带有推理过程的复杂问题引入桥接实体，有效的求解了复杂问题。针对多文档的机器阅读理解技术，首先拆分文档为段落，然后针对每个段落利用阅读理解模型预测出答案，有效的提高了答案的召回率；然后对于多个候选答案利用排序模型进行排序，选择出最有可能的答案；对于带有推理过程的问题首先预测出桥接实体，然后将桥接实体拼接到原始问题之后，有效的解决了推理问题的歧义性。经过以上三个步骤，本发明能够实现针对基于多文档的复杂问题求解。

Description

一种基于多文档的复杂问题自动化求解方法

技术领域

本发明涉及一种基于多文档的复杂问题自动化求解方法。

背景技术

让机器完成阅读理解与问答是当前AI界前沿的一个火热主题，主要涉及到深度学习、自然语言处理和信息检索。机器阅读理解无论是在工业界还是学术界都有着很高的研究价值，它能够让计算机帮助人类在大量文本中找到想要的答案，从而减轻人们对信息的获取的成本。也许，未来的搜索引擎将不仅仅是返回用户相关的链接和网页，而是通过对互联网上的海量资源进行阅读理解，直接得出答案返回给用户。

目前，基于单文档的阅读理解技术比较成熟，但是单文档的阅读理解并不符合实际需求，主要体现在两点：首先给定一个问题答案往往是分布在多个文章，这就要考虑多文档的阅读理解技术；其次问题往往带有推理过程，不会是很简单的完型填空问题。

发明内容

发明目的：本发明所要解决的技术问题是为克服现有的单文档阅读理解模型不符合实际需求的缺陷，提供一种基于多文档的复杂问题自动化求解方法，包括如下步骤：

步骤1，针对单个段落进行单文档阅读理解，每个段落都预测出一个答案；

步骤2，进行答案排序；

步骤3，针对给定的问题，求解出最终的答案。

步骤1包括：

步骤1-1，对文档划分段落：对文档断句然后遍历每个句子，判断加入当前句子后段落长度是否超过给定阈值(这里的阈值设置为400个字符长度)，如果超过将开始一个新的段落，否则将当前句子加入当前段落；

步骤1-2，对步骤1-1划分后的段落进行数据预处理，包括全半角转换和繁简体转换；

步骤1-3，将步骤1-2处理后的段落输入阅读理解模型，所述阅读理解模型为bert预训练模型，然后在bert编码后的隐藏层接两个指针网络，经过阅读理解模型每个段落预测出一个答案(参考论文：https://arxiv.org/pdf/1810.04805.pdf)。

步骤1-3中，将步骤1-2处理后的段落输入阅读理解模型，并引入一个辅助任务来预测文章中每一个词是否能成为答案，所述辅助任务为：对每一个字做二分类，如果该字在答案中，给该字打上标签为1，表示这个字是在答案中，否则打上标签为0，表示该字不在答案中。

现有的阅读理解模型可以给予正确的开始和结束位置较高的概率，并且对开始位置和结束位置之间的所有位置都分配较低的概率。为了给开始和结束位置中的词都赋值较大得分，引入了一个辅助任务来预测文章中每一个词是否能成为答案。通过这个辅助任务，模型不仅可以通过指针网络正确指出start和end的位置，还可以给中间连续的答案分配较高的选中概率。

步骤2包括：

步骤2-1，句对排序：利用bert预训练模型，将问题和答案所在的句子称为问题和答案的上下文，将问题和答案的上下文对应的文本对输入bert模型，经过bert编码以后提取[CLS]的向量表示，然后经过一个输出为1的全连接网络，得到网络输出1，作为问题和答案上下文之间相似度得分；预测的时候针对给定的问题和两个以上的答案，根据网络输出结果，选择出topK(一般取值为2)个概率最高的答案；

步骤2-2，预测答案个数：利用bert预训练模型判断问题的答案个数，并根据预测的答案个数在步骤2-1的结果中选择给定的答案集合，作为最后的结果。

步骤2-1中，在句对排序过程中，引入外部特征，即引入问题和答案上下文的BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分，将BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分拼接到网络输出1之后，经过输出为1的全连接网络得到融入外部特征的网络输出2，网络输出1和网络输出2分别经过两个交叉熵损失函数得到两个损失，来衡量问题和答案上下文的关联性，其中交叉熵函数Loss公式如下：

其中

是模型预测样本是正例的概率，y是样本标签，如果样本属于正例，取值为1，否则取值为0；

其中BM25相似度特征的计算方法如下：对问题和答案所在上下文分词，记问题Q中第i个单词为q_i，i取值为1～n，n为问题Q中单词总数；记答案所在上下文为D，首先计算q_i和D的相关性得分，然后将q_i相对于D的相关性得分进行加权求和，从而得到Q与D的相关性得分如下所示：

其中IDF(q_i)定义为查询中单词q_i的逆文档频率，具体公式如下，

其中N为语料库的全部文档数，n(q_i)为包含了q_i的文档数，根据IDF的定义可以看出，对于给定的文档集合，包含了q_i的文档数越多，q_i的权重则越低；k₁和b为调节因子，通常根据经验设置，一般k₁＝2，b＝0.75；f_i为q_i在d中的出现频率；dl为文档d的长度，avgdl为所有文档的平均长度；

所述单词重叠特征包括1-gram和2-gram特征(这里的n-gram是以单词为单位统计的连续n元单词)，1-gram是统计一个单词组成的子串，2-gram是统计连续两个单词组成的子串，计算方法如下：

对于问题和答案所在上下文通过jieba分词，将问题和答案的单词的交集个数除以问题中单词的个数，得到的结果作为一元重叠特征；计算问题和答案的单词的交集中单词的逆文档频率IDF得分总和，将总和除以问题中单词的IDF总合，得到的结果作为一元IDF特征；

分别统计问题和答案所在上下文的二元单词串，二元单词串是以单词为单位的2-gram，将问题的二元单词串集合和答案所在上下文的二元单词串集合的交集个数除以问题的2-gram个数，得到的结果作为二者的二元重叠特征；计算交集中2-gram的IDF得分总和，将总和除以问题中2-gram的IDF总和，得到的结果作为二元IDF特征。网络输出1和外部特征结合然后得到网络输出2，具体方法就是直接拼接在一起：比如网络输入一个问题和答案上下文，它们计算一个bm25得分、计算单词重叠个数(归一化一下除以最大值)；网络输出1是一个数；3者简单拼接在一起得到3个数，然后输入网络得到网络输出2，从而得到两个损失。实验发现引入损失2可以提升bert层的使用效率，提升实验结果。

步骤3中，引入基于最长公共子串的复杂问题拆解方法，实现多步求解，步骤3包括：针对需要多部推理的问题，首先需要问题拆解；然后对于简单问题利用阅读理解模型求出答案；并将答案替换掉原始问题，比如针对问题“2017年金球奖得主效力于哪个球队？”，假设有一篇文章谈到了“2017年金球奖得主是C罗”另一篇文章谈到了“2017年C罗效力于皇马。”这就需要对于问题拆解成“2017年金球奖得主是谁？”通过步骤2和3的阅读理解模型得到答案“C罗”，然后将这个答案替换掉原始问题中去，原始问题变成了“C罗效力于哪个球队？”。

步骤3-1，复杂问题拆解：这里需要针对复杂问题根据原始文章求出最长公共子串，组成简单问题，所述最长公共子串的定义是长度为m的字符串S以及长度为n的字符串T，求最长的子串x同时是S以及T的连续子串，引入动态规划求解该问题；比如这里就需要针对原始问题”2017年金球奖得主效力于哪个球队？”，利用原始文章找到文章最长子串为“2017年金球奖得主”，组成简单问题“2017年金球奖得主是谁”；

步骤3-2，预测桥接实体：针对步骤3-1得到的简单问题，采用步骤1-3中所述的阅读理解模型得到简单问题的答案；；

步骤3-3，根据步骤3-2得到的简单问题答案替换掉原始问题中的最长公共子串，组成替换后的问题，然后根据步骤1-3中的阅读理解模型，得到替换后的问题的答案。到此完成了带有推理过程的问题求解。

本发明的显著优点为：充分的考虑了针对复杂问题的多文档阅读理解的特点，设计了多个网络模型，有效的解决了这个问题，我们主要考虑如下3个特点：1)答案分布在多个文章，使用阅读+排序的策略有效的提高了答案的召回率；2)针对带有推理过程的复杂问题，引入了桥接实体完成对问题的改写，有效的解决了推理问题引入的歧义性；3)增加了对于答案个数的判别模块，可以判定给定的问题是否含有多答案。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明方法流程图。

具体实施方式

如图1所示，本发明提供了一种基于多文档的复杂问题自动化求解方法，具体包括如下步骤：

阶段1：阅读理解模块，该模块主要针对单个段落进行单文档阅读理解技术，主要包括文档划分段落和单文档阅读理解两个过程：

步骤(1)文档分段，由于文档长度过长，神经网络对于过长文本无法处理，首先需要对文档划分段落。首先对文档断句然后遍历每个句子，判断加入当前句子后段落长度是否超过给定阈值，如果超过将开始一个新的段落；否则将该句子加入当前段落；

步骤(2)对划分后的段落进行数据预处理，包括全半角转换，繁简体转换等过程；

步骤(3)将处理后的段落输入阅读理解模型，这里的阅读理解模型是利用现有的bert预训练模型，然后在bert编码后的隐藏层接两个指针网络，经过阅读理解模型以后每个段落预测出一个答案，因为一个问题有多个文档，每个文档对应多个段落，每个段落有一个答案，所以一个问题会预测出多个答案。到此为止完成阅读理解步骤；

阶段2：答案排序模块

阶段3：针对推理问题的问题改写模块

阶段2中，包括：

上一阶段中已知单个问题有多个答案，这里需要对答案进行排序：

步骤(4)句对排序：主要利用bert预训练模型，将问题和答案所在的句子这一个文本对输入bert,经过bert编码以后提取[CLS]的向量表示，然后经过一个输出为2的全连接网络，完成对文本对之间是否有关系的判别；预测的时候针对给定的问题和多个答案，选择出topK个概率最高的答案；

步骤(5)答案个数预测：因为给定的问题可能包含多个答案，所以需要预测答案个数：利用bert预训练模型判断问题的答案个数，并根据预测的答案个数在步骤4的结果中选择给定的答案集合，作为最后的结果。

阶段3中，包括：

步骤(6)预测桥接实体，针对包含推理过程的问题需要首先预测出桥接实体，桥接实体的预测也是当作普通的阅读理解来实现的，其过程也是重复阶段1和2，只是选择概率最高的作为桥接实体；

步骤(7)问题改写，实验发现，对于带有推理过程问题主要是引入了歧义性，将预测出的桥接实体拼接到问题后边可以有效的解决这一歧义性。所以针对上一个步骤预测出的桥接实体拼接到问题后边，然后重复阶段2和3便可完成带有推理过程的问题求解。利用本发明方法，将原始问题拆解成两个问题：比如“2017年金球奖得主效力于哪个球队？”首先根据问题和文章求出最长公共子串，得到最长公共子串“2017年金球奖得主”组成简单问题“2017年金球奖得主是谁”，经过阅读理解模型得到答案“c罗”；然后利用答案替换掉原始问题的最长公共子串”c罗效力于哪个球队”，然后经过阅读立即模型得到答案“皇马”，完成推理。

本发明提供了一种基于多文档的复杂问题自动化求解方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于多文档的复杂问题自动化求解方法，其特征在于，包括如下步骤：

步骤1，对文章分段，针对单个段落进行单文档阅读理解，每个段落都预测出一个答案；

步骤2，利用神经网络模型对答案所在句子排序，并根据问题预测答案个数，选择出topK个答案；

步骤3，针对需要多部推理的问题：问题拆解成两个子问题，首先求解出简单问题；然后将简单问题答案拼接在复杂问题之后，求解出最终的答案。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

步骤1-1，对文档划分段落：对文档断句然后遍历每个句子，判断加入当前句子后段落长度是否超过给定阈值，如果超过将开始一个新的段落，否则将当前句子加入当前段落；

步骤1-3，将步骤1-2处理后的段落输入阅读理解模型，所述阅读理解模型为bert预训练模型，然后将经过bert编码后的向量输出通过两个指针网络，经过阅读理解模型每个段落预测出一个答案。

3.根据权利要求2所述的方法，其特征在于，步骤1-3中，将步骤1-2处理后的段落输入阅读理解模型，并引入一个辅助任务来预测文章中每一个词是否能成为答案，所述辅助任务为：对每一个字做二分类，如果该字在答案中，给该字打上标签为1，表示这个字是在答案中，否则打上标签为0，表示该字不在答案中。

4.根据权利要求3所述的方法，其特征在于，步骤2包括：

步骤2-1，句对排序：利用bert预训练模型，将问题和答案所在的上下文，作为文本对输入bert模型，经过bert编码以后提取[CLS]的向量表示，然后经过一个输出为1的全连接网络，得到网络输出1，损失函数采用交叉熵；预测的时候针对给定的问题和两个以上的答案，根据网络输出结果，选择出topK个概率最高的答案作为最终答案；

5.根据权利要求4所述的方法，其特征在于，步骤2-1中，在句对排序过程中，引入外部特征，即引入问题和答案上下文的BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分，将BM25相似度特征、问题和答案的单词重叠特征和逆文档频率IDF得分拼接到网络输出1之后，经过输出为1的全连接网络得到融入外部特征的网络输出2，网络输出1和网络输出2分别经过两个交叉熵损失函数得到两个损失，来衡量问题和答案上下文的关联性，其中交叉熵函数Loss公式如下：

其中

其中N为语料库的全部文档数，n(q_i)为包含了q_i的文档数；k₁和b为调节因子；f_i为q_i在d中的出现频率；dl为文档d的长度，avgdl为所有文档的平均长度；

所述单词重叠特征包括1-gram和2-gram特征，1-gram是统计一个单词组成的子串，2-gram是统计连续两个单词组成的子串，计算方法如下：

分别统计问题和答案所在上下文的二元单词串，二元单词串是以单词为单位的2-gram，将问题的二元单词串集合和答案所在上下文的二元单词串集合的交集个数除以问题的2-gram个数，得到的结果作为二者的二元重叠特征；计算交集中2-gram的IDF得分总和，将总和除以问题中2-gram的IDF总和，得到的结果作为二元IDF特征。

6.根据权利要求5所述的方法，其特征在于，步骤3包括：

步骤3-1，复杂问题拆解：针对复杂问题根据原始文章求出最长公共子串，组成简单问题，所述最长公共子串的定义是长度为m的字符串S以及长度为n的字符串T，求最长的子串x同时是S以及T的连续子串；

步骤3-2，预测桥接实体：针对步骤3-1得到的简单问题，采用步骤1-3中所述的阅读理解模型得到简单问题的答案；

步骤3-3，根据步骤3-2得到的简单问题答案替换掉原始问题中的最长公共子串，组成替换后的问题，然后根据步骤1-3中的阅读理解模型，得到替换后的问题的答案。