CN111552781B

CN111552781B - 一种联合机器检索阅读的方法

Info

Publication number: CN111552781B
Application number: CN202010356269.9A
Authority: CN
Inventors: 蔡世清; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2021-03-02
Anticipated expiration: 2040-04-29
Also published as: CN111552781A

Abstract

本发明公开了一种联合机器检索阅读的方法，其特征在于，以BERT为基线模型，使用多任务学习兼并检索和阅读两个子任务，具体包括，步骤一：数据样本预处理，步骤二：训练第一阶段BERT模型，步骤三：训练第二阶段BERT模型，步骤四：应用第一、第二阶段BERT模型，能够将抽取式问答任务的检索和阅读两个子任务集成到一个框架中，能够适用于多篇章、长篇章的大范围篇章检索场景，使用最先进的BERT语言模型完成所有的学习任务，达到在大范围的篇章检索阅读场景下具备非常高的准确率的效果。

Description

一种联合机器检索阅读的方法

技术领域

本发明涉及智能问答、自然语言处理领域，特别是涉及一种联合机器检索阅读的方法。

背景技术

篇章抽取式问答是智能问答的其中一种，任务形式为根据用户提出的一个问题，在相关的篇章中抽取出一个子片段作为答案。与其他的问答任务不同，篇章抽取式问答不要求知识库具有一定的结构，而是直接在自然文本形式的文档集合中检索答案，这大大降低了知识库构建成本。然而这种形式的问答需要将问题和相关的篇章段落同时输入模型，即需要先用传统检索方法从海量文档中筛选出最相关的一批文档，再将这些文档分别输入模型独立计算，根据结果分数做精排，对于文档数量较多、篇章长度较长的场景效果较差。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种联合机器检索阅读的方法。

为解决上述技术问题，本发明提供一种联合机器检索阅读的方法，其特征在于，以BERT为基线模型，使用多任务学习兼并检索和阅读两个子任务，具体包括如下步骤：

步骤一：数据样本预处理，输入数据样本为一对二元组，所述二元组包括问题Q、篇章C，利用分段算法将篇章C做分段截断处理，得到子篇章集{c_i}；

步骤二：训练第一阶段BERT模型，具体为，将预处理好的子篇章集{c_i}与对应的问题Q送入第一阶段BERT模型，优化检索任务与阅读任务，利用第一阶段BERT模型对子篇章集{c_i}做出粗筛，得到粗筛后的候选篇章集；

步骤三：训练第二阶段BERT模型，具体为，将候选篇章集与问题Q输入第二阶段BERT模型做训练，以训练第一阶段BERT模型同样的形式训练第二阶段BERT模型；

步骤四：应用第一、第二阶段BERT模型，具体为，将训练好的第一、第二阶段BERT模型用于应用当中，把问题和篇章输入第一阶段BERT模型做粗筛，将粗筛的候选篇章集与问题输入第二阶段BERT模型进行检索和阅读，最后返回答案。

所述步骤一中，所述利用分段算法将数据样本做分段截断处理，具体包括如下步骤：

步骤1：使用标点符号分隔符将篇章分割为句子序列{Sent1,Sent2,…,SentN}；

步骤2：以输入长度最大为512作为限制条件，在所述限制条件下，挑选出所有候选子篇章集；

步骤3：将步骤2得到的候选子篇章集{Para1,Para2,…,ParaM}组织成有向无环图DAG(V,E)，其中V为所有的子段落构成的节点集合，E为边的集合，两个子段落节点之间具有交叉则构成一条边，边的权重为两个子段落之间的L2范式交叉度：

其中c_ij为第i和第j个子段落的交叉长度；

步骤4：使用动态规划优化分段方案，目标函数为：

递归地定义子问题：F(i,j)＝F(i,j-1)+w_j-1,j，其中F(i,j)表示从第i个节点到第j个节点的最优方案，则F(1,M)表示从起始节点到最终节点的最优方案，使用动态规划求解F(1,M)得到子篇章集{c_j}，所述子篇章集{c_j}是{Para1,Para2,…,ParaM}的一个子集。

所述步骤二中，使用多任务学习合并检索任务与阅读任务，强化第一阶段BERT模型对上下文信息和答案的特征的提取，将问题与篇章拼接，利用第一阶段BERT模型的多头注意力机制融合问题与篇章的信息，所述检索任务设置为二分类检索网络，用于判断段落中是否存在问题对应的答案，具体为，用BERT模型的[CLS]向量作为问题与篇章的融合特征向量，传入二分类检索网络，使用sigmoid函数作为判断问题的答案是否存在于篇章的二元逻辑函数；所述阅读任务使用指针网络预测答案片段的首和尾的位置，设置检索任务和阅读任务的损失权重作为超参数，用以调和多任务并行学习，根据两个任务的熵将损失权重设置为{log(2),log(L)}，其中L为篇章的平均长度，得到综合损失函数用以优化第一阶段BERT模型。

所述步骤四中，将问题与所有篇章都输入第一阶段BERT模型中，通过检索任务和阅读任务得到多个候选篇章的答案以及对应分数，根据答案的分数做粗排序，动态截取排名靠前的候选答案所在候选篇章，将其输入第二阶段BERT做检索和阅读，得到最终的答案，检索和阅读分数的融合公式如下：

其中w_ans与w_nsp分别表示指针子网络与二分类检索网络的分数权重，P_ans和P_nsp分别表示指针子网络与二分类检索网络的输出分数，P表示融合后的答案分数。

所述动态截取排名靠前的候选答案所在候选篇章，具体为，候选篇章的选择采用top_k和top_p双策略动态截取，top_k为候选文档最大数量，top_p为候选文档的最大累积概率分数，当前top_k个文档的累积分数大于top_p时，按照累积概率<＝top_p截取候选段落，而当前top_k个文档的累积分数小于top_p时，则截取top_k个候选文档。双策略动态截取算法可以根据第一阶段相关文档分数的分布自适应地选择top数量，提升整体检索效率。

本发明所达到的有益效果:输入一个问题和多个相关的篇章文档，并且不限定篇章的长度，可以给所有篇章中的所有子篇章区域打分，得到可靠性较高的少数子篇章，并阅读和理解段落语义，最终精确定位答案。

附图说明

图1为本发明的示例性实施例的方法流程示意图；

图2为本发明的示例性实施例中分段算法示意图；

图3为本发明的示例性实施例中检索阅读的模型结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示的一种联合机器检索阅读的方法，其特征在于，以BERT为基线模型，使用多任务学习兼并检索和阅读两个子任务，具体包括如下步骤：

步骤一：数据样本预处理，具体为，利用分段算法将输入篇章做分段截断处理；在保证最小化答案截断风险的前提下减小问题规模；具体包括如下步骤：

步骤2：以输入长度最大为512作为限制条件，在所述限制条件下，挑选出所有候选子篇章，即每个候选的子篇章的长度达到临界值，加入相邻句子便会超出最大长度限制，从而保证所有候选子篇章满足长度限制的同时具有充足的上下文信息，减少答案信息丢失的风险。由于模型能够处理的文本长度有限，对于大篇幅文档传统的方式是按照最大长度进行截断，但是这样的方式可能会导致答案被截掉，所以需要分段然后对每一段分别处理。然而，具体分成几段、分割点怎么选择却面临庞大的搜索空间，需要满足两个约束：一是每个子篇章要尽量长，越长的子篇章要比越短的子篇章具有更充分的上下文，然而又不能超过模型所能处理的最大长度，所以要保证每个候选子篇章的选择刚好不超过最大长度限制，即采用贪婪扩充的方式获得每一个候选子篇章；二是要保证分段后的所有子篇章能够完整覆盖原文，即搜索过程中每一步后续子篇章在前一子篇章的相连节点做选择。优化目标是使得分段后的总体冗余度最小并且冗余均衡，所以这是一个复杂约束条件下的组合优化问题，特别是在机器阅读理解领域首次提出。

步骤3：将步骤2得到的子篇章序列{Para1,Para2,…,ParaM}组织成有向无环图DAG(V,E)，其中V为所有的子段落构成的节点集合，E为边的集合，两个子篇章节点之间具有交叉则构成一条边，边的权重为两个子篇章之间的L2范式交叉度：

其中c_ij为第i和第j个子段落的交叉长度；利用L2范式的度量方式，即可以约束总体冗余度大小，又能控制不同子篇章之间的交叉均衡，降低丢失答案信息的风险，

步骤4：使用动态规划优化分段方案，目标函数为：

递归地定义子问题：F(i,j)＝F(i,j-1)+w_j-1,j，其中F(i,j)表示从第i个节点到第j个节点的最优方案，则F(1,M)表示从起始节点到最终节点的最优方案，使用动态规划求解F(1,M)。

步骤二：训练第一阶段BERT模型，具体为，将预处理好的子篇章集与对应问题送入第一阶段BERT模型，优化检索任务与阅读任务，使用多任务学习合并检索任务与阅读任务，强化第一阶段BERT模型对上下文信息和答案的特征的提取，将问题与篇章拼接，利用第一阶段BERT模型的多头注意力机制融合问题与答案，所述检索任务设置为二分类检索网络，用于判断篇章中是否存在问题对应的答案，具体为，用BERT模型的[CLS]向量作为问题与篇章的融合特征向量，传入二分类检索网络，使用sigmoid函数作为判断问题的答案是否存在于篇章的二元逻辑函数；所述阅读任务使用指针网络预测答案片段的首和尾的位置，设置检索任务和阅读任务的损失权重作为超参数，用以调和多任务并行学习，根据两个任务的熵将损失权重设置为{log(2),log(L)}，其中L为段落的平均长度，得到综合损失函数用以优化第一阶段BERT模型。利用第一阶段BERT模型对数据样本做出粗筛，得到粗筛后的候选篇章集。

步骤三：训练第二阶段BERT模型，具体为，将粗筛后的候选篇章集与对应问题输入第二阶段BERT模型做训练，以训练第一阶段BERT模型同样的形式训练第二阶段BERT模型；第一阶段检索范围大，正负样本比例失衡，第二阶段的输入数据为第一阶段过滤之后的，具有更少的负样本和较小的检索范围，即第二阶段模型在第一阶段筛选的候选篇章集中精确定位问题答案。

步骤四：应用第一、第二阶段BERT模型，具体为，将训练好的第一、第二阶段BERT模型用于应用当中，把问题和预处理后的子篇章集输入第一阶段BERT模型做粗筛，将粗筛的候选篇章集合对应问题作为数据样本输入第二阶段BERT模型进行检索和阅读，最后返回答案，更具体为：

将问题与所有子篇章集都输入第一阶段BERT模型中，通过检索任务和阅读任务得到多个候选篇章中的候选答案以及对应分数，根据答案的分数做粗排序，动态截取排名靠前的候选答案所在候选篇章，将其输入第二阶段BERT做检索和阅读，得到最终的答案，检索和阅读分数的融合公式如下：

其中w_ans与w_nsp分别表示指针子网络与二分类检索网络的分数权重，P_ans和P_nsp分别表示指针子网络与二分类检索网络的输出分数，P表示融合后的答案分数。对数变换是对融合概率做平滑处理，当两个分数不一致时会产生明显的惩罚。

候选篇章的选择采用top_k和top_p双策略动态截取，top_k为候选文档最大数量，top_p为候选文档的最大累积概率分数，当前top_k个文档的累积分数大于top_p时，按照累积概率<＝top_p截取候选段落，而当前top_k个文档的累积分数小于top_p(即累积概率到达top_p时的文档数量大于top_k)时，则截取top_k个候选文档。双策略动态截取算法可以根据第一阶段相关文档分数的分布自适应地选择top数量，提升整体检索效率。

如图2所示的一种基于动态规划算法的分段方案的实施例，包括：

将篇章按照标点符号切割为多个句子{Sent1,Sent2,…,SentN}。

以每个句子为起点，分别向后选择满足最大长度限制条件的候选子篇章集，如图所示{Sent1,Sent2,Sent3}作为第一个子段落Para1，若加入Sent4则Para1长度超过最大限制，接着{Sent2,Sent3,Sent4}作为第二个子段落，以这样的方式得到M个候选子篇章{Para1,Para2,...,ParaM}。

将子篇章作为节点，组织成有向无环图，具有交叉的的子篇章之间构成有向边，例如Para1和Para2之间有公共的Sent1、Sent2，所以(Para1,Para2)构成一条边，边权重为Sent1、Sent2的总长度，依次构造出整个有向无环图。

用动态规划求解一条从Para1(初始节点)到ParaM(最终节点)的最短路径，路径上的节点作为截断后的子篇章。

该方法基于L2范式的度量方式，可以快速优化分段方案，得到冗余性最小、且分割最为均匀的方案，尽量避免答案丢失或者落在子篇章边缘上，从而保留更多的上下文信息。

如图3所示，本发明公开一种基于BERT的检索、阅读联合学习模型，包括BERT基础子网络、二分类检索子网络、指针子网络。

所述BERT基础子网络，用于对答案和篇章的词语做语义编码，得到每个词的向量：将问题句子分词得到词语{Tok₁,Tok₂,...,Tok_N}，将篇章句子分词得到{Tok₁’,Tok₂’,...,Tok_M’}，并且添加辅助词[cls]用于获得全局表示，经过Embedding层和多层注意力层得到每个词对应的上下文向量表示，其中向量C对应于[cls]，表示整个样本的全局向量，篇章的M个词语的向量表示为{T₁’,T₂’,...,T_M’}。

所述二分类检索子网络，用于在全局表示向量C上添加二分类网络，得到检索概率输出。

所述指针子网络，用于在篇章词语的向量{T₁’,T₂’,...,T_M’}表示上指示出最高概率的起始词语和结束词语，从而抽取出答案片段。

该方法可以将检索和阅读两个任务集成到一个模型中，并通过调节不同任务的损失权重来调和多任务学习过程，大大增加了模型的紧凑性。

本发明公开一种针对大范围检索的两阶段检索阅读方法，两阶段的BERT模型具有相同的结构，训练第一阶段BERT1时将所有的训练集样本经过均衡采样后输入模型，而训练第二阶段BERT2时使用第一阶段BERT1对训练集过滤，在过滤后的数据集上做均衡采样后输入模型。在测试阶段用同样的方式先对测试集做过滤然后输入第二阶段BERT2模型。

该方法有效地解决了检索范围太大、负样本太多的问题，并且具备很高的扩展性，如果面对超大规模的检索范围可以继续增加第三、第四阶段模型，逐级筛选。

本发明主要用于提供一种联合机器检索阅读的方法及系统，该方法能够将抽取式问答任务的检索和阅读两个子任务集成到一个框架中，能够适用于多篇章、长篇章的大范围篇章检索场景，使用最先进的BERT语言模型完成所有的学习任务，在大范围的篇章检索阅读场景下具备非常高的准确率。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种联合机器检索阅读的方法，其特征在于，以BERT为基线模型，使用多任务学习兼并检索和阅读两个子任务，具体包括如下步骤：

2.如权利要求1所述的一种联合机器检索阅读的方法，其特征在于：所述步骤一中，所述利用分段算法将数据样本做分段截断处理，具体包括如下步骤：

步骤3：将步骤2得到的候选子篇章集{Para1,Para2,…,ParaM}组织成有向无环图DAG(V,E)，其中V为所有的子篇章构成的节点集合，E为边的集合，两个子篇章节点之间具有交叉则构成一条边，边的权重为两个子篇章之间的L2范式交叉度：

其中c_ij为第i和第j个子篇章的交叉长度；

步骤4：使用动态规划优化分段方案，目标函数为：

3.如权利要求2所述的一种联合机器检索阅读的方法，其特征在于：所述步骤二中，使用多任务学习合并检索任务与阅读任务，强化第一阶段BERT模型对上下文信息和答案的特征的提取，将问题与篇章拼接，利用第一阶段BERT模型的多头注意力机制融合问题与篇章的信息，所述检索任务设置为二分类检索网络，用于判断段落中是否存在问题对应的答案，具体为，用BERT模型的[CLS]向量作为问题与篇章的融合特征向量，传入二分类检索网络，使用sigmoid函数作为判断问题的答案是否存在于篇章的二元逻辑函数；所述阅读任务使用指针网络预测答案片段的首和尾的位置，设置检索任务和阅读任务的损失权重作为超参数，用以调和多任务并行学习，根据两个任务的熵将损失权重设置为{log(2),log(L)}，其中L为篇章的平均长度，得到综合损失函数用以优化第一阶段BERT模型。

4.如权利要求3所述的一种联合机器检索阅读的方法，其特征在于：所述步骤四中，将问题与所有篇章都输入第一阶段BERT模型中，通过检索任务和阅读任务得到多个候选篇章的答案以及对应分数，根据答案的分数做粗排序，动态截取排名靠前的候选答案所在候选篇章，将其输入第二阶段BERT做检索和阅读，得到最终的答案，检索和阅读分数的融合公式如下：

5.如权利要求4所述的一种联合机器检索阅读的方法，其特征在于：所述动态截取排名靠前的候选答案所在候选篇章，具体为，候选篇章的选择采用top_k和top_p双策略动态截取，top_k为候选文档最大数量，top_p为候选文档的最大累积概率分数，当前top_k个文档的累积分数大于top_p时，按照累积概率<＝top_p截取候选段落，而当前top_k个文档的累积分数小于top_p时，则截取top_k个候选文档。