CN113032541B

CN113032541B - 一种基于bert并融合句群检索的答案抽取方法

Info

Publication number: CN113032541B
Application number: CN202110361140.1A
Authority: CN
Inventors: 程燕; 朱江; 张振海
Original assignee: China Academic Journals Electronic Publishing House Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Current assignee: China Academic Journals Electronic Publishing House Co ltd; Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2023-05-12
Anticipated expiration: 2041-04-02
Also published as: CN113032541A

Abstract

本发明公开了一种基于bert并融合句群检索的答案抽取方法，包括：构建基于bert的答案抽取模型；基于生成的答案抽取模型，联合句群相似检索技术进行问题答案的抽取；具体包括：从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见，并进行相关度评分；根据评分高低排序，获取满足特定阈值评分的句群片段作为候选句群片段；将候选句群片段以及待回答问题输入基于bert的答案抽取模型，进行答案跨度预测；答案起始和结束位置，依据原文句群片段内容，计算具体的答案结果。

Description

一种基于bert并融合句群检索的答案抽取方法

技术领域

本发明涉及人工智能、自然语言处理技术领域，尤其涉及一种基于bert并融合句群相似检索的答案抽取方法。

背景技术

答案抽取是问答系统核心技术之一，也是一种抽取式阅读理解，其是自然语言处理、人工智能领域核心任务之一，近些年受到了广泛的关注和研究。抽取式阅读理解技术，即机器从大量文本中快速找到问题的准确答案，提升信息获取、知识获取的效率。

早期的问答系统答案抽取依赖手工规则或特性，特征通常非常稀疏，泛化能力弱，很难推广到更广的领域。近年来，随着深度学习技术的使用，抽取式阅读理解能力有了大幅提高，能够更好的实现语义表达。基于深度学习的答案抽取相比传统方法有了一定的进展，在简单事实类型问题的答案抽取上取得了较好的效果，但在非简单事实类型问题方面仍表现不佳，研究进展较慢，存在很大的提升空间，当前更多是学术界的研究。目前答案抽取仍面临以下问题：

(1)答案抽取准确性不高，实际应用效果差，适应性弱；

(2)缺乏大规模规范语料，语料标注成本高，尤其中文大规模训练数据缺失，领域迁移困难；

综上，抽取式阅读理解技术，面向问题的答案抽取，在实际应用中仍存在很多问题亟待解决，答案抽取效果不佳，领域迁移难。

发明内容

为解决上述技术问题，解决从结构化文本中提取定义、方法、原因、人物、时间、地点等类型问题的答案，并将其应用到具体的知识问答中，本发明的目的是提供一种基于bert并融合句群相似检索的答案抽取方法，由此解决答案抽取效果不佳问题，提升答案抽取准确性。

本发明的目的通过以下的技术方案来实现：

一种基于bert并融合句群相似检索的答案抽取方法，包括：

A构建基于bert的答案抽取模型；

B基于生成的答案抽取模型，联合句群相似检索技术进行问题答案的抽取；具体包括：

从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见，并进行相关度评分；

根据评分高低排序，获取满足特定阈值评分的句群片段作为候选句群片段；

将候选句群片段以及待回答问题输入基于bert的答案抽取模型，进行答案跨度预测；

答案起始和结束位置，依据原文句群片段内容，计算具体的答案结果。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

通过将整篇文档碎片化为句群片段，再通过浅层语义匹配打分排序，获取与问题最相关的候选句群片段，基于这样的数据处理，再利用基于bert微调(Pre-trained Model+Fine Tuning模式)的答案抽取模型进行答案推理预测，这种两者融合的方式，能够有效排除不包含答案的片段，减少无答案片段时的噪音，可有效提升答案抽取效果。通过实际评测，在中文答案抽取任务上表现较好，优于单一模型解决方案，领域迁移，适合长文档、短文档的问题答案抽取。

训练数据的短缺是最大的挑战之一，预训练使用更小的数据集对预训练模型进行微调，与使用大量数据集进行的传统训练方法相比，已有很大的改进。

附图说明

图1是本发明实施例提供的构建基于bert的答案抽取模型的流程图；

图2是本发明实施例提供的基于bert并融合句群相似检索的答案抽取方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

答案抽取任务：

答案抽取任务指的是给定一个问题Q和一个或多个文本片段P(P1，P2，P3，...Pn),找出问题答案A。机器阅读理解是给定一段文本Paragraph和问题Question，得到答案Answer。通常假定Answer就包含在原文中，因此机器阅读理解任务的目标就是得到一个span(start,end)，start表示Answer的开始字符在Paragraph中的位置，end表示Answer的结束字符在Paragraph中的位置。根据问题和对应的短文进行自然语言理解，依据文本预测问题答案。抽取式阅读理解任务的答案为出现在原文中的连续文字，答案必须是文本中的一个范围。机器阅读理解有几种模式，本发明讲的是抽取式阅读理解。不同类型的问题，答案类型也不同，一般情况下，有三种问题：简单的问题，可以用简单的事实回答，答案通常是实体，答案简短；稍微复杂的叙述问题，答案略长；复杂的问题，通常是关于观点或意见。

预训练模型应用在阅读理解任务上首先要解决长度限制。由于机器阅读理解任务很多篇章都会超过预训练模型的长度限制，如BERT模型单条最大处理文本长度为512字符，因此需要截断。当输入序列长度大于预训练模型单次能处理的最大文本长度时，设定一个滑动窗口，将输入序列分段，在第二段中保留滑动窗口大小的文本长度同时与上一段中保留一定的重叠，使各个窗口的信息不至于完全分开，在最终答案选择的时候，选择包含答案概率最大的片段中输出答案。

预训练模型应用于阅读理解任务的第二部就是任务微调。根据数据集的特点微调网络结构和网络参数，加快有监督任务上的训练速度，提高准确率。

答案抽取方法包括：

1)构建基于bert的答案抽取模型；具体包括如下：

步骤1：数据预处理，首先对问题和文本片段进行tokenization的处理，即将句子转为字符级的序列；之后将问题序列和文本序列相连接并以“[SEP]”分隔，并在序列的开头增加“[CLS]”，形成[CLS]问题[SEP]文本[SEP]，并在连接的序列后做padding处理。经过预处理后，输入问题+文本片段序列的长度大于BERT规定的最大序列长度时，将文本片段以一定的步长分割为若干段分别与问题连接，文本分割段与文本分割段之间有一定长度的重叠部分，为了保证分割后的文本尽可能不削减完整文本的语义。

步骤2：问题和文本同时进行编码。

问题编码，将问题中的每个单词qi的embedding应用一个编码网络，获得

通过attention层聚合这些隐变量到一个向量中。文本编码类似，把文本每个单词的embedding通过一个编码网络，获得

步骤3：问题编码与文本编码交互混合预测答案，进行训练调优。

有了片段P的表示

和问题q的表示

应用attention机制的想法，可以分别训练两个分类器，一个用来预测范围的开始位置，另一个用来预测结束位置；按公式：

计算预测答案，式中P^(start)表示开始位置概率，表示结束位置概率；模型训练中需要按公式：

L＝-∑log P^(start)(a_start)-∑log P^(end)(a_end)

计算最小化交叉熵损失，式中a_start表示训练数据标注的答案开始位置概率，a_end表示训练数据标注的答案结束位置概率。

2)基于生成的答案抽取模型，联合句群相似检索技术进行问题答案的抽取，包括以下步骤：

步骤1：从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见，并进行相关度评分，这里融合了信息检索技术和浅层语义分析技术；

步骤2：根据评分高低排序，获取满足特定阈值评分的句群片段作为候选句群片段，作为数据预处理，能够进一步提升答案准确率，避免基于bert的答案抽取模型的不足；

步骤3：将候选句群片段以及待回答问题输入基于bert的答案抽取模型，进行答案跨度预测：

同训练数据一样，待预测的问题+文本输入到模型后得到的输出为每个token为答案开头或者答案结尾的logits值，对数据进行后处理便可得到预测的答案，其本质为确定答案片段在文本中开头和结尾的位置。后处理过程其主要逻辑是选择位置合理(startposition和end position要在文本所在范围，且前者位置要在后者之前等)，以及开头和结尾的logits之和尽可能大的结果。此外模型支持“no answer”的预测，即判断证据中不存在问题答案。如果最优预测结果的start和end都指向序列的开头，即“【CLS】“，则可判断为”noanswer“。但为了调节模型预测”no answer“的能力，我们提供一个超参数"null_score_diff_threshold"，只有“no answer”对应的score(logits之和)与最优的非“no answer”对应score的差值大于该threshold，模型才判断为“no answer”。该值可以由用户自行调节，在预测阶段进行设置。

步骤4：计算答案内容，根据上述步骤获取的最优答案起始和结束位置，依据原文句群片段内容，计算具体的答案结果。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。