CN111949769A

CN111949769A - 一种增强阅读理解系统鲁棒性的方法及装置

Info

Publication number: CN111949769A
Application number: CN202010853263.2A
Authority: CN
Inventors: 丘德来
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-08-23
Filing date: 2020-08-23
Publication date: 2020-11-17
Anticipated expiration: 2040-08-23
Also published as: CN111949769B

Abstract

本发明提供了一种增强阅读理解MRC系统鲁棒性方法及装置，该方法包括：基于训练集，通过问句检索改写的相似问句及二分类器，生成过敏感增强集；其中，训练集为n个样本的集合，样本为包括篇章、对应问题及参考答案的三元组形式；基于训练集，通过检索篇章中和参考答案相关的干扰项，生成过稳定增强集；将训练集、过敏感增强集和过稳定增强集合并为新的训练集；基于新的训练集训练具有鲁棒性的MRC模型。通过数据增强的方式，分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题，因为过敏感增强数据通过引入高质量的问句改写样本，过稳定性增强数据通过引入对抗性样本，所以能够一定程度上增强模型的鲁棒性。

Description

一种增强阅读理解系统鲁棒性的方法及装置

技术领域

本发明书一个或多个实施例涉及自然语言处理技术领域，尤其涉及一种增强阅读理解系统鲁棒性的方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

机器阅读理解(Machine Reading Comprehension，MRC)主要是指让机器阅读文本，然后回答和阅读文本相关的问题的技术。

现有的MRC系统主要由以下步骤构成：首先对给定篇章和相应问题进行标注，标注篇章中的一个片段作为答案；然后构建神经网络模型，输入篇章和问题，回答出正确答案片段。

但现有的阅读理解系统鲁棒性不足，具体来说有(1)存在过敏感的问题，一旦问题有改动，模型则会预测错误；(2)存在过稳定问题，模型倾向从和问句相似的篇章段落中抽取答案，导致回答错误。

发明内容

有鉴于此，本说明书一个或多个实施例描述了一种增强阅读理解系统鲁棒性的方法及装置，通过数据增强的方式，可解决现有技术中阅读理解系统鲁棒性不足的问题。

本说明书一个或多个实施例提供的技术方案如下：

为解决上述问题，第一方面，本发明提供了一种增强阅读理解MRC系统鲁棒性的方法，所述方法包括：

基于训练集，通过问句检索改写的相似问句及二分类器，生成过敏感增强集；其中，所述训练集为n个样本的集合，所述样本为包括篇章、对应问题及参考答案的三元组形式；

基于训练集，通过检索篇章中和参考答案相关的干扰项，生成过稳定增强集；

将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集；

基于所述新的训练集训练具有鲁棒性的MRC模型。

在一种可能的实现方式中，，所述基于训练集，通过问句检索改写的相似问句及二分类器，生成过敏感增强集，具体为：

使用搜索引擎返回问题集；所述问题集为与所述对应问题相关问题的集合；

基于外部句子相似度匹配训练集训练一个二分类器；

利用所述问题集中的问句和所述对应问题作为二分类器的输入，生成过敏感增强集。

在一种可能的实现方式中，所述利用所述问题集中的问句和所述对应问题作为二分类器的输入，生成过敏感增强集，具体为：

利用所述问题集中的问句和所述对应问题作为二分类器的输入：

score_i＝f(q,q′_i)

其中，score_i为q和第i个相似问题之间的相似度得分；f为二分类器；q为对应问题；q′_i为和q_i相关的一个问题；

当score_i大于预设的阈值时，{p,q′_i,a}则加入到过敏感集中，生成过敏感增强集；其中，p为篇章，q为对应问题，a为参考答案。

在一种可能的实现方式中，所述阈值为二分类器返回的得分最大值和最小值的平均值。

在一种可能的实现方式中，所述基于训练集，通过检索篇章中和参考答案相关的干扰项，生成过稳定增强集，具体为：

使用命名实体识别，从篇章中抽取与所述参考答案实体类型相同的实体，加入干扰项集；

从所述干扰项集中选取一个干扰项，生成对抗样本；

基于所述训练集和所述对抗样本，生成过稳定增强集。

在一种可能的实现方式中，所述从所述干扰项集中选取一个干扰项，生成对抗样本，具体为：

将干扰项拼接在问句后；或

将干扰项拼接在问句后，随即打乱句子的词序。

在一种可能的实现方式中，所述基于所述训练集和所述对抗样本，生成过稳定增强集，具体为：

基于所述训练集训练一个MRC模型，当m({p,q′,a})！＝a时，将对抗样本加入到过稳定集中，生成过稳定增强集；其中，m代表MRC模型，{p,q′,a}为样本抗体。

第二方面，本发明提供了一种增强阅读理解MRC系统鲁棒性的装置，所述装置包括：

过敏感增强集模块，配置为基于训练集，通过问句检索改写的相似问句及二分类器，生成过敏感增强集；其中，所述训练集为n个样本的集合，所述样本为包括篇章、对应问题及参考答案的三元组形式；

过稳定增强集模块，配置为基于训练集，通过检索篇章中和参考答案相关的干扰项，生成过稳定增强集；

新训练集模块，配置为将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集；

MRC模型模块，配置为基于所述新的训练集训练具有鲁棒性的MRC模型。

第三方面，本发明提供了一种增强阅读理解MRC系统鲁棒性的系统，所述系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如第一方面中一个或多个所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如第三方面所述的系统执行，以实现如第一方面中一个或多个所述的方法。

本发明实施例提供过的方法通过数据增强的方式，分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题，因为过敏感增强数据通过引入高质量的问句改写样本，过稳定性增强数据通过引入对抗性样本，所以能够一定程度上增强模型的鲁棒性。

附图说明

图1为本发明实施例提供的增强阅读理解MRC系统鲁棒性的方法流程示意图；

图2为本发明实施例提供的生成过敏感增强集的流程示意图；

图3为本发明实施例提供的生成过稳定增强集的流程示意图；

图4本发明实施例提供的增强阅读理解MRC系统鲁棒性的装置结构示意图；

图5为本发明实施例提供的增强阅读理解MRC系统鲁棒性系统结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供了一种用于解决阅读理解系统过敏感和过稳定的数据增强方法。对于过敏感问题，通过问句检索改写的相似问句，再通过一个二分类器生成过敏感相关的增强数据集；对于过稳定问题，通过检索篇章中和答案相关的干扰项，生成具有对抗性的增强数据集。定义训练集为D＝{d₁,d₂,…d_n}，其中d_i＝{p,q,a}为第i个样本，p为篇章，q为对应问题，a为参考答案。

具体的，图1是本发明实施例提供的增强阅读理解MRC系统鲁棒性的方法流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图1所示，所述方法具体包括以下步骤：

步骤10，基于训练集，通过问句检索改写的相似问句及二分类器，生成过敏感增强集；其中，所述训练集为n个样本的集合，所述样本为包括p、q及a的三元组形式。

具体的，图2为发明实施例提供的生成过敏感增强集的流程示意图，如图2所示，生成过敏感增强集的过程如下：

步骤101，使用搜索引擎返回问题集；所述问题集为与所述对应问题相关问题的集合，具体为问题集为Q＝{q′₁,q′₂,…q′_m}，其中，q′_i为和q_i相关的一个问题，m为相关问题的个数。

步骤102，基于外部句子相似度匹配训练集训练一个二分类器。

步骤103，利用所述问题集中的问句和所述对应问题作为二分类器的输入，生成过敏感增强集D_sensitivity。

具体的，利用所述问题集中的问句和所述对应问题作为二分类器的输入：

score_i＝f(q,q′_i)

当score_i大于预设的阈值时，{p,q′_i,a}则加入到过敏感集，生成过敏感增强集D_sensitivity；其中，p为篇章，q为对应问题，a为参考答案。

在此需要说明的是，由于二分类器返回的是一个连续的概率值，也就是得分，所以需要设置一个阈值将q′_i划分到是相似的还是不是相似的两个类别之一，该阈值一般设为概率最大值和最小值的平均数，即阈值为二分类器返回的得分最大值和最小值的平均值，为0.5。

步骤20，基于训练集，通过检索篇章中和参考答案相关的干扰项，生成过稳定增强集D_stability。

具体的，图3为本发明实施例提供的生成过稳定增强集的流程示意图，如图3所示，生成过稳定增强集的过程如下：

步骤201，使用命名实体识别，从篇章中抽取与所述参考答案实体类型相同的实体，加入干扰项集。

具体的，使用NER工具，从p中抽取与a实体类型相同的实体，加入干扰项集T＝{t₁,t₂…t_c}，其中，t为干扰项，c为相同实体。

步骤202，从所述干扰项集中选取一个干扰项，生成对抗样本。

具体的，以等概率随机从干扰项集T中选取一个干扰项t_i，以相同的概率随机从以下两种策略选择一种生对抗样本{p,q′,a}，其中，t_i为第i个干扰项；

将干扰项拼接在问句后，则q′＝[q；t_i]；或

将干扰项拼接在问句后，随即打乱句子的词序，则则q′＝shuffle([q；t_i])。

步骤203，基于所述训练集和所述对抗样本，生成过稳定增强集D_stability。

具体的，基于所述训练集训练一个MRC模型，设为M，当M({p,q′,a})！＝a时，将对抗样本{p,q′,a}加入到过稳定集中，生成过稳定增强集；其中，M代表MRC模型，{p,q′,a}为样本抗体。

步骤30，将所述训练集、过敏感增强集和过稳定增强集合并为新的训练集。

步骤40，基于所述新的训练集训练具有鲁棒性的MRC模型。

将训练集D、过敏感增强集和过稳定增强集合并为新的训练集D′＝D∪D_sensitivity∪D_stability，训练一个具有鲁棒性的MRC模型。

针对上述过程，进行举例说明：

(1)生成过敏感增强集举例：

原始问句：造影多少钱？

Q＝{

造影大概多少钱？，

造影的费用？，

做造影贵不贵？

}

经过二分类器模型，可以选出“造影大概多少钱？”，“造影的费用？”加入过敏感数据集，生成过敏感增强数据集，即过敏感增强集。

(2)生成过稳定增强集举例：

原始问题：造影多少钱？

假设我们从文章中抽取到“CT”这个实体，

则可能生成两种对抗样本：

造影多少钱？CT。

CT多少钱？造影。(随机打乱)

上述生成的样本经过初始数据集训练好的MRC模型预测后，答案错误的再扔回MRC模型进行训练，最终生成过稳定增强数据集，即过稳定增强集。

与上述实施例对应的，本发明还提供了一种增强阅读理解MRC系统鲁棒性的装置，如图4所示，该增强阅读理解MRC系统鲁棒性的别装置包括：过敏感增强集模块410，过稳定增强集模块420、新训练集模块430和MRC模型模块440。

本发明实施例提供的一种增强阅读理解MRC系统鲁棒性的装置中各部件所执行的功能均已在上述方法中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例、还提供了一种增强阅读理解MRC系统鲁棒性的系统，具体如图5所示，该系统包括至少一个处理器510和存储器520；

存储器510，用于存储一个或多个程序指令；

处理器520，用于运行一个或多个程序指令，执行如上述实施例所介绍的一种增强阅读理解MRC系统鲁棒性的方法中的任一方法步骤。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包括一个或多个程序，其中，一个或多个程序指令用于被一种增强阅读理解MRC系统鲁棒性的系统执行如上介绍的一种增强阅读理解MRC系统鲁棒性的方法。

本发明实施例提供过的方法通过数据增强的方式，分别利用生成过敏感增强数据集和过稳定增强数据集分别解决MRC系统中两种鲁棒性问题，因为过敏感增强数据通过引入高质量的问句改写样本，过稳定性数据通过引入对抗性样本，所以能够一定程度上增强模型的鲁棒性。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强阅读理解MRC系统鲁棒性的方法，其特征在于，所述方法包括：

基于所述新的训练集训练具有鲁棒性的MRC模型。

2.根据权利要求1所述的方法，其特征在于，所述基于训练集，通过问句检索改写的相似问句及二分类器，生成过敏感增强集，具体为：

基于外部句子相似度匹配训练集训练一个二分类器；

3.根据权利要求2所述的方法，其特征在于，所述利用所述问题集中的问句和所述对应问题作为二分类器的输入，生成过敏感增强集，具体为：

score_i＝f(q,q′_i)

4.根据权利要求1所述的方法，其特征在于，所述阈值为二分类器返回的得分最大值和最小值的平均值。

5.根据权利要求1所述的方法，其特征在于，所述基于训练集，通过检索篇章中和参考答案相关的干扰项，生成过稳定增强集，具体为：

从所述干扰项集中选取一个干扰项，生成对抗样本；

基于所述训练集和所述对抗样本，生成过稳定增强集。

6.根据权利要求5所述的方法，其特征在于，所述从所述干扰项集中选取一个干扰项，生成对抗样本，具体为：

将干扰项拼接在问句后；或

将干扰项拼接在问句后，随即打乱句子的词序。

7.根据权利要求5所述的方法，其特征在于，所述基于所述训练集和所述对抗样本，生成过稳定增强集，具体为：

8.一种增强阅读理解MRC系统鲁棒性的装置，其特征在于，所述装置包括：

9.一种增强阅读理解MRC系统鲁棒性的系统，其特征在于，所述系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至7中一个或多个所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如权利要求8所述的系统执行，以实现如权利要求1至7中一个或多个所述的方法。