CN112269868B

CN112269868B - 一种基于多任务联合训练的机器阅读理解模型的使用方法

Info

Publication number: CN112269868B
Application number: CN202011513956.3A
Authority: CN
Inventors: 李芳芳; 毛星亮; 林中尧; 任星凯
Original assignee: Central South University
Current assignee: CHANGSHA ZHIWEI INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-09
Anticipated expiration: 2040-12-21
Also published as: CN112269868A

Abstract

本发明涉及一种基于多任务联合训练的机器阅读理解模型的使用方法，具体包括如下步骤：S1：建立基于多任务学习的阅读理解模型，将阅读理解任务分为多个子任务，设计多个子模块分别进行处理，并进行多任务联合训练，其中子模块包括文本编码模块；答案抽取模块；答案分类模块；支撑句判别模块；S2：将文本及问题输入文本编码模块，由文本编码模块进行编码，然后输入至答案抽取模块与答案分类模块与支撑句判别模块；S3：由答案抽取模块、答案分类模块与支撑句判别模块输出结果。本发明可以避免文本的重复编码，同时将答案抽取，答案分类，支撑句判别三个模块进行多任务联合训练，相互促进，提升最终的模型表现。

Description

一种基于多任务联合训练的机器阅读理解模型的使用方法

技术领域

本发明涉及基于多任务联合训练的机器阅读理解模型的使用方法。

背景技术

随着深度学习的迅速发展，机器阅读理解成为了自然语言处理领域的热点任务之一，在文本问答、信息抽取、对话系统等领域具有极强的应用价值。手机上的智能助手、电商里常见的AI客服，都是机器阅读理解的应用场景。

机器阅读理解任务根据答案类型可以分为是否回答、片段抽取、无回答等类别，通常通过深度学习完成，目前主流的机器阅读评测数据集为HOTPOTQA和SQUAD，HOTPOTQA数据集格式为[文本，问题，答案，支撑句]，可以较好的评估模型是否真正的理解了文本。

在法律领域，[文本，问题，答案，支撑句]格式的数据集较少，而数据集的规模以及质量是制约深度学习模型表现的一个关键因素，数据量会影响训练出的深度学习模型的精度。

目前处理机器阅读理解流程通常是线性独立处理，即先对答案类型进行分类，再根据答案类型进行处理，如果是片段抽取类型的问题，进行答案抽取，最后根据抽取的答案返回文本找出支撑句。这样的方式主要存在两个弊端：

线性独立处理的方式会出现文本重复编码的问题，每个子任务都是独立完成的，因此对于每个子任务都需要进行文本编码。例如，在进行答案类型分类之前需要先对文本进行编码作为答案分类模块的输入。完成后如果问题属于片段抽取类型，进行答案抽取时需要再次对文本及问题进行编码，需要找出支撑句时，仍然需要对文本进行编码，这导致计算资源浪费。

各个模块之间没有相互促进，由于各个任务是一个一个线性独立完成的，模块与模块之间的交互很少，很难起到相互促进的作用。

发明内容

本发明的目的是提供一种基于多任务联合训练的机器阅读理解模型的使用方法，其能够提供一个机器阅读理解模型，使用该模型可以解决文本、问题、答案或支撑句的输出，可以较好地理解文本。

为达到上述目的，而采用了一种基于多任务联合训练的机器阅读理解模型使用方法，具体包括如下步骤：

S1：建立基于多任务学习的阅读理解模型，将阅读理解任务分为多个子任务，设计多个子模块分别进行处理，并进行多任务联合训练，其中子模块包括文本编码模块、答案抽取模块、答案分类模块和支撑句判别模块；

S2：将文本及问题输入文本编码模块，再由文本编码模块进行编码，然后输入至答案抽取模块或答案分类模块或支撑句判别模块；

S3：由答案抽取模块、答案分类模块与支撑句判别模块进行片段抽取类型任务或问题的答案、答案类型与支撑句的输出。

本发明能够依据问题及相关文本通过机器阅读理解模型得到正确的答案，并能提供答案在文本中所依赖的句子，在法律领域中运用，有利于提高阅读效率，快速反馈答案。发明提出了一个基于多任务联合训练的机器阅读理解模型，可以避免文本的重复编码，同时将答案抽取，答案分类，支撑句判别三个模块进行联合训练，相互促进，提升最终的模型表现。

作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进：

采用基于TF-IDF文本相似度匹配的数据增强方法，将[文本，问题，答案]格式的数据转换为[文本，问题，答案，支撑句]，训练所述阅读理解模型，具体步骤如下：

步骤一：先根据“

”等具有代表句子结尾的标点符号对文章进行分句，得到文章对应的句子集合

；

步骤二：使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量；

步骤三：将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度；

(1-1)

（1-2）

其中，TF（Term frequency）表示词频，即某个单词在某个文档中出现的频率，IDF (Inverse Document frequency)表示逆文档频率，即某个单词在多少个文档中出现，反应某个单词的普遍程度，sim_score为根据TF-IDF计算出的语句相似度，

代表文章分割后的每个句子，

表示问题分割后的每个句子。

数据增强是指通过某些方式扩充训练集，提高模型的泛化能力。对于深度学习模型来说，训练的目的是将模型接受的输入映射为正确的输出，充足的训练数据才可能将模型中的所有参数调整为最优值，因此训练数据是否充足是决定模型是否能够达到最优表现的关键因素之一。

阅读理解领域存在多种格式的数据集，其中[文本，问题，回答，支撑句]格式的数据集不仅要求模型根据文本和问题做出正确的回答，还需要模型返回支撑回答的支撑句，从而判断模型是否从正确的位置找出回答，能进一步提高对模型理解文本的测试能力。

目前法律阅读理解领域[文本，问题，回答，支撑句]数据格式的数据集较少，因此本方案提出一种基于TF-IDF文本相似度匹配的数据增强方法，将[文本，问题，回答]数据格式的数据集转化为[文本，问题，回答，支撑句]的数据格式，以实现数据增强的效果。

作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进，文本编码模块处理文本及问题的步骤为：

（1）将问题和文本进行拼接；

（2）使用RoBERTa（A Robustly Optimized BERT Pretraining Approach一种更鲁棒的优化BERT预训练方法）预训练模型对拼接后的文本进行编码，得到文本的向量化表示

，其中

为文本的长度，

为编码的维度；

（3）分别获取问题和文章的向量化表示，记为

和

，其中

和

分别为问题和文本的长度，

为编码的维度；

（4）使用BiAttention层获取问题到文章和文章到问题的双向注意力表示：

（1-3）。

为问题到文章和文章到问题的双向注意力表示，是指原始文本编码模块的编码矩阵，

和

是问题到文章，文章到问题两个方向的注意力编码矩阵，β是一个可训练的参数矩阵。

通过双向注意力机制对问题和文章进行相互编码之后，将

作为答案抽取模块、答案分类模块和支持句子判别模块的输入。

深度学习中的注意力机制，使得机器能够模拟人类阅读时的习惯，提高与问题相关的文本语句权重，使得这些语句在预测时对结果影响占比较大，阅读理解中注意力机制的应用可以分为两个阶段，第一阶段是单向注意力阶段，即只计算文本中哪些语句与问题相关，第二阶段为双向注意力阶段，不仅计算文本中哪些语句与问题相关，同时计算问题中哪些语句与文本相关，不仅突出文本中的重点语句，也考虑问题中的重点，从而进一步提升模型表现。

本方案基于BiDAF的方法对文章和问题进行双向注意力编码，同时，将双向注意力表示作为答案抽取模块，答案分类模块和支撑句判别模块的输入，避免了对文本的重复编码，降低了资源消耗。

对于自然语言处理任务，计算机无法直接理解人类语言，因此需要将文本编码为计算机能够理解的数字格式，文本编码模块主要是对问题和文章进行编码作为后续模块的输入。

作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进，答案抽取模块处理步骤如下：

1）：经过文本编码模块后的输出

作为全连接层的输入；

2）：全连接层设置每个位置的输出为两个神经元，分别表示当前位置为答案开始与结束位置的概率，如式1-4所示，其中

为是答案起始位置的概率，

为是答案结束位置的概率，

是一个可学习的随机初始化的参数矩阵；

（1-4）。

答案抽取模块仅对于片段抽取类的阅读理解任务起效，作用是找到片段抽取类问题中答案的起始与结束位置。

本方法将阅读理解任务分解为多个子任务，并将答案抽取模块与答案分类模块，支撑句判别模块作为处理三个子任务的三个模块，从文本编码模块接收输入，只有当答案分类模块分类结果为片段抽取类型的任务类型时，才输出答案抽取模块的结果，通常做法是：先对问题与文本进行文本编码，输入答案分类模块进行分类，若分类为片段抽取类型，重新进行文本编码进行答案抽取，因此传统方法需要对文本进行多次编码，而本方法仅需进行一次文本编码，相较传统方法避免了文本的重复编码，节省了计算资源与时间开销。

作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进，答案分类模块的处理步骤如下：

A、将阅读理解任务中存在的答案分为四种类型，分别是：片段抽取、是、否、无答案，所述片段抽取类型为需要从文本中抽取问题对应的文本语句或词组作为答案；所述是、否类型为需要返回“是”或“否”；所述无答案类型指无法根据文章对文章做出对应回答的情况；

B、最终答案分类模块会返回当前任务所属答案类型概率。这里只是做答案分类，返回的概率用于判断该类问题是属于四类阅读理解任务中的哪一种（片段抽取、是、否、无回答）不会直接返回答案。

作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进，对答案分类模块采用四个子网络分别对答案类型进行预测，并进行联合训练，其步骤如下：

a、每个句子通过文本编码模块进行编码后会存在一个[CLS]向量，[CLS]向量用作整句话的语义表示，原始的RoBERTa预训练模型使用[CLS]对语句进行分类，本模型借鉴该做法，使用[CLS]作为全连接层的输入，进行答案的四分类，输出答案类型概率记为

；

b、将文本编码的结果作为胶囊网络的输入，再将胶囊网络的输出作为全连接层的输入，得到最终的答案类型概率记为

；

c、所述子网络包含两种注意力网络，第一个注意力网络，将文本编码后的向量用自注意力机制（self-attention）进行计算，再通过全连接层进行四分类，输出答案类型概率记为

；第二个注意力网络，其通过获取到答案抽取模块中的开始与结束位置，用开始与结束位置上的词向量与文本编码的输出计算注意力权重，再输入全连接层进行分类，分类概率记为

；

d、最终，答案分类模块的总概率由以上四种概率取平均得到，如式1-5所示；

（1-5）。

本模块设计了四个子网络，采用多种分类器：包括目前最好的预训练模型之一的RoBERTa，具有更强特征表现能力的胶囊神经网络，以及能够给不同的文本赋予不同权重再进行分类的注意力网络，使用四种子网络分别计算答案类型的概率，相比于用单个网络，多子网络能够降低模型误差，提高分类的准确性，增强模型的鲁棒性。

作为本发明基于多任务联合训练的机器阅读理解模型的使用方法进一步的改进，支撑句判别模块的处理步骤如下：

a）基于相似度匹配的子网络，主要步骤如下：

根据文本分句后各句长度从文本编码模块的输出中截取各个语句对应的向量表示；

与文本编码模块的输出

计算点积，重新计算每条句子的向量表示，得到

，其中

为文本长度，

为文本中包含语句总数量，

为编码后维度；

通过最大池化层提取特征；

通过全连接层进行二分类，得到句子为支撑句的概率

；

b）基于注意力机制的子网络，主要步骤如下：

步骤一：获取答案开始与结束位置的两个词向量表示，分别与文本编码模块的输出计算点积，得到两个向量

和

；步骤二：将

和

进行拼接；

步骤三：通过全连接层进行二分类，得到是否是支撑句的概率

；

最终支撑句判别模块的概率由a），b）两种方法所得概率求平均得到，如式1-6所示；

（1-6），依据所求概率找到答案在文本中依赖的语句。

本模块采用基于相似度匹配和基于注意力机制的两种子网络，最终输出概率为两个子网络的平均值，能综合各个子网络的优势。

阅读理解问题格式通常为[文本，问题，答案]，模型仅需要根据问题与文本做出回答即可，这样存在的问题在于无法知道模型是否是根据正确的语句做出回答，因此，更好的测试方法是除了答案之外，还需要模型返回支撑句，支撑句即为答案在文本中依赖的语句，支撑句判别是机器阅读理解任务中比较有挑战性的一个子任务，不仅需要模型能够准确地回答问题，还需要回答出该问题所依赖的语句，这样可以更好地判别模型是否根据问题从文本正确的位置找到了答案，也就能更好地评判模型对于文本的理解能力。

本发明提出了一个基于TF-IDF文本匹配的数据增强方法，可以将相近的法律文本数据转化为[文本，问题，答案，支撑句]类型的数据集格式，能够对数据集进行扩充，从而提升模型训练结果。

本发明将阅读理解任务分为四个子模块，通过多任务学习提升各个模块学习的效果，第一个为文本编码模块，用预训练模型对文本和问题进行编码，作为其他三个子模块的输入，这样就避免了重复编码问题。其余三个子模块进行联合训练，训练损失为三个子模块的损失之和，使得各个子模块进行联合学习，可以相互优化，提升模型精度。

同时，在答案分类和支撑句判别模块，分别用四个子网络和两个子网络完成，可以增强模型的鲁棒性，进一步提高模型精度。

附图说明

图1为基于多任务学习的阅读理解模型。

图2为线性独立方式存在的问题示意图。

图3为本发明的机器阅读理解的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、 “第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、 “相连”、 “连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

图2和图3示出了现有技术与本方法的机器阅读理解的流程示意图，图2为线性独立处理方式需要多次编码，图3示出的本发明只需要进行一次文本编码。传统阅读理解任务的流程是线性进行的，即先判断答案类型，再根据答案类型做答案抽取，抽取出答案后，再返回文中找到支撑句。这样做存在两个缺点，一：可能需要对文本重新编码，降低了处理速度，增加了资源消耗。二：各个步骤之间是线性独立完成的，交互较少。

实施例2

图1示出了一种基于多任务联合训练的机器阅读理解模型使用方法，具体包括如下步骤：

S1：建立基于多任务学习的阅读理解模型，将阅读理解任务分为若干个子任务，并设立多个子模块分别进行处理，并进行多任务联合训练学习，其中子模块包括文本编码模块、答案抽取模块、答案分类模块和支撑句判别模块；

S2：将文本及问题输入文本编码模块，再由文本编码模块进行编码，然后输入至答案抽取模块、答案分类模块与支撑句判别模块；

S3：由答案抽取模块与答案分类模块与支撑句判别模块进行片段抽取类型的答案、答案类型与支撑句的输出。答案抽取模块仅对片段抽取类任务有效，在答案抽取模块的说明部分已提到，返回片段抽取类的输出，答案分类模块返回所属任务类型概率，支撑句判别模块返回支撑句。

本发明能够依据问题及相关文本通过机器阅读理解模型得到正确的答案，并能提供答案在文本中所依赖的句子，在法律领域中运用，有利于提高阅读效率，快速反馈答案。

在本实施例中，采用基于TF-IDF文本相似度匹配的数据增强方法，将[文本，问题，答案]格式的数据转换为[文本，问题，答案，支撑句]，训练所述阅读理解模型，具体步骤如下：

步骤一：先根据“

；

(1-1)。

（1-2）

。

数据增强是指通过某些方式扩充训练集，提高模型的泛化能力。对于深度学习模型来说，训练的目的是将模型接受的输入映射为正确的输出，充足的训练数据能将模型中的所有参数调整为最优值，因此训练数据是否充足是决定模型是否能够达到最优表现的关键因素之一。

在本实施例中，文本编码模块处理文本及问题的步骤为；

（1）将问题和文本进行拼接；

（2）使用RoBERTa（A Robustly Optimized BERT Pretraining Approach，一种更鲁棒的优化BERT预训练方法）预训练模型对拼接后的文本进行编码，得到文本的向量化表示

，其中

为文本的长度，

为编码的维度；

（3）分别获取问题和文章的向量化表示，记为

和

，其中

和

分别为问题和文本的长度，

为编码的维度；

(1-3)。

和

是问题到文章，文章到问题两个方向的注意力编码矩阵，β是一个可训练的参数矩阵，通过双向注意力机制对问题和文章进行相互编码之后，将

对于自然语言处理任务，计算机无法直接理解人类语言，因此需要将文本编码为计算机能够理解的数字格式，文本编码模块主要是对问题和文章进行编码，以及计算双向注意力作为后续模块的输入。

在本实施例中，答案抽取模块处理步骤如下：

1）：经过文本编码模块后的输出

作为全连接层的输入；

为是答案起始位置的概率，

为是答案结束位置的概率，

是一个可学习的随机初始化的参数矩阵；

（1-4）。

答案抽取模块仅对于片段抽取类的阅读理解任务起效，作用是找到答案的起始与结束位置。

本方法将阅读理解任务分解为多个子任务，并将答案抽取模块与答案分类模块，支撑句判别模块作为处理三个子任务的三个模块，从文本编码模块接收输入，只有当答案分类模块分类结果为片段抽取类型的任务类型时，才输出答案抽取模块的结果，通常做法是：先对问题与文本进行文本编码，输入答案分类模块进行分类，若分类为片段抽取类型，重新进行文本编码进行答案抽取，传统方法可能需要对文本进行反复编码，而本方法仅需要对文本进行一次编码，相较传统方法避免了文本的重复编码，节省了计算资源，降低了资源消耗。

在本实施例中，答案分类模块的处理步骤如下：

A、将阅读理解任务中存在的答案分为四种类型，分别是：片段抽取、是、否、无答案，所述片段抽取类型为需要从文本中抽取问题对应的文本语句或词组作为问题答案；所述是、否类型为需要返回“是”或“否”；所述无答案类型指无法根据文章对问题做出回答的情况；

B、答案类型是片段抽取类型，那么会返回答案抽取模块，答案分类模块以及支撑句判别模块的输出；而如果答案是其他三种类型，那么返回支撑句判别模块以及答案分类模块的输出。

在本实施例中，对答案分类模块采用四个子网络分别对答案类型进行预测，并进行联合训练，其步骤如下：

a、每个句子用RoBERTa预训练模型进行编码后存在一个[CLS]向量，原始的预训练模型使用编码后[CLS]进行语句分类，本模型借鉴该做法，使用[CLS]作为全连接层的输入，进行答案的四分类，输出答案类型概率记为

；

；

c、所述子网络包含两种注意力网络，第一个注意力网络，将文本编码后的向量用自注意力机制进行计算，再通过全连接层进行四分类，输出答案类型概率记为

；第二个注意力网络，其通过获取到答案抽取模块中的开始与结束位置，用开始与结束位置上的词向量分別与文本编码的输出计算注意力权重，再输入全连接层进行分类，分类概率记为

；

（1-5）。

在本实施例中，支撑句判别模块的处理步骤如下：

a）基于相似度匹配的子网络，主要步骤如下：

根据文本分句后各句子长度从文本编码模块的输出中截取各个语句对应的向量表示。；

与文本编码模块的输出

计算点积，重新计算每条句子的向量表示，得到

，其中

为文本长度，

为文本中包含语句总数量，

为编码后维度；

通过最大池化层提取特征；

通过全连接层进行二分类，得到句子为支撑句的概率

；

b）基于注意力（Attention）机制的子网络，主要步骤如下：

和

；

步骤二：将

和

进行拼接；

；

（1-6），依据所求概率找到答案在文本中依赖的语句。本模块采用基于相似度匹配和基于注意力机制的两种子网络，最终输出概率为两个子网络的平均值，能综合各个子网络的优势。

阅读理解问题格式通常为[文本，问题，答案]，模型仅需要根据问题与文本做出回答即可，这样存在的问题在于无法知道模型是否是根据文中正确的语句做出回答，因此，更好的方式是除了答案之外，还需要模型返回支撑句，支撑句即为答案在文本中依赖的语句，支撑句判别是机器阅读理解任务中比较有挑战性的一个子任务，不仅需要模型能够准确地回答问题，还需要回答出该问题所依赖的语句，这样可以更好地判别模型是否根据问题从文本正确的位置找到了答案，也就能更好地评判模型对于文本的理解能力。

实施例3

1.基于多任务学习的法律文本阅读理解模型及主要步骤：

多任务学习的主要思想：把阅读理解任务分为三个子任务：答案抽取、答案分类与支撑句判别，建立四个子模块：文本编码模块，答案抽取模块，答案分类模块，支撑句判别模块，从而对上述答案抽取任务，答案分类任务与支撑句判别任务进行多任务联合学习。

数据增强

对于深度学习模型来说，我们希望提出的模型可以将接收的输入映射为正确的输出，要有足够的训练数据才能将模型中的所有参数调整为最优值，也就是说充足的训练数据是决定模型学习效果好坏的一个关键因素，我们常常遇到数据不足的问题，导致模型没有学习到足够的信息，此时我们需要扩充我们的训练集，以解决数据不足的问题，这一步骤称之为数据增强。表1和表2分别是阅读理解任务中的两种数据格式，其中表2的数据格式能够更好的评判模型对于文本以及问题的理解程度，我们希望模型不仅能够返回正确的回答，同时能返回回答对应的支撑句。目前法律领域中[文本，问题，答案，支撑句]格式的数据较少，我们提出了一种基于TF-IDF文本相似度匹配的数据增强方法，可以将[文本，问题，答案]格式的数据转换为[文本，问题，答案，支撑句]，有效的扩充训练数据，以实现数据增强。

步骤一：先根据“

。

步骤二：使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量。

步骤三：将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度（Term Frequency-Inverse Document Frequency,词频-文档逆频率），取相似度最高的条句子作为支撑句，TF-IDF计算公式如1-1所示，文本与问题相似度计算如公式1-2所示。

（1-1）

（1-2）

表1 [文本，问题，答案]类型数据

表2 [文本，问题，答案，支撑句]类型数据

1.2 文本编码模块

步骤一：将问题和文本进行拼接。

步骤二：使用RoBERTa预训练模型对拼接后的文本进行编码，得到文本的向量化表示

，其中

为文本的长度，

为编码的维度。

步骤三：分别获取问题和文章的向量化表示，记为

和

，其中

和

分别为问题和文本的长度，

为编码的维度。

步骤四：使用BiAttention层获取问题到文章和文章到问题的双向注意力表示：

(1-3)。

为问题到文章和文章到问题的双向注意力表示，

和

是问题到文章，文章到问题两个方向的注意力编码，通过双向注意力机制对问题和文章进行相互编码之后，本文将

答案抽取模块

步骤一：经过文本编码模块后的输出

作为全连接层的输入。

步骤二：全连接层对每个位置输出两个神经元，分别表示当前位置为答案开始与结束位置的概率，如式1-4所示，其中

为是答案起始位置的概率，

为是答案结束位置的概率，

是一个可学习的随机初始化的参数矩阵。

（1-4）。

答案分类模块

阅读理解任务中存在四种答案类型，分别是：片段抽取、是、否、无答案。片段抽取类型需要从文本中抽取问题对应的语句或词组作为问题对应的答案；是、否类型需要返回“是”或“否”作为回答；无答案类型是指无法根据文章对问题做出对应回答的情况。根据答案类型不同，我们最终返回的结果也有差异，如果答案类型是片段抽取类型，那么会返回答案抽取模块，答案分类模块以及支撑句判别模块的输出。而如果答案是其他三种类型，那么返回支撑句判别模块以及答案分类模块的输出。

我们将不同答案类型的识别问题视为分类问题进行处理，设立答案分类模块。并且采用四个子网络分别对答案类型进行预测，进行联合训练。

a)[CLS]分类模块：每个句子用RoBERTa预训练模型进行编码后存在一个[CLS]向量，用于表示整句话的语义。原始的预训练模型采用编码后[CLS]进行分类，本模型也借鉴该做法，使用[CLS]作为全连接层的输入，进行答案的四分类，输出答案类型概率记为

。

b)胶囊网络：借鉴胶囊神经网络的思想，将文本编码的结果作为胶囊网络的输入，再将胶囊网络的输出作为全连接层的输入，得到最终的答案类型概率记为

。

c)注意力机制：本子网络包含两种注意力网络。第一个注意力网络将文本编码后的向量用自注意力机制进行计算，再通过全连接层进行四分类，输出答案类型概率记为

。第二个注意力网络通过获取到答案抽取模块中的开始与结束位置，用开始与结束位置上的词向量分别与文本编码模块的输出计算注意力权重，再输入全连接层进行分类，分类概率记为

。

最终，答案分类模块的总概率由以上四种概率取平均得到，如式1-5所示。

（1-5）。

支撑句判别模块

阅读理解问题格式通常为[文本，问题，答案]，对于这种格式类型的数据集，模型仅需要根据问题与文本做出回答即可，这样存在的问题在于无法知道模型是否是找到了正确的语句做出回答，因此，更好的方式是除了答案之外，还需要模型返回支撑句，支撑句即为答案在文本中依赖的语句，支撑句判别是机器阅读理解任务中比较有挑战性的一个子任务，不仅需要模型能够准确地回答问题，还需要回答出该问题所依赖的语句，这样可以更好地判别模型是否根据问题从文本正确的位置找到了答案，也就能更好地评判模型对于文本的理解能力。我们将这个任务转化为二分类任务完成，使用两个子网络完成支撑句判别模块的任务。a) 基于相似度匹配的子网络，主要步骤如下：

步骤一：根据文本分句后各句子长度从文本编码模块的输出中截取各个语句对应的向量表示。

步骤二：与文本编码模块的输出

计算点积，重新计算每条句子的向量表示，得到

，其中

为文本长度，

为文本中包含语句总数量，

为编码后维度。

步骤三：通过最大池化层提取特征。

步骤四：通过全连接层进行二分类，得到句子为支撑句的概率

。

b) 基于注意力机制的子网络，主要步骤如下：

步骤一：获取答案开始与结束位置的词向量表示，与文本编码模块的输出计算点积，得到两个向量

和

。

步骤二：将

和

进行拼接。

。

最终支撑句判别模块的概率由a，b两种概率求平均得到，如式1-6所示。

（1-6）。

（1）为了解决法律文本数据集少的问题，本发明提出了一个基于TF-IDF文本匹配的数据增强方法，可以将相近的法律文本数据转化为[文本，问题，答案，支撑句]类型的数据集格式，能够对数据集进行扩充，从而提升模型训练结果。

（2）为了解决线性独立处理方式带来的弊端，本发明提出了一个基于多任务联合训练的机器阅读理解模型，可以避免文本的重复编码，同时将答案抽取，答案分类，支撑句判别三个模块进行联合训练，相互促进，提升最终的模型表现。

（3）该方法将机器阅读理解任务分解为四个子任务：设立文本编码、答案抽取、答案分类、支撑句判别四个子模块实现多任务学习。

（4）该模型通过答案抽取、答案分类、支撑句判别三个子模块进行联合训练提高各模型表现，最终提升阅读理解回答准确率。

（5）该模型与传统线性独立处理方式相比，避免了重复编码带来的性能损失，同时通过联合训练提高了模型表现。

（6）经实验表明，基于多任务联合训练的机器阅读理解模型，能提高法律领域文书的阅读理解精度。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围之内。

Claims

1.一种基于多任务联合训练的机器阅读理解模型的使用方法，其特征在于，具体包括如下步骤：

S2：将文本及问题输入文本编码模块，再由文本编码模块进行编码，然后输入至答案抽取模块、答案分类模块与支撑句判别模块输出结果；

S3：由答案抽取模块、答案分类模块与支撑句判别模块进行片段抽取类问题的答案、答案类型以及支撑句的输出；

步骤一：先根据“

”具有代表句子结尾的标点符号对文章进行分句，得到文章对应的句子集合

；

(1-1)

（1-2）

其中，TF表示词频，即某个单词在某个文档中出现的频率，IDF表示逆文档频率，即某个词语在多少个文档中出现，反应某个单词的普遍程度，sim_score为根据TF-IDF计算出的语句相似度，

代表文章分割后的每个句子，

表示问题分割后的每个句子；

文本编码模块处理文本及问题的步骤为:

（1）将问题和文本进行拼接；

（2）使用RoBERTa预训练模型对拼接后的文本进行编码，得到文本的向量化表示

，其中

为文本的长度，

为编码的维度；

（3）分别获取问题和文章的向量化表示，记为

和

，其中

和

分别为问题和文本的长度，

为编码的维度；

（1-3）

为问题到文章和文章到问题的双向注意力表示，

是指原始文本编码模块的编码矩阵，

和

是问题到文章，文章到问题两个方向的注意力编码矩阵，β是一个参数矩阵，通过双向注意力机制对问题和文章进行相互编码之后，将

作为答案抽取模块、答案分类模块和支持句子判别模块的输入；

其中：答案抽取模块处理步骤如下：

1）：经过文本编码模块后的输出

作为全连接层的输入；

2）：全连接层设置每个位置的输出为两个神经元，

分别表示当前位置为答案开始与结束位置的概率，如式1-4所示，其中

是答案起始位置的概率，

是答案结束位置的概率，

是一个可学习的随机初始化的参数矩阵；

（1-4）；

答案分类模块的处理步骤如下：

A、将阅读理解任务中存在的答案分为四种类型，分别是：片段抽取、是、否、无答案，所述片段抽取类型为需要从文本中抽取语句或词组作为问题对应的答案；所述是、否类型为需要返回“是”或“否”；所述无答案类型为无法根据文章回答对应问题的情况；

B、最终答案分类模块会返回当前任务所属答案类型概率；

对答案分类模块采用四个子网络分别对答案类型进行预测，并进行联合训练，其步骤如下：

a、每个句子通过文本编码模块进行编码后会存在一个[CLS]向量，[CLS]向量用作整句话的语义表示，原始的RoBERTa预训练模型使用[CLS]对语句进行分类，本模型使用[CLS]作为全连接层的输入，进行答案的四分类，输出答案类型概率记为

；

；

；

（1-5）。

2.按照权利要求1所述基于多任务联合训练的机器阅读理解模型的使用方法，其中，支撑句判别模块的处理步骤如下：

a）基于相似度匹配的子网络，主要步骤如下：

与文本编码模块的输出

计算点积，重新计算每条句子的向量表示，得到

，其中

为文本长度，

为文本中包含语句总数量，

为编码后维度；

通过最大池化层提取特征；

通过全连接层进行二分类，得到句子为支撑句的概率

；

b）基于注意力机制的子网络，主要步骤如下：

步骤一：获取答案开始与结束位置的两个词向量，分别与文本编码模块的输出计算点积，得到两个向量

和

；

步骤二：将

和

进行拼接；

；

（1-6），依据所求概率找到答案在文本中依赖的语句。