CN110096698B

CN110096698B - 一种考虑主题的机器阅读理解模型生成方法与系统

Info

Publication number: CN110096698B
Application number: CN201910211906.0A
Authority: CN
Inventors: 康晓军; 龚启航; 李新川; 李圣文; 梁庆中; 郑坤; 姚宏; 刘超; 董理君
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-09-29
Anticipated expiration: 2039-03-20
Also published as: CN110096698A

Abstract

本发明公开了一种考虑主题的机器阅读理解模型生成方法与系统，本发明提取出了训练样本数据中潜在的主题信息，利用这种主题信息对阅读理解模型的训练做监督，从而提高阅读理解模型的效果。本发明公开的模型考虑在模型训练之前提取出与训练样本对应的多个主题，并利用样本的主题信息来提高机器阅读理解工作的效果。本方法的基本流程为：对每个训练样本做处理，找出能代表这个样本的向量表示；对样本做聚类并求出同类样本向量的均值作为主题的向量表示；在匹配和输出时利用注意力机制给向量表示与本样本主题向量相似度更高的词更大的权重。此外，训练数据经过较好的数据清洗后能得到更好的效果，因为降低噪声后我们能得到更好的主题向量表示。

Description

一种考虑主题的机器阅读理解模型生成方法与系统

技术领域

本发明涉及自然语言处理领域中的机器阅读理解领域，更具体地说，涉及一种考虑主题的机器阅读理解模型生成方法与系统。

背景技术

阅读理解是建立在阅读基础上的理解，可以被抽象地概括为通过阅读从文本中抽取信息并理解意义的过程。表现在我们的传统的语言学科中是非常常规的一种测试内容，一般形式就是给你一篇文章，然后针对这些文章提出一些问题，学生回答这些问题来证明自己理解了文章所要传达的主旨内容，回答的答案越接近于标准答案，就证明其对文章理解的越透彻。

机器阅读理解(Machine Reading Comprehension)，顾名思义，就是让机器代替人类完成这个任务，让机器阅读大量的文章后对相关的问题做出回答。很明显教会机器学会阅读理解和问答(Question answering)是自然语言处理(NLP)中的核心任务之一。

机器阅读理解技术在生活的各方各面都能发挥其能力，而作用的大小与其效果的优劣密切相关。如果机器能真正做到理解输入的自然语言的含义，那么MRC-QA未来将成为人们生活中必不可少的一部分。

然而目前机器阅读理解(也称之为)并没有做到真正理解文章的语义，只是靠大量的段落文本和问题文本对作为输入来固定神经网络参数和attention参数，在测试时得到能够更准确的表示段落词与上下文信息的向量，最终通过概率计算输出最大概率的首尾单词，把这两个词之间的段落作为答案。在这个过程中，机器实际上并没有理解段落中词和句子的含义，只是通过训练知道哪个词更可能是答案的句首词和句尾词，哪些词与问题更加相关。所以我们应当构建可以对复杂推理(比如以语义结构为切入点)进行有效建模，以及能把常识和外部知识(比如知识库)有效利用起来的深度学习网络。

发明内容

本发明要解决的技术问题在于，针对现有技术中在进行机器阅读理解时，机器实际上并没有理解段落中词和句子的含义，只是通过训练知道哪个词更可能是答案的句首词和句尾词，哪些词与问题更加相关的技术缺陷，提供了一种考虑主题的机器阅读理解模型生成方法与系统。

本发明解决其技术问题所采用的技术方案是：构造一种考虑主题的机器阅读理解模型生成方法，包含如下步骤：

S1、获取训练所需的阅读理解数据集，所述阅读理解数据集包含多篇阅读理解，每篇阅读理解作为一个样本由正文、问题及答案三部分组成；

S2、对每篇阅读理解样本分别进行预处理，对单篇阅读理解的训练样本进行预处理的方法为下述任意一种：

(1)对样本中的正文进行选择，选取与样本中问题部分更相关的段落；从选取的段落中选取与问题更相关的核心句；

(2)采用语义解析法对问题与正文做预处理，得到语义解析后的词作为核心词；

S3、对预处理选出的核心词或核心句进行向量表示，同时对于每一样本：将核心句的向量表示与问题的向量表示进行加权平均或者是将正文的核心词的向量表示与问题的核心词的向量表示进行加权平均，得到一个能代表这个样本主题的向量表示；其中，在加权平均时，问题的向量表示相对于核心句的向量表示拥有更大的权重，问题的核心词的向量表示相对于正文的核心词的向量表示拥有更大的权重；

S4、将得到的所有的阅读理解的样本主题的向量表示进行聚类，类别的数量由对数据集的了解来决定，聚类后将同类向量求平均，得到的向量称为主题向量，多个聚类中心代表多类主题；

S5、利用所述阅读理解数据集进行常规的机器阅读理解训练，但在推理层和输出层给予与聚类后的主题向量相似度更高的词更高的权重，从而生成一种主题对应的机器阅读理解模型用以进行待处理的阅读理解。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，步骤S1中，训练所需的阅读理解数据集为span式答案抽取的阅读理解数据集，语种为中文或英文；正文、问题及答案指的是在一个机器阅读理解任务中，机器首先需要阅读正文文章，在此基础上阅读问题并对问题做回答，答案为训练数据给出的标准答案；正文为单段落或者为多段落，答案的抽取模式为以首尾词定位段落中的一个区域，将这个区域中的句子作为答案。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，步骤S2中第(1)种方案，若一篇阅读理解的正文为多段落，则通过设定的最大段落数K，按顺序保留正文的前K段作为有效文本，其他的丢弃；然后计算有效文本中的各个段落与问题的BLEU-4分数，从中选出BLEU-4分数较高的多个段落作为与问题更相关的段落，对于选出的各个段落以及对于一篇阅读理解的正文为单段落时，计算一个段落中各个语句与问题的BLEU-4分数，从中选出BLEU-4分数较高的多个语句作为该段落中与问题更相关的核心句。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，步骤S3中进行加权平均的实现方式具体为：

对于核心词的方式：将核心词的词向量直接进行加权平均；

对于核心句的方式：使用双向循环神经网络将问题句子与正文核心句进行编码，将首尾位置输出的隐藏层向量拼接，再对这些向量进行加权平均得到最终的向量表示。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，步骤S4还包括降维处理，具体为：将得到的所有的阅读理解的主题的向量表示进行聚类，由于拼接后的维度可能较高，所以对聚类结果进行降维，以使得聚类后得到的主题向量表示的维度可以与单词的向量进行相似度计算。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，步骤S5中常规的机器阅读理解训练所采用的训练系统包括：

嵌入层：采用的是在外部数据上预训练的词向量，或者是基于循环神经网络或者卷积神经网络的从字符到单词的词向量，得到问题和正文段落里面每个单词的上下文无关的表示，将得到的词向量作为训练的输入；

编码层：采用多层的双向循环神经网络得到问题和正文段落的每个词的上下文表示；

预处理层：将嵌入层得到的词向量用于核心词的向量运算；将编码层得到的上下文表示中的首位和尾部的向量表示拼接后作为核心句的向量表示；

主题生成层：若是使用核心词向量，将所有的核心词向量加权平均后作为当前样本的向量表示，接着将所有样本的向量表示聚类，同类向量求得的平均值作为主题向量；若是使用核心句向量，将问题句子与正文核心句进行编码，将首尾位置输出的隐藏层向量拼接，再对这些向量进行加权平均得到最终的向量表示将所有核心句的向量表示，然后聚类并且降维，同类向量求得的平均值作为主题向量；

匹配层：得到问题里面的词和正文段落词之间的对应关系，具体是采用注意力的机制实现，得到正文里面每个词的和问题相关的表示；并且，在本层加入了主题向量和段落词之间的对应关系，同样采用注意力机制实现，得到每个词和主题相关的表示，接下来采取以下方法利用这些信息：

(1)将问题向量与主题向量拼接后一同与词向量做注意力机制的加权运算；

(2)分别将问题和主题向量与词向量做注意力机制的加权运算，再求平均；

自匹配层：在得到与问题及主题相关的词表示的基础上再采用self-attention的机制进一步完善文章段落中的词的表示；

输出层：对正文段落里面的每个词预测其是答案开始以及答案结束的概率，从而计算文章段落中答案概率最大的子串输出为答案；

其中，在匹配层中将主题向量考虑进去，具体的方法为：对问题和主题与段落一同做两次attention加权表示，将主题向量与问题向量拼接在一起一同与段落做attention加权表示。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，嵌入层中，将得到的词向量作为训练的输入具体为：将得到的词向量和得到一些特征一起作为训练的输入。

进一步地，在本发明的考虑主题的机器阅读理解模型生成方法中，采用上述任一项所述的考虑主题的机器阅读理解模型生成方法进行机器阅读理解模型的生成。

以往的机器阅读理解的模型训练并没有考虑样本本身的属性特征，仅仅将问题和段落的关系作为抽取答案的标准，这样的做法明显忽略了可以从训练中得到的很多信息。本发明首先通过向量的计算和聚类等方法定出训练样本主题的向量表示，然后将训练样本本身的主题信息融入到模型的训练中，用attention的方法突出和主题更切合的词，来达到提高阅读理解效果的目的。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是考虑主题的机器阅读理解模型生成方法一实施例的原理图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，其为本发明的考虑主题的机器阅读理解模型生成方法一实施例的原理图。本实施例的考虑主题的机器阅读理解模型生成方法包含如下步骤：

S1、获取训练所需的阅读理解数据集，所述阅读理解数据集包含多篇阅读理解，每篇阅读理解作为一个样本由正文、问题及答案三部分组成；训练所需的阅读理解数据集为span式答案抽取的阅读理解数据集，语种为中文或英文；正文、问题及答案指的是在一个机器阅读理解任务中，机器首先需要阅读正文文章，在此基础上阅读问题并对问题做回答，答案为训练数据给出的标准答案；正文为单段落或者为多段落，答案的抽取模式为以首尾词定位段落中的一个区域，将这个区域中的句子作为答案。

S2、对每篇阅读理解样本分别进行预处理，对单篇阅读理解的训练样本进行预处理的方法为下述任意一种。

若一篇阅读理解的正文为多段落，则通过设定的最大段落数K，按顺序保留正文的前K段作为有效文本，其他的丢弃；然后计算有效文本中的各个段落与问题的BLEU-4分数，从中选出BLEU-4分数较高的多个段落作为与问题更相关的段落，对于选出的各个段落以及对于一篇阅读理解的正文为单段落时，计算一个段落中各个语句与问题的BLEU-4分数，从中选出BLEU-4分数较高的多个语句作为该段落中与问题更相关的核心句。

(2)采用语义解析法对问题与正文做预处理，得到语义解析后的词作为核心词。

S3、对预处理选出的核心词或核心句进行向量表示，同时对于每一样本：将核心句的向量表示与问题的向量表示进行加权平均或者是将正文的核心词的向量表示与问题的核心词的向量表示进行加权平均，得到一个能代表这个样本主题的向量表示；其中，在加权平均时，问题的向量表示相对于核心句的向量表示拥有更大的权重，问题的核心词的向量表示相对于正文的核心词的向量表示拥有更大的权重，这是因为问题的核心句和核心词最能体现一个阅读理解样本的主题。具体的，进行加权平均的实现方式具体为：

对于核心词的方式：将核心词的词向量直接进行加权平均；

对于核心句的方式：使用双向循环神经网络(bi-LSTM)将问题句子与正文核心句进行编码(encoder)，将首尾位置输出的隐藏层向量拼接，再对这些向量进行加权平均得到最终的向量表示。

S4、将得到的所有的阅读理解的样本主题的向量表示进行聚类，类别的数量由对数据集的了解来决定，聚类后将同类向量求平均，得到的向量称为主题向量，多个聚类中心代表多类主题。

在本发明的另一实施例中，步骤S4还包括降维处理，具体为：将得到的所有的阅读理解的主题的向量表示进行聚类，由于拼接后的维度可能较高，所以对聚类结果进行降维，以使得聚类后得到的主题向量表示的维度可以与单词的向量进行相似度计算。

S5、利用所述阅读理解数据集进行常规的机器阅读理解训练，但在推理层和输出层给予与聚类后的主题向量相似度更高的词(token)更高的权重，从而生成一种主题对应的机器阅读理解模型用以进行待处理的阅读理解。每个主题对应一个机器阅读理解模型，所有主题对应的阅读理解模型可以一起组成一个总模型，当利用总模型进行机器阅读理解时，用主题向量做主题匹配选择合适的model做阅读理解，合适的是指选择一个与其最相近主题。

步骤S5中常规的机器阅读理解训练所采用的训练系统包括：

在本发明中可以在匹配层中将主体向量考虑进去，具体的方法有，嵌入层中，将得到的词向量作为训练的输入具体为：将得到的词向量和得到一些特征一起作为训练的输入。

本发明还提供了一种与上述方法对应的系统，系统采用上述的考虑主题的机器阅读理解模型生成方法进行机器阅读理解模型的生成。

本发明提取出了训练样本数据中潜在的主题信息，利用这种主题信息对阅读理解模型的训练做监督，从而提高阅读理解模型的效果。也就是说，当我们拿到训练数据时，训练数据时混乱的，其中可能有地质学领域的样本，或者计算机领域的样本等等，样本的领域信息我们也可以将其称为主题信息，传统的机器阅读理解模型忽视了这种主题信息，把他们一视同仁的投入模型的训练，而本发明公开的模型考虑在模型训练之前提取出与训练样本对应的多个主题，并利用样本的主题信息来提高机器阅读理解工作的效果。本方法的基本流程为：对每个训练样本做处理，找出能代表这个样本的向量表示；对样本做聚类并求出同类样本向量的均值作为topic的向量表示；在匹配和输出时利用注意力机制(attention)给向量表示与本样本主题向量相似度更高的词(token)更大的权重。此外，训练数据经过较好的数据清洗后能得到更好的效果，因为降低噪声后我们能得到更好的topic向量表示。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种考虑主题的机器阅读理解模型生成方法，其特征在于，包含如下步骤：

S4、将得到的所有的阅读理解的样本主题的向量表示进行聚类，聚类后将同类向量求平均，得到的向量称为主题向量，多个聚类中心代表多类主题；

S5、利用所述阅读理解数据集进行常规的机器阅读理解训练，但在输出层给予与聚类后的主题向量相似度更高的词更高的权重，从而生成一种主题对应的机器阅读理解模型用以进行待处理的阅读理解；

步骤S5中常规的机器阅读理解训练所采用的训练系统包括：

主题生成层：若是使用核心词向量，将所有的核心词向量加权平均后作为当前样本的向量表示，接着将所有样本的向量表示聚类，同类向量求得的平均值作为主题向量；若是使用核心句向量，将问题句子与正文核心句进行编码，将首尾位置输出的隐藏层向量拼接，再对这些向量进行加权平均得到最终的所有核心句的向量表示，然后聚类并且降维，同类向量求得的平均值作为主题向量；

匹配层：得到问题里面的词和正文段落词之间的对应关系，具体是采用注意力的机制实现，得到正文里面每个词的和问题相关的表示；并且，在本层加入了主题向量和段落词之间的对应关系，同样采用注意力机制实现，得到每个词和主题相关的表示，接下来采取以下任意一种方法利用这些信息：

(1)将问题向量与主题向量拼接后一同与正文段落的词向量做注意力机制的加权运算；

(2)分别将问题和主题向量与正文段落的词向量做注意力机制的加权运算，再求平均；

输出层：对正文段落里面的每个词预测其是答案开始以及答案结束的概率，从而计算文章段落中答案概率最大的子串输出为答案。

2.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法，其特征在于，步骤S1中，训练所需的阅读理解数据集为span式答案抽取的阅读理解数据集，语种为中文或英文；正文、问题及答案指的是在一个机器阅读理解任务中，机器首先需要阅读正文文章，在此基础上阅读问题并对问题做回答，答案为训练数据给出的标准答案；正文为单段落或者为多段落，答案的抽取模式为以首尾词定位段落中的一个区域，将这个区域中的句子作为答案。

3.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法，其特征在于，步骤S2中第(1)种方案，若一篇阅读理解的正文为多段落，则通过设定的最大段落数K，按顺序保留正文的前K段作为有效文本，其他的丢弃；然后计算有效文本中的各个段落与问题的BLEU-4分数，从中选出BLEU-4分数较高的多个段落作为与问题更相关的段落，对于选出的各个段落以及对于一篇阅读理解的正文为单段落时，计算一个段落中各个语句与问题的BLEU-4分数，从中选出BLEU-4分数较高的多个语句作为该段落中与问题更相关的核心句。

4.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法，其特征在于，步骤S3中进行加权平均的实现方式具体为：

对于核心词的方式：将核心词的词向量直接进行加权平均；

5.根据权利要求1所述的考虑主题的机器阅读理解模型生成方法，其特征在于，步骤S4还包括降维处理，具体为：将得到的所有的阅读理解的主题的向量表示进行聚类，由于拼接后的维度可能较高，所以对聚类结果进行降维，以使得聚类后得到的主题向量表示的维度可以与单词的向量进行相似度计算。

6.一种考虑主题的机器阅读理解模型生成系统，其特征在于，采用如权利要求1-5任一项所述的考虑主题的机器阅读理解模型生成方法进行机器阅读理解模型的生成。