CN110134946A

CN110134946A - 一种针对复杂数据的机器阅读理解方法

Info

Publication number: CN110134946A
Application number: CN201910298452.5A
Authority: CN
Inventors: 李舟军; 刘俊杰; 肖武魁; 王昌宝
Original assignee: Shenzhen Smart Technology Co Ltd
Current assignee: Shenzhen Smart Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-08-16
Anticipated expiration: 2039-04-15
Also published as: CN110134946B

Abstract

本发明公开一种针对复杂数据的机器阅读理解方法：S1.预处理：对原始数据信息进行分词，然后对语料中的词频进行统计，选取词频较高的词汇组成词汇表，不在词汇表中的词用特殊标记代替；S2.基于卷积神经网络的段落排名模型的建立：该模型用于对文章中的多个段落进行排名，选取排名最高的段落进行答案抽取；S3.基于高斯分布的答案预测方法：对阅读理解任务中的抽取式方法进行改进，将使用分类方法的答案定位转化为基于高斯分布的概率学习方法。本发明针对机器阅读理解任务在复杂数据集下的噪声问题和长答案问题，提出了段落排名模型和高斯分布的答案预测方法，有效地提高了机器阅读理解任务在复杂场景下的实用性。

Description

一种针对复杂数据的机器阅读理解方法

技术领域

本发明涉及一种针对复杂数据的机器阅读理解方法，属于自然语言处理技术领域。

背景技术

近年来，深度学习技术快速发展，并已经在图像识别、语音识别和围棋等领域超越了人类水平。自然语言处理是实现人工智能的核心技术，在自然语言处理领域，深度学习技术也在机器翻译、人机对话等方面也取得了重要突破。机器阅读理解作为自然语言处理领域的核心技术，借助于深度学习技术的推动获得了快速发展。

机器阅读理解，顾名思义，就是让机器学会阅读和理解文章，即：对于给定的问题，从相关文章中寻找答案。机器阅读理解涉及到语言理解、知识推理和摘要生成等复杂技术，因而面临着诸多挑战。基于深度学习的阅读理解模型主要包括词向量模块、编码模块、注意力模块和答案预测模块。

(1)词向量模块：在机器阅读理解任务中，第一步就是要将自然语言中的单词进行数学化表示，即将单词映射到一个向量空间，使得每个单词具有唯一的向量表示。该映射要能反映单词的语法和语义信息，以及词与词之间诸如同义、反义等关系。

(2)编码模块：词向量模块得到的是每个单词的独立表示，并不包含上下文信息。编码模块则以词向量表示的文本序列作为输入，通过循环神经网络或者卷积神经网络对输入的文本序列进行编码，编码后的文本序列具有丰富的上下文信息和语义信息。

(3)注意力模块：对于一篇文章而言，并非每个位置的单词都同等重要，与问题相关的往往是文章的一部分。注意力机制可以从文章中挑选出和问题关联度最大的部分内容，排除不相关信息，使模型将注意力放在文章的关键部分。

(4)答案预测模块：随着机器阅读理解技术的发展，越来越多的数据集被发布出来，这些数据集越来越贴近真实应用场景，更加具有挑战性。从答案产生方式来看，阅读理解数据集的答案从早先的抽取式演变为生成式；从每条数据提供的上下文来看，上下文语境由单篇单段落文章发展为多篇多段落文章。因此，如何从给定的输入数据中提取答案也已成为机器阅读理解技术的重点研究内容。

综上，现有技术在真实应用场景中，待处理数据往往较长，且包含较多噪声；另外，真实数据中答案长度往往较长，而目前的机器阅读理解预测方法处理这类数据中存在训练目标和评价指标之间存在不一致性，本发明提出一个基于高斯分布的答案预测方法，大大提高了二者之间的一致性。

发明内容

本发明的目的在于，针对背景技术中提及的真实数据中答案长度较长、目前的机器阅读理解预测方法处理这类数据中存在训练目标和评价指标之间存在不一致性的问题，提出一种针对复杂数据的机器阅读理解方法，具体而言是一种基于高斯分布的答案预测方法，以大大提高二者之间的一致性，解决了真实应用场景下的噪声问题和长答案问题。。

本发明技术解决方案：一种针对复杂数据的机器阅读理解方法，包括以下步骤：预处理、基于卷积神经网络的段落排名模型的建立和基于高斯分布的答案预测方法。其中：

S1.预处理：机器阅读理解任务中的数据是自然语言，需要对原始数据信息进行分词，然后对语料中的词频进行统计，选取词频较高的若干词汇组成词汇表，不在词汇表中的词用特殊标记代替；

S2.基于卷积神经网络的段落排名模型的建立：该模型用于对文章中的多个段落进行排名，选取排名最高的段落进行答案抽取，具体过程如下：

所述的基于卷积神经网络的段落排名模型由词嵌入层，编码层，双向注意力层和排名层组成；

S2.1:词嵌入层：对于输入的文本数据，词嵌入层通过词嵌入技术将每个单词用一个向量进行表示，获得自然语言的数学化表示方法；

S2.2:编码层：编码层用于对给定的输入序列进行特征提取，不同于一般的使用循环神经网络进行特征提取的方法，本发明使用卷积神经网络快速高效的对输入序列提取有效信息；具体的，所述的编码层为卷积编码层，主要由N-gram层和自注意力层构成；

S2.2.1：N-gram层：本发明使用N-gram层对自然语言处理中的语言模型进行建模。在 N-gram层中，对于输入的特征，首先通过卷积核为1的卷积对特征进行降维，减少网络的计算量，然后分别使用卷积核大小为1，3，5，7的卷积进行局部特征提取，分别用于对1-gram， 3-gram，5-gram，7-gram进行建模。最后将各个N-gram的特征进行拼接，获得N-gram层的最终输出；

S2.2.2：自注意力层：本发明使用自注意力层提取文本序列的全局特征。在自注意力层，对于输入的特征，首先通过三个全连接分别得到三个特征：查询矩阵Q，键矩阵K和值矩阵V，然后通过Q和K矩阵乘法得到权重矩阵，使用该权重矩阵对值矩阵V的各个部分进行加权求和得到文本序列的全局特征；

S2.3:双向注意力层：对于输入的问题序列和段落序列，双向注意力层分别对问题序列和段落序列交互使用注意力机制，提取基于问题序列的段落特征，作为段落排名的最终特征。

S2.4:排名层：对于输入的段落特征进行打分，得分越高表明段落和问题的相关性越大，包含答案的可能越高。从多个段落中选出排名最高的段落进行答案抽取。

S3.基于高斯分布的答案预测方法：对阅读理解任务中的抽取式方法进行改进。目前的机器阅读理解模型普遍使用分类方法进行答案预测，通过预测答案片段在文章中的开始位置和结束位置，实现答案定位。本发明将基于分类的方法转化为基于高斯分布的概率学习方法，提升了损失函数和评价指标之间的一致性。具体过程如下：

首先对于答案区间的左端点在文本序列中的位置s，生成一个以s为中心的高斯分布。在整个文本序列中，距离s越近的位置，其作为答案左边界的概率越大，距离s越远的位置，其作为答案左边界的概率越小。因此，模型训练时所使用的监督表示不是左端点的位置索引 s，而且一个以s为中心的高斯概率密度函数。本发明使用交叉熵损失函数指导模型对该概率密度函数进行学习。

本发明一种针对复杂数据的机器阅读理解方法，其优点和功效在于：使用轻量级的排名网络解决大规模复杂数据中的噪声问题和耗费计算资源的问题，通过使用基于高斯分布的答案预测方法，解决了复杂数据场景下长答案的预测问题。通过以上两种方法，本发明提出的技术使得机器阅读理解模型能够应用于真实场景，极大提高了实用性。

附图说明

图1为本发明方法整体流程图。

图2为本发明预处理流程。

图3为本发明构建段落排名模型中的N-gram层。

图4为本发明构建段落排名模型中的自注意力层。

图5为本发明构建的高斯分布的监督标签。

图6为本发明设计的段落排名模型基本结构。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

本发明一种针对复杂数据的机器阅读理解方法，如图1所示，具体步骤如下：

S1.预处理

整个预处理模块主要对原始数据进行预处理工作，包括分词、统计词频和构造词汇表。如图2所示，整个预处理模块过程的流程如下：

S1.1分词

原始数据主要是自然语言表示的数据，数据形式主要是一篇原始的文章。为了进行后续工作，需要对原始的文章数据进行分词。具体的，本发明使用jieba分词工具对原始数据进行分词；

S1.2词频统计

对于分词后的结果，本发明对语料中所有的词汇进行词频统计，即统计每个词在所有语料中出现的次数；

S1.3构造词汇表

根据词频统计结果，将词汇按照词频由高到低排序，并选取前30000个词构成词汇表。

S2.基于卷积神经网络的段落排名模型的建立

依靠卷积神经网络能够高效利用GPU进行并行计算优势，设计轻量级的卷积神经网络用于对文章的多个段落进行排名，选取排名第一的段落，帮助去除噪声，缩小解空间，提高模型准确率；该段落排名模块主要用于对文章中的多个段落进行排名，选取排名最高的段落进行答案抽取，下面具体介绍该模块的实现。

如图6所示，所述的基于卷积神经网络的段落排名模型由词嵌入层，编码层，双向注意力层和排名层组成；

S2.1词嵌入层：对于输入的文本数据，词嵌入层通过词嵌入技术将每个单词用一个向量进行表示，获得自然语言的数学化表示方法；

S2.2编码层：编码层用于对给定的输入序列进行特征提取，不同于一般的使用循环神经网络进行特征提取的方法，本发明使用卷积神经网络快速高效的对输入序列提取有效信息；具体的，所述的编码层为卷积编码层，主要由N-gram层和自注意力层构成；

其中，N-gram层：本发明使用N-gram层对自然语言处理中的语言模型进行建模。在N-gram层中，对于输入的特征，首先通过卷积核为1的卷积对特征进行降维，减少网络的计算量，然后分别使用卷积核大小为1，3，5，7的卷积进行局部特征提取，分别用于对1-gram，3-gram，5-gram，7-gram进行建模。最后将各个N-gram的特征进行拼接，获得N-gram层的最终输出；

其中，自注意力层：本发明使用自注意力层提取文本序列的全局特征。如图4所示，在自注意力层，对于输入的特征x，首先通过三个全连接层分别得到三个特征矩阵：查询矩阵Q_x，键矩阵K_x和值矩阵V_x(见公式(1),其中W_Q，W_K，W_V表示模型参数)，然后通过Q_x和K_x矩阵乘法得到权重矩阵，使用该权重矩阵对值矩阵V_x的各个部分进行加权求和得到文本序列的全局特征(见公式(2)，其中d_k表示矩阵K_x维度)；

Q_x＝xW_Q，K_x＝xW_K，V_x＝xW_V (1)

S2.3双向注意力层：对于输入的问题序列和段落序列，双向注意力层分别对问题序列和段落序列交互使用注意力机制，提取基于问题序列的段落特征，作为段落排名的最终特征。

S2.4排名层：对于输入的段落特征进行打分，得分越高表明段落和问题的相关性越大，包含答案的可能越高。从多个段落中选出排名最高的段落进行答案抽取。

S3.基于高斯分布的答案预测

目前的机器阅读理解模型普遍使用分类方法进行答案预测，即答案定位模型(如图1)，通过预测答案片段在文章中的开始位置和结束位置，实现答案定位。

本发明使用基于高斯分布的概率学习方法指导模型的答案预测训练。如图5所示，在基于分类方法的答案预测技术中，分类标签为“农”所在的位置索引；在基于高斯分布的概率学习方法中，本发明将构造以“农”在为中心的高斯分布。文本序列中任意一个位置的标签，为该位置出高斯分布的概率密度。因此本发明以高斯分布为训练标签，使用交叉熵损失函数指导模型对该高斯分布进行训练。具体地，若基于高斯分布的训练标签为{y_i|1≤i≤N}，该序列为高斯分布序列，模型预测的输出序列为{x_i|1≤i≤N}，则使用交叉熵损失函数时训练产生的损失为：

其中，

以下，表1(为DuReader数据集上排名模型和基线模型的比较)验证了在中文机器阅读理解数据集DuReader上段落排名方法的有效性，可以看出，使用段落排名方法和基线模型结合，在测试集和开发集上，模型的BLEU-4和ROUGE-L获得了3～5个点的精度提升；表2(为不同答案预测在方法DuReader测试集上效果对比)验证了高斯监督方法的有效性，通过将模型训练的监督方式改为高斯监督，在DuReader测试集上，BLEU-4和ROUGE-L分别获得不同程度的精度提升。表中：BiDAF为经典的机器阅读理解模型。

表1

表2。

Claims

1.一种针对复杂数据的机器阅读理解方法，其特征在于：该方法包括以下步骤：预处理、基于卷积神经网络的段落排名模型的建立和基于高斯分布的答案预测方法，具体如下：

S1.预处理：对原始数据信息进行分词，然后对语料中的词频进行统计，选取词频较高的词汇组成词汇表，不在词汇表中的词用特殊标记代替；

S2.基于卷积神经网络的段落排名模型的建立：该模型用于对文章中的多个段落进行排名，选取排名最高的段落进行答案抽取，所述的基于卷积神经网络的段落排名模型由词嵌入层、编码层、双向注意力层和排名层组成；

S3.基于高斯分布的答案预测方法：对阅读理解任务中的抽取式方法进行改进，将使用分类方法的答案定位转化为基于高斯分布的概率学习方法，提升了损失函数和评价指标之间的一致性。

2.根据权利要求1所述的一种针对复杂数据的机器阅读理解方法，其特征在于：所述的基于卷积神经网络的段落排名模型，具体如下：

S2.2:编码层：编码层用于对给定的输入序列进行特征提取，不同于一般的使用循环神经网络进行特征提取的方法，本发明使用卷积神经网络快速高效的对输入序列提取有效信息；

S2.3:双向注意力层：对于输入的问题序列和段落序列，双向注意力层分别对问题序列和段落序列交互使用注意力机制，提取基于问题序列的段落特征，作为段落排名的最终特征；

S2.4:排名层：对于输入的段落特征进行打分，得分越高表明段落和问题的相关性越大，包含答案的可能越高；从多个段落中选出排名最高的段落进行答案抽取。

3.根据权利要求2所述的一种针对复杂数据的机器阅读理解方法，其特征在于：所述的编码层为卷积编码层，主要由N-gram层和自注意力层构成；

S2.2.1：N-gram层：使用N-gram层对自然语言处理中的语言模型进行建模，在N-gram层中，对于输入的特征，首先通过卷积核为1的卷积对特征进行降维，减少网络的计算量，然后分别使用卷积核大小为1，3，5，7的卷积进行局部特征提取，分别用于对1-gram，3-gram，5-gram，7-gram进行建模；最后将各个N-gram的特征进行拼接，获得N-gram层的最终输出；

S2.2.2：自注意力层：使用自注意力层提取文本序列的全局特征；在自注意力层，对于输入的特征，首先通过三个全连接分别得到三个特征：查询矩阵，键矩阵和值矩阵，然后通过：查询矩阵和键矩阵乘法得到权重矩阵，使用该权重矩阵对值矩阵的各个部分进行加权求和得到文本序列的全局特征。

4.根据权利要求1所述的一种针对复杂数据的机器阅读理解方法，其特征在于：所述步骤S3基于高斯分布的答案预测方法，具体过程如下：

首先对于答案区间的左端点在文本序列中的位置s，生成一个以s为中心的高斯分布；在整个文本序列中，距离s越近的位置，其作为答案左边界的概率越大，距离s越远的位置，其作为答案左边界的概率越小；因此，模型训练时所使用的监督表示不是左端点的位置索引s，而且一个以s为中心的高斯概率密度函数；使用交叉熵损失函数指导模型对该概率密度函数进行学习。