CN114239599A

CN114239599A - 一种机器阅读理解的实现方法、系统、设备及介质

Info

Publication number: CN114239599A
Application number: CN202111558230.6A
Authority: CN
Inventors: 陈家豪; 徐亮
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-25

Abstract

本发明涉及人工智能技术领域，提供一种机器阅读理解的实现方法、系统、设备及介质，包括：获取待识别文本，所述待识别文本包括文章、标题和问题；依次提取文章、标题和问题的表征向量；通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量，将所述问题表征向量输入预训练的分类器中，判断文章中是否存在答案；若存在答案，则通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量；将所述文章表征向量输入预训练的指针网络中，得到对应的答案。本发明利用注意力流的调整来控制文本答案的选取只和问题有关，而和标题的问句无关，极大地提高了机器阅读理解的识别精度，具有重要意义。

Description

一种机器阅读理解的实现方法、系统、设备及介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种机器阅读理解的实现方法、系统、设备及介质。

背景技术

机器阅读理解任务是指给定一篇文本，该文本包括文章和标题，再给出一个和文章相关的问题，让机器自动从文章中找到对应的答案。目前主流的机器阅读理解做法，是用文本预训练模型对问题、标题和文章进行编码与特征抽取，然后利用指针网络进行答案的选取，这种做法存在以下不足：

1、一般来说，在机器阅读理解任务中，标题通常都是一个问句，这样文本输入的时候就会有两个问题句(标题+问题)同时输入，而且这两个问句经常极度相似；当训练样本数过少，且没有明显的监督信号要求模型对应答案的选取是依据问题的时候，阅读理解模型会非常地困惑，导致做出错误的推理；而如果去掉标题，又会导致模型丢失很多文本信息。

2、缺乏语义理解能力，当一些概念被换成另外一种描述的时候，阅读理解模型理解不到两者含义的不变性，也会导致做出错误的推理。

3、当训练样本数有限的时候，阅读理解模型通常表现都不佳。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种机器阅读理解的实现方法、系统、设备及介质，用于解决现有的指针网络根据问题，对包含文章和标题的文本进行答案选取时，效果不佳的问题。

本发明的第一方面提供一种机器阅读理解的实现方法，包括：

获取待识别文本，所述待识别文本包括文章、标题和问题；

依次提取文章、标题和问题的表征向量；

通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量，将所述问题表征向量输入预训练的分类器中，判断文章中是否存在答案；

若存在答案，则通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量；

将所述文章表征向量输入预训练的指针网络中，得到对应的答案。

于本发明的一实施例中，所述依次提取文章、标题和问题的表征向量的步骤包括：

将文章、标题和问题以文本形式分别输入Roberta模型中，提取Roberta模型的输出作为文章、标题和问题的表征向量。

于本发明的一实施例中，所述通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量的步骤包括：

利用标题和问题之间的注意力机制，分别为标题和问题的表征向量分配注意力权重，生成第一注意力矩阵和第二注意力矩阵；

根据标题和问题的表征向量、第一注意力矩阵和第二注意力矩阵，得到标题和问题的加权向量；

拼接问题的表征向量、标题和问题的加权向量，得到问题表征向量。

于本发明的一实施例中，所述通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量的步骤包括：

利用文章和问题之间的注意力机制，分别为文章和问题的表征向量分配注意力权重，生成第三注意力矩阵和第四注意力矩阵；

根据文章和问题的表征向量、第三注意力矩阵和第四注意力矩阵，得到文章和问题的加权向量；

拼接文章的表征向量、文章和问题的加权向量，得到文章表征向量。

于本发明的一实施例中，所述分类器和所述指针网络是通过预处理的训练样本集训练得到，预处理包括：数据分析、数据扩增处理、筛选数据，其中，数据扩增处理包括词汇替换、短语替换、否定替换及顺序替换中的任意一种或多种。

于本发明的一实施例中，所述将所述问题表征向量输入预训练的分类器中，判断文章中是否存在答案的步骤包括：

将所述问题表征向量输入预训练的BiLSTM分类器中，得到分类概率，若分类概率大于预设阈值，则认为文章中存在答案。

于本发明的一实施例中，所述将所述文章表征向量输入预训练的指针网络中，得到对应的答案的步骤包括：

指针网络根据文章表征向量，得到文章中该问题对应的起始位置的第一概率和结束位置的第二概率，将第一概率大于第一预设阈值的起始位置作为答案的起点，将第二概率大于第二预设阈值的结束位置作为答案的终点。

本发明的第二方面还提供一种机器阅读理解的实现系统，包括：

文本获取模块，用于获取待识别文本，所述待识别文本包括文章、标题和问题；

特征提取模块，用于提取每个待识别文本中的文章、标题和问题的表征向量；

特征处理模块，用于根据标题和问题的表征向量，生成携带有标题信息的问题表征向量；还用于根据文章和问题的表征向量，生成携带有问题信息的文章表征向量；

分类模块，用于将所述问题表征向量输入预训练的分类器中，判断文章中是否存在答案；

预测模块，用于在存在答案时，将所述文章表征向量输入预训练的指针网络中，得到对应的答案。

本发明的第三方面还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明第一方面的一种机器阅读理解的实现方法中所述的方法步骤。

本发明的第四方面还提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面的一种机器阅读理解的实现方法中所述的方法步骤。

如上所述，本发明的一种机器阅读理解的实现方法、系统、设备及介质，具有以下有益效果：

本发明在采用指针网络对文章进行答案的选取前，先利用注意力机制获取携带有标题信息的问题表征向量，根据问题表征向量判断文章中是否存在答案，若存在，则利用注意力机制获取携带有问题信息的文章表征向量，再根据文章表征向量来选取答案。本发明利用注意力流的调整来控制文本答案的选取只和问题有关，而和标题的问句无关，极大地提高了机器阅读理解的识别精度，具有重要意义。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明第一实施方式中阅读理解的实现方法的流程示意图。

图2显示为本发明第一实施方式中生成问题表征向量的流程示意图。

图3显示为本发明第一实施方式中分类器的训练方法的流程示意图。

图4显示为本发明第一实施方式中阅读理解的实现过程的示意图。

图5显示为本发明第一实施方式中生成文章表征向量的流程示意图。

图6显示为本发明第一实施方式中指针网络的训练方法的流程示意图。

图7显示为本发明第二实施方式中阅读理解的实现系统的结构框图。

图8显示为本发明第五实施方式中计算机设备的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参阅图1，本发明的第一实施方式涉及一种机器阅读理解的实现方法，具体包括：

步骤101，获取待识别文本；其中，每个识别文本均包括文章、标题和问题。

具体的说，在获取待识别文本后，应对该待识别文本进行预处理，包括：人工去重、对齐、删除、标注等，此外，还可采用正则匹配方式，去除语料中多余的标点及网页标签。

再对经过预处理的文本进行单句或段的拆分，例如可以利用标点符号，如逗号、句号、问号等，将文本拆分成多个单句或多段；在一个可行的实施例中，可以利用Java语言的内置函数来完成拆分的功能。

步骤102，依次提取文章、标题和问题的表征向量。

具体的说，针对待识别文本，将文章的每段话或每句话、标题和问题以文本形式分别输入Roberta模型中，提取Roberta模型最后一层的输出作为文章、标题和问题的表征向量。

应理解，RoBERTa模型(Robustlyoptimized BERT Pretraining approach，稳健优化的BERT预训练方法)，是在BERT模型的基础上提出的基于动态词向量建模方法。RoBERTa模型输入待识别文本后，对待识别文本进行编码，同时输出待识别文本的多个子词和每个子词的表征向量，表征向量用于唯一表示子词，其中，RoBERTa模型采用字节对编码(Byte-Pair Encoding，BPE)技术进行编码，首先根据词表将每个子词映射成一个768维的词向量，再根据每个子词在待识别文本中的位置，将位置映射成一个768维的位置向量，最后将词向量和位置向量中的每个元素相加作为子词对应的表征向量。RoBERTa模型不仅能够高效捕捉更长距离的语义依赖关系，而且能够获取双向的上下文信息来生成语义信息更丰富的向量表示。

继续说明，根据文章、标题和问题的表征向量，确定每个子词的token，例如针对文章的第一个子词，将第一个子词对应的表征向量确定为第一个子词的token，依次计算后一个子词对应的表征向量与前一个子词对应的表征向量之间的向量差值，得到后一个子词的token，进而得到文章的所有子词的token。

步骤103，通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量，将问题表征向量输入预训练的分类器中，判断文章中是否存在答案。

具体的说，为了判断文章中是否存在答案，本实施例采用注意力机制，计算问题和标题之间的相似度，若相似度大于预设阈值，则认为该标题对应的文章中存在答案。

请参阅图2和图4，通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量的步骤包括：

步骤201，利用标题和问题之间的注意力机制，分别为标题和问题的表征向量分配注意力权重，生成第一注意力矩阵和第二注意力矩阵。

具体的说，将标题中每个单词与问题中每个单词进行相似度计算，得到相似度矩阵，对相似度矩阵的每一行做归一化处理，得到权重系数，根据权重系数对标题的表征向量进行加权求和，得到从标题到问题的注意力矩阵，即第一注意力矩阵。

类似的，针对问题中的每个单词，将其与标题中相似度最大的取出来作为权重，再对每个权重做归一化处理，得到归一化权重，根据归一化权重对问题的表征向量进行加权求和，得到从问题到标题的注意力矩阵，即第二注意力矩阵。

步骤202，根据标题的表征向量、问题的表征向量、第一注意力矩阵和第二注意力矩阵，得到标题和问题的加权向量，标题和问题的加权向量表达式为：

其中，a_q^t为标题和问题的加权向量；

E_title为标题的表征向量；

为标题的表征向量的转置；

E_question为问题的表征向量；

W_c为第一注意力矩阵；

W_qt为第二注意力矩阵；

且a_q^t、

R为实数集合，d_model为Roberta模型的输出维度，title_length为标题维度；question_length为问题维度。

通过上述方案，可以在问题中融合标题信息，同时将两者的维度调整到相同。

步骤203，将问题的表征向量、标题和问题的加权向量拼接，得到携带有标题信息的问题表征向量，问题表征向量的表达式为：

output_question＝concat(E_question,a_q^t)

其中，output_question为问题表征向量；

且

将携带有标题信息的问题表征向量输入预训练的双向长短时记忆网络(Bi-directional Long Short-Term Memory，BILSTM)分类器中，经过Softmax函数，获取分类概率，若分类概率大于预设阈值，则认为标题和文章中存在答案；若分类概率小于预设阈值，则认为标题和文章中不存在答案。

应理解，BILSTM分类器是一种双向长短期记忆网络(BiLSTM)，可以同时获取上下文信息，提取更丰富的特征，BiLSTM实际是将前向LSTM和后向LSTM叠加组成。长短期记忆神经网络(LSTM)是在原始循环神经网络中加入了记忆单元，解决了原始循环神经网络长期依赖、梯度消失、梯度爆炸等问题，循环神经网络展开后由多个相同的结构连接，每次会将上一次的状态与当前输入数据一同进行训练和学习，直至结束。LSTM神经网络中加入了记忆单元，用来决定遗忘哪些信息或需要记住哪些信息，数据输入之后，会首先判断是否需要遗忘，剩下的信息会储存在记忆单元中，该记忆单元的信息会一直传递到训练结束，LSTM包括输入门、遗忘门、输出门和单元状态。

请参阅图3，本实施例中的BiLSTM分类器为事先训练得到，其中，训练BiLSTM分类器的步骤包括：

步骤301，获取样本数据。

具体的说，训练分类器的样本数据可以采用一些通用领域开源阅读理解数据集，或用户基于任务目的构建的数据集，这些数据集一般包括原始数据和与部分原始数据相对应的标注数据。应理解，本实施例中所采用的数据集均包括文章、标题和与文章相关的问题。

步骤302，对获取的样本数据进行预处理，得到样本数据集。

具体的说，为了解决训练样本过少导致训练得到的分类器精度较低的问题，本实施例对分类器进行训练前，首先对获取的样本数据进行预处理，预处理的步骤包括数据分析、数据扩增处理、筛选数据，以下详细说明：

数据分析包括域内数据(in-domain)统计和检查项列表(Checklist)数据分析，通过对统计后的样本数据进行分析，发现样本数据存在一定的规律，主要包括：

1、当样本数据的问题和标题意图不同时，该样本的答案一般为无答案；例如，某一个样本数据的标题为“狗肉和绿豆一起吃会有什么反应”，文章为“狗肉和绿豆不可以一起吃......”，问题为“狗可以吃绿豆吗？”，对应的答案为“无答案”；

2、样本数据的问题或文章中存在多个错别字，且这些错别字对应的正确字为同一个字，例如，“三部上篮第二部停下犯规吗？”；

3、样本数据的问题与文章对照，存在替换数字，一般为阿拉伯数字转汉字或反之；

4、样本数据的问题与文章对照，若问题中出现动词或名词的反义替换，则对应的答案一般为否定的；例如，文章为“知了是害虫……”，问题为“知了是益虫吗？”，对应的答案为“不是”。

继续说明，基于上述数据分析的结果，对样本数据进行数据扩增处理，数据扩增处理的步骤主要包括：

1、词汇替换，将一些通用领域开源阅读理解数据集问题中的部分词汇，为方便描述，以下将通用领域开源阅读理解数据集简称为数据集D，进行了同义词、近义词、反义词或实体替换，替换为本实施例中需要使用的词汇；具体的说，基于《现代汉语词典》构建字典、基于《大词林》构建实体辞典，找出样本数据问题中的名词、动词、形容词、副词或实体，从构建的字典与实体辞典中找到这些词的同义词、近义词或反义词作替换。当使用反义词替换时，样本变为否定；当使用同义词或近义词替换时，样本答案不变，却丰富了提问形式。

2、短语替换，将数据集D中的问句用算法生成相似句，与样本数据中的问题进行替换。观察到其中有部分数据的标题带有其来源，如百度知道，或者百度搜索，可以采用数据的标题去可靠性较强的百度经验进行搜索，并用爬虫爬取搜索结果的帖子的问题作为问句改造的候选方案。

3、顺序替换，将数据集D中问句的一些词汇进行次序上的替换；例如，将“山药和胡萝卜可以一起吃吗？”替换为“胡萝卜和山药可以一起吃吗？”。

4、问题含数词与量词的样本扩增，由于此类问题人为构造的特征较为明显，如：问题“小明体重为多少公斤”，答案为“小明体重60千克”，往往这类数据模型回答得不是很好，于是筛选出具有此类特征的数据进行同义替换，增加了“小明体重为多少千克”，“小明体重为多少kg”这样的同义样本进行增强。

5、含负推理信息的样本扩增，当问题为“理想汽车有自动驾驶”，正文为“理想汽车没有自动驾驶……”，将否定词汇例如“不”，“没有”这类词改写原本问题，构造了反义的负样本。

6、基于问题中语义角色信息的样本扩增，若筛选出问题中含有并列连词连接两个语义块的样本，将连词两端的语义块进行互换，例如：“妈妈属龙，儿子属虎”变为“妈妈属虎，儿子属龙”，构造出来负样本。

继续说明，样本数据经过上述数据扩增处理，会生成大量的语病句，需要进行过滤；本实施例中使用GPT模型(Gererate Pre-Training Model)，计算构造样本句的概率，样本句的概率包括正向句子概率、反向句子概率、正向token概率及反向token概率，通过预设阈值，筛选出相对语义清晰的样本加入增强数据中，得到样本数据集。

应理解，GPT模型是基于transformer解码器构建的一种自然语言处理模型，它可以根据当前文本，给出下一个可能单词及其对应的概率，如此往复，最终完成整篇文章的预测。

步骤303，对样本数据集中的部分样本进行标注，再按照预设比例，将标注后的样本数据集随机划分为第一训练集和第一测试集。

步骤304，采用第一训练集，在损失函数的约束下对分类器进行训练，当分类器收敛后，得到训练好的分类器。

具体的说，分类器的训练步骤包括：将第一训练集输入初始分类器中，计算得到分类概率，采用第一损失函数计算分类概率和真实值的损失值，其中，真实值是基于标注样本集获得的；根据损失值，调整初始分类器的网络参数，直至初始分类器收敛或完成预设的迭代次数，即可得到训练后的分类器。在训练过程中，若初始分类器没有收敛，或者没有完成预设的迭代次数，则重复上述步骤。

进一步的，训练步骤还包括：将第一测试集输入训练后的分类器中测试其识别精度，若识别精度大于第一预设精度，则将该训练后的分类器作为最终的分类器，否则，继续训练。

步骤104，若存在答案，则通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量，将文章表征向量输入预训练的指针网络中，得到对应的答案。

具体的说，步骤103中，通过标题与问题之间的注意力交互，得到该问题是否有答案的初步判断，进而再通过文章和问题之间的注意力交互，抵消标题的影响，从文章中找到较为准确的答案。

请参阅图4和图5，通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量的步骤包括：

步骤501，利用文章和问题之间的注意力机制，分别为文章和问题的表征向量分配注意力权重，生成第三注意力矩阵和第四注意力矩阵。

具体的说，将文章中每个单词与问题中每个单词进行相似度计算，得到相似度矩阵，对相似度矩阵的每一行做归一化处理，得到权重系数，根据权重系数对文章的表征向量进行加权求和，得到从文章到问题的注意力矩阵，即第三注意力矩阵。

类似的，针对问题中的每个单词，将其与文章中相似度最大的取出来作为权重，再对每个权重做归一化处理，得到归一化权重，根据归一化权重对问题的表征向量进行加权求和，得到从问题到文章的注意力矩阵，即第四注意力矩阵。

步骤502，根据文章的表征向量、问题的表征向量、第三注意力矩阵和第四注意力矩阵，得到文章和问题的加权向量，文章和问题的加权向量表达式为：

其中，a_p^q为文章和问题的加权向量；

E_question为问题的表征向量；

为标题的表征向量的转置；

W_mrc、W_pq分别为基于问题和文章的注意力机制生成的注意力矩阵；

E_passage为文章的表征向量；

output_passage为文章表征向量；

且a_p^q,

passage_length为文章维度。

通过上述方案，可以在文章中融合问题信息，同时将两者的维度调整到相同。

步骤503，将文章的表征向量、文章和问题的加权向量拼接，得到携带有问题信息的文章表征向量，文章表征向量的表达式为：

output_passage＝concat(E_passage,a_p^q)

其中，output_passage为文章表征向量；

且

将携带有问题信息的文章表征向量输入预训练的指针网络中，得到对应的答案。

应理解，指针网络是一种通过概率的方式来预测某个位置的字符是否为答案的起始位置或结束位置的网络模型，指针网络可以根据需要设为多层，例如第一层包括第一神经网络和sigmoid层，第二层包括第二神经网络和sigmoid层，将携带有问题信息的文章表征向量输入第一神经网络和sigmoid层，获得文章中被标记的每个token对应该问题的起始位置的第一概率，将携带有问题信息的文章表征向量输入第二神经网络和sigmoid层，获得文章中被标记的每个token对应该问题的结束位置的第二概率；将第一概率与第一预设阈值相比较，当某一个token的第一概率大于等于第一预设阈值，则将该token为该问题的起始位置；将第二概率与第二预设阈值相比较，当某一个token的第二概率大于等于第二预设阈值，则将该token为该问题的结束位置。

针对一个问题，一篇文章可能存在多个相似答案，本实施例，在获取答案的起始位置和结束位置后，对相似答案进行合并，去除冗余答案，生成答案列表及对应的概率，并选择概率最高的答案作为最终的答案输出。

请参阅图6，本实施例中的指针网络为事先训练得到，其中，训练指针网络的步骤包括：

步骤601，获取样本数据。

具体的说，训练指针网络的样本数据可以采用一些通用领域开源阅读理解数据集，或用户基于任务目的构建的数据集，这些数据集一般包括原始数据和与部分原始数据相对应的标注数据。应理解，本实施例中所采用的数据集均包括文章、标题和与文章相关的问题。

步骤602，对获取的样本数据进行预处理，得到样本数据集。其中，预处理样本数据的方法步骤与步骤302中的方法步骤相类似，为节省篇幅，此处不再赘述。

步骤603，对样本数据集中的部分样本进行标注，再按照预设比例，将标注后的样本数据集随机划分为第二训练集和第二测试集。

步骤604，采用第二训练集，在损失函数的约束下对指针网络进行训练，当指针网络收敛后，得到训练好的指针网络。

具体的说，指针网络的训练步骤包括：将第二训练集输入初始指针网络中，得到对应该问题的起始位置和结束位置，采用第二损失函数计算预测结果和真实值的损失值，其中，真实值是基于标注样本集获得的；根据损失值，调整初始指针网络的网络参数，直至初始指针网络收敛或完成预设的迭代次数，即可得到训练后的指针网络。在训练过程中，若初始指针网络没有收敛，或者没有完成预设的迭代次数，则重复上述步骤。应理解，可以根据训练任务选择合适的第一损失函数和第二损失函数，本实施例中，为简化训练步骤，均采用了交叉熵损失函数。

进一步的，训练步骤还包括：将第二测试集输入训练后的指针网络中测试其预测精度，若预测精度大于第二预设精度，则将该训练后的指针网络作为最终的指针网络，否则，继续训练。

可见，本实施方式在采用指针网络对文章进行答案的选取前，先利用注意力机制获取携带有标题信息的问题表征向量，根据问题表征向量判断文章中是否存在答案，若存在，则利用注意力机制获取携带有问题信息的文章表征向量，再根据文章表征向量来选取答案。本方案利用注意力流的调整来控制文本答案的选取只和问题有关，而和标题的问句无关，极大地提高了机器阅读理解的识别精度，具有重要意义。此外，本方案在训练分类器和指针网络前，对训练样本集进行了行为型指导，经过行为型微调的阅读理解模型，在理解复杂语境上取得了更好的效果。

请参阅图7，本发明的第二实施方式涉及一种机器阅读理解的实现系统，包括：

文本获取模块，用于获取待识别文本，其中，待识别文本包括文章、标题和问题。

具体的说，文本获取模块在获取待识别文本后，对该待识别文本进行预处理，包括：人工去重、对齐、删除、标注等，此外，还可采用正则匹配方式，去除语料中多余的标点及网页标签。再对经过预处理的文本进行单句或段的拆分，例如可以利用标点符号，如逗号、句号、问号等，将文本拆分成多个单句或多段。

特征提取模块，用于提取每个待识别文本中的文章、标题和问题的表征向量。

具体的说，针对待识别文本，特征提取模块将文章的每段话或每句话、标题和问题以文本形式分别输入Roberta模型中，提取Roberta模型最后一层的输出作为文章、标题和问题的表征向量。特征提取模块还根据文章、标题和问题的表征向量，确定每个子词的token，例如针对文章的第一个子词，将第一个子词对应的表征向量确定为第一个子词的token，依次计算后一个子词对应的表征向量与前一个子词对应的表征向量之间的向量差值，得到后一个子词的token，进而得到文章的所有子词的token。

特征处理模块，用于根据标题和问题的表征向量，生成携带有标题信息的问题表征向量；还用于根据文章和问题的表征向量，生成携带有问题信息的文章表征向量。

具体的说，特征处理模块通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量的步骤包括：

步骤一、利用标题和问题之间的注意力机制，分别为标题和问题的表征向量分配注意力权重，生成第一注意力矩阵和第二注意力矩阵。

步骤二、根据标题的表征向量、问题的表征向量、第一注意力矩阵和第二注意力矩阵，得到标题和问题的加权向量，标题和问题的加权向量表达式为：

其中，a_q^t为标题和问题的加权向量；

E_title为标题的表征向量；

为标题的表征向量的转置；

E_question为问题的表征向量；

W_c为第一注意力矩阵；

W_qt为第二注意力矩阵；

且a_q^t、

步骤三、将问题的表征向量、标题和问题的加权向量拼接，得到携带有标题信息的问题表征向量，问题表征向量的表达式为：

output_question＝concat(E_question,a_q^t)

其中，output_question为问题表征向量；

且

继续说明，特征处理模块还通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量的步骤包括：

步骤一、利用文章和问题之间的注意力机制，分别为文章和问题的表征向量分配注意力权重，生成第三注意力矩阵和第四注意力矩阵。

步骤二、根据文章的表征向量、问题的表征向量、第三注意力矩阵和第四注意力矩阵，得到文章和问题的加权向量，文章和问题的加权向量表达式为：

其中，a_p^q为文章和问题的加权向量；

E_question为问题的表征向量；

为标题的表征向量的转置；

E_passage为文章的表征向量；

output_passage为文章表征向量；

且a_p^q,

passage_length为文章维度。

步骤三、将文章的表征向量、文章和问题的加权向量拼接，得到携带有问题信息的文章表征向量，文章表征向量的表达式为：

output_passage＝concat(E_passage,a_p^q)

其中，output_passage为文章表征向量；

且

分类模块，用于将问题表征向量输入预训练的分类器中，判断文章中是否存在答案。

具体的说，将携带有标题信息的问题表征向量输入预训练的双向长短时记忆网络(Bi-directional Long Short-Term Memory，BILSTM)分类器中，经过Softmax函数，获取分类概率，若分类概率大于预设阈值，则认为标题和文章中存在答案；若分类概率小于预设阈值，则认为标题和文章中不存在答案。

预测模块，用于在存在答案时，将文章表征向量输入预训练的指针网络中，得到对应的答案。

具体的说，预测模块将携带有问题信息的文章表征向量输入预训练的指针网络中，得到对应的答案。

可见，本实施方式在采用指针网络对文章进行答案的选取前，先利用注意力机制获取携带有标题信息的问题表征向量，根据问题表征向量判断文章中是否存在答案，若存在，则利用注意力机制获取携带有问题信息的文章表征向量，再根据文章表征向量来选取答案。本方案利用注意力流的调整来控制文本答案的选取只和问题有关，而和标题的问句无关，极大地提高了机器阅读理解的识别精度，具有重要意义。

本发明的第三实施方式涉及一种机器阅读理解模型的训练方法，其中，自然语言处理模型的训练步骤包括：

步骤一、构建训练语音识别模型的样本数据集，其中，该样本数据集是经过第一实施方式中公开的步骤302中的预处理得到。对样本数据集中的部分样本进行标注，再按照预设比例，将标注后的样本数据集随机划分为第三训练集和第三测试集。

步骤二、采用第三训练集，在第一损失函数的约束下对分类器进行训练，在第二损失函数的约束下对指针网络进行训练，当分类器和指针网络收敛后，得到训练好的自然语言处理模型。

具体的说，针对第三训练集中的每个训练样本，提取问题、标题和文章的表征向量，其中，每个训练样本均包括问题、标题和文章；通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量，将所述问题表征向量输入分类器中，得到分类概率，根据分类概率判断文章中是否存在答案；若存在答案，则通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量，将文章表征向量输入指针网络中，得到对应的答案。训练过程中，采用第一损失函数计算分类器输出的第一损失值，采用第二损失函数计算指针网络输出的第二损失值，根据第一损失值修正分类器的网络参数，根据第二损失值修正指针网络的网络参数，直到完成预设的迭代次数，选择第一损失值和第二损失值之和最小时的网络参数为训练后的分类器和指针网络，该训练后的分类器和指针网络共同构成自然语言处理模型。

步骤二、采用第三测试集，检验训练后的自然语言处理模型的处理精度，若处理精度大于预设精度，则将该训练后的自然语言处理模型作为最终的自然语言处理模型，否则，采用步骤二的方法重新训练自然语言处理模型。

需要说明的是，在训练过程中，观察到自然语言处理模型在标准答案为长答案的数据上表现不佳，分析可知是人工设置的最大答案长度导致；又观察到一些特定的问法往往对应较长的答案，例如：

How类型提问：红烧鱼要怎么做啊？

Step/Pipeline类型提问：钓鱼流程。

List/Enumerate类型提问：有多少种鲑鱼？

根据提问识别出潜在长答案样本，调节答案的最大字节长度，使得自然语言处理模型在回答这些问题时，将答案的字节长度设置为最大。

请参阅图8，本发明的第四实施方式涉及一种计算机设备，包括存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序，处理器802执行所述计算机程序时实现以下步骤：

获取待识别文本，待识别文本包括文章、标题和问题；

依次提取文章、标题和问题的表征向量；

其中，存储器801和处理器802采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器802和存储器801的各种电路连接在一起。总线还可以将诸如外围设备803、稳压器804和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器802处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器802。

处理器802负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器801可以被用于存储处理器802在执行操作时所使用的数据。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明的第五实施方式涉及一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待识别文本，待识别文本包括文章、标题和问题；

依次提取文章、标题和问题的表征向量；

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

综上所述，本发明的一种机器阅读理解的实现方法、系统、设备及介质，在采用指针网络对文章进行答案的选取前，先利用注意力机制获取携带有标题信息的问题表征向量，根据问题表征向量判断文章中是否存在答案，若存在，则利用注意力机制获取携带有问题信息的文章表征向量，再根据文章表征向量来选取答案。本方案利用注意力流的调整来控制文本答案的选取只和问题有关，而和标题的问句无关，极大地提高了机器阅读理解的识别精度，具有重要意义。此外，本方案在训练分类器和指针网络前，对训练样本集进行了行为型指导，经过行为型微调的阅读理解模型，在理解复杂语境上取得了更好的效果。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种机器阅读理解的实现方法，其特征在于，包括：

获取待识别文本，所述待识别文本包括文章、标题和问题；

依次提取文章、标题和问题的表征向量；

2.根据权利要求1所述的实现方法，其特征在于，所述依次提取文章、标题和问题的表征向量的步骤包括：

3.根据权利要求1所述的实现方法，其特征在于，所述通过注意力机制处理标题和问题的表征向量，生成携带有标题信息的问题表征向量的步骤包括：

4.根据权利要求1所述的实现方法，其特征在于，所述通过注意力机制处理文章和问题的表征向量，生成携带有问题信息的文章表征向量的步骤包括：

5.根据权利要求1所述的实现方法，其特征在于，所述分类器和所述指针网络是通过预处理的训练样本集训练得到，预处理包括：数据分析、数据扩增处理、筛选数据，其中，数据扩增处理包括词汇替换、短语替换、否定替换及顺序替换中的任意一种或多种。

6.根据权利要求5所述的实现方法，其特征在于，所述将所述问题表征向量输入预训练的分类器中，判断文章中是否存在答案的步骤包括：

7.根据权利要求5所述的实现方法，其特征在于，所述将所述文章表征向量输入预训练的指针网络中，得到对应的答案的步骤包括：

8.一种机器阅读理解的实现系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的实现方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的实现方法。