CN112464643B

CN112464643B - 一种机器阅读理解方法、装置、设备及存储介质

Info

Publication number: CN112464643B
Application number: CN202011348097.7A
Authority: CN
Inventors: 陈松灿
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-11-15
Anticipated expiration: 2040-11-26
Also published as: CN112464643A

Abstract

本发明公开了一种机器阅读理解方法、装置、设备及存储介质。方法包括：对待理解的文本数据和目标问题进行编码融合，得到第一矩阵，基于多头注意力机制对第一矩阵进行处理，得到第二矩阵，对第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵，基于协同多头注意力机制对文本矩阵和问题矩阵进行处理，得到第三矩阵，从第三矩阵中提取出第一特征矩阵和第二特征矩阵，基于第一特征矩阵和第二特征矩阵分别确定目标问题的答案的起始位置和目标问题的答案的结束位置。本发明实施例能够更好地细化注意力焦点，进而提高预测的答案的准确度。

Description

一种机器阅读理解方法、装置、设备及存储介质

技术领域

本发明实施例涉及机器阅读理解技术领域，尤其涉及一种机器阅读理解方法、装置、设备及存储介质。

背景技术

机器阅读理解(Machine Reading Comprehension，MRC)是自然语言处理的核心任务之一，它对于搜索引擎、智能客服等都有直接的应用价值。

机器阅读理解是指：给定一段文本，如果对于任何有关该文本的问题，大多数母语人士能够正确回答，且机器可以提供一个字符串，使发言者同意该字符串能够回答此问题，并且不包含与之无关的信息。

机器阅读理解方法分为两类：分别为生成式和抽取式。生成式是从理论上来说不受知识的局限，对于问题自动生成答案。但是生成式有时产生的答案答非所问、句式不通，不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章训练语言模型，让机器具备阅读的能力，并对提出的新问题，语言模型在相关文章中抽取出相应的答案。相对于生成式而言，抽取式的技术优势更加明显，应用更为广泛。

目前大部分抽取式机器阅读理解的语言模型的输出是一个上下文和问题连接在一起的一个长向量，此时模型并没有足够的能力去细化这一个长向量注意力的焦点，随着层数的增多，上下文与问题之间的注意力就会逐渐被分散，造成模型的预测能力减弱，预测的答案准确度低。

发明内容

本发明提供一种机器阅读理解方法、装置、设备及存储介质，以实现有针对性的对文本数据和目标问题进行相互关注，能够更好地细化注意力焦点，进而提高预测的答案的准确度。

第一方面，本发明实施例提供了一种机器阅读理解方法，包括：

对待理解的文本数据和目标问题进行编码融合，得到第一矩阵；

基于多头注意力机制对所述第一矩阵进行处理，得到第二矩阵；

对所述第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵；

基于协同多头注意力机制对所述文本矩阵和所述问题矩阵进行处理，得到第三矩阵；

从所述第三矩阵中提取出第一特征矩阵和第二特征矩阵，所述第一特征矩阵用于表征所述目标问题的答案的起始位置，所述第二特征矩阵用于表征所述目标问题的答案的结束位置；

基于所述第一特征矩阵和所述第二特征矩阵分别确定所述目标问题的答案的起始位置和所述目标问题的答案的结束位置。

第二方面，本发明实施例还提供了机器阅读理解装置，该装置包括：

编码融合模块，用于对待理解的文本数据和目标问题进行编码融合，得到第一矩阵；

第一注意力模块，用于基于多头注意力机制对所述第一矩阵进行处理，得到第二矩阵；

掩码操作模块，用于对所述第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵；

第二注意力模块，用于基于协同多头注意力机制对所述文本矩阵和所述问题矩阵进行处理，得到第三矩阵；

特征矩阵提取模块，用于从所述第三矩阵中提取出第一特征矩阵和第二特征矩阵，所述第一特征矩阵用于表征所述目标问题的答案的起始位置，所述第二特征矩阵用于表征所述目标问题的答案的结束位置；

答案位置确定模块，用于基于所述第一特征矩阵和所述第二特征矩阵分别确定所述目标问题的答案的起始位置和所述目标问题的答案的结束位置。

第三方面，本发明实施例还提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明第一方面提供的机器阅读理解方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面提供的机器阅读理解方法。

本发明实施例提供的机器阅读理解方法，包括：对待理解的文本数据和目标问题进行编码融合，得到第一矩阵，基于多头注意力机制对第一矩阵进行处理，得到第二矩阵，对第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵，基于协同多头注意力机制对文本矩阵和问题矩阵进行处理，得到第三矩阵，从第三矩阵中提取出第一特征矩阵和第二特征矩阵，基于第一特征矩阵和第二特征矩阵分别确定目标问题的答案的起始位置和目标问题的答案的结束位置。通过对第二矩阵进行掩码操作，分别得到用于表征文本的文本矩阵和用于表征目标问题的问题矩阵，然后基于协同多头注意力机制对文本矩阵和问题矩阵进行处理，将文本数据和目标问题之间的注意力机制进行区分，有针对性的对文本数据和目标问题进行相互关注，能够更好地细化注意力焦点，进而提高预测的答案的准确度。

附图说明

图1为本发明实施例一提供的一种机器阅读理解方法的流程图；

图2A为本发明实施例二提供的一种机器阅读理解方法的流程图；

图2B为本发明实施例二提供的一种机器阅读理解模型的结构示意图；

图2C为本发明实施例中BERT-base模型的输入层的结构示意图；

图2D为本发明实施例中BERT-base模型的编码层的结构示意图；

图2E为本发明实施例中多头注意力层的处理示意图；

图3为本发明实施例提供的一种机器阅读理解装置的结构示意图；

图4为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种机器阅读理解方法的流程图，本实施例可适用于抽取式机器阅读理解任务，该方法可以由本发明实施例提供的机器阅读理解装置来执行，该装置可采用软件和/或硬件的方式实现，并集成于本发明实施例提供的计算机设备中，如图1所示，该方法具体可以包括如下步骤：

S101、对待理解的文本数据和目标问题进行编码融合，得到第一矩阵。

抽取式机器阅读理解任务的输入为待理解的文本数据和目标问题，因此，首先要对这两部分进行数字化编码，将其变成可以被计算机处理的信息单元。在编码的过程中，需要保留原有语句在文章中的语义，因此，每个单词、短语和句子的编码必须建立在理解上下文的基础上。

具体的，编码过程由编码层完成，通常包括词表向量化、字符编码和上下文编码，分别得到词表向量中的词向量、字符向量和上下文向量。具体的，有两种方式获得词表中的词向量：保持词表向量不变，即采用预训练词表中的向量，或在训练过程中不进行改变将词表中的向量视为参数，在训练过程中和其他向量一起求导并优化。在单词理解中，字符和子词具有很强的辅助作用。通过字符组合往往可以识别正确的单词形式(纠错)。上下文向量会随着单词的上下文不同而发生改变，从而反映出单词在当前语句中的含义。

将编码后得到的待理解的文本数据的词向量、字符向量和上下文向量进行融合，得到表征文本数据的矩阵，以及目标问题的词向量、字符向量和上下文向量进行融合，得到表征目标问题的矩阵，将表征文本数据的矩阵和表征目标问题的矩阵进行拼接，得到第一矩阵。

S102、基于多头注意力机制对第一矩阵进行处理，得到第二矩阵。

在对上下文编码过程中，单词信息通常以线性方式传递。在这个过程中，一个单词的信息随着距离的增加而衰减，特别是当文章比较长时，靠前部分的语句和靠后部分的语句几乎没有进行有效的状态传递。但在一些文章中，要获得答案可能需要理解文章中若干段相隔较远的部分。为了解决这个问题，可以使用自注意力机制。注意力机制的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。

注意力机制可以宏观地理解为一个查询(Query)到一系列(键Key-值Value)对的映射。将Source(源)中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target (目标)中的某个元素Query(查询)，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，通过softmax归一化后，对权重和相应Value进行加权求和，即得到了最终的注意力数值。

多头注意力(multi-head attention)是利用多个查询，来平行地计算得到多个注意力数值，然后将这些注意力数值进行拼接，得到多头注意力的结果，即第二矩阵。其中，每个注意力的头关注输入信息的不同部分。

S103、对第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵。

矩阵的掩码操作是指根据掩码矩阵(或称之为核)重新计算矩阵中每个元素的值。掩码矩阵中的值表示近邻元素值(包括该元素自身的值)对新元素的值有多大影响。使用掩码矩阵的时候，先把掩码矩阵中心的元素对齐到要计算的目标矩阵上，再把邻域元素值和相应的矩阵元素值的乘积加起来。

第二矩阵是一个融合了文本数据和目标问题的矩阵，为了后面应用协同多头注意力机制，必须把第二矩阵里面的文本数据和目标问题区分开。

本发明实施例中，采用两个不同的掩码矩阵分别对第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵。其中，文本矩阵为对第二矩阵中的问题部分进行掩码后得到的表征文本的矩阵，问题矩阵为对第二矩阵中的文本部分进行掩码后得到的表征目标问题的矩阵。

S104、基于协同多头注意力机制对文本矩阵和问题矩阵进行处理，得到第三矩阵。

协同多头注意力是一个文本数据与目标问题之间相互关注的多头注意力机制。协同多头注意力机制包括两部分，两部分均对文本矩阵和问题矩阵进行处理。第一部分为Context2Query多头注意力，Context2Query计算的是对于文本数据中的单词而言哪些问题中的单词和它最相关(即注意力)；第二部分为Query2Context多头注意力，Query2Context计算的是对于问题中的单词而言文本数据中的哪些单词和它最相关(即注意力)。由于输入的文本矩阵和问题矩阵是不同的，因此，协同多头注意力机制中的注意力不是自注意力。将上述Context2Query求得的注意力与Query2Context求得的注意力进行合并，得到第三矩阵。

如前文所述，第二矩阵由表征文本数据的矩阵和表征目标问题的矩阵拼接而成，矩阵的中每个向量的维度较大，由于传统的自注意机制没有足够的能力去细化长向量注意力的焦点，随着层数的增多，文本数据与目标问题之间的注意力就会逐渐被分散，造成预测的答案准确度低。本发明实施例中，通过对第二矩阵进行掩码操作，分别得到用于表征文本的文本矩阵和用于表征目标问题的问题矩阵，然后基于协同多头注意力机制对文本矩阵和问题矩阵进行处理，将文本数据和目标问题之间的注意力机制进行区分，有针对性的对文本数据和目标问题进行相互关注，能够更好地细化注意力焦点，进而提高预测的答案的准确度。

S105、从第三矩阵中提取出第一特征矩阵和第二特征矩阵。

其中，第一特征矩阵用于表征目标问题的答案的起始位置，第二特征矩阵用于表征目标问题的答案的结束位置。

具体的，对第三矩阵进行处理，例如，基于自注意力机制对第三矩阵进行处理，分别对答案的起始位置和终止位置的注意力焦点进行细化，得到第一特征矩阵和第二特征矩阵。

S106、基于第一特征矩阵和第二特征矩阵分别确定目标问题的答案的起始位置和目标问题的答案的结束位置。

具体的，可以分别对第一特征矩阵和第二特征矩阵进行线性变换处理，对第一特征矩阵和第二特征矩阵进行降维，得到对应特征向量，然后第一特征矩阵和第二特征矩阵对应的特征向量分别输入预置的分类器中进行处理，得到目标问题的答案的在文本数据中的起始位置和结束位置。

实施例二

图2A为本发明实施例二提供的一种机器阅读理解方法的流程图，图2B为本发明实施例二提供的一种机器阅读理解模型的结构示意图，本发明实施例以前述实施例一为基础进行优化，详细描述了本发明实施例中各步骤的详细过程，具体的，如图2A和图2B所示，本发明实施例的方法可以包括如下步骤：

S201、将待理解的文本数据和目标问题输入BERT-base模型的输入层中进行编码，得到第一矩阵。

BERT(Bidirectional Encoder Representations from Transformers)-base模型包括输入层和编码层，输入层用于对待理解的文本数据和目标问题进行编码，得到第一矩阵，编码层由多个堆叠的transformer组成，transformer用于基于多头自注意力机制对第一矩阵进行处理。

具体的，BERT-base模型的输入层用于对文本数据(context)和目标问题(question)中的词进行词嵌入(Token Embedding)操作，得到词嵌入矩阵，对文本数据和目标问题中的词进行位置嵌入(Position Embedding)操作，得到位置嵌入矩阵，对文本数据和目标问题进行分段嵌入(Segment Embedding)操作，得到分段嵌入矩阵。其中，词嵌入操作是指将各个词用字典库中的编码表示，将其转换成固定维度的词嵌入向量，所有词嵌入向量组成的矩阵即为词嵌入矩阵；位置嵌入操作是指将文本数据中每个位置进行编号，然后每个编号对应一个向量，通过结合位置向量和词向量，就给每个词都引入了一定的位置信息。分段嵌入操作是指对文本数据和目标问题进行编码，以区分文本数据和目标问题，区分的方式是文本数据中的词全部赋0，目标问题中的词全部赋1，且每句的起始位置用“CLS”标识符表示，每句的结束位置用“SEP”标识符表示。

图2C为本发明实施例中BERT-base模型的输入层的结构示意图，如图2C所示，BERT-base模型的输入层包括词嵌入层、位置嵌入层和分段嵌入层，将待理解的文本数据和目标问题输入BERT-base模型的输入层中进行编码，得到第一矩阵，包括：

在词嵌入层对文本数据和目标问题中的词进行词嵌入操作，得到词嵌入矩阵E_T，在位置嵌入层对文本数据和目标问题中的词进行位置嵌入操作，得到位置嵌入矩阵E_P，在分段嵌入层对文本数据和目标问题进行分段嵌入操作，得到分段嵌入矩阵E_S，将词嵌入矩阵E_T、位置嵌入矩阵E_P和分段嵌入矩阵E_S进行加和，得到第一矩阵E。

具体的，在本发明实施例中，可以同时处理8个文本数据和8个文本数据对应的8个目标问题。BERT-base模型能够处理最长512个token的输入序列，每个词被转换为一个768维的向量，因此，本发明实施例中的第一矩阵E为一个8×512×768的矩阵。

S202、将第一矩阵输入BERT-base模型的编码层中进行处理，得到第二矩阵。

BERT-base模型的编码层基于多头自注意力机制对第一矩阵E进行处理，得到第二矩阵 T。图2D为本发明实施例中BERT-base模型的编码层的结构示意图，如图2D所示，具体的， BERT-base模型的编码层包括依次堆叠的M层多头注意力层，M为大于或等于2的正整数。通常将多头注意力层也称之为transformer，因此，BERT-base模型的编码层是由M个堆叠的 transformer组成。示例性的，在本发明实施例中，M＝12。将第一矩阵E输入BERT-base模型的编码层中进行处理，得到第二矩阵T，包括：

1、将第一矩阵E输入第一层多头注意力层中进行处理，得到第一注意力矩阵。

图2E为本发明实施例中多头注意力层的处理示意图，如图2E所示，具体的，第一层多头注意力层的处理过程如下：

首先，采用三个不同的线性变换系数对第一矩阵E做三次线性变换，分别得到矩阵Q、矩阵K和矩阵V。

其中，W_i ^Q为第i层多头注意力层的矩阵Q的线性变换系数，在这里i＝1。

接着，将矩阵Q、矩阵K和矩阵V分别进行m次线性变换，得到矩阵Q^h、矩阵K^h和矩阵V^h，其中，h∈m，m为多头注意力层的注意力头数。示例性的，如图2E所示，以m＝2 为例，对多头注意力层的处理过程作示例性说明。

接着，计算矩阵Q^h与矩阵K^h点乘，得到第一子矩阵a^h，并计算第一子矩阵a^h与矩阵K^h的维数的平方根的商，得到第二子矩阵b^h。然后，对第二子矩阵b^h进行归一化处理，得到第三子矩阵。接着，计算第三子矩阵与矩阵V^h的点乘，得到第四子矩阵(即head_h)。

其中，

为矩阵Q^h与矩阵K^h的点乘，

为K^h的转置矩阵，d_K为矩阵K^h的维数，softmax为归一化处理。

最后，将m个第四子矩阵进行拼接，得到第一拼接矩阵b，并对第一拼接矩阵b进行线性变换，得到第一注意力矩阵M。

M＝Multihead(Q，K，V)＝concat(head₁，…，head_m)W⁰

其中，concat为矩阵拼接，W⁰为对第一拼接矩阵b进行线性变换的线性变换系数。

2、将第一注意力矩阵与第一矩阵进行加和，得到第一融合矩阵。

在本发明一具体实施例中，为了加快网络的收敛速度，可以对第一注意力矩阵M作归一化处理(Normalization，图中用norm代替)。为了减少网络的过拟合现象，将归一化处理后的矩阵输入丢弃(dropout)层中进行随机丢弃操作，得到矩阵M₁。然后，将丢弃层的输出与第一层多头注意力层的输入进行残差连接，即将矩阵M₁与第一矩阵E相加，得到第一融合矩阵M₂。

3、将第一融合矩阵输入全连接前馈层中进行处理，得到第一全连接矩阵。

具体的，在本发明实施例中，为了加快网络的收敛速度，可以预先对第一融合矩阵M₂进行层归一化处理，得到矩阵M₃。层归一化过程为：

其中，m_i代表对第一融合矩阵M₂的每一行进行归一化，u_L和σ_L分别表示每个样本的均值和方差，α和β代表缩放和平移的参数向量，ε为偏置参数，避免分母为零，对每一行归一化后得到矩阵M₃。

接着，将矩阵M₃输入一个全连接前馈层(Fully Connected Feed ForwardNetwork，FFN) 中进行处理，得到第一全连接矩阵M₄。具体的，全连接前馈层的处理过程如下式所示：

M₄＝FFW(M3)＝Max(0，M₃W₁+b₁)W₂+b₂

具体的，全连接前馈层首先对矩阵M₃做一次非线性变换，变换参数为(W₁,b₁)，得到矩阵M₃W₁+b₁，接着采用非线性激活函数Max(0,a)对M₃W₁+b₁进行非线性激活，接着对非线性激活得到的矩阵再次做线性变换，变换参数为(W₂,b₂)。

4、将第一全连接矩阵与第一融合矩阵进行加和，得到第二融合矩阵。

具体的，在本发明一实施例中，为了加快网络的收敛速度和减少网络的过拟合现象，可以预先对第一全连接矩阵M₄进行归一化处理和随机丢弃操作，接着，将随机丢弃的输出与全连接前馈层的输入进行残差连接，即将随机丢弃的输出与第一融合矩阵M₂进行加和，得到第二融合矩阵M₅。

5、将第二融合矩阵作为下一层多头注意力层的输入矩阵，以此类推，得到第二矩阵。

具体的，第二融合矩阵M₅作为下一层多头注意力层的输入矩阵，该多头注意力层对第二融合矩阵M₅进行处理，得到注意力矩阵，该注意力矩阵与第二融合矩阵M₅相加，得到融合矩阵，接着，将该融合矩阵输入一个全连接前馈层中进行处理，得到全连接矩阵，将全连接矩阵与全连接前馈层的输入矩阵相加，并将相加的结果矩阵作为下一层多头注意力层的输入，以此类推，直至完成12层多头注意力层的处理过程，将最后的输出矩阵作为第二矩阵T。

S203、对第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵。

第二矩阵是一个融合了文本数据和目标问题的矩阵，为了后面应用协同多头注意力机制，必须把第二矩阵里面的文本数据和目标问题区分开。因此本发明采用两个掩码矩阵对第二矩阵T进行掩码操作，生成独立的文本矩阵和问题矩阵。

具体的，采用文本掩码矩阵(context mask)对第二矩阵中的文本分量进行屏蔽，得到问题矩阵。数学表达如下：

q＝m_cT

其中，q为问题矩阵，m_c为文本掩码矩阵，T为第二矩阵。

采用问题掩码矩阵(query mask)对第二矩阵中的问题分量进行屏蔽，得到文本矩阵。数学表达如下：

c＝m_qT

其中，c为文本矩阵，m_q为问题掩码矩阵。

S204、将文本矩阵和问题矩阵输入第一协同多头注意力模型中进行处理，得到第一协同注意力矩阵。

具体的，第一协同多头注意力模型可以是Context2Query模型，用于计算对于文本数据中的单词而言哪些问题中的单词和它最相关(即注意力)。

Context2Query模型的结构与BERT-base模型的编码层的结构类似，可以参考图2D，具体的，第一协同多头注意力模型包括N层协同多头注意力层，N为大于或等于2的正整数。通常将第一协同多头注意力模型中的协同多头注意力层称之为C2Q transformer，即第一协同多头注意力模型为N个C2Q transformer堆叠形成。示例性的，在本发明实施例中，N＝7。将文本矩阵和问题矩阵输入第一协同多头注意力模型中进行处理，得到第一协同注意力矩阵，包括：

1、将文本矩阵和问题矩阵输入第一层协同多头注意力层中进行处理，得到第二注意力矩阵。

协同多头注意力层的处理过程与BERT-base模型的编码层中的多头注意力层的处理过程类似，可以参考图2E，具体的，过程如下：

首先，采用第一线性变换参数对文本矩阵c做线性变换，得到矩阵Q_c，接着，分别采用第二线性变换参数和第三线性变换参数对问题矩阵q做线性变换，得到矩阵K_q和矩阵V_q。具体过程如下：

其中，c为文本矩阵，q为问题矩阵，

为第一线性变换参数，

为第二线性变换参数，

为第三线性变换参数。

接着，将矩阵Q_c、矩阵K_q和矩阵V_q分别进行n次线性变换，得到矩阵

矩阵

和矩阵

其中，i∈n，n为协同多头注意力层的注意力头数。

接着，计算矩阵

与矩阵

点乘，得到第五子矩阵，并计算第五子矩阵与矩阵

的维数的平方根的商，得到第六子矩阵。然后，对第六子矩阵进行归一化处理，得到第七子矩阵，然后，计算第七子矩阵与矩阵

的点乘，得到第八子矩阵(head_i)。

其中，

为矩阵Q_c ⁱ与矩阵K_q ⁱ的点乘，

为K_q ⁱ的转置矩阵，

为矩阵K_q ⁱ的维数， softmax为归一化处理。

接着，将n个第八子矩阵进行拼接，得到第二拼接矩阵，最后，对第二拼接矩阵进行线性变换，得到第二注意力矩阵M_c ¹。

M_c ¹＝Multihead(Q_c，K_q，V_q)＝concat(head₁，…，head_n)W_c ⁰

其中，concat为矩阵拼接，

为对第二拼接矩阵进行线性变换的线性变换系数。

2、将第二注意力矩阵与第二矩阵进行加和，得到第三融合矩阵。

在本发明一具体实施例中，为了加快网络的收敛速度，可以对第二注意力矩阵M_c ¹作归一化处理。为了减少网络的过拟合现象，将归一化处理后的矩阵输入丢弃(dropout)层中进行随机丢弃操作，得到矩阵M_c ²。然后，将丢弃层的输出与第一层协同多头注意力层的输入进行残差连接，即将矩阵M_c ²与第二矩阵T相加，得到第三融合矩阵M_c ³。

3、将第三融合矩阵输入全连接前馈层中进行处理，得到第二全连接矩阵。

具体的，在本发明实施例中，为了加快网络的收敛速度，可以预先对第三融合矩阵M_c ³进行层归一化处理，得到矩阵M_c ⁴。层归一化过程为：

其中，m_c ⁱ代表对第三融合矩阵M_c ³的每一行进行归一化，u_L和σ_L分别表示每个样本的均值和方差，α和β代表缩放和平移的参数向量，ε为偏置参数，避免分母为零，对每一行归一化后得到矩阵M_c ⁴。

接着，将矩阵M_c ⁴输入一个全连接前馈层中进行处理，得到第二全连接矩阵M_c ⁵。具体的，全连接前馈层的处理过程如下式所示：

M_c ⁵＝FFW(M_c ⁴)＝Max(0，M_c ⁴W_c ¹+b_c ¹)W_c ²+b_c ²

具体的，全连接前馈层首先对矩阵M_c ⁴做一次非线性变换，变换参数为(W_c ¹,b_c ¹)，得到矩阵M_c ⁴W_c ¹+b_c ¹，接着采用非线性激活函数Max(0,a)对M_c ⁴W_c ¹+b_c ¹进行非线性激活，接着对非线性激活得到的矩阵再次做线性变换，变换参数为(W_c ²,b_c ²)。

4、将第二全连接矩阵与第三融合矩阵进行加和，得到第四融合矩阵。

具体的，在本发明一实施例中，为了加快网络的收敛速度和减少网络的过拟合现象，可以预先对第二全连接矩阵M_c ⁵进行归一化处理和随机丢弃操作，接着，将随机丢弃的输出与全连接前馈层的输入进行残差连接，即将随机丢弃的输出与第三融合矩阵M_c ³进行加和，得到第四融合矩阵M_c ⁶。

5、将第四融合矩阵作为下一层协同多头注意力层的输入矩阵，以此类推，得到第一协同注意力矩阵。

具体的，第四融合矩阵M_c ⁶作为下一层多头注意力层的输入矩阵，该多头注意力层对第四融合矩阵M_c ⁶进行处理，得到注意力矩阵，该注意力矩阵与第四融合矩阵M_c ⁶相加，得到融合矩阵，接着，将该融合矩阵输入一个全连接前馈层中进行处理，得到全连接矩阵，将全连接矩阵与全连接前馈层的输入矩阵相加，并将相加的结果矩阵作为下一层多头注意力层的输入，以此类推，直至完成7层协同多头注意力层的处理过程，将最后的输出矩阵作为第一协同注意力矩阵M_c。

S205、将文本矩阵和问题矩阵输入第二协同多头注意模力型中进行处理，得到第二协同注意力矩阵。

具体的，第二协同多头注意力模型可以是Query2Context模型，用于计算对于目标问题中的单词而言文本数据中哪些单词和它最相关(即注意力)。

Query2Context模型的结构与BERT-base模型的编码层的结构类似，可以参考图2D，具体的，第二协同多头注意力模型包括N层协同多头注意力层，N为大于或等于2的正整数。通常将第二协同多头注意力模型中的协同多头注意力层称之为Q2C transformer，即第二协同多头注意力模型为N个Q2C transformer堆叠形成。示例性的，在本发明实施例中，N＝7。将文本矩阵和问题矩阵输入第二协同多头注意力模型中进行处理，得到第二协同注意力矩阵，包括：

1、将文本矩阵和问题矩阵输入第一层协同多头注意力层中进行处理，得到第三注意力矩阵。

首先，采用第四线性变换参数对问题矩阵q做线性变换，得到矩阵Q_q，接着，分别采用第五线性变换参数和第六线性变换参数对文本矩阵c做线性变换，得到矩阵K_c和矩阵V_c。具体过程如下：

其中，c为文本矩阵，q为问题矩阵，

为第四线性变换参数，

为第五线性变换参数，

为第六线性变换参数。

接着，将矩阵Q_q、矩阵K_c和矩阵V_c分别进行n次线性变换，得到矩阵

矩阵

和矩阵

其中，j∈n，n为协同多头注意力层的注意力头数。

接着，计算矩阵

与矩阵

点乘，得到第九子矩阵，并计算第九子矩阵与矩阵

的维数的平方根的商，得到第十子矩阵。然后，对第十子矩阵进行归一化处理，得到第十一子矩阵，然后，计算第十一子矩阵与矩阵

的点乘，得到第十二子矩阵(head_j)。

其中，

为矩阵Q_q ^j与矩阵K_c ^j的点乘，

为K_c ⁱ的转置矩阵，

为矩阵K_c ^j的维数，softmax为归一化处理。

接着，将n个第十二子矩阵进行拼接，得到第三拼接矩阵，最后，对第三拼接矩阵进行线性变换，得到第三注意力矩阵M_q ¹。

其中，concat为矩阵拼接，

为对第三拼接矩阵进行线性变换的线性变换系数。

2、将第三注意力矩阵与所述第二矩阵进行加和，得到第五融合矩阵。

在本发明一具体实施例中，为了加快网络的收敛速度，可以对第三注意力矩阵M_q ¹作归一化处理。为了减少网络的过拟合现象，将归一化处理后的矩阵输入丢弃(dropout)层中进行随机丢弃操作，得到矩阵M_q ²。然后，将丢弃层的输出与第一层协同多头注意力层的输入进行残差连接，即将矩阵M_q ²与第二矩阵T相加，得到第五融合矩阵M_q ³。

3、将第五融合矩阵输入全连接前馈层中进行处理，得到第三全连接矩阵。

具体的，在本发明实施例中，为了加快网络的收敛速度，可以预先对第五融合矩阵M_q ³进行层归一化处理，得到矩阵M_q ⁴。层归一化过程为：

其中，m_q ⁱ代表对第三融合矩阵M_c ³的每一行进行归一化，u_L和σ_L分别表示每个样本的均值和方差，α和β代表缩放和平移的参数向量，ε为偏置参数，避免分母为零，对每一行归一化后得到矩阵M_q ⁴。

接着，将矩阵M_q ⁴输入一个全连接前馈层中进行处理，得到第三全连接矩阵M_q ⁵。具体的，全连接前馈层的处理过程如下式所示：

M_q ⁵＝FFN(M_q ⁴)＝Max(0,M_q ⁴W_q ¹+b_q ¹)W_q ²+b_q ²

具体的，全连接前馈层首先对矩阵M_q ⁴做一次非线性变换，变换参数为(W_q ¹,b_q ¹)，得到矩阵M_q ⁴W_q ¹+b_q ¹，接着采用非线性激活函数Max(0,a)对M_q ⁴W_q ¹+b_q ¹进行非线性激活，接着对非线性激活得到的矩阵再次做线性变换，变换参数为(W_q ²,b_q ²)。

4、将第三全连接矩阵与第五融合矩阵进行加和，得到第六融合矩阵。

具体的，在本发明一实施例中，为了加快网络的收敛速度和减少网络的过拟合现象，可以预先对第三全连接矩阵M_q ⁵进行归一化处理和随机丢弃操作，接着，将随机丢弃的输出与全连接前馈层的输入进行残差连接，即将随机丢弃的输出与第五融合矩阵M_q ³进行加和，得到第六融合矩阵M_q ⁶。

5、将第六融合矩阵作为下一层协同多头注意力层的输入矩阵，以此类推，得到第二协同注意力矩阵。

具体的，第六融合矩阵M_q ⁶作为下一层多头注意力层的输入矩阵，该多头注意力层对第六融合矩阵M_q ⁶进行处理，得到注意力矩阵，该注意力矩阵与第六融合矩阵M_q ⁶相加，得到融合矩阵，接着，将该融合矩阵输入一个全连接前馈层中进行处理，得到全连接矩阵，将全连接矩阵与全连接前馈层的输入矩阵相加，并将相加的结果矩阵作为下一层多头注意力层的输入，以此类推，直至完成7层协同多头注意力层的处理过程，将最后的输出矩阵作为第二协同注意力矩阵M_q。

S206、将第一协同注意力矩阵和第二协同注意力矩阵进行拼接，得到第三矩阵。

具体的，将第一协同注意力矩阵M_c和第二协同注意力矩阵M_q进行拼接(concat)，得到第三矩阵M^N。具体的，在本发明实施例中，第一协同注意力矩阵M_c和第二协同注意力矩阵M_q均为8×512×768的矩阵，拼接后的第三矩阵M^N为8×512×1536的矩阵。

S207、将第三矩阵输入卷积网络中进行特征提取，得到第十三子矩阵。

具体的，卷积网络包括至少两个1维卷积层，第三矩阵M^N经至少两个1维卷积层进行特征提取，得到8×512×768的第十三子矩阵。卷积网络包括至少两个1维卷积层，使得第三矩阵M^N的维度下降变慢，避免维度下降过快导致过多的信息丢失。示例性的，在本发明实施例中，卷积网络包括两个1维卷积层，第三矩阵M^N经第一卷积层处理后，输出8×512×1024 的矩阵，第二卷积层接收第一卷积层的输出矩阵，并进行处理，输出8×512×768的第十三子矩阵C₁。

S208、将第十三子矩阵与第二矩阵进行加和，得到第四融合矩阵。

在本发明的一些实施例中，为了加快网络的收敛速度和减少网络的过拟合现象，可以对第十三子矩阵C₁进行归一化处理和随机丢弃操作，得到矩阵C₂。接着，将矩阵C₂与第二矩阵T相加，得到第七融合矩阵。

S209、将第七融合矩阵分别输入第一多头注意力层和第二多头注意力层中进行处理，得到第一特征矩阵和第二特征矩阵。

具体的，将第七融合矩阵分别输入第一多头注意力层和第二多头注意力层中进行处理，得到第一特征矩阵S₁和第二特征矩阵S₂。第一多头注意力层和第二多头注意力层的处理过程可以参考本发明上述实施例中的BERT-base模型的编码层中多头注意力层的处理过程，本发明实施例在此不再赘述。

第一多头注意力层和第二多头注意力层基于自注意力机制分别对答案的起始位置和结束位置的注意力焦点进行细化，使得模型可以更好的注意到文本数据中哪些内容是和问题相关的，提高答案预测精度。

S210、基于第一特征矩阵和第二特征矩阵分别确定目标问题的答案的起始位置和目标问题的答案的结束位置。

具体的，目标问题的答案预测包括答案的起始位置预测和结束位置预测。

起始位置预测如下：

1、将第一特征矩阵进行线性变换，将第一特征矩阵转换为第一特征向量。

具体的，对第一特征矩阵S₁进行线性变换(linear)，将第一特征矩阵S₁转换为第一特征向量。在本发明实施例中，模型同时处理8个文本数据和8个文本数据对应的8个目标问题，因此，线性变换后得到8个第一特征向量组成的矩阵，该矩阵的维度为8×512×1。

2、将第一特征向量输入第一softmax函数层中进行处理，得到答案的起始位置为文本数据中各词的第一概率分布。

具体的，将第一特征向量输入第一softmax函数层，softmax函数将第一特征向量归一化为0-1之间的数值，即第一概率分布，每一个数值代表答案的起始位置为文本数据中对应的词的概率。

3、基于第一概率分布确定答案的起始位置。

具体的，在本发明实施例中，将第一概率分布中概率值最大的数值对应的词作为答案的起始位置。

结束位置预测如下：

1、将第一特征矩阵与第二特征矩阵进行拼接，得到第四拼接矩阵。

具体的，将第一特征矩阵S₁与第二特征矩阵S₂进行拼接(concat)，得到第四拼接矩阵。结束位置在开始位置的后面，所以需要结合开始位置的信息来帮助预测结束位置。因此，在本发明实施例中，将第一特征矩阵S₁与第二特征矩阵S₂进行拼接后，借助于开始位置的信息能够更准确地预测结束位置，使得结束位置的预测更准确。

2、将第四拼接矩阵输入预置的循环神经网络中进行处理，得到第二特征向量。

具体的，将第四拼接矩阵输入预置的循环神经网络中进行处理，循环神经网络结合开始位置的信息，提取第二特征向量。在本发明一具体实施例中，循环神经网络可以是长短期记忆网络(Long Short-Term Memory，LSTM)，LSTM是一种特殊的循环神经网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的循环神经网络，LSTM能够在更长的序列中有更好的表现。LSTM通过门控状态来控制传输状态，记住历史帧数据的触摸点的位置特征中需要长时间记忆的信息，忘记不重要的信息，从而可以较好地利用多个历史帧的信息，从而提升预测的效果。

3、将第二特征向量输入第二softmax函数层中进行处理，得到答案的结束位置为文本数据中各词的第二概率分布。

具体的，将第二特征向量输入第二softmax函数层中进行处理，softmax函数将第二特征向量归一化为0-1之间的数值，即第二概率分布，每一个数值代表答案的结束位置为文本数据中对应的词的概率。

4、基于第二概率分布确定答案的结束位置。

具体的，在本发明实施例中，将第二概率分布中概率值最大的数值对应的词作为答案的结束位置。

本发明实施例提供的机器阅读理解方法，通过对第二矩阵进行掩码操作，分别得到用于表征文本的文本矩阵和用于表征目标问题的问题矩阵，然后基于协同多头注意力机制对文本矩阵和问题矩阵进行处理，将文本数据和目标问题之间的注意力机制进行区分，有针对性的对文本数据和目标问题进行相互关注，能够更好地细化注意力焦点，进而提高预测的答案的准确度。此外，通过协同多头注意力机制输出的第三矩阵采用至少两次一维卷积，使得第三矩阵的维度下降变慢，避免维度下降过快导致过多的信息丢失。基于多头自注意力机制对卷积网络的输出进行处理，分别对答案的起始位置和结束位置的注意力焦点进行细化，使得模型可以更好的注意到文本数据中哪些内容是和问题相关的，提高了答案预测精度。结合开始位置的信息来帮助预测结束位置，使得结束位置的预测更准确。

实施例三

图3为本发明实施例提供的一种机器阅读理解装置的结构示意图，如图3所示，该装置包括：

编码融合模块301，用于对待理解的文本数据和目标问题进行编码融合，得到第一矩阵；

第一注意力模块302，用于基于多头注意力机制对所述第一矩阵进行处理，得到第二矩阵；

掩码操作模块303，用于对所述第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵；

第二注意力模块304，用于基于协同多头注意力机制对所述文本矩阵和所述问题矩阵进行处理，得到第三矩阵；

特征矩阵提取模块305，用于从所述第三矩阵中提取出第一特征矩阵和第二特征矩阵，所述第一特征矩阵用于表征所述目标问题的答案的起始位置，所述第二特征矩阵用于表征所述目标问题的答案的结束位置；

答案位置确定模块306，用于基于所述第一特征矩阵和所述第二特征矩阵分别确定所述目标问题的答案的起始位置和所述目标问题的答案的结束位置。

在本发明的一些实施例中，编码融合模块301还用于将待理解的文本数据和目标问题输入BERT-base模型的输入层中进行编码，得到第一矩阵。

在本发明的一些实施例中，所述BERT-base模型的输入层包括词嵌入层、位置嵌入层和分段嵌入层，编码融合模块301包括：

词嵌入单元，用于在所述词嵌入层对文本数据和目标问题中的词进行词嵌入操作，得到词嵌入矩阵；

位置嵌入单元，用于在所述位置嵌入层对文本数据和目标问题中的词进行位置嵌入操作，得到位置嵌入矩阵；

分段嵌入单元，用于在所述分段嵌入层对文本数据和目标问题进行分段嵌入操作，得到分段嵌入矩阵；

矩阵加和单元，用于将所述词嵌入矩阵、所述位置嵌入矩阵和所述分段嵌入矩阵进行加和，得到第一矩阵。

在本发明的一些实施例中，第一注意力模块302还用于将所述第一矩阵输入BERT-base 模型的编码层中进行处理，得到第二矩阵。

在本发明的一些实施例中，所述BERT-base模型的编码层包括依次堆叠的M层多头注意力层，M为大于或等于2的正整数，第一注意力模块302包括：

第一注意力矩阵提取单元，用于将所述第一矩阵输入第一层多头注意力层中进行处理，得到第一注意力矩阵；

第一融合矩阵确定单元，用于将所述第一注意力矩阵与所述第一矩阵进行加和，得到第一融合矩阵；

第一全连接矩阵提取单元，用于将所述第一融合矩阵输入全连接前馈层中进行处理，得到第一全连接矩阵；

得到第二融合矩阵确定单元，用于将所述第一全连接矩阵与所述第一融合矩阵进行加和，得到第二融合矩阵；

第二矩阵确定单元，用于将所述第二融合矩阵作为下一层多头注意力层的输入矩阵，以此类推，得到第二矩阵。

在本发明的一些实施例中，第一注意力矩阵提取单元包括：

第一线性变换子单元，用于采用三个不同的线性变换系数对所述第一矩阵做线性变换，分别得到矩阵Q、矩阵K和矩阵V；

第二线性变换子单元，用于将所述矩阵Q、矩阵K和矩阵V分别进行m次线性变换，得到矩阵Q^h、矩阵K^h和矩阵V^h，其中，h∈m，m为所述多头注意力层的注意力头数；

第一子矩阵确定子单元，用于计算所述矩阵Q^h与所述矩阵K^h点乘，得到第一子矩阵；

第二子矩阵确定子单元，用于计算所述第一子矩阵与所述矩阵K^h的维数的平方根的商，得到第二子矩阵；

第三子矩阵确定子单元，用于对所述第二子矩阵进行归一化处理，得到第三子矩阵；

第四子矩阵确定子单元，用于计算所述第三子矩阵与所述矩阵V^h的点乘，得到第四子矩阵；

第一拼接子单元，用于将m个第四子矩阵进行拼接，得到第一拼接矩阵；

第一注意力矩阵确定子单元，用于对所述第一拼接矩阵进行线性变换，得到第一注意力矩阵。

在本发明的一些实施例中，掩码操作模块303包括：

第一掩码单元，用于采用文本掩码矩阵对所述第二矩阵中的文本分量进行屏蔽，得到问题矩阵；

滴入掩码单元，用于采用问题掩码矩阵对所述第二矩阵中的问题分量进行屏蔽，得到文本矩阵。

在本发明的一些实施例中，第二注意力模块304包括：

第一协同注意力矩阵提取子模块，用于将所述文本矩阵和所述问题矩阵输入第一协同多头注意力模型中进行处理，得到第一协同注意力矩阵；

第二协同注意力矩阵提取子模块，用于将所述文本矩阵和所述问题矩阵输入第二协同多头注意模力型中进行处理，得到第二协同注意力矩阵；

第三矩阵提取子模块，用于将所述第一协同注意力矩阵和所述第二协同注意力矩阵进行拼接，得到第三矩阵。

在本发明的一些实施例中，第一协同多头注意力模型包括N层协同多头注意力层，N为大于或等于2的正整数，第一协同注意力矩阵提取子模块包括：

第二注意力矩阵提取单元，用于将所述文本矩阵和所述问题矩阵输入第一层协同多头注意力层中进行处理，得到第二注意力矩阵；

第三融合矩阵确定单元，用于将所述第二注意力矩阵与所述第二矩阵进行加和，得到第三融合矩阵；

第二全连接矩阵提取单元，用于将所述第三融合矩阵输入全连接前馈层中进行处理，得到第二全连接矩阵；

第四融合矩阵确定单元，用于将所述第二全连接矩阵与所述第三融合矩阵进行加和，得到第四融合矩阵；

第一协同注意力矩阵确定单元，用于将所述第四融合矩阵作为下一层协同多头注意力层的输入矩阵，以此类推，得到第一协同注意力矩阵。

在本发明的一些实施例中，第二注意力矩阵提取单元包括：

第三线性变换子单元，用于采用第一线性变换参数对所述文本矩阵做线性变换，得到矩阵Q_c；

第四线性变换子单元，用于分别采用第二线性变换参数和第三线性变换参数对所述问题矩阵做线性变换，得到矩阵K_q和矩阵V_q；

第五线性变换子单元，用于将所述矩阵Q_c、矩阵K_q和矩阵V_q分别进行n次线性变换，得到矩阵

矩阵

和矩阵

其中，i∈n，n为所述协同多头注意力层的注意力头数；

第五子矩阵确定子单元，用于计算所述矩阵

与所述矩阵

点乘，得到第五子矩阵；

第六子矩阵确定子单元，用于计算所述第五子矩阵与所述矩阵

的维数的平方根的商，得到第六子矩阵；

第七子矩阵确定子单元，用于对所述第六子矩阵进行归一化处理，得到第七子矩阵；

第八子矩阵确定子单元，用于计算所述第七子矩阵与所述矩阵

的点乘，得到第八子矩阵；

第二拼接矩阵确定子单元，用于将n个第八子矩阵进行拼接，得到第二拼接矩阵；

第二注意力矩阵确定子单元，用于对所述第二拼接矩阵进行线性变换，得到第二注意力矩阵。

在本发明的一些实施例中，所述第二协同多头注意力模型包括N层协同多头注意力层，N为大于或等于2的正整数，第二协同注意力矩阵提取子模块包括：

第三注意力矩阵提取单元，用于将所述文本矩阵和所述问题矩阵输入第一层协同多头注意力层中进行处理，得到第三注意力矩阵；

第五融合矩阵确定单元，用于将所述第三注意力矩阵与所述第二矩阵进行加和，得到第五融合矩阵；

第三全连接矩阵提取单元，用于将所述第五融合矩阵输入全连接前馈层中进行处理，得到第三全连接矩阵；

第六融合矩阵确定单元，用于将所述第三全连接矩阵与所述第五融合矩阵进行加和，得到第六融合矩阵；

第二协同注意力矩阵确定单元，用于将所述第六融合矩阵作为下一层协同多头注意力层的输入矩阵，以此类推，得到第二协同注意力矩阵。

在本发明的一些实施例中，第三注意力矩阵提取单元包括：

第六线性变换子单元，用于采用第四线性变换参数对所述问题矩阵做线性变换，得到矩阵Q_q；

第七线性变换子单元，用于分别采用第五线性变换参数和第六线性变换参数对所述问题矩阵做线性变换，得到矩阵K_c和矩阵V_c；

第八线性变换子单元，用于将所述矩阵Q_q、矩阵K_c和矩阵V_c分别进行n次线性变换，得到矩阵

矩阵

和矩阵

其中，j∈n，n为所述协同多头注意力层的注意力头数；

第九子矩阵确定子单元，用于计算所述矩阵

与所述矩阵

点乘，得到第九子矩阵；

第十子矩阵确定子单元，用于计算所述第九子矩阵与所述矩阵

的维数的平方根的商，得到第十子矩阵；

第十一子矩阵确定子单元，用于对所述第十子矩阵进行归一化处理，得到第十一子矩阵；

第十二子矩阵确定子单元，用于计算所述第十一子矩阵与所述矩阵

的点乘，得到第十二子矩阵；

第三拼接矩阵确定子单元，用于将n个第十二子矩阵进行拼接，得到第三拼接矩阵；

第三注意力矩阵确定子单元，拥有对所述第三拼接矩阵进行线性变换，得到第三注意力矩阵。

在本发明的一些实施例中，特征矩阵提取模块305包括：

第十三子矩阵提取单元，用于将所述第三矩阵输入卷积网络中进行特征提取，得到第十三子矩阵；

第七融合矩阵确定单元，用于将所述第十三子矩阵与所述第二矩阵进行加和，得到第七融合矩阵；

特征矩阵提取单元，用于将所述第七融合矩阵分别输入第一多头注意力层和第二多头注意力层中进行处理，得到第一特征矩阵和第二特征矩阵。

在本发明的一些实施例中，答案位置确定模块306包括：

第一特征向量确定单元，用于将所述第一特征矩阵进行线性变换，将所述第一特征矩阵转换为第一特征向量；

第一概率分布确定单元，用于将所述第一特征向量输入第一softmax函数层中进行处理，得到所述答案的起始位置为所述文本数据中各词的第一概率分布；

起始位置确定单元，用于基于所述第一概率分布确定所述答案的起始位置。

在本发明的一些实施例中，答案位置确定模块306还包括：

第四拼接矩阵确定单元，用于将所述第一特征矩阵与所述第二特征矩阵进行拼接，得到第四拼接矩阵；

第二特征向量确定单元，用于将所述第四拼接矩阵输入预置的循环神经网络中进行处理，得到第二特征向量；

第二概率分布确定单元，用于将所述第二特征向量输入第二softmax函数层中进行处理，得到所述答案的结束位置为所述文本数据中各词的第二概率分布；

结束位置确定单元，用于基于所述第二概率分布确定所述答案的结束位置。

上述产品可执行本发明任意实施例一、二所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例四

本发明实施例四提供了一种计算机设备，图4为本发明实施例四提供的一种计算机设备的结构示意图，如图4所示，该计算机设备包括处理器401、存储器402、通信模块403、输入装置404和输出装置405；计算机设备中处理器401的数量可以是一个或多个，图4中以一个处理器401为例；计算机设备中的处理器401、存储器402、通信模块403、输入装置 404和输出装置405可以通过总线或其他方式连接，图4中以通过总线连接为例。上述处理器401、存储器402、通信模块403、输入装置404和输出装置405可以集成在计算机设备的控制主板上。

存储器402作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的机器阅读理解方法对应的模块。处理器401通过运行存储在存储器 402中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述实施例提供的机器阅读理解方法。

存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器402可进一步包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块403，用于与外界设备(例如智能终端)建立连接，并实现与外界设备的数据交互。输入装置404可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的一种计算机设备，可执行本发明上述任意实施例提供的机器阅读理解方法，具体相应的功能和有益效果。

实施例五

本发明实施例五提供了一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明上述任意实施例提供的机器阅读理解方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明实施例所提供的机器阅读理解方法中的相关操作。

需要说明的是，对于装置、设备和存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory， RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的机器阅读理解方法。

值得注意的是，上述装置中，所包括的各个模块、子模块、单元和子单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种机器阅读理解方法，其特征在于，包括：

2.根据权利要求1所述的机器阅读理解方法，其特征在于，对待理解的文本数据和目标问题进行编码融合，得到第一矩阵，包括：

将待理解的文本数据和目标问题输入BERT-base模型的输入层中进行编码，得到第一矩阵。

3.根据权利要求2所述的机器阅读理解方法，其特征在于，所述BERT-base模型的输入层包括词嵌入层、位置嵌入层和分段嵌入层，将待理解的文本数据和目标问题输入BERT-base模型的输入层中进行编码，得到第一矩阵，包括：

在所述词嵌入层对文本数据和目标问题中的词进行词嵌入操作，得到词嵌入矩阵；

在所述位置嵌入层对文本数据和目标问题中的词进行位置嵌入操作，得到位置嵌入矩阵；

在所述分段嵌入层对文本数据和目标问题进行分段嵌入操作，得到分段嵌入矩阵；

将所述词嵌入矩阵、所述位置嵌入矩阵和所述分段嵌入矩阵进行加和，得到第一矩阵。

4.根据权利要求1所述的机器阅读理解方法，其特征在于，基于多头注意力机制对所述第一矩阵进行处理，得到第二矩阵，包括：

将所述第一矩阵输入BERT-base模型的编码层中进行处理，得到第二矩阵。

5.根据权利要求4所述的机器阅读理解方法，其特征在于，所述BERT-base模型的编码层包括依次堆叠的M层多头注意力层，M为大于或等于2的正整数，将所述第一矩阵输入BERT-base模型的编码层中进行处理，得到第二矩阵，包括：

将所述第一矩阵输入第一层多头注意力层中进行处理，得到第一注意力矩阵；

将所述第一注意力矩阵与所述第一矩阵进行加和，得到第一融合矩阵；

将所述第一融合矩阵输入全连接前馈层中进行处理，得到第一全连接矩阵；

将所述第一全连接矩阵与所述第一融合矩阵进行加和，得到第二融合矩阵；

将所述第二融合矩阵作为下一层多头注意力层的输入矩阵，以此类推，得到第二矩阵。

6.根据权利要求5所述的机器阅读理解方法，其特征在于，将所述第一矩阵输入第一层多头注意力层中进行处理，得到第一注意力矩阵，包括：

采用三个不同的线性变换系数对所述第一矩阵做线性变换，分别得到矩阵Q、矩阵K和矩阵V；

将所述矩阵Q、矩阵K和矩阵V分别进行m次线性变换，得到矩阵Q^h、矩阵K^h和矩阵V^h，其中，h∈m，m为所述多头注意力层的注意力头数；

计算所述矩阵Q^h与所述矩阵K^h点乘，得到第一子矩阵；

计算所述第一子矩阵与所述矩阵K^h的维数的平方根的商，得到第二子矩阵；

对所述第二子矩阵进行归一化处理，得到第三子矩阵；

计算所述第三子矩阵与所述矩阵V^h的点乘，得到第四子矩阵；

将m个第四子矩阵进行拼接，得到第一拼接矩阵；

对所述第一拼接矩阵进行线性变换，得到第一注意力矩阵。

7.根据权利要求1-6任一所述的机器阅读理解方法，其特征在于，对所述第二矩阵进行掩码操作，分别得到文本矩阵和问题矩阵，包括：

采用文本掩码矩阵对所述第二矩阵中的文本分量进行屏蔽，得到问题矩阵；

采用问题掩码矩阵对所述第二矩阵中的问题分量进行屏蔽，得到文本矩阵。

8.根据权利要求1-6任一所述的机器阅读理解方法，其特征在于，所述基于协同多头注意力机制对所述文本矩阵和所述问题矩阵进行处理，得到第三矩阵，包括：

将所述文本矩阵和所述问题矩阵输入第一协同多头注意力模型中进行处理，得到第一协同注意力矩阵；

将所述文本矩阵和所述问题矩阵输入第二协同多头注意模力型中进行处理，得到第二协同注意力矩阵；

将所述第一协同注意力矩阵和所述第二协同注意力矩阵进行拼接，得到第三矩阵。

9.根据权利要求8所述的机器阅读理解方法，其特征在于，所述第一协同多头注意力模型包括N层协同多头注意力层，N为大于或等于2的正整数，将所述文本矩阵和所述问题矩阵输入第一协同多头注意力模型中进行处理，得到第一协同注意力矩阵，包括：

将所述文本矩阵和所述问题矩阵输入第一层协同多头注意力层中进行处理，得到第二注意力矩阵；

将所述第二注意力矩阵与所述第二矩阵进行加和，得到第三融合矩阵；

将所述第三融合矩阵输入全连接前馈层中进行处理，得到第二全连接矩阵；

将所述第二全连接矩阵与所述第三融合矩阵进行加和，得到第四融合矩阵；

将所述第四融合矩阵作为下一层协同多头注意力层的输入矩阵，以此类推，得到第一协同注意力矩阵。

10.根据权利要求9所述的机器阅读理解方法，其特征在于，将所述文本矩阵和所述问题矩阵输入第一层协同多头注意力层中进行处理，得到第二注意力矩阵，包括：

采用第一线性变换参数对所述文本矩阵做线性变换，得到矩阵Q_c；

分别采用第二线性变换参数和第三线性变换参数对所述问题矩阵做线性变换，得到矩阵K_q和矩阵V_q；

将所述矩阵Q_c、矩阵K_q和矩阵V_q分别进行n次线性变换，得到矩阵

矩阵

和矩阵

其中，i∈n，n为所述协同多头注意力层的注意力头数；

计算所述矩阵

与所述矩阵

点乘，得到第五子矩阵；

计算所述第五子矩阵与所述矩阵

的维数的平方根的商，得到第六子矩阵；

对所述第六子矩阵进行归一化处理，得到第七子矩阵；

计算所述第七子矩阵与所述矩阵

的点乘，得到第八子矩阵；

将n个第八子矩阵进行拼接，得到第二拼接矩阵；

对所述第二拼接矩阵进行线性变换，得到第二注意力矩阵。

11.根据权利要求8所述的机器阅读理解方法，其特征在于，所述第二协同多头注意力模型包括N层协同多头注意力层，N为大于或等于2的正整数，将所述文本矩阵和所述问题矩阵输入第二协同多头注意力模型中进行处理，得到第二协同注意力矩阵，包括：

将所述文本矩阵和所述问题矩阵输入第一层协同多头注意力层中进行处理，得到第三注意力矩阵；

将所述第三注意力矩阵与所述第二矩阵进行加和，得到第五融合矩阵；

将所述第五融合矩阵输入全连接前馈层中进行处理，得到第三全连接矩阵；

将所述第三全连接矩阵与所述第五融合矩阵进行加和，得到第六融合矩阵；

将所述第六融合矩阵作为下一层协同多头注意力层的输入矩阵，以此类推，得到第二协同注意力矩阵。

12.根据权利要求11所述的机器阅读理解方法，其特征在于，将所述文本矩阵和所述问题矩阵输入第一层协同多头注意力层中进行处理，得到第三注意力矩阵，包括：

采用第四线性变换参数对所述问题矩阵做线性变换，得到矩阵Q_q；

分别采用第五线性变换参数和第六线性变换参数对所述问题矩阵做线性变换，得到矩阵K_c和矩阵V_c；

将所述矩阵Q_q、矩阵K_c和矩阵V_c分别进行n次线性变换，得到矩阵

矩阵

和矩阵

其中，j∈n，n为所述协同多头注意力层的注意力头数；

计算所述矩阵

与所述矩阵

点乘，得到第九子矩阵；

计算所述第九子矩阵与所述矩阵

的维数的平方根的商，得到第十子矩阵；

对所述第十子矩阵进行归一化处理，得到第十一子矩阵；

计算所述第十一子矩阵与所述矩阵

的点乘，得到第十二子矩阵；

将n个第十二子矩阵进行拼接，得到第三拼接矩阵；

对所述第三拼接矩阵进行线性变换，得到第三注意力矩阵。

13.根据权利要求1-6、9-12任一所述的机器阅读理解方法，其特征在于，从所述第三矩阵中提取出第一特征矩阵和第二特征矩阵，包括：

将所述第三矩阵输入卷积网络中进行特征提取，得到第十三子矩阵；

将所述第十三子矩阵与所述第二矩阵进行加和，得到第七融合矩阵；

将所述第七融合矩阵分别输入第一多头注意力层和第二多头注意力层中进行处理，得到第一特征矩阵和第二特征矩阵。

14.根据权利要求1-6、9-12任一所述的机器阅读理解方法，其特征在于，基于所述第一特征矩阵和所述第二特征矩阵分别确定所述目标问题的答案的起始位置和所述目标问题的答案的结束位置，包括：

将所述第一特征矩阵进行线性变换，将所述第一特征矩阵转换为第一特征向量；

将所述第一特征向量输入第一softmax函数层中进行处理，得到所述答案的起始位置为所述文本数据中各词的第一概率分布；

基于所述第一概率分布确定所述答案的起始位置。

15.根据权利要求13所述的机器阅读理解方法，其特征在于，基于所述第一特征矩阵和所述第二特征矩阵分别确定所述目标问题的答案的起始位置和所述目标问题的答案的结束位置，包括：

将所述第一特征矩阵与所述第二特征矩阵进行拼接，得到第四拼接矩阵；

将所述第四拼接矩阵输入预置的循环神经网络中进行处理，得到第二特征向量；

将所述第二特征向量输入第二softmax函数层中进行处理，得到所述答案的结束位置为所述文本数据中各词的第二概率分布；

基于所述第二概率分布确定所述答案的结束位置。

16.一种机器阅读理解装置，其特征在于，包括：

17.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-15任一所述的机器阅读理解方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-15任一所述的机器阅读理解方法。