CN113127615A

CN113127615A - 文本处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113127615A
Application number: CN202010049188.4A
Authority: CN
Inventors: 庄毅萌; 汪华东; 涂眉
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-07-16

Abstract

本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质，涉及自然语言处理技术领域。该方法包括：获取与待处理的文本对应的多头注意力得分矩阵；对所述多头注意力得分矩阵进行校正得到多头协同注意力矩阵；基于所述多头协同注意力矩阵获取与所述文本对应的输出结果。本申请实施例提供的文本处理方法可以提高对文本处理的准确率，并使多头注意力机制有机会通过其他头修正多层的每一个头的得分并且获得更好的协同作用。

Description

文本处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理包括语言理解、语言问答、语言序列预测、机器翻译以及自然语言推理等等。

通常对语言文本进行处理时，会用到基于注意力机制的模型，例如Transformer模型，目前的采用基于注意力机制的模型对文本进行处理时，直接基于多头注意力得分矩阵获取文本的输出结果，因此，有必要对现有的文本处理方法进行优化。

发明内容

本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质，用于解决在将智能聊天机器人应用于与用户进行交互时，如何更为准确地输出答复信息，该技术方案如下所示：

第一方面，提供了一种文本处理方法，该方法包括：

获取与待处理的文本对应的多头注意力得分矩阵；

对多头注意力得分矩阵进行校正得到多头协同注意力矩阵；

基于多头协同注意力矩阵获取与文本对应的输出结果。

第二方面，提供了一种文本处理装置，该装置包括：

第一获取模块，用于获取与待处理的文本对应的多头注意力得分矩阵；

校正模块，用于对多头注意力得分矩阵进行校正得到多头协同注意力矩阵；

第二获取模块，用于基于多头协同注意力矩阵获取与文本对应的输出结果。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的文本处理方法所对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的文本处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请通过获取与待处理的文本对应的多头注意力得分矩阵，对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，采用校正后得到的多头协同注意力矩阵代替原来的多头注意力得分矩阵获取与文本对应的输出结果，可以提高对文本处理的准确率。

进一步的，通过对多头注意力得分矩阵中进行校正得到多头协同注意力矩阵，使多头注意力机制有机会通过其他头修正多层的每一个头的得分并且获得更好的协同作用。

进一步的，上述的文本处理方法中，在对多头注意力得分矩阵进行校正时，算数计算操作的复杂度较小，可以在获得更好的协同作用的同时减少计算量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为一种Transformer模型的一个编码模块的结构；

图2为图1中自注意力模块的内部结构图；

图3为本申请实施例提供的一种文本处理方法流程示意图；

图4为本申请实施例提供的一种文本处理方案的示意图；

图5为本申请实施例提供的一种文本处理方法流程示意图；

图6为本申请一个示例中提供的一种文本处理方案的示意图；

图7为现有技术和本申请中的模型注意力矩阵的可视化对比图；

图8为本申请实施例提供的一种文本处理装置结构示意图；

图9为本申请实施例提供的一种文本处理装置结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着Transformer模型在自然语言处理领域不断取得突破，基于注意力的模型得到了越来越多的关注。神经注意力方法是一种建模自然语言中的时序序列的强大工具，并且在很多序列建模问题中取得了成功，比如语言理解任务、问答任务、序列预测问题、机器翻译以及自然语言推理任务。

最近有不少相关研究提出了关于注意力方法或多头注意力方法的改进。比如有的研究提出通过增加正则项以确保不同注意力头捕捉不同的特征；有的研究通过降低注意力空间使注意力方法可以适用于长序列问题；有的研究提出多跳注意力机制以改善注意力输出；有的研究从核函数的角度去解释注意力机制，并且扩展了设计注意力方法的空间；还有的研究尝试用不同的观点对注意力机制进行解释。

在介绍本发明方法前简单介绍相关现有技术的背景知识，包括单头注意力和多头注意力方法。

单头注意力方法(Single-head attention)：

注意力方法是一个以查询序列和键-存储序列作为输入，输出查询序列中每个词的键-存储序列加权组合的函数。这里，我们关注可放缩的点乘注意力方法。因为其在并行计算中的优势，可放缩的点乘注意力方法广泛应用于各种模型中，特别是Transformer模型。我们分别用X_q∈R^n×d、X_kv∈R^m×d表示有n个词的查询序列和有m个词的健-存储序列的特征矩阵，d是特征维度。点乘注意力的输出计算方法如下：

Z＝Att(X_q,X_kv)＝softmax(A)X_kvW_v (1)

其中，

上式(1)和(2)中W_q、W_k和W_v是可训练的参数；A是注意力得分矩阵；因为只计算一个注意力矩阵所以这个方法也被称作单头注意力方法。

多头注意力方法(Multi-head attention)：

一个常规做法是，将输入序列用不同的映射矩阵线性映射多次。并且多个可放缩的点乘注意力过程被并行地执行以产生多个注意力输出。多头注意力方法产生多维的注意力表示，使其拥有单头注意力方法没有的强大表达能力。

MultiHead(X_q,X_kv)＝[Z₁；…；Z_h]W_o (3)

上面的公式(3)展示了多头注意力(MHA)的计算方法；其中[·；…；·]表示拼接操作；Z_i是子特征注意力矩阵；W_o是可训练的参数矩阵。

多头注意力是一种通用方法，本申请提出的方法是一种对通用方法的改进。所以这里以Transformer模型为例说明本申请提出的改进方法如何应用到具体模型上。Transformer模型可以被应用在机器翻译、文本理解等领域上。

如图1所示，图1展示了Transformer模型的一个编码模块的结构。输入序列以特征矩阵形式输入，首先经过自注意力模块完成对序列的时序建模，然后经过全连接模块以提取高层次的特征，最终输出编码后的序列的特征矩阵。其中自加与归一化是为了帮助模型训练加速收敛的必要操作。此流程为现有技术。

图2是图1中自注意力模块的内部结构图，此图为现有技术的注意力方法。此模块流程对应于上述的公式(1)-(3)。此模块的输入包括查询序列和键-存储序列，通过与参数矩阵做乘法分别得到查询特征矩阵、键特征矩阵和值特征矩阵，在多头版本中这三个矩阵已经分割为多个。之后按照公式(2)做可放缩的点乘得到注意力得分矩阵，再按照公式(1)先后得到注意力矩阵和注意力输出矩阵，最后按照公式(3)得到最终输出序列。

在本申请中，我们提出了一个新的概念：多头协同。多头注意力方法将输入序列映射到多个子空间中，并且可以用多维注意力向量表示每个词对之间的关系。我们怀疑现有注意力方法的多个头不能如期望地协同合作，因为现有的子空间映射是彼此独立的。

据我们所知，之前没有相关研究注意到这个问题。为了验证我们的猜测，我们设计了一个简单的变换函数以增强不同注意力头之间的协同。特别地，我们关注有目前最好性能的Transformer结构。我们在一系列任务(包括机器翻译、自然语言推理、句子分类)上验证了我们的方法，并且相比于原始的Transformer模型，我们的方法取得了显著的提升，证明了我们的方法的有效性和多头协同问题的存在。本发明的贡献包括：

(1)我们发现现有的多头注意力方法有弱多头协同的问题，这个问题对模型的预测精度无益；

(2)我们提出一种增强多头协同的方法，并且经验性研究验证了方法的有效性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例中提供了一种可能的实现方式，如图3所示，提供了一种文本处理方法，可以包括以下步骤：

步骤S301，获取与待处理的文本对应的多头注意力得分矩阵。

其中，多头注意力得分矩阵包括多个注意力得分矩阵。

具体的，步骤S301的获取与待处理的文本对应的多头注意力得分矩阵，可以包括：

(1)获取文本的查询特征和键特征；

(2)对查询特征和键特征进行可缩放的点乘，得到多头注意力得分矩阵。

具体的，若待处理的文本为一个，可以将该文本同时作为查询序列和键存储序列；若待处理的文本为两个，可以将其中一个文本作为查询序列，另一个文本作为键存储序列。

基于查询序列和预设的第一参数矩阵，即参数矩阵W_q获取对应的查询特征；基于预设的第二参数矩阵，即参数矩阵W_k和键存储序列获取对应的键特征，再对查询特征和键特征进行可缩放的点乘，得到多头注意力得分矩阵。

步骤S302，对多头注意力得分矩阵进行校正得到多头协同注意力矩阵。

具体的，可以对多头注意力得分矩阵中的至少一个注意力得分矩阵进行校正，例如可以通过多头注意力得分矩阵中的其他注意力得分矩阵对该至少一个注意力得分矩阵进行校正，也可以对多头注意力得分矩阵中的全部注意力得分矩阵进行校正，通过多个注意力得分矩阵之间相互进行协同校正，得到校正后的多头协同注意力矩阵。

具体对至少一个注意力得分矩阵进行校正的过程将在下文进行详细阐述。

步骤S303，基于多头协同注意力矩阵获取与文本对应的输出结果。

其中，输出结果可以是在对文本进行翻译时的翻译结果，可以是对文本进行语言理解时的语义理解结果，可以是对文本进行预测时的预测结果，还可以是对文本进行语言推理时的推理结果，具体的文本处理任务在此不作限制。

具体的，步骤S303的基于多头协同注意力矩阵获取与文本对应的输出结果，可以包括：

(1)获取文本的值特征；

(2)基于值特征和多头协同注意力矩阵获取注意力输出矩阵，基于注意力输出矩阵获取与文本对应的输出结果。

具体的，可以根据文本获取键存储序列，基于预设的第三参数矩阵，即参数矩阵W_v和键存储序列获取对应的值特征，再基于值特征和多头协同注意力矩阵获取注意力输出矩阵，基于注意力输出矩阵获取与文本对应的输出结果。

如图4所示，获取文本的查询特征、键特征和值特征，基于查询特征和键特征获取多头注意力得分矩阵，再对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，基于多头协同注意力矩阵和值特征获取与文本对应的输出结果。

上述实施例中，通过获取与待处理的文本对应的多头注意力得分矩阵，对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，采用校正后得到的多头协同注意力矩阵代替原来的多头注意力得分矩阵获取与文本对应的输出结果，可以提高对文本处理的准确率。

在具体实施过程中，可以获取文本的多头注意力得分矩阵，该多头注意力得分矩阵包括N个注意力得分矩阵，对其中的M个注意力得分矩阵进行校正，得到对应的M个协同注意力矩阵，即校正后的注意力得分矩阵，多头注意力得分矩阵中的其他的N-M个注意力得分矩阵保持不变，直接作为N-M个协同注意力矩阵，根据校正后的M个协同注意力矩阵和不变的N-M个协同注意力矩阵得到校正后的多头协同注意力矩阵，其中，N为大于或等于2的自然数，M为大于或等于1的自然数，N大于或等于M。

以下将结合附图和实施例对至少一个注意力得分矩阵进行校正的具体过程进行进一步详细阐述。

本申请实施例的一种可能的实现方式，如图5所示，步骤S302的对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，可以包括：

步骤S210，将多头注意力得分矩阵中的至少两个注意力得分矩阵进行叠加，得到注意力张量。

具体的，可以叠加当前层的注意力头，也可以叠加当前层和前面至少一层的注意力头。

步骤S220，基于注意力张量获取多头协同注意力矩阵。

具体的，可以对注意力张量进行变换并切割，得到多头协同注意力矩阵。

在具体实施过程中，步骤S220的基于注意力张量获取多头协同注意力矩阵，可以包括：

(1)对注意力张量进行变换，得到变换张量。

具体的，变换的过程可以包括如下步骤：

a、基于第一卷积对注意力张量进行变换，得到第一变换向量；

b、对第一变换向量进行非线性变换，得到第二变换向量；

c、基于第二卷积对第二变换向量进行变换，得到变换张量。

具体的，可以将注意力张量输入到第一预设维度的第一卷积中，例如输入一维卷积，得到第一变换向量；再采用预设的非线性函数对第一变换向量进行变换，非线性函数可以是线性整流函数(Rectified Linear Unit,ReLU)函数，得到第二变换向量；再将第二变换向量输入第二预设维度的第二卷积中，得到变换张量。

其中，第一卷积和第二卷积的维度可以相同，也可以不同，第一卷积核第二卷积分别具有对应的可训练的卷积核。

需要注意的是，当第一卷积和第二卷积均为核大小等于一的一维卷积时，上述对注意力张量进行变换的过程可以称为“全连接变换”。

(2)对变换张量进行分割，得到至少两个校正后的注意力得分矩阵。

具体的，对变换张量进行分割时，得到的每一校正后的注意力得分矩阵的大小都和校正之前的对应的注意力得分矩阵的大小相同。

例如，多头注意力矩阵中包括N个注意力矩阵，每一注意力得分矩阵均为n×m，其中有两个注意力得分矩阵进行叠加并变换以进行校正得到变换张量，对变换张量进行分割时，分割得到的校正后的两个注意力得分矩阵仍为n×m。

(3)将多头注意力得分矩阵中的至少两个注意力得分矩阵一一对应地替换为校正后的注意力得分矩阵，得到多头协同注意力矩阵。

可以理解的是，多头注意力得分矩阵中的注意力得分矩阵的个数与多头协同注意力矩阵中的注意力得分矩阵的个数相等；多头注意力得分矩阵中的每一注意力得分矩阵的大小与多头协同注意力矩阵中的每一注意力得分矩阵的大小一一对应相同。

上述的实施例中，通过对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，使得多头注意力机制可以修正至少一个头的得分并且获得更好的协同作用。

此外，上述的文本处理方法中，在对多头注意力得分矩阵中的至少一个注意力得分矩阵进行校正时，算数计算操作的复杂度较小，可以在获得更好的协同作用的同时减少计算量。

为了更好地理解上述的文本处理方法，以下详细阐述一个本发明的文本处理的实施例：

在一个实施例中，本申请提供的文本处理方法，可以包括如下步骤：

1)获取与待处理的文本对应的多头注意力得分矩阵；

2)对多头注意力得分矩阵中当前层的所有头进行叠加，如下式：

其中：A_i表示第i个头的注意力得分矩阵；i为大于1的自然数；多头注意力矩阵的当前层有h个头；每一头注意力得分矩阵的尺寸为n×m；

是一个n×m×h大小的3维张量。

3)基于第一卷积对注意力张量进行变换，得到第一变换向量；对第一变换向量进行非线性变换，得到第二变换向量；基于第二卷积对第二变换向量进行变换，得到变换张量；第一卷积和第二卷积均为核大小等于一的一维卷积；

具体的，可以先定义一个对

的变换，如下：

其中：conv_1d表示1维卷积，W_kernel∈R^1×h×h是一个可训练的卷积核，核的大小为1；上述公式(2)注意力矩阵的计算是线性的，因此使用非线性函数是有必要的。

上述公式是对h头注意力得分矩阵进行全连接变换，变换采用的卷积均为核大小等于一的一维卷积，以使每一头注意力得分矩阵可以通过其他头注意力得分矩阵校正，获得更好的协同效果。

可以使用如下公式变换

其中σ是一个非线性函数；f₁(·)和f₂(·)是两个有不同可训练参数的conv_1d函数；

包含协同的多头注意力得分矩阵，即协同多头注意力得分矩阵。

4)对变换张量进行分割；可以分割

为h个注意力得分矩阵，每个矩阵大小为n×m，然后用此协同的注意力矩阵替代注意力计算公式(1)中的原始注意力矩阵，即原来的多头注意力得分矩阵。

5)基于多头协同注意力矩阵获取与文本对应的输出结果。

上述实施例中，计算

的总共的算术计算操作是O(nmh²)的复杂度，h通常不大(比如8或16)，因此相比于Transformer中其他组件的计算，这个复杂度非常小。比如Transformer中的全连接层的复杂度是O(nd²)，多头注意力矩阵点乘的复杂度是O(nmd)。

此外，叠加当前层的所有头的注意力得分矩阵，并进行非线性变换和切割，得到校正后的多头协同注意力矩阵，使多头注意力机制有机会通过其他头修正每一个头的得分并且获得更好的协同作用。

1)获取与待处理的文本对应的多头注意力得分矩阵；

2)对多头注意力得分矩阵中前L层的所有头进行叠加，如下式：

其中：多头注意力矩阵的前L层共有Lh个头；每一头注意力得分矩阵的尺寸为n×m；

是一个n×m×h大小的3维张量。

3)基于第一卷积对注意力张量进行变换，得到第一变换向量；对第一变换向量进行非线性变换，得到第二变换向量；基于第二卷积对第二变换向量进行变换，得到变换张量；第一卷积和第二卷积均为核大小为一的一维卷积；

4)对变换张量进行分割；可以分割

为Lh个注意力得分矩阵，每个矩阵大小为n×m，然后用此协同的注意力矩阵替代注意力计算公式(1)中的原始注意力矩阵，即原来的多头注意力得分矩阵。

5)基于多头协同注意力矩阵获取与文本对应的输出结果。

上述实施例中，叠加多层的所有头的注意力得分矩阵，并进行非线性变换和切割，得到校正后的多头协同注意力矩阵，使多头注意力机制有机会通过其他头修正多层的每一个头的得分并且获得更好的协同作用。

在一个实施例中，如图6所示，本申请提供的文本处理方法，可以包括如下步骤：

1)基于待处理文本获取查询序列和键存储序列；

2)基于查询序列和参数矩阵W_q获取查询特征；

3)基于键存储序列和参数矩阵W_k获取键特征；基于键存储序列和参数矩阵W_v获取值特征；

4)对查询特征和键特征进行可放缩的点乘得到多头注意力得分矩阵；

5)将多头注意力得分矩阵中的当前层的各个头进行叠加，得到三维注意力张量；

6)对注意力张量进行卷积变换，并进行非线性变换；

7)对变换后的注意力张量进行分割，得到协同注意力得分矩阵，即图7中的协同的注意力得分矩阵(多头)；

8)基于值特征和协同注意力得分矩阵获取注意力输出矩阵；

9)基于注意力输出矩阵获取与文本对应的输出结果，即图7中的输出序列。

上述的文本处理方法，通过获取与待处理的文本对应的多头注意力得分矩阵，对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，采用校正后得到的多头协同注意力矩阵代替原来的多头注意力得分矩阵获取与文本对应的输出结果，可以提高对文本处理的准确率。

以下将根据对文本的不同处理任务的实验结果阐述本申请的文本处理方法的效果。

(1)在机器翻译任务上的测试

上表展示了本发明提出方法对Transformer模型中多头注意力方法的改进。翻译任务包括英语译越南语、英语译德语、英语译法语。提出的方法在表格中用“+Collaboration”表示。实验结果显示改进的方法显著提升了多头注意力模型的性能。

(2)文本相关、文本推理、文本分类任务上的测试

上表是在文本相关、文本推理、文本分类任务上的测试结果。与机器翻译任务上的实验结果类似，改进方法显著提升了模型的正确率。

(3)模型分析：注意力可视化

如图7所示，图7是对改进前模型和改进后模型注意力矩阵的可视化图。可以看到改进后不同头的注意力分布变得更加一致，而改进前的分布比较分散。这说明改进后的多头注意力有更好的协同效果。

通过实验(1)和(2)，可以分析得到：多头协同在特定的任务中存在，在多头协同方面当前的注意力方法仍有提升的空间。

通过实验(3)可以分析得到：相比于原始的多头注意力方法，协同的多头注意力有更加平滑、更一致但是仍然互补的注意力分布。

上述实施例通过方法流程的角度介绍文本处理方法，下述通过虚拟模块的角度进行介绍，具体如下所示：

本申请实施例提供了一种文本处理装置800，如图8所示，该装置800可以包括第一获取模块801、校正模块802和第二获取模块803，其中：

第一获取模块801，用于获取与待处理的文本对应的多头注意力得分矩阵；

校正模块802，用于对多头注意力得分矩阵进行校正得到多头协同注意力矩阵；

第二获取模块803，用于基于多头协同注意力矩阵获取与文本对应的输出结果。

本申请实施例的一种可能的实现方式，第一获取模块801在获取与待处理的文本对应的多头注意力得分矩阵时，具体用于：

获取文本的查询特征和键特征；

对查询特征和键特征进行可缩放的点乘，得到多头注意力得分矩阵。

本申请实施例的一种可能的实现方式，如图9所示，校正模块802包括：

叠加单元8021，将多头注意力得分矩阵中的至少两个注意力得分矩阵进行叠加，得到注意力张量；

获取单元8022，用于基于注意力张量获取多头协同注意力矩阵。

本申请实施例的一种可能的实现方式，获取单元8022在基于注意力张量获取多头协同注意力矩阵时，具体用于：

对注意力张量进行变换，得到变换张量；

对变换张量进行分割，得到至少两个校正后的注意力得分矩阵；

将多头注意力得分矩阵中的至少两个注意力得分矩阵一一对应地替换为校正后的注意力得分矩阵，得到多头协同注意力矩阵。

本申请实施例的一种可能的实现方式，获取单元8022在对注意力张量进行变换，得到变换张量时，具体用于：

基于第一卷积对注意力张量进行变换，得到第一变换向量；

对第一变换向量进行非线性变换，得到第二变换向量；

基于第二卷积对第二变换向量进行变换，得到变换张量。

本申请实施例的一种可能的实现方式，多头注意力得分矩阵中的注意力得分矩阵的个数与多头协同注意力矩阵中的注意力得分矩阵的个数相等；多头注意力得分矩阵中的每一注意力得分矩阵的大小与多头协同注意力矩阵中的每一注意力得分矩阵的大小一一对应相同。

本申请实施例的一种可能的实现方式，第二获取模块803在基于多头协同注意力矩阵获取与文本对应的输出结果时，具体用于：

获取文本的值特征；

基于值特征和多头协同注意力矩阵获取注意力输出矩阵，基于注意力输出矩阵获取与文本对应的输出结果。

上述的文本处理装置，通过获取与待处理的文本对应的多头注意力得分矩阵，对多头注意力得分矩阵进行校正得到多头协同注意力矩阵，采用校正后得到的多头协同注意力矩阵代替原来的多头注意力得分矩阵获取与文本对应的输出结果，可以提高对文本处理的准确率。

本公开实施例的图片的文本处理装置可执行本公开的实施例所提供的一种图片的文本处理方法，其实现原理相类似，本公开各实施例中的图片的文本处理装置中的各模块所执行的动作是与本公开各实施例中的图片的文本处理方法中的步骤相对应的，对于图片的文本处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的文本处理方法中的描述，此处不再赘述。

上面从功能模块化的角度对本申请实施例提供的文本处理装置进行介绍，接下来，将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍，并同时对电子设备的计算系统进行介绍。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的文本处理方法。与现有技术相比，本申请中的文本处理方法可以提高对文本处理的准确率，并使多头注意力机制有机会通过其他头修正多层的每一个头的得分并且获得更好的协同作用。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备1000包括：处理器1001和存储器1003。其中，处理器1001和存储器1003相连，如通过总线1002相连。可选地，电子设备1000还可以包括收发器1004。需要说明的是，实际应用中收发器1004不限于一个，该电子设备1000的结构并不构成对本申请实施例的限定。

处理器1001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1002可包括一通路，在上述组件之间传送信息。总线1002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1003用于存储执行本申请方案的应用程序代码，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的文本处理方法可以提高对文本处理的准确率，并使多头注意力机制有机会通过其他头修正多层的每一个头的得分并且获得更好的协同作用。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一获取模块还可以被描述为“获取多头注意力得分矩阵的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本处理方法，其特征在于，包括：

获取与待处理的文本对应的多头注意力得分矩阵；

对所述多头注意力得分矩阵进行校正得到多头协同注意力矩阵；

基于所述多头协同注意力矩阵获取与所述文本对应的输出结果。

2.根据权利要求1所述的方法，其特征在于，所述获取与待处理的文本对应的多头注意力得分矩阵，包括：

获取所述文本的查询特征和键特征；

对所述查询特征和键特征进行可缩放的点乘，得到所述多头注意力得分矩阵。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述多头注意力得分矩阵进行校正得到多头协同注意力矩阵，包括：

将所述多头注意力得分矩阵中的至少两个注意力得分矩阵进行叠加，得到注意力张量；

基于所述注意力张量获取所述多头协同注意力矩阵。

4.根据权利要求3所述的方法，其特征在于，所述基于所述注意力张量获取所述多头协同注意力矩阵，包括：

对所述注意力张量进行变换，得到变换张量；

对所述变换张量进行分割，得到至少两个校正后的注意力得分矩阵；

将所述多头注意力得分矩阵中的所述至少两个注意力得分矩阵一一对应地替换为校正后的注意力得分矩阵，得到所述多头协同注意力矩阵。

5.根据权利要求4所述的方法，其特征在于，所述对所述注意力张量进行变换，得到变换张量，包括：

基于第一卷积对所述注意力张量进行变换，得到第一变换向量；

对所述第一变换向量进行非线性变换，得到第二变换向量；

基于第二卷积对所述第二变换向量进行变换，得到所述变换张量。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述多头注意力得分矩阵中的注意力得分矩阵的个数与所述多头协同注意力矩阵中的注意力得分矩阵的个数相等；所述多头注意力得分矩阵中的每一注意力得分矩阵的大小与所述多头协同注意力矩阵中的每一注意力得分矩阵的大小一一对应相同。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述基于所述多头协同注意力矩阵获取与所述文本对应的输出结果，包括：

获取所述文本的值特征；

基于所述值特征和所述多头协同注意力矩阵获取注意力输出矩阵，基于所述注意力输出矩阵获取与所述文本对应的输出结果。

8.一种文本处理装置，其特征在于，包括：

校正模块，用于对所述多头注意力得分矩阵进行校正得到多头协同注意力矩阵；

第二获取模块，用于基于所述多头协同注意力矩阵获取与所述文本对应的输出结果。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至7任一项所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的文本处理方法。