CN114372457A

CN114372457A - 数据处理方法、装置、电子设备以及存储介质

Info

Publication number: CN114372457A
Application number: CN202210027662.2A
Authority: CN
Inventors: 钟怡然; 秦臻; 孙伟轩; 邓辉; 闫俊杰
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-19

Abstract

本公开提供了一种数据处理方法、装置、电子设备以及存储介质，其中，该方法包括：获取待输入至自注意力模块的待处理数据的数据序列，并确定数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；处理数据包括：图像数据和/或文本数据；通过非线性转换函数分别对查询特征向量和键特征向量进行转换，得到第一向量和第二向量；第一向量和第二向量中的元素均大于等于零；针对数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积；根据目标乘积确定待处理数据的注意力矩阵，并将注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

Description

数据处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种数据处理方法、装置、电子设备以及存储介质。

背景技术

随着人工智能和大数据技术的不断发展，自然语言处理(例如，智能问答系统、机器翻译系统)正在急速改变着人们的生活方式，也大大提升工作效率和使用体验。目前，Transformer模型在自然语言处理、计算机视觉和音频处理方面取得了巨大成功。作为其核心组成部分之一，softmax注意力机制有助于捕捉长距离的依赖关系。但是，现有Transformer模型中的softmax注意力机制在计算注意力矩阵时，注意力矩阵相对于输入的数据序列具有二次空间和时间复杂性，即注意力矩阵的总空间与时间复杂度随输入的数据序列长度二次增长。因此，由于对数据序列长度的二次空间和时间复杂性，使softmax注意力机制很难扩展。

发明内容

本公开实施例至少提供一种数据处理方法、装置、电子设备以及存储介质。

第一方面，本公开实施例提供了一种数据处理方法，应用于包含自注意力模块和前馈模块的Transformer模型，包括：获取待输入至自注意力模块的待处理数据的数据序列，并确定所述数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；所述待处理数据包括：图像数据和/或文本数据；通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量；所述第一向量和所述第二向量中的元素均大于等于零；针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积；根据所述目标乘积确定所述待处理数据的注意力矩阵，并将所述注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

通过上述处理方式，可以线性化自注意力模型的处理过程，从而降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长，进而提高了softmax注意力机制的扩展性。

一种可选的实施方式中，所述非线性转换函数为非线性激活函数；所述通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量，包括：通过所述非线性激活函数对所述查询特征向量进行转换，得到所述第一向量，以及通过所述非线性激活函数对所述键特征向量进行转换，得到所述第二向量。

通过非线性激活函数Relu对查询特征向量和键特征向量进行变换之后，第一向量和第二向量中的元素均大于等于零。通过保留向量中的正值，可以使得该自注意力模块忽略具有负相关性的特征，从而有效地避免了聚集无关的上下文信息。

一种可选的实施方式中，所述针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积，包括：基于所述数据序列中特征数据的位置，确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重；计算所述第一向量和所述第一权重的乘积，得到第一结果，并计算所述第二向量和所述第二权重的乘积，得到第二结果；将所述第二结果和所述值特征向量进行计算之后，与所述第一结果相乘，得到所述目标乘积。

上述实施方式中，通过数据序列中特征数据的位置确定第一权重和第二权重的方式，可以在数据序列中相邻特征数据之间施加更多的权重，从而加强特征数据之间的局部性。

一种可选的实施方式中，所述基于所述数据序列中特征数据的位置，确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重，包括：基于所述每个特征数据在所述数据序列中的位置，确定所述每个特征数据和所述当前特征数据之间的余弦距离；根据所述余弦距离确定所述第一权重和所述第二权重。

一种可选的实施方式中，所述第一权重和所述第二权重的数量为多个；所述计算所述第一向量和所述第一权重的乘积，得到第一结果，并对计算所述第二向量和所述第二权重的乘积，得到第二结果，包括：计算所述第一向量和每个第一权重的乘积，得到多个第一结果；计算所述第二向量和所述第二权重的乘积，得到多个第二结果；所述将所述第二结果和所述值特征向量进行计算之后与所述第一结果相乘，得到所述第一结果，包括：将每个第二结果和所述值特征向量进行计算之后与对应的第一结果相乘，得到多个目标子乘积，并将多个目标子乘积进行求和运算，得到所述目标乘积。

上述实施方式中，通过数据序列中特征数据的位置确定第一权重和第二权重的方式，可以在数据序列中相邻特征数据之间施加更多的权重，从而加强特征数据之间的局部性。通过每个第二结果和所述值特征向量进行计算之后与对应的第一结果相乘的方式，可以线性化自注意力模型的处理过程，从而降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长，进而提高了softmax注意力机制的扩展性。

一种可选的实施方式中，所述目标乘积的数量为多个；所述根据所述目标乘积确定所述待处理数据的注意力矩阵，包括：对多个所述目标乘积进行求和运算，得到第一运算结果；针对所述数据序列中的当前特征数据，对所述当前特征数据的第一向量和所述每个特征数据的第二向量的计算结果进行求和运算，得到第二运算结果；根据所述第一运算结果和所述第二运算结果的比值确定所述待处理数据的注意力矩阵。

一种可选的实施方式中，所述针对所述数据序列中的当前特征数据，对所述当前特征数据的第一向量和所述每个特征数据的第二向量的计算结果进行求和运算，得到第二运算结果，包括：确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重；计算所述第一向量和所述第一权重的乘积，得到第一结果，并对计算所述第二向量和所述第二权重的乘积，得到第二结果；对所述第一结果和所述第二结果的乘积进行求和运算，得到所述第二运算结果。

一种可选的实施方式中，所述第一权重包括：第一余弦权重和第一正弦权重，所述第二权重包括：第二余弦权重和第二正弦权重；其中，所述第一余弦权重和所述第一正弦权重分别为基于所述当前特征数据在所述数据序列中的位置确定的余弦值和正弦值，所述第二余弦权重和所述第二正弦权重分别为基于所述每个特征数据在所述数据序列中的位置确定的余弦值和正弦值。

上述实施方式中，通过该处理方式，可以降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长，进而提高了softmax注意力机制的扩展性。在通过上述所描述的方式替换Transformer模型中的自注意力模块之后，Transformer模型可以更加稳定，同时还可以在保证效果的前提下，提升模型的速度，降低内存。

第二方面，本公开实施例提供了一种数据处理装置，应用于包含自注意力模块和前馈模块的Transformer模型，包括：获取单元，用于获取待输入至自注意力模块的待处理数据的数据序列，并确定所述数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；所述待处理数据包括：图像数据和/或文本数据；转换单元，用于通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量；所述第一向量和所述第二向量中的元素均大于等于零；计算单元，用于针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积；确定单元，用于根据目标乘积确定所述待处理数据的注意力矩阵，并将所述注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种Transformer模型中Multi-Head Attention模型的模型结构示意图；

图2示出了本公开实施例所提供的一种数据处理方法的流程图；

图3(a)示出了一种Transformer模型中现有Self Attention自注意力模块的处理过程的示意图；

图3(b)示出了本公开实施例所提供一种线性化自注意力模块的处理过程的示意图；

图4示出了本公开实施例所提供的数据处理方法中，通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量的具体方法的流程图；

图5示出了本公开实施例所提供的数据处理方法中，针对所述数据序列中的每个特征数据，将除该特征数据之外的其他特征数据对应的第二向量和值特征向量计算之后与该特征数据的第一向量相乘，得到目标乘积的具体方法的流程图；

图6(a)示出了本公开实施例所提供的一种图像数据的示意图；

图6(b)示出了本公开实施例所提供的一种图像数据的图像分割结果的示意图；

图6(c)示出了本公开实施例所提供的一种图像数据的标准分割结果的示意图；

图7示出了本公开实施例所提供的一种数据处理装置的示意图；

图8示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，目前，Transformer模型在自然语言处理、计算机视觉和音频处理方面取得了巨大成功。作为其核心组成部分之一，softmax注意力机制有助于捕捉长距离的依赖关系。但是，现有Transformer模型中的softmax注意力机制在计算注意力矩阵时，注意力矩阵相对于输入的数据序列具有二次空间和时间复杂度，即注意力矩阵的总空间与时间复杂度随输入的数据序列长度二次增长。因此，由于对数据序列长度的二次空间和时间复杂性，使softmax注意力机制很难扩展。

基于上述研究，本公开提供了一种数据处理方法、装置、电子设备以及存储介质。在本公开实施例中，首先，通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换；之后，针对数据序列的当前特征数据，可以将每个特征数据的键特征向量的转换向量(即，第二向量)与该特征数据的值特征向量进行计算，并将计算结果与当前特征数据的查询特征向量的转换向量(即，第一向量)进行相乘，以根据目标乘积确定数据序列中每个特征数据的注意力矩阵，通过上述处理方式，可以线性化自注意力模型的处理过程，从而降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长，进而提高了softmax注意力机制的扩展性。

在Transformer模型中包含多个编码器Encoder和多个解码器Decoder，其中，每个编码器包含Feed Forward(前馈模块)和Self Attention自注意力模块，每个解码器Decoder包括：Feed Forward(前馈模块)和Encoder-Decoder Attention，Self Attention自注意力模块。

本公开实施例所提供的方法可以理解为Transformer模型中Self Attention自注意力模块对输入的数据序列的处理过程。例如，如图1所示，如图1所示的为Transformer模型中Multi-Head Attention模型的模型结构图。本公开实施例所提供的方法可以应用到Multi-Head Attention模型的Scale Dot-Product Attention部分。相对于Transformer模型中现有Self Attention自注意力模块的处理过程，本公开实施例所提供的方法可以线性化自注意力模块的处理过程，从而降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种数据处理方法，进行详细介绍，本公开实施例所提供的数据处理方法，的执行主体一般为具有一定计算能力的电子设备。

参见图2所示，为本公开实施例提供的一种数据处理方法的流程图，所述方法包括步骤S201～S207，其中：

S201：获取待输入至自注意力模块的待处理数据的数据序列，并确定所述数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；所述待处理数据包括：图像数据和/或文本数据。

在本公开实施例中，可以获取初始数据，并对初始数据进行处理，得到待处理数据。例如，初始数据可以为视频数据，此时，可以在视频数据中提取待处理的视频帧作为图像数据，或者，将视频数据中的音频数据进行提取，并将提取到的音频数据转化为文本数据。除此之外，初始数据还可以为音频数据，此时，可以将音频数据转化为对应的文本数据，从而得到待处理数据。

下面具体结合图3(a)和图3(b)对上述进行介绍。如图3(a)所示的为Transformer模型中现有Self Attention自注意力模块的处理过程，如图3(a)所示的为本公开实施例所提供的线性自注意力模块的处理过程。

针对待处理的数据序列中每个特征数据，Self Attention自注意力模块首先会计算出三个新的向量，这三个新的向量分别称为Query(查询特征向量，以下简称为向量Q)、Key(键特征向量，以下简称为向量K)、Value(值特征向量，以下简称为向量V)。这三个向量是用embedding向量与一个矩阵相乘得到的结果，其中，embedding向量为将数据序列中的每个特征数据。

如图3(a)所示，Transformer模型中现有Self Attention自注意力模块首先，通过相性度函数S对向量Q和K的转置矩阵K^T进行相似度计算；然后，将计算之后的结果进行softmax归一化处理之后与向量V相乘，从而得到当前文本的注意力矩阵。

若数据序列的长度为N，数据序列中每个特征数据特征的特征尺寸为d，如图3(a)所示，Q和K的转置矩阵K^T的相似度结果与V相乘之后，可以得到复杂度为O(N²)的注意力矩阵。

如图3(b)所示，在本公开实施例中，首先，将K的转置矩阵K^T与向量V相乘，从而得到复杂度为O(Nd²)的计算结果；之后，该计算结果再与向量Q相乘，就可以得到复杂度为O(N)的注意力矩阵。通过降低注意力矩阵在时间和空间上的复杂度，可以提高Transformer模型的数据处理效率。

S203：通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量；所述第一向量和所述第二向量中的元素均大于等于零。

在本公开实施例中，为了实现将K的转置矩阵K^T与向量V相乘之后，再与向量Q相乘。需要将现有自注意力模块中的相性度函数S转化为可分解的相性度函数，例如，可以通过以下公式将现有自注意力模块中的相性度函数S转化为可分解的相性度函数：

S(Q_i,K_j)＝φ(Q_i)φ(K_j)^T；其中，i表示数据序列中第i个特征数据，j表示数据序列中第j个特征数据，Q_i表示第i个特征数据的向量Q，K_j表示第j个特征数据的向量K。

之后，就可以通过矩阵乘积属性实现线性复杂度下的注意力操作，例如，如下公式：(φ(Q)φ(K))^TV＝φ(Q)(φ(K)^TV)。

基于此，在本公开实施例中，需要通过非线性转换函数分别对查询特征向量Q和键特征向量K进行转换，得到第一向量和第二向量。这里，φ(·)表示为上述非线性转换函数。

在本公开实施例中，数据序列的序列长度为N，即数据序列中包含N个特征数据，针对每个特征数据，均可以得到一组向量，即：查询特征向量、键特征向量、值特征向量。因此，针对每组向量中的查询特征向量和键特征向量，均可以通过非线性转换函数进行转换，得到第一向量和第二向量。

在本公开实施例中，对查询特征向量和键特征向量进行转换之后得到的第一向量和第二向量中的元素均大于等于零。通过保留向量中的正值，可以使得该自注意力模块忽略具有负相关性的特征，从而有效地避免了聚集无关的上下文信息。

S205：针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积。

在本公开实施例中，在按照上述所描述的方式对查询特征向量和键特征向量进行转换之后，就可以确定数据序列中每个特征数据的注意力矩阵。

具体实施时，针对数据序列中的当前特征数据，首先，可以将数据序列中的每个特征数据的键特征向量的转换向量(即，第二向量)与该特征数据的值特征向量进行计算之后，将计算结果与当前特征数据的查询特征向量的转换向量(即，第一向量)进行相乘，从而得到目标乘积。

S207：根据目标乘积确定所述待处理数据的注意力矩阵，并将所述注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

在本公开实施例中，首先，通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换；之后，针对数据序列中的当前特征数据，可以将每个特征数据的键特征向量的转换向量(即，第二向量)与该特征数据的值特征向量进行计算，并将计算结果与当前特征数据的查询特征向量的转换向量(即，第一向量)进行相乘，以根据目标乘积确定数据序列中每个特征数据的注意力矩阵，通过上述处理方式，可以线性化自注意力模型的处理过程，从而降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长，进而提高了softmax注意力机制的扩展性。

这里，线性化自注意力模型的处理过程可以理解为：注意力矩阵的总空间与时间复杂度与输入的数据序列的序列长度呈线性关系，也即注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长。

在本公开实施例中，上述待处理数据可以为图像数据或者文本数据，下面将分场景对上述数据处理方法进行介绍。

场景一：图像分割场景。

首先，获取待处理数据，即待进行分割处理的图像数据。例如，该图像数据可以为如图6(a)所示的图像。在获取到图像数据之后，就可以对该图像数据进行处理，得到该图像数据的数据序列，其中，该数据序列中包含图像数据中的各个特征数据。接下来，就可以确定该数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量。之后，就可以将确定出的特征向量输入至Transformer模型的编码器中进行处理。例如，可以输入至如图1所示的编码器中进行处理，此时，Transformer模型中Multi-Head Attention模型就可以通过上述步骤S201至步骤S207所描述的方法对查询特征向量、键特征向量、值特征向量进行处理，从而得到图像数据的注意力矩阵。接下来，就可以将注意力矩阵输入至所述前馈模块进行处理，从而得到如图6(b)所示的图像分割结果(即，数据处理结果)，其中，6(c)所示的为图像数据的标准分割结果。

通过上述图6(a)至图6(c)可以看出，本公开所提供的方法可以准确的对待分割的图像进行图像分割。因此，针对图像分割场景，本公开所提供的数据处理方法可以在保证图像分割精度的基础上，降低图像分割复杂度，从而提高图像分割的效率。

场景二：文本翻译场景。

首先，获取待处理数据，即待进行翻译处理(例如，英文翻译为德文)的文本数据。例如，该文本数据可以为Nevada has already completed a pilot。在获取到文本数据之后，就可以对该文本数据进行处理，得到该文本数据的数据序列，其中，该数据序列中包含文本数据中各个文本的特征数据。接下来，就可以确定该数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量。之后，就可以将确定出的特征向量输入至Transformer模型的编码器中进行处理。例如，可以输入至如图1所示的编码器中进行处理，此时，Transformer模型中Multi-Head Attention模型就可以通过上述步骤S201至步骤S207所描述的方法对查询特征向量、键特征向量、值特征向量进行处理，从而得到文本数据的注意力矩阵。接下来，就可以将注意力矩阵输入至所述前馈模块进行处理，从而得到以下翻译结果：Nevada hat bereits einen Piloten absolviert。其中，文本数据的标准翻译结果为：Nevada hat bereits ein Pilotprojekt abgeschlossen。

通过上述翻译结果可以看出，本公开所提供的方法可以准确的对待翻译的文本进行翻译处理。因此，针对文本翻译场景，本公开所提供的数据处理方法可以在保证文本翻译精度的基础上，降低文本翻译的复杂度，从而提高文本翻译的效率。

下面将结合具体实施例对上述步骤进行详细描述。

在一个可选的实施方式中，如图4所示，在非线性转换函数为非线性激活函数的情况下，上述步骤S203：通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量，具体包括如下步骤：

步骤S401：通过非线性激活函数对所述查询特征向量进行转换，得到所述第一向量；

步骤S402：通过非线性激活函数对所述键特征向量进行转换，得到所述第二向量。

具体实施时，可以通过非线性激活函数Relu对查询特征向量(向量Q)进行转换，得到第一向量。例如，可以通过以下公式表示上述转换过程：Q′_i＝Relu(Q_i)；其中，Q′_i表示第一向量，Q_i表示数据序列中第i个文本的查询特征向量Q，Relu(·)表示非线性激活函数。

在本公开实施例中，还可以通过非线性激活函数Relu对键特征向量(向量K)进行转换，得到第二向量。例如，可以通过以下公式表示上述转换过程：K′_i＝Relu(K_i)；其中，K′_i表示第二向量，K_i表示数据序列中第i个特征数据的键特征向量K，Relu(·)表示非线性激活函数。

这里，Relu(x)＝max(x,0)，因此，通过非线性激活函数Relu对查询特征向量和键特征向量进行变换之后，第一向量和第二向量中的元素均大于等于零。通过保留向量中的正值，可以使得该自注意力模块忽略具有负相关性的特征，从而有效地避免了聚集无关的上下文信息。

在一个可选的实施方式中，如图5所示，上述步骤S205：针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积，具体包括如下步骤：

步骤S501：基于所述数据序列中特征数据的位置，确定当前特征数据的第一向量的权重，得到第一权重，并确定每个特征数据的第二向量的权重，得到第二权重；

步骤S502：计算所述第一向量和所述第一权重的乘积，得到第一结果，并计算所述第二向量和所述第二权重的乘积，得到第二结果；

步骤S503：将所述第二结果和所述值特征向量进行计算之后，与所述第一结果相乘，得到所述目标乘积。

由于在下游数据处理任务中存在局部性偏差，即大部分上下文依赖来自相邻的数据。因此，在本公开实施例中，为了缩小数据序列中相邻数据(例如，相邻文本)之间的距离，扩大数据序列中距离较远数据(例如，文本)之间的距离，可以基于数据序列中特征数据的位置(或者，数据序列中特征数据之间的余弦距离)为每个特征数据的第一向量Q′_i设置对应的权重，即第一权重，还可以为其他特征数据的第二向量K′_j设置对应的权重，即第二权重。

在确定出第一权重和第二权重之后，就可以基于第一权重和第二权重，对每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积。

具体实施时，可以对第一向量Q_i'和第一权重进行相乘，从而得到第一结果。对第二向量K'_j和第二权重进行相乘，从而得到第二结果。

假设，第一权重表示为W1，第二权重表示为W2，此时，可以通过Q′_iW1计算得到上述第一结果，并通过(K'_jW1)^T计算得到上述第二结果。之后，就可以将第二结果(K'_jW1)^T与向量V进行相乘，得到乘积(K'_jW1)^TV_j；接下来，可以将乘积(K'_jW1)^TV_j与第一结果Q′_iW1进行相乘，从而得到目标乘积。

在一个可选的实施方式中，在第一权重和所述第二权重的数量为多个的情况下，上述步骤S502：计算所述第一向量和所述第一权重的乘积，得到第一结果，并对计算所述第二向量和所述第二权重的乘积，得到第二结果，具体包括如下步骤：

步骤S11：计算所述第一向量和每个第一权重的乘积，得到多个第一结果；计算所述第二向量和所述第二权重的乘积，得到多个第二结果；

步骤S503：将所述第二结果和所述值特征向量进行计算之后与所述第一结果相乘，得到所述第一结果，具体包括如下步骤：

步骤S12：将每个第二结果和所述值特征向量进行计算之后与对应的第一结果相乘，得到多个目标子乘积，并将多个目标子乘积进行求和运算，得到所述目标乘积。

在本公开实施例中，可以计算第一向量和每个第一权重的乘积，得到多个第一结果。假设，第一权重包含W11和W12，可以通过Q′_iW11和Q′_iW12计算得到多个第一结果。还可以计算第二向量和所述第二权重的乘积，得到多个第二结果。假设，第二权重包含W21和W22，可以通过(K'_jW21)^T和(K'_jW22)^T计算得到上述多个第二结果。

之后，就可以将每个第二结果和值特征向量进行计算之后与对应的第一结果相乘，得到多个目标子乘积，并将多个目标子乘积进行求和运算，得到所述目标乘积。

例如，可以将第二结果(K'_jW21)^T和向量V相乘之后与对应的第一结果Q′_iW11进行相乘，得到一个目标子乘积。并将第二结果(K'_jW22)^T和向量V相乘之后与对应的第一结果Q′_iW12进行相乘，得到又一个目标子乘积，此时，可以多个目标子乘积进行求和运算，得到目标乘积。

在一个可选的实施方式中，上述步骤S501：基于所述数据序列中特征数据的位置，确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重，具体包括如下步骤：

步骤S21：基于所述每个特征数据在所述数据序列中的位置，确定所述每个特征数据和所述当前特征数据之间的余弦距离；

步骤S22：根据所述余弦距离确定所述第一权重和所述第二权重。

具体实施时，在本公开实施例中，针对数据序列中的第i个特征数据(即，当前特征数据)，以及数据序列中的每个特征数据(即，第j个特征数据)。可以确定第i个特征数据在数据序列中的位置为i，每个特征数据在数据序列中的位置为j，此时，就可以基于i和j确定第i个特征数据和第j个特征数据之间的余弦距离，例如，余弦距离可以为：

在确定出上述余弦距离之后，就可以基于该余弦距离确定上述第一权重和第二权重，具体确定过程描述如下：

可以通过三角函数的和差化积展开公式对

进行展开处理，得到以下展开处理结果：

此时，就可以将

和

确定为第一权重，将

和

确定为第二权重。这里，

即为第一余弦权重，

为第一正弦权重，

为第二余弦权重，

为第二正弦权重。

在本公开实施例中，第一余弦权重和第一正弦权重分别为基于每个特征数据在所述数据序列中的位置确定的余弦值和正弦值，第二余弦权重和所述第二正弦权重分别为基于其他特征数据在所述数据序列中的位置确定的余弦值和正弦值。

举例来说，假设，第一权重包含第一余弦权重

和第一正弦权重

第二权重包含第二余弦权重

和第二正弦权重

此时，上述步骤S11和步骤S12的计算过程可以描述为以下过程：

分别计算第一向量Q′_i与第一余弦权重

和第一正弦权重

的乘积，并分别计算第二向量K'_j与第二余弦权重

和第二正弦权重

的乘积。将第二向量K'_j与第二余弦权重

的乘积与向量V_j相乘之后再与第一向量Q′_i与第一余弦权重

相乘，得到一个目标子乘积。将第二向量K'_j与第二正弦权重

的乘积与向量V_j相乘之后再与第一向量Q′_i与第一正弦权重

得到另一个目标子乘积，从而将多个目标子乘积进行求和运算，得到所述目标乘积，具体可以通过如下公式进行表示：

在一个可选的实施方式中，在目标乘积的数量为多个的情况下，步骤S207：根据所述目标乘积确定所述待处理数据的注意力矩阵，具体包括如下步骤：

步骤S2071：对多个所述目标乘积进行求和运算，得到第一运算结果。

通过公式

可知，针对数据序列中的第i个特征数据与每个第j个特征数据，均可以通过上述所描述的方式得到一个目标乘积。如果第j个特征数据为多个，则可以得到多个目标乘积，此时，可以将多个目标乘积进行求和运算，得到第一运算结果。

步骤S2072：针对所述数据序列中的当前特征数据，对所述当前特征数据的第一向量和所述每个特征数据的第二向量的计算结果进行求和运算，得到第二运算结果。

假设，第一向量为Q′_i，第二向量为K'_j，此时，可以对当前特征数据的第一向量Q′_i和每个特征数据的第二向量K'_j的计算结果进行求和运算，从而得到第二运算结果。

通过上述描述可知，可以基于数据序列中特征数据的位置，为当前特征数据的第一向量的确定了对应的第一权重，并为数据序列中的每个特征数据的第二向量确定了对应的第二权重，在此情况下，步骤S2072可以描述为：

(1)、确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重。

(2)、计算所述第一向量和所述第一权重的乘积，得到第一结果，并对计算所述第二向量和所述第二权重的乘积，得到第二结果。

(3)、对所述第一结果和所述第二结果的乘积进行求和运算，得到所述第二运算结果。

通过上述描述可知，第一权重包括：第一权重包括：第一余弦权重和第一正弦权重，所述第二权重包括：第二余弦权重和第二正弦权重；其中，所述第一余弦权重和所述第一正弦权重分别为基于所述当前特征数据在所述数据序列中的位置确定的余弦值和正弦值，所述第二余弦权重和所述第二正弦权重分别为基于所述每个特征数据在所述数据序列中的位置确定的余弦值和正弦值。

此时，上述(2)和(3)所描述的步骤可以描述为以下过程：

分别计算第一向量与第一余弦权重和第一正弦权重的乘积，得到两个第一结果(分别为第一子结果和第二子结果)；并分别计算第二向量与第二余弦权重和第二正弦权重的乘积，得到多个第二结果(分别为第三子结果和第四子结果)；将第一子结果和第三子结果的乘积进行求和运算，得到第一子运算结果，并将第二子结果和第四子结果的乘积进行求和运算，得到第二子运算结果；将第一子运算结果和第二子运算结果进行相加，得到第二运算结果。

假设，

即为第一余弦权重，

为第一正弦权重，

为第二余弦权重，

为第二正弦权重，上述过程可以通过以下公式进行表述：

这里，

为第一向量与第一余弦权重的乘积(即，第一子结果)，

为第一向量与第一正弦权重的乘积(即，第二子结果)，

为第二向量与第二余弦权重的乘积(即，第三子结果)，

为为第二向量与第二正弦权重的乘积(即，第四子结果)。

步骤S2073：根据所述第一运算结果和所述第二运算结果的比值确定所述待处理数据的注意力矩阵。

在计算得到第一运算结果和第二运算结果之后，就可以根据所述第一运算结果和所述第二运算结果的比值确定所述待处理数据的注意力矩阵，具体可以表述为以下公式：

这里，假设，

则上述公式可以表述为以下公式：

在数据处理任务中，新数据可能和非常久之前的数据存在依赖关系，并且数据生成的速度对用户体验至关重要。利用本公开实施例所提供的方法，可以捕捉数据之间的超长依赖关系，并且数据生成速度比原始方法要快的多。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与数据处理方法对应的数据处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图7所示，为本公开实施例提供的一种数据处理装置的示意图，所述装置包括：获取单元10、转换单元20、计算单元30、确定单元40；其中，

获取单元10，用于获取待输入至自注意力模块的待处理数据的数据序列，并确定所述数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；所述待处理数据包括：图像数据和/或文本数据；

转换单元20，用于通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量；所述第一向量和所述第二向量中的元素均大于等于零；

计算单元30，用于针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积；

确定单元40，用于根据所述目标乘积确定所述待处理数据的注意力矩阵，并将所述注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

在本公开实施例中，首先，通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换；之后，针对数据序列的当前特征数据，可以将每个特征数据的键特征向量的转换向量(即，第二向量)与该特征数据的值特征向量进行计算，并将计算结果与当前特征数据的查询特征向量的转换向量(即，第一向量)进行相乘，以根据目标乘积确定数据序列中每个特征数据的注意力矩阵，通过上述处理方式，可以线性化自注意力模型的处理过程，从而降低注意力矩阵的空间与时间复杂度，从而使得注意力矩阵的总空间与时间复杂度不会随输入的数据序列长度二次增长，进而提高了softmax注意力机制的扩展性。

一种可能的实施方式中，转换单元，还用于：在非线性转换函数为非线性激活函数的情况下，通过非线性激活函数对所述查询特征向量进行转换，得到所述第一向量，以及通过所述非线性激活函数对所述键特征向量进行转换，得到所述第二向量。

一种可能的实施方式中，计算单元，还用于：基于所述数据序列中特征数据的位置，确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重；计算所述第一向量和所述第一权重的乘积，得到第一结果，并计算所述第二向量和所述第二权重的乘积，得到第二结果；将所述第二结果和所述值特征向量进行计算之后，与所述第一结果相乘，得到所述目标乘积。

一种可能的实施方式中，计算单元，还用于：基于所述每个特征数据在所述数据序列中的位置，确定所述每个特征数据和所述当前特征数据之间的余弦距离；根据所述余弦距离确定所述第一权重和所述第二权重。

一种可能的实施方式中，计算单元，还用于：在第一权重和所述第二权重的数量为多个的情况下，计算所述第一向量和每个第一权重的乘积，得到多个第一结果；计算所述第二向量和所述第二权重的乘积，得到多个第二结果；所述将所述第二结果和所述值特征向量进行计算之后与所述第一结果相乘，得到所述第一结果，包括：将每个第二结果和所述值特征向量进行计算之后与对应的第一结果相乘，得到多个目标子乘积，并将多个目标子乘积进行求和运算，得到所述目标乘积。

一种可能的实施方式中，确定单元，还用于：在目标乘积的数量为多个的情况下，对多个所述目标乘积进行求和运算，得到第一运算结果；针对所述数据序列中的当前特征数据，对所述当前特征数据的第一向量和所述每个特征数据的第二向量的计算结果进行求和运算，得到第二运算结果；根据所述第一运算结果和所述第二运算结果的比值确定所述待处理数据的注意力矩阵。

一种可能的实施方式中，确定单元，还用于：确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重；计算所述第一向量和所述第一权重的乘积，得到第一结果，并对计算所述第二向量和所述第二权重的乘积，得到第二结果；对所述第一结果和所述第二结果的乘积进行求和运算，得到所述第二运算结果。

一种可能的实施方式中，所述第一权重包括：第一余弦权重和第一正弦权重，所述第二权重包括：第二余弦权重和第二正弦权重；其中，所述第一余弦权重和所述第一正弦权重分别为基于所述当前特征数据在所述数据序列中的位置确定的余弦值和正弦值，所述第二余弦权重和所述第二正弦权重分别为基于所述每个特征数据在所述数据序列中的位置确定的余弦值和正弦值。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的数据处理方法，本公开实施例还提供了一种电子设备800，如图8所示，为本公开实施例提供的电子设备800结构示意图，包括：

处理器81、存储器82、和总线83；存储器82用于存储执行指令，包括内存821和外部存储器822；这里的内存821也称内存储器，用于暂时存放处理器81中的运算数据，以及与硬盘等外部存储器822交换的数据，处理器81通过内存821与外部存储器822进行数据交换，当所述电子设备800运行时，所述处理器81与所述存储器82之间通过总线83通信，使得所述处理器81执行以下指令：

获取待输入至自注意力模块的待处理数据的数据序列，并确定所述数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；所述待处理数据包括：图像数据和/或文本数据；

通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量；所述第一向量和所述第二向量中的元素均大于等于零；

针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积；

根据所述目标乘积确定所述待处理数据的注意力矩阵，并将所述注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的数据处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的数据处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，应用于包含自注意力模块和前馈模块的Transformer模型，包括：

2.根据权利要求1所述的方法，其特征在于，所述非线性转换函数为非线性激活函数；所述通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量，包括：

通过所述非线性激活函数对所述查询特征向量进行转换，得到所述第一向量，以及通过所述非线性激活函数对所述键特征向量进行转换，得到所述第二向量。

3.根据权利要求1或2所述的方法，其特征在于，所述针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积，包括：

基于所述数据序列中特征数据的位置，确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重；

计算所述第一向量和所述第一权重的乘积，得到第一结果，并计算所述第二向量和所述第二权重的乘积，得到第二结果；

将所述第二结果和所述值特征向量进行计算之后，与所述第一结果相乘，得到所述目标乘积。

4.根据权利要求3所述的方法，其特征在于，所述基于所述数据序列中特征数据的位置，确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重，包括：

基于所述每个特征数据在所述数据序列中的位置，确定所述每个特征数据和所述当前特征数据之间的余弦距离；

根据所述余弦距离确定所述第一权重和所述第二权重。

5.根据权利要求3或4所述的方法，其特征在于，所述第一权重和所述第二权重的数量为多个；

所述计算所述第一向量和所述第一权重的乘积，得到第一结果，并计算所述第二向量和所述第二权重的乘积，得到第二结果，包括：

计算所述第一向量和每个第一权重的乘积，得到多个第一结果；计算所述第二向量和所述第二权重的乘积，得到多个第二结果；

所述将所述第二结果和所述值特征向量进行计算之后与所述第一结果相乘，得到所述第一结果，包括：将每个第二结果和所述值特征向量进行计算之后与对应的第一结果相乘，得到多个目标子乘积，并将多个目标子乘积进行求和运算，得到所述目标乘积。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标乘积的数量为多个；所述根据所述目标乘积确定所述待处理数据的注意力矩阵，包括：

对多个所述目标乘积进行求和运算，得到第一运算结果；

针对所述数据序列中的当前特征数据，对所述当前特征数据的第一向量和所述每个特征数据的第二向量的计算结果进行求和运算，得到第二运算结果；

根据所述第一运算结果和所述第二运算结果的比值确定所述待处理数据的注意力矩阵。

7.根据权利要求6所述的方法，其特征在于，所述针对所述数据序列中的当前特征数据，对所述当前特征数据的第一向量和所述每个特征数据的第二向量的计算结果进行求和运算，得到第二运算结果，包括：

确定所述当前特征数据的第一向量的权重，得到第一权重，并确定所述每个特征数据的第二向量的权重，得到第二权重；

对所述第一结果和所述第二结果的乘积进行求和运算，得到所述第二运算结果。

8.根据权利要求5或7所述的方法，其特征在于，所述第一权重包括：第一余弦权重和第一正弦权重，所述第二权重包括：第二余弦权重和第二正弦权重；其中，所述第一余弦权重和所述第一正弦权重分别为基于所述当前特征数据在所述数据序列中的位置确定的余弦值和正弦值，所述第二余弦权重和所述第二正弦权重分别为基于所述每个特征数据在所述数据序列中的位置确定的余弦值和正弦值。

9.一种数据处理装置，其特征在于，应用于包含自注意力模块和前馈模块的Transformer模型，包括：

获取单元，用于获取待输入至自注意力模块的待处理数据的数据序列，并确定所述数据序列中各个特征数据的查询特征向量、键特征向量、值特征向量；所述待处理数据包括：图像数据和/或文本数据；

转换单元，用于通过非线性转换函数分别对所述查询特征向量和所述键特征向量进行转换，得到第一向量和第二向量；所述第一向量和所述第二向量中的元素均大于等于零；

计算单元，用于针对所述数据序列的当前特征数据，将每个特征数据的第二向量和值特征向量进行计算之后与当前特征数据的第一向量相乘，得到目标乘积；

确定单元，用于根据所述目标乘积确定所述待处理数据的注意力矩阵，并将所述注意力矩阵输入至所述前馈模块进行处理，得到数据处理结果。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的数据处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的数据处理方法的步骤。