CN116661707A

CN116661707A - 数据处理方法、装置及电子设备

Info

Publication number: CN116661707A
Application number: CN202310937001.8A
Authority: CN
Inventors: 张玮君
Original assignee: Beijing Suneng Technology Co ltd
Current assignee: Beijing Suneng Technology Co ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29
Anticipated expiration: 2043-07-28
Also published as: CN116661707B

Abstract

本公开提供一种数据处理方法、装置及电子设备。该数据处理方法包括：获得矩阵请求指令；根据矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据；对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据，其中，N个注意力矩阵的矩阵数据用于构建目标神经网络中的注意力矩阵。在本公开中，内部存储模块中存储的是N个注意力矩阵的压缩数据，每次读取的压缩数据在解压后的数据量能够大于单次读取未压缩数据的数据量，从而减少读取存储空间的次数，降低功耗、提升性能。

Description

数据处理方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据处理方法、装置及电子设备。

背景技术

近年来，随着深度学习（deep learning）技术的发展，深度神经网络（deep neuralnetworks，DNN）被应用在越来越多的领域。深度神经网络的模型越深，非线性程度也就越大，相应的对现实问题的表达能力越强，但相应的代价是，训练成本和模型大小的增加。

那么，在模型的训练和推理过程中，需要频繁读写存储空间，造成功耗较高以及频宽浪费。

发明内容

本公开提供一种数据处理方法、装置及电子设备，能够减少对存储空间的频繁读写，从而降低功耗，提升性能。

第一方面，本公开提供一种数据处理方法，该方法包括：获得矩阵请求指令；根据矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据，N为正整数；对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据，其中，N个注意力矩阵的矩阵数据用于构建目标神经网络中的注意力矩阵。

在一些可能的实施方式中，在N的取值大于或者等于2的情况下，对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据，包括：使用N个解码模块，分别对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵中每一个注意力矩阵的矩阵数据，N个解码模块与N个注意力矩阵一一对应。

在一些可能的实施方式中，在获得矩阵请求指令之前，上述方法还包括：获得待压缩的注意力矩阵数据，注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据；将M个注意力矩阵的压缩数据写入内部存储模块。

在一些可能的实施方式中，在M的取值大于或者等于2的情况下，对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据，包括：对注意力矩阵数据进行划分，以得到M个注意力矩阵的矩阵数据；使用M个编码模块，分别对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵中每一个注意力矩阵的矩阵数据，M个编码模块与M个注意力矩阵一一对应。

在一些可能的实施方式中，注意力矩阵的压缩数据包括：注意力矩阵的类型信息；注意力矩阵的元素值；元素值的位置标识信息，其中，位置标识信息用于指示元素值在注意力矩阵中的位置。

第二方面，本公开提供一种数据处理装置，该装置包括：第一获得模块，被配置为获得矩阵请求指令；读取模块，被配置为根据矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据，N为正整数；解码模块，被配置为对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据，其中，N个注意力矩阵的矩阵数据用于构建目标神经网络中的注意力矩阵。

在一些可能的实施方式中，在N的取值大于或者等于2的情况下，解码模块，被配置为使用N个解码模块，分别对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵中每一个注意力矩阵的矩阵数据，N个解码模块与N个注意力矩阵一一对应。

在一些可能的实施方式中，上述装置还包括：第二获得模块、编码模块和写入模块；其中，第二获得模块，被配置为在第一获得模块获得矩阵请求指令之前，获得待压缩的注意力矩阵数据，注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；编码模块，被配置为对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据；写入模块，被配置为将M个注意力矩阵的压缩数据写入内部存储模块。

在一些可能的实施方式中，编码模块还被配置为：在M的取值大于或者等于2的情况下，对注意力矩阵数据进行划分，以得到M个注意力矩阵的矩阵数据；以及，使用M个编码模块，分别对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵中每一个注意力矩阵的矩阵数据，M个编码模块与M个注意力矩阵一一对应。

第三方面，本公开提供一种数据处理装置，该装置包括：内部存储电路、解码电路以及运算电路；其中，运算电路，被配置为向解码电路输出矩阵请求指令；解码电路，被配置为：根据矩阵请求指令，从内部存储电路中读取N个注意力矩阵的压缩数据；对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据；向运算电路输出N个注意力矩阵的矩阵数据；运算电路，还被配置为根据N个注意力矩阵的矩阵数据，构建目标神经网络中的注意力矩阵。

在一些可能的实施方式中，解码电路包括N个解码模块，N个解码模块与N个注意力矩阵一一对应；N个解码模块，被配置为分别对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵中每一个注意力矩阵的矩阵数据。

在一些可能的实施方式中，上述装置还包括：编码电路，其中，运算电路，还被配置为获得待压缩的注意力矩阵数据，注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；编码电路，被配置为对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据；以及，将M个注意力矩阵的压缩数据写入内部存储电路。

在一些可能的实施方式中，编码电路的M个编码模块与M个注意力矩阵一一对应；编码电路被配置为：在M的取值大于或者等于2的情况下，对注意力矩阵数据进行划分，以得到M个注意力矩阵的矩阵数据；M个编码模块分别对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵中每一个注意力矩阵的矩阵数据。

第四方面，本公开提供一种电子设备，包括：如上述第三方面及其可能的实施方式中任一项的数据处理装置。

本公开具有以下有益效果：

在本公开中，在获得矩阵请求指令之后，响应该矩阵请求指令，从内部存储模块（如内部存储器、内存等）中读取N个注意力矩阵的压缩数据，并对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据。如此，由于从内部存储模块中存储的是N个注意力矩阵的压缩数据，那么，每次读取的压缩数据在解压后的数据量就会大于单次所能够读取的未压缩数据的数据量，这样便能够通过更少次的读写内部存储器来获得注意力矩阵，从而降低功耗、提升性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本公开实施例中的一种注意力机制的示意图。

图2为本公开实施例中的注意力基础矩阵的矩阵图样示意图。

图3为本公开实施例中的注意力矩阵的传输过程的示意图。

图4为本公开实施例中的实现数据处理的一硬件装置的结构示意图。

图5为本公开实施例中的数据处理方法的第一种流程示意图。

图6为本公开实施例中的数据压缩的示意图。

图7为本公开实施例中的实现数据处理的另一硬件装置的种结构示意图。

图8为本公开实施例中的数据处理方法的第二种流程示意图。

图9为本公开实施例中的数据解压缩处理的示意图。

图10为本公开实施例中的压缩数据的结构图。

图11为本公开实施例中的数据处理装置的第一种结构示意图。

图12为本公开实施例中的数据处理装置的第二种结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置的例子。

近年来，随着深度学习技术的发展，DNN被应用在越来越多的领域。DNN模型越深，非线性程度也就越大，相应的对现实问题的表达能力越强，但相应的代价是训练成本和模型大小的增加。其中，Transformer便是一种广泛应用于图像处理、自然语言处理、机器翻译等领域的DNN模型。Transformer改进了循环神经网络（recurrent neural network，RNN）被人诟病的训练慢的缺点，利用注意力机制（attention）实现快速并行。

在一实施例中，Transformer中的注意力机制通常为缩放点积注意力机制（scaleddot-product attention），也可以理解为自注意力机制（self-attention）。具体来说，图1为本公开实施例中的一种注意力机制的示意图。如图1所示，首先，使用矩阵乘法函数（Matmul），计算矩阵Q（查询向量，query）和矩阵K（键向量，key）之间的点积。然后，为了防止其结果过大，利用Scale函数，除以尺度标度。接下来，由于不希望插值（padding）部分参与归一化计算，可以利用Mask函数将padding部分权重为0。进一步地，再利用Softmax函数，将其结果归一化为概率分布。最后，再使用Matmul函数，乘以矩阵V（值向量，value），以得到权重求和的表示。这里，由Scale函数、Mask函数以及Softmax函数构成注意力矩阵（attention matrix）。

在上述注意力矩阵中，存在很多很小的值。那么，在量化后可以直接将这些值设置为0，所以大多数的注意力矩阵都为稀疏矩阵。示例性的，在稀疏的注意力矩阵中，比较有代表性的又可以分为几个基础类型，图2为本公开实施例中的注意力基础矩阵的矩阵图样（attention pattern）示意图。如图2所示，矩阵中的空白方块为数值为0的元素，纹理填充方块为数值不为0的元素。在图2中，（a）为窗口注意力（window attention）矩阵，（b）为扩大窗口注意力（dilated window attention）矩阵，（c）为全局注意力（global attention）矩阵，（d）为随机注意力（random attention）矩阵。

一般地，注意力矩阵的规模为n×n。若n的取值较大，则注意力矩阵的数据量较大，占用较多的存储资源，并且增加Transformer在训练和推理时的运算量。目前，为了减少对存储资源的占用以及训练和推理时的运算量，可以对图1所示的整个矩阵进行压缩，并将压缩后的数据解压并存储至运算电路所拥有的存储空间（如存储器）中。图3为本公开实施例中的注意力矩阵的传输过程的示意图。如图3所示，压缩后的数据存储在外部存储器31中。当运算电路33要对Transformer进行训练和推理时，可以从外部存储器31中读取压缩后的注意力矩阵，并在内部存储器32中进行解压缩，得到完整的注意力矩阵，以供运算电路33处理。

但是，由于注意力矩阵的规模较大，那么，在解压至内部存储器32后，仍然会占用较多的存储资源。另外，运算电路33在处理时，单次读取的数据量有限。如果要完成对完整的注意力矩阵的读取，则需要多次进出内部存储器32，以读取全部数据。相应的，运算电路33在训练和推理过程中，需要将每次处理后的数据写入内部存储器32。单次写入的数据量有限，如果要完成对完整的注意力矩阵的写入，仍需要多次进出内部存储器32，以写入全部数据。可见，由于对存储空间频繁进行读写，会导致较高的功耗以及浪费频宽。

那么，为了解决上述技术问题，本公开实施例提供一种数据处理方法、装置及电子设备，能够减少对存储空间的频繁读写，从而降低功耗，提升性能。

在本公开实施例中，上述数据处理方法可以应用于数据处理装置，该数据处理装置可以设置于用于训练神经网络和/或使用神经网络进行推理的电子设备，如智能手机、笔记本电脑、计算机、服务器等。

图4为本公开实施例中的实现数据处理的一硬件装置的结构示意图。如图4所示，该数据处理装置可以包括：运算电路41、编码电路42以及内部存储电路43。编码电路42设置于运算电路41与内部存储电路43之间。

在一实施例中，运算电路41以及编码电路42可以采用如中央处理器（centralprocessing unit，CPU）、现场可编程逻辑门阵列（field programmable gate array，FPGA）、专用集成电路（application specific integrated circuit，ASIC）、数字处理器（digital signal processor，DSP）、图像处理器（graphics processing unit，GPU）等至少之一实现。

内部存储电路43可以采用如随机存储器（RAM），只读存储器（ROM）以及高速缓存（CACHE）等至少之一实现。

下面结合上述数据处理装置，对本公开实施例中的数据处理方法进行说明。需要说明的是，注意力矩阵可以应用于对目标神经网络的训练过程以及使用目标神经网络的推理过程。那么，本公开实施例提供的数据处理方法可以适用于上述两个过程。在本公开实施例中，以目标神经网络为Transformer（变换器）为例，对上述方法进行说明。例如，变换器可以是生成式预训练（Generative Pre-Trained，GPT）变换器、来自变换器的双向编码器表征量（Bidirectional Encoder Representation from Transformers，BERT）变换器或其它变换器。当然，目标神经网络还可以为其他具有注意力机制的神经网络，本公开实施例对此不做具体限定。

图5为本公开实施例中的数据处理方法的第一种流程示意图。该方法可以由上述数据处理装置执行。如图5所示，该方法可以包括步骤S501至步骤S503。

步骤S501，获得待压缩的注意力矩阵数据。

在此，注意力矩阵数据包括M个注意力矩阵的矩阵数据，其中，M为正整数。

可以理解的，在目标神经网络（如Transformer）的训练过程和/或推理过程中，运算电路在获得Transformer的注意力矩阵之后，将该注意力矩阵发送给编码电路。此时，编码电路获得待压缩的注意力矩阵。这里，运算电路可以从如参数服务器、其他运算设备等设备处接收上述注意力矩阵，也可以由自身为Transformer生成上述注意力矩阵。当然，运算电路还可以通过其他方式获得注意力矩阵，本公开实施例对此不做具体限定。

在一实施例中，注意力机制具有多种类型，不同的注意力机制的类型可以对应不同的注意力矩阵。例如，图2所示的窗口注意力矩阵、扩大窗口注意力矩阵、全局注意力矩阵、随机注意力矩阵。由于Transformer可以包括多种注意力机制，编码电路则可以包括多种编码器，用于实现不同注意力矩阵的压缩。可以理解的是，编码电路中的编码器也可以被称为编码模块。

那么，针对不同类型的注意力机制，各个类型的注意力矩阵可以混合在一起，构成注意力矩阵数据。这些注意力矩阵数据就是待压缩的数据。

步骤S502，对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据。

可以理解的，在步骤S502中，可以将M个注意力矩阵的矩阵数据分别送入编码电路中对应的编码器进行压缩，以得到相应的压缩数据。

在一实施例中，编码电路可以包括以下编码器中的一个或多个：窗口编码器、扩大窗口编码器、全局编码器、随机编码器。窗口编码器用于对窗口注意力矩阵的矩阵数据进行压缩。扩大窗口编码器用于对扩大窗口注意力矩阵的矩阵数据进行压缩。全局编码器用于对全局注意力矩阵的矩阵数据进行压缩。随机编码器用于对随机注意力矩阵的矩阵数据进行压缩。

在一实施例中，步骤S502可以包括以下两个步骤。

在第一步骤中，对注意力矩阵数据进行划分，以得到M个注意力矩阵的矩阵数据。

在实际应用中，由于M为正整数，所以注意力矩阵的数量可以是一个或多个。在注意力矩阵的数量为1个的情况下，可以不进行划分。在注意力矩阵的数量为多个的情况下，则需要进行划分。如此，能够得到M个注意力矩阵的矩阵数据。

在第二步骤中，使用M个编码模块，分别对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵中每一个注意力矩阵的矩阵数据。

其中，M个编码模块与M个注意力矩阵一一对应。

图6为本公开实施例中的数据压缩的示意图。如图6所示，编码电路可以包括以下三个编码器：窗口/扩大窗口编码器、全局编码器以及随机编码器。其中，窗口/扩大窗口编码器可以用于对窗口注意力矩阵和扩大窗口注意力矩阵的矩阵数据进行压缩。

在一示例中，M个注意力矩阵可以包括窗口注意力矩阵和随机注意力矩阵。此时，M等于2。在第一步骤中，对注意力矩阵的矩阵数据进行划分，以得到两个注意力矩阵的矩阵数据。之后，在第二步骤中，使用窗口/扩大窗口编码器对窗口注意力矩阵的矩阵数据进行压缩，并且使用随机编码器对随机注意力矩阵的矩阵数据进行压缩。

在一示例中，M个注意力矩阵可以包括扩大窗口注意力矩阵和随机注意力矩阵。此时，M等于2。在第一步骤中，对注意力矩阵的矩阵数据进行划分，以得到两个注意力矩阵的矩阵数据。之后，在第二步骤中，使用窗口/扩大窗口编码器对扩大窗口注意力矩阵的矩阵数据进行压缩，并且使用随机编码器对随机注意力矩阵的矩阵数据进行压缩。

在一示例中，M个注意力矩阵可以包括窗口注意力矩阵、全局注意力矩阵和随机注意力矩阵。此时，M等于3。在第一步骤中，对注意力矩阵的矩阵数据进行划分，以得到三个注意力矩阵的矩阵数据。之后，在第二步骤中，使用窗口/扩大窗口编码器对窗口注意力矩阵的矩阵数据进行压缩，使用全局编码器对全局注意力矩阵的矩阵数据进行压缩，并且使用随机编码器对随机注意力矩阵的矩阵数据进行压缩。

可以理解的是，在图6中的窗口/扩大窗口编码器在同一时间仅能够对窗口注意力矩阵和扩大注意力矩阵之一的矩阵数据进行压缩。因此，M个注意力矩阵的矩阵数据可以包括窗口注意力矩阵和扩大注意力矩阵之一的矩阵数据。

步骤S503，将M个注意力矩阵的压缩数据写入内部存储模块。

具体地，在步骤S502中得到M个注意力矩阵的压缩数据之后，压缩数据被写入内部存储模块进行存储。

在一实施例中，步骤S503中的内部存储模块可以理解为上述内部存储电路43，也可以称为内部存储器、内部存储空间、内存等。

在一实施例中，M个注意力矩阵的压缩数据可以以预定格式存储在内部存储模块中。

通过以上步骤S501至S503，M个注意力矩阵的矩阵数据以压缩方式存储在内部存储模块中。

图7为本公开实施例中的实现数据处理的另一硬件装置的种结构示意图。如图7所示，该数据处理装置可以包括：运算电路41、解码电路44以及内部存储电路43。解码电路44设置于运算电路41与内部存储电路43之间。

在一实施例中，运算电路41以及解码电路44可以采用如CPU、FPGA、ASIC、DSP、GPU等至少之一实现。

内部存储电路43可以采用如RAM、ROM、CACHE等至少之一实现。

下面结合上述数据处理装置，对本公开实施例中的数据处理方法进行说明。需要说明的是，注意力矩阵可以应用于对目标神经网络的训练过程以及使用目标神经网络的推理过程。那么，本公开实施例提供的数据处理方法可以适用于上述两个过程。在本公开实施例中，以目标神经网络为Transformer为例，对上述方法进行说明。当然，目标神经网络还可以为其他具有注意力机制的神经网络，本公开实施例对此不做具体限定。

图8为本公开实施例中的数据处理方法的第二种流程示意图。该方法可以由上述数据处理装置执行。如图8所示，该方法可以包括步骤S801至步骤S803。

步骤S801，获得矩阵请求指令。

在此，矩阵请求指令用于指示从内部存储电路中读取注意力矩阵。

步骤S802，根据矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据。

在此，N为正整数。在一实施例中，M为大于或者等于N的正整数。在一示例中，M可以等于N。

可以理解的，在目标神经网络（如Transformer）的训练过程和/或推理过程中，Transformer的注意力矩阵的压缩矩阵由内部存储电路发送给解码电路。此时，解码电路获得注意力矩阵的压缩数据。内部存储电路中的压缩数据可以是由外部存储电路获得的，也可以是之前由运算电路处理的矩阵数据经过压缩得到的。

由于Transformer可以包括多种注意力机制，解码电路则可以包括多种解码器，用于实现不同注意力矩阵的解压缩。可以理解的是，解码电路中的解码器也可以被称为解码模块。

针对不同类型的注意力机制，各个类型的注意力矩阵可以混合在一起，以预定格式存储在内部存储器中。

在一实施例中，步骤S802中的内部存储模块可以理解为上述内部存储电路43，也可以称为内部存储器、内部存储空间、内存等。

步骤S803，对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据。

可以理解的，在步骤S803中，可以将N个注意力矩阵的压缩数据分别送入解码电路中对应的解码器进行解压缩，以得到相应的矩阵数据。

在一实施例中，解码电路可以包括以下解码器中的一个或多个：窗口解码器、扩大窗口解码器、全局解码器、随机解码器。窗口解码器用于对窗口注意力矩阵的压缩数据进行解压缩。扩大窗口解码器用于对扩大窗口注意力矩阵的压缩数据进行解压缩。全局解码器用于对全局注意力矩阵的压缩数据进行解压缩。随机解码器用于对随机注意力矩阵的压缩数据进行解压缩。

在一实施例中，步骤S803可以被实现为：使用N个解码模块，分别对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵中每一个注意力矩阵的矩阵数据。

在此，N个解码模块与N个注意力矩阵一一对应。

图9为本公开实施例中的数据解压缩处理的示意图。如图9所示，解码电路可以包括以下三个解码器：窗口/扩大窗口解码器、全局解码器、以及随机解码器。其中，窗口/扩大窗口解码器可以用于对窗口注意力矩阵和扩大窗口注意力矩阵的矩阵数据进行解压缩。

在一示例中，N个注意力矩阵可以包括窗口注意力矩阵和随机注意力矩阵。此时，N等于2。在使用窗口/扩大窗口解码器对窗口注意力矩阵的压缩数据进行解压缩，并且使用随机解码器对随机注意力矩阵的压缩数据进行压缩。

在一示例中，N个注意力矩阵可以包括扩大窗口注意力矩阵和随机注意力矩阵。此时，N等于2。使用窗口/扩大窗口解码器对扩大窗口注意力矩阵的压缩数据进行解压缩，并且使用随机解码器对随机注意力矩阵的压缩数据进行解压缩。

在一示例中，N个注意力矩阵可以包括窗口注意力矩阵、全局注意力矩阵和随机注意力矩阵。此时，N等于3。使用窗口/扩大窗口解码器对窗口注意力矩阵的压缩数据进行解压缩，使用全局解码器对全局注意力矩阵的压缩数据进行解压缩，并且使用随机解码器对随机注意力矩阵的压缩数据进行解压缩。

可以理解的是，在图9中的窗口/扩大窗口解码器在同一时间仅能够对窗口注意力矩阵和扩大注意力矩阵之一的压缩数据进行解压缩。因此，N个注意力矩阵的压缩数据可以包括窗口注意力矩阵和扩大注意力矩阵之一的压缩数据。

通过以上步骤S801至S803，N个注意力矩阵的压缩数据被解压缩到运算电路进行处理。

在一些可能的实施方式中，注意力矩阵的压缩数据包括：注意力矩阵的类型信息、注意力矩阵的元素值、元素值的位置标识信息。位置标识信息用于指示元素值在注意力矩阵中的位置。

图10为本公开实施例中的压缩数据的结构图。在此，参照图10，对本公开实施例中注意力矩阵的压缩数据的预定格式进行示例性说明。

如图10所示，预定格式的压缩数据可以包括以下字段中的一项或多项：报头、窗口压缩数据、全局索引、全局压缩数据、随机索引、随机压缩数据。注意力矩阵的类型信息包含在报头中。注意力矩阵的元素值包含在窗口压缩数据、全局压缩数据、随机压缩数据等字段中。元素值的位置标识信息包含在全局索引、随机索引等字段中。

报头可以包括窗口报头信息、扩展窗口报头信息、全局报头信息、以及随机报头信息。

窗口报头信息可以包括窗口指示信息（isWindowAttention）、压缩数据地址（compressedDataStartAddr）、核大小（kernelSize）。窗口指示信息用于指示压缩数据中是否包含窗口注意力矩阵的压缩数据。压缩数据地址用于指示窗口压缩数据的起始地址。核大小用于指示窗口注意力矩阵的核的大小。

扩大窗口报头信息可以包括扩大窗口指示信息（isDilatedWindowAttention）、压缩数据地址（compressedDataStartAddr）、核大小（kernelSize）。扩大窗口指示信息用于指示压缩数据中是否包含扩大窗口注意力矩阵的压缩数据。压缩数据地址用于指示窗口压缩数据的起始地址。核大小用于指示窗口注意力矩阵的核的大小。

可以理解的，窗口报头信息和扩展窗口报头信息虽然位于不同的字段，但是二者不能同时存在。也就是说，在采用预定格式的一条压缩数据中，仅包括窗口报头信息和扩展窗口报头信息之一。因此，窗口报头信息和扩大窗口报头信息中的压缩数据地址均用于指示窗口注意力矩阵的压缩数据的起始地址，窗口注意力矩阵的压缩数据和扩大窗口注意力矩阵的压缩数据均位于窗口压缩数据字段。

全局报头信息可以包括全局指示信息（isGlobalAttention）、压缩数据地址（compressedDataStartAddr）、索引阵列地址（indexArrayAddr）、长度（length）。全局指示信息用于指示压缩数据中是否包含全局注意力矩阵的压缩数据。压缩数据地址用于指示全局压缩数据的起始地址。索引阵列地址用于指示全局索引阵列的起始地址。长度用于指示全局注意力矩阵中非零元素的数量。

随机报头信息可以包括随机指示信息（isRandomAttention）、压缩数据地址（compressedDataStartAddr）、行列阵列地址（rowColArrayAddr）、长度（length）。随机指示信息用于指示压缩数据中是否包含随机注意力矩阵的压缩数据。压缩数据地址用于指示随机压缩数据的起始地址。行列阵列地址用于指示随机索引阵列的起始地址。长度用于指示随机注意力矩阵中非零元素的数量。

全局索引是以全局报头信息中的索引阵列地址为起始地址的字段，其中包含与全局注意力矩阵对应的索引阵列。例如，索引阵列包括全局注意力矩阵中全部非零元素的位置索引。譬如，非零元素所在行的行号，或者非零元素所在列的列号。

随机索引是以随机报头信息中的行列阵列地址为起始地址的字段，其中包含与随机注意力矩阵对应的行列阵列。例如，索引阵列包括全局注意力矩阵中全部非零元素的位置索引。譬如，非零元素所在的行列位置，记为（行号，列号）。

窗口压缩数据、全局压缩数据、随机压缩数据等字段中的压缩数据可以采用游程长度编码（run length encode，RLE）、可变长度编码（variable length encode，VLE）或其他编码方式实现压缩。

可以理解的，通过采用上述预定格式，可以将多种注意力矩阵的矩阵数据同时压缩并存储在内部存储电路中，或者从内部存储电路中对多种注意力矩阵的压缩数据进行读取并同时解压。

在实际应用中，以窗口注意力矩阵为例进行说明。窗口注意力的大小可以为256×256，并且核的大小为3。在未压缩的情况下，数据大小为256×256。在压缩的情况下，数据大小为3×256。因此，此时对窗口注意力矩阵的压缩率为：1-(3×256+16×(报头大小))/(256×256)。在极限情况下，不考虑报头大小，则压缩率可以达到98.8%。

基于相同的发明构思，本公开提供一种数据处理装置。

图11为本公开实施例中的数据处理装置的第一种结构示意图。如图11所示，该数据处理装置1100包括：第一获得模块1101，被配置为获得矩阵请求指令；读取模块1102，被配置为根据矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据，N为正整数；解码模块1103，被配置为对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据，其中，N个注意力矩阵的矩阵数据用于构建目标神经网络中的注意力矩阵。

在一些可能的实施方式中，解码模块1103可以被配置为使用N个解码模块，分别对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵中每一个注意力矩阵的矩阵数据。N个解码模块与N个注意力矩阵一一对应。

在一些可能的实施方式中，上述数据处理装置1100还可以包括：第二获得模块1104、编码模块1105和写入模块1106。第二获得模块1104被配置为获得待压缩的注意力矩阵数据。注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数。编码模块1105被配置为对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据。写入模块1106被配置为将M个注意力矩阵的压缩数据写入内部存储模块。

在一些可能的实施方式中，编码模块1105还被配置为：对注意力矩阵数据进行划分，以得到M个注意力矩阵的矩阵数据；以及，使用M个编码模块，分别对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵中每一个注意力矩阵的矩阵数据，M个编码模块与M个注意力矩阵一一对应。

图12为本公开实施例中的数据处理装置的第二种结构示意图。如图12所示，本公开提供一种数据处理装置。该数据处理装置1200包括：内部存储电路1203、解码电路1204以及运算电路1201。运算电路1201被配置为向解码电路1204输出矩阵请求指令。解码电路1204被配置为：根据矩阵请求指令，从内部存储电路1203中读取N个注意力矩阵的压缩数据；对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据；向运算电路1201输出N个注意力矩阵的矩阵数据。运算电路1201还被配置为根据N个注意力矩阵的矩阵数据，构建目标神经网络中的注意力矩阵。

在一些可能的实施方式中，解码电路1204包括N个解码模块，N个解码模块与N个注意力矩阵一一对应；N个解码模块，被配置为分别对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵中每一个注意力矩阵的矩阵数据。

在一些可能的实施方式中，上述数据处理装置1200还包括：编码电路1202，其中，运算电路1201，还被配置为获得待压缩的注意力矩阵数据，注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；编码电路1202，被配置为对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵的压缩数据；以及，将M个注意力矩阵的压缩数据写入内部存储电路1203。

在一些可能的实施方式中，编码电路1202的M个编码模块与M个注意力矩阵一一对应；其中，编码电路1202被配置为对注意力矩阵数据进行划分，以得到M个注意力矩阵的矩阵数据；M个编码模块分别对M个注意力矩阵的矩阵数据进行压缩，以得到M个注意力矩阵中每一个注意力矩阵的矩阵数据。

基于相同的发明构思，本公开提供一种电子设备，包括上述任一实施例中的数据处理装置。

在本公开中，在获得矩阵请求指令之后，响应该矩阵请求指令，从内部存储模块（如内部存储电路、内存等）中读取N个注意力矩阵的压缩数据，并对N个注意力矩阵的压缩数据进行解压缩，以得到N个注意力矩阵的矩阵数据。如此，由于从内部存储模块中存储的是N个注意力矩阵的压缩数据，那么，每次读取的压缩数据在解压后的数据量就会大于单次所能够读取的未压缩数据的数据量，这样便能够通过更少次的读写内部存储电路来获得注意力矩阵，从而降低功耗、提升性能。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获得矩阵请求指令；

根据所述矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据，N为正整数；

对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵的矩阵数据，其中，所述N个注意力矩阵的矩阵数据用于构建目标神经网络中的注意力矩阵。

2.根据权利要求1所述的方法，其特征在于，在N的取值大于或者等于2的情况下，所述对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵的矩阵数据，包括：

使用N个解码模块，分别对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵中每一个注意力矩阵的矩阵数据，所述N个解码模块与所述N个注意力矩阵一一对应。

3.根据权利要求1或2所述的方法，其特征在于，在所述获得矩阵请求指令之前，所述方法还包括：

获得待压缩的注意力矩阵数据，所述注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；

对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵的压缩数据；

将所述M个注意力矩阵的压缩数据写入所述内部存储模块。

4.根据权利要求3所述的方法，其特征在于，所述对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵的压缩数据，包括：

在M的取值大于或者等于2的情况下，对所述注意力矩阵数据进行划分，以得到所述M个注意力矩阵的矩阵数据；

使用M个编码模块，分别对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵中每一个注意力矩阵的压缩数据，所述M个编码模块与所述M个注意力矩阵一一对应。

5.根据权利要求1所述的方法，其特征在于，所述注意力矩阵的压缩数据包括：

所述注意力矩阵的类型信息；

所述注意力矩阵的元素值；

所述元素值的位置标识信息，所述位置标识信息用于指示所述元素值在所述注意力矩阵中的位置。

6.一种数据处理装置，其特征在于，所述装置包括：

第一获得模块，被配置为获得矩阵请求指令；

读取模块，被配置为根据所述矩阵请求指令，从内部存储模块中读取N个注意力矩阵的压缩数据，N为正整数；

解码模块，被配置为对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵的矩阵数据，其中，所述N个注意力矩阵的矩阵数据用于构建目标神经网络中的注意力矩阵。

7.根据权利要求6所述的装置，其特征在于，在N的取值大于或者等于2的情况下，所述解码模块，被配置为使用N个解码模块，分别对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵中每一个注意力矩阵的矩阵数据，所述N个解码模块与所述N个注意力矩阵一一对应。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：第二获得模块、编码模块和写入模块；其中，

所述第二获得模块，被配置为在所述第一获得模块获得矩阵请求指令之前，获得待压缩的注意力矩阵数据，所述注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；

所述编码模块，被配置为对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵的压缩数据；

所述写入模块，被配置为将所述M个注意力矩阵的压缩数据写入所述内部存储模块。

9.根据权利要求8所述的装置，其特征在于，在M的取值大于或者等于2的情况下，所述编码模块，还被配置为：对所述注意力矩阵数据进行划分，以得到所述M个注意力矩阵的矩阵数据；以及，使用M个编码模块，分别对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵中每一个注意力矩阵的矩阵数据，所述M个编码模块与所述M个注意力矩阵一一对应。

10.根据权利要求6所述的装置，其特征在于，所述注意力矩阵的压缩数据包括：

所述注意力矩阵的类型信息；

所述注意力矩阵的元素值；

11.一种数据处理装置，其特征在于，所述装置包括：内部存储电路、解码电路以及运算电路；其中，

所述运算电路，被配置为向所述解码电路输出矩阵请求指令；

所述解码电路，被配置为：根据所述矩阵请求指令，从所述内部存储电路中读取N个注意力矩阵的压缩数据；对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵的矩阵数据；向所述运算电路输出所述N个注意力矩阵的矩阵数据；

所述运算电路，还被配置为根据所述N个注意力矩阵的矩阵数据，构建目标神经网络中的注意力矩阵。

12.根据权利要求11所述的装置，其特征在于，所述解码电路包括N个解码模块，所述N个解码模块与所述N个注意力矩阵一一对应；

所述N个解码模块，被配置为分别对所述N个注意力矩阵的压缩数据进行解压缩，以得到所述N个注意力矩阵中每一个注意力矩阵的矩阵数据。

13.根据权利要求11或12所述的装置，其特征在于，所述装置还包括：编码电路，其中，

所述运算电路，还被配置为获得待压缩的注意力矩阵数据，所述注意力矩阵数据包括M个注意力矩阵的矩阵数据，M为大于或者等于N的正整数；

所述编码电路，被配置为对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵的压缩数据；以及，将所述M个注意力矩阵的压缩数据写入所述内部存储电路。

14.根据权利要求13所述的装置，其特征在于，所述编码电路包括M个编码模块，所述M个编码模块与所述M个注意力矩阵一一对应；

其中，所述编码电路被配置为：

使用所述M个编码模块，分别对所述M个注意力矩阵的矩阵数据进行压缩，以得到所述M个注意力矩阵中每一个注意力矩阵的矩阵数据。

15.一种电子设备，其特征在于，包括：如权利要求11至14任一项所述的数据处理装置。