CN114648112A

CN114648112A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN114648112A
Application number: CN202210173014.8A
Authority: CN
Inventors: 孙静静; 张演龙; 季映羽
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-06-21

Abstract

本公开提供了一种数据处理方法、装置、设备和存储介质，涉及人工智能技术领域，具体为计算机视觉、深度学习等技术领域。数据处理方法包括：根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的；获取所述非零权重值对应的至少两个待处理数据；根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。本公开可以提高数据处理效果。

Description

数据处理方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉、深度学习等技术领域，尤其涉及一种数据处理方法、装置、设备和存储介质。

背景技术

剪枝是模型压缩的一种方法。根据剪枝粒度，可以分为非结构化剪枝和结构化剪枝。结构化剪枝的粒度较大，主要是在卷积核的通道维度和卷积核维度进行裁剪，而非结构化剪枝主要是对单个权重进行裁剪。

非结构化剪枝能够实现更高的压缩率，同时保持较高的模型性能，然而其稀疏结构对于硬件并不友好，实际加速效果并不明显。

发明内容

本公开提供了一种数据处理方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种数据处理方法，包括：根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的；获取所述非零权重值对应的至少两个待处理数据；根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。

根据本公开的另一方面，提供了一种数据处理装置，包括：第一获取模块，用于根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的；第二获取模块，用于获取所述非零权重值对应的至少两个待处理数据；处理模块，用于根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以提高数据处理效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种数据处理方法的流程图；

图2是用来实现本公开实施例的数据处理方法的应用场景的系统示意图；

图3是本公开实施例中卷积处理的示意图；

图4是本公开实施例中非零权重值与其对应的至少两个待处理数据进行并行处理的示意图；

图5是本公开实施例提供的另一种数据处理方法的流程图；

图6是本公开实施例中卷积核模式集的示意图；

图7是本公开实施例中基于分块数据获取多路输出数据的示意图；

图8是本公开实施例提供的一种数据处理装置的结构图；

图9是用来实现本公开实施例的数据处理方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是本公开实施例提供的一种数据处理方法的流程图。本实施例提供一种数据处理方法，该方法包括：

101、根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的。

102、获取所述非零权重值对应的至少两个待处理数据。

103、根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。

其中，算子，是函数空间到函数空间的映射。在图像处理领域，通常会使用一些不同的算子对图像数据进行处理，比如包括：卷积算子、池化算子、激活算子等。

算子可以具有其对应的权重矩阵，即，算子对输入数据(比如，图像数据)进行处理时，可以具体是采用算子对应的权重矩阵与输入数据进行运算。

权重矩阵中的元素值，可以称为权重值。权重值可以为0，或者非零值，若权重值为非零值，则可以称为非零权重值。

剪枝是模型压缩的一种方法，可以包括结构化剪枝和非结构化剪枝，非结构化剪枝是针对权重矩阵中的单个权重值进行裁剪，即，可以基于预设规则将权重矩阵中的一个或多个权重值置为0，尽量保留较少的非零权重值，以实现模型压缩的效果。

非零权重值可以为一个或至少两个，针对每个非零权重值，可以对应至少两个待处理数据。其中，至少两个待处理数据可以来自于输入数据，比如，至少两个待处理数据是图像数据中的至少两个数据，从而，可以采用非零权重值对其对应的至少两个待处理数据进行运算。

获取非零权重值及其对应的至少两个待处理数据后，可以对所述至少两个待数据处理进行并行处理，并行处理后得到的数据可以称为处理后数据。

虽然非结构化剪枝能够实现更高的压缩率，同时保持较高的模型性能，然而其整体结构并未改变，若采用常规处理方式，并不能明显加快数据处理速度。

本实施例中，权重矩阵中的非零权重值基于非结构化剪枝确定，可以保持非结构化剪枝的优良性能，比如，更高的压缩率，更高的模型精度等；另外，本实施例还可以对非零权重值对应的至少两个待处理数据进行并行处理，从而可以加快数据处理速度，提高数据处理效率。因此，采用非结构化剪枝确定的非零权重值，以及并行处理待处理数据，可以在保持模型精度的基础上，有效提高加速效果，从而提高数据处理效果。

图2是用来实现本公开实施例的数据处理方法的应用场景的系统示意图。本实施例以算子为卷积算子为例。

以卷积算子为例，卷积算子可以对输入数据进行卷积处理，以获得输出数据。输入数据可以为图像数据，相应地，输出数据可以为图像的特征图(feature map)。

卷积算子对输入数据进行卷积处理时，具体采用卷积核的权重矩阵与输入数据进行卷积运算。

卷积核的维度可以根据实际需求设置，比如，卷积核的维度为3*3。

卷积算子的权重矩阵可以是在训练过程，经过训练后确定的。采用已经确定的卷积算子对图像数据进行处理的过程可以称为推理过程。

上述的推理过程可以应用在多种场景下，比如，人脸识别、目标检测、工业视觉检测、智能驾驶等。

以人脸识别为例，参见图2，系统可以包括用户终端201和服务器202。

用户终端可以包括：个人电脑(Personal Computer、PC)、移动设备、智能家居设备、智能家居设备、可穿戴式设备等，移动设备比如包括手机、便携式电脑、平板电脑等，智能家居设备比如包括智能音箱、智能电视等，可穿戴式设备比如包括智能手表、智能眼镜等。服务器可以为本地服务器或者云端服务器等。用户终端201和服务器202可以采用通信网络进行通信。

以在用户终端上进行人脸识别为例，参见图2，可以预先采用离线的方式，在服务器202上进行模型训练，比如，训练人脸识别模型，人脸识别模型可以包括一种或多种算子，多种是指至少两种。经过训练后，可以确定模型参数，即，模型包括的算子的权重矩阵是确定的。服务器可以将已确定的人脸识别模型配置给用户使用的移动设备(比如，手机)201，手机201上可以安装能够进行人脸识别的APP(Application)。之后，在线过程中，用户可以通过移动设备上的人脸采集装置(比如，摄像头)采集人脸图像，并采用已配置的人脸识别模型对人脸图像进行人脸识别处理，以获得人脸识别结果。该人脸识别过程可以称为推理过程。

人脸识别进行人脸图像的采集时，可以是在用户允许的情况下或者向用户进行提示的情况下进行的。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

为了实现推理过程的加速，可以采用降低模型参数量的方式，相应地，在训练阶段，可以对模型进行剪枝处理。剪枝可以具体为非结构化剪枝，即，针对某个权重矩阵，可以将该权重矩阵中的一个或多个权重值设置为0。关于非结构化剪枝的具体实现，本实施例对此不作限定。比如，可以针对权重矩阵，将预设比例的较小的权重值置为0。

因此，经过图2所示的训练过程，可以确定出卷积算子的权重矩阵，采用非结构化剪枝时，可以保留预定个数的非零权重值。

以3*3的卷积算子为例，非结构化剪枝时，可以保留4个非零权重值，而将其余的5个权重值设置为0。

非零权重值确定后，可以在图2所示的推理过程中，根据非零权重值对输入数据(比如，图2的人脸图像)进行处理，比如，提取人脸图像的图像特征。图像特征可以用于后续流程，以获得最终的人脸识别结果。

在用户终端进行人脸识别时，由于用户终端的资源限制，一般采用较为轻量化的模型，比如，MobileNet模型。该MobileNet模型中的卷积，与常规卷积不同，可以称为深度可分离卷积(Depthwise Separable Convolution)，具体包括Depthwise(DW)卷积与Pointwise(PW)卷积。深度可分离卷积的作用与常规卷积操作类似，可用来提取特征，但相比于常规卷积操作，其参数量和运算成本较低。

针对Depthwise(DW)卷积，不同于常规卷积操作，DW卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。

如图3所示，以3*3卷积核为例，针对三通道的输入图像，DW卷积可以采用三个卷积核中的每个卷积核分别对一个通道上的图像进行卷积处理，以输出三个特征图。

如未特别说明，本公开实施例，以一个卷积核对一个通道上的图像进行卷积处理为例，其余通道的处理过程可以参照执行。

以一个卷积核对一个通道上的图像进行卷积处理，且不进行边缘填充为例，如图4所示，假设图像的维度为5*5，卷积核的维度为3*3，且卷积核保留4个非零值(非零值在图中用灰度填充表示)，图像的像素值分别为1～25，卷积核的4个非零权重值分别为3～6表示。

基于上述示例，如图4所示，每个非零权重值可以对应一组待处理数据，每组待处理数据包括至少两个待处理数据。比如，针对非零权重值3，其对应的一组待处理数据为2～5，其余类似，图4中的X表示填充的可设置数值。

获取非零权重值及其对应的至少两个待处理数据后，可以根据非零权重值对其对应的至少两个待处理数据进行并行处理。

并行处理可以包括并行相乘。即，并行处理可以包括：将所述非零权重值与对应的每个所述待处理数据并行进行乘法运算操作。

并行处理还可以包括并行相加。即，所述非零权重值的数量为至少两个；每个所述非零权重值对应一个乘法结果数据集合；并行处理还可以包括：将所述乘法运算操作后得到的至少两个乘法结果数据集合并行进行加法运算操作。

以并行处理包括并行相乘和并行相加为例。参见图4，比如，针对非零权重值3，可以并行执行3×2，3×3，3×4，3×5。另外，6+28+40+72，与9+32+45+78等之间，也是并行执行的。

通过并行相乘和相加，可以提高运算速度，进而提高推理速度。

虽然非结构化剪枝能够实现更高的压缩率，同时保持较高的模型性能，然而其整体结构并未改变，若采用常规卷积处理方式，在推理过程中，推理速度提升并不明显，即实际加速效果并不明显。

本实施例中，权重矩阵中的非零权重值基于非结构化剪枝确定，可以保持非结构化剪枝的优良性能，比如，更高的压缩率，更高的模型精度等；另外，本实施例还可以获取各个非零权重值对应的各组待处理数据，并对各组待处理数据进行并行处理，从而可以提高处理效率。因此，采用非结构化剪枝确定的权重矩阵，以及并行处理各组待处理数据，可以在保持模型精度的基础上，有效提高加速效果，从而提高数据处理效果。

图5是本公开实施例提供的另一种数据处理方法的流程图。本实施例提供一种数据处理方法，本实施例以卷积算子对图像数据进行处理为例，本实施例的方法包括：

501、确定卷积核模式集，所述卷积核模式集包括至少一种卷积核模式。

卷积核模式可以包括卷积核的维度，卷积核的非零权重值的个数、非零权重值的位置等。可以根据业务场景选择一种或多种卷积核模式组成卷积核模式集。

以3*3卷积核为例，可以选择4个非零权重值，且保留中心值。这4个非零权重值的位置可以如图6所示，其中，图6中用灰度填充表示非零权重值。

在实际应用中，可以根据实际需求，在图6所示的12种模式中选择一种或多种组成卷积核模式集。

其中，非零权重值的个数，可以基于待应用该卷积核的电子设备(比如用户终端)的硬件并行结构确定。

硬件并行结构比如为单指令多数据(Single Instruction Multiple Data，SIMD)结构。比如，SIMD结构一般为128位，权重值一般为浮点类型，为32位，因此，非零权重值的个数可以选择为128/32＝4的倍数，比如，为4、8等，具体还可以参考卷积核的维度。比如，卷积核的维度为3*3，共9个权重值时，可以选择4个非零权重值；若卷积核的维度为5*5，此时共有25个权重值，可以选择8个或16个非零值等。

通过基于硬件并行结构确定非零权重值的个数，可以保证卷积核更好的应用到硬件上，提高资源利用率，提高硬件友好性和适用性。

502、采用非结构化剪枝方式，进行模型训练。

其中，可以将上述的卷积核模式集作为稀疏化目标，通过梯度下降法训练各个模式的非零位置的权重值，从而不断的迭代调优确定各个卷积核模式的非零权重值。

另外，针对不同的卷积核模式，可以分配不同的卷积核类型，比如，用flag标识卷积核模式类型，不同卷积核模式的flag不同。

503、存储所述至少一种卷积核模式中各个卷积核模式对应的非零权重值及模式类型。

其中，经过训练后，可以将每个卷积核的4个非零权重值和卷积核模式类型存储在不同数组。

可以理解的是，501～503可以认为是训练过程，可以离线获得。

离线获得的模型可以用于在线的推理过程。

训练过程和推理过程可以由相同或不同的执行主体执行。针对某一实施例，不限于包括两个过程，可以包括训练过程和/或推理过程。

504、确定待采用的卷积核模式类型，并基于确定的卷积核模式类型从存储数据中，获取对应模式类型的卷积核的非零权重值。

其中，可以根据实际需求选择待采用的卷积核模型类型，比如，用户可以设置flag＝1，则可以选择第一种卷积核模式。

505、将图像数据输入到用户终端。

其中，图像数据在输入时，可以进行数据布局变换，比如，依次将每行图像数据输入到用户终端。

504、505无时序限制关系。

通过504可以获得卷积核的权重矩阵的各个非零权重值；通过505可以获得待处理的图像处理。

从而，可以采用非零权重值对输入的图像数据进行卷积处理。卷积处理过程可以包括：

506、基于用户终端的缓存的大小，对所述图像数据进行分块处理，以获得分块数据。

为了提高访问效率，可以从缓存(cache)而不是内存中读取数据。若图像数据的数据量大于缓存的容量，为了将图像数据存储到缓存中，可以对图像数据进行分块处理。

比如，缓存为256KB，假设图像数据为1MB，则可以将图像数据分为4块。分块时一般均匀分块，比如，若图像数据为1024*1024，分为4块，则每个分块的维度为512*512。

通过基于缓存的大小对图像数据进行分块处理，可以获得能够存储到缓存内的分块数据，从而在卷积运算时可以从缓存内读取数据，相对于从内存读取数据，可以提高数据访问效率，进而提高卷积运算效率。

507、将分块数据存储到用户终端的缓存内。

其中，卷积运算可以具体由用户终端的处理器执行，处理器比如为嵌入式结构的处理器。处理器可以从缓存内读取数据，用于卷积运算。

508、从所述缓存内的分块数据中，加载当前数据，所述当前数据包括多路处理后数据中各路处理后数据对应的输入数据。

卷积运算时，卷积核可以在不同的位置滑动，在不同位置上滑动时，可以与不同位置的输入数据进行卷积操作。

一般来讲，卷积运算的输出数据是一个数据一个数据的输出，本公开实施例中，通过并行可以每次输出一路数据，一路数据包括多个数据，比如，参见图4，输出的一路数据包括146、164、182。

146、164、182所对应的输入数据为1～15，卷积运算时，卷积核的权重矩阵还需要与其他位置的输入数据进行运算，比如，步长为1时，还采用图4所示的卷积核与6～20这个位置的输入数据进行运算。

为了实现数据复用，可以每次加载多路输出数据对应的输入数据。

比如，假设输出数据(卷积后的数据)为两路(如，两行)，则可以每次加载两行的输出数据所对应的输入数据，具体地，参见图7，分块数据为1～25，加载的当前数据可以为1～20，其中的1～15可以获得第一行的输出数据，其中的6～20可以获得第二行的输出数据，即，输入数据中的6～15是复用数据，既用于第一行的输出数据的运算，也用于第二行的输出数据的运算。

之后，下次加载时，可以获得21～40(如果存在)的输入数据，类似处理。

通过从缓存内读取数据，相对于从内存读取数据，可以提高数据访问效率，进而提高卷积运算效率。

通过加载当前数据，当前数据包括多路位置对应的输入数据，可以实现数据复用，减小数据负载。

509、从所述当前数据中，获取所述非零权重值对应的至少两个待处理数据。

比如，当前数据为1～20，基于硬件并行结构，确定非零权重值对应的至少两个待处理数据为4个(不足部分可以用特定值填充，特定值比如用X表示)，则参见图4，可以在当前数据1～20中获得各个非零权重值分别对应的至少两个待处理数据。每个非零权重值对应的至少两个待处理数据(或称为一组待处理数据)可以依据卷积操作的对应关系确定。

510、根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到卷积算子的处理后数据。

其中，处理后数据还可以称为输出数据，输出数据可以具体为输入的图像数据对应的特征图数据。

并行处理时，可以包括并行相乘和并行相加。具体内容可以参见上述实施例中针对图4的说明。

上述完成了卷积运算。

可以理解的是，实际业务应用中，模型(比如人脸识别模型)还可以包括其他运算，针对其他运算可以输入到对应的运算库中进行运算，结合卷积运算和其他运算，可以获得最终的推理结果，之后，还可以对最终的推理结果进行后处理等，再反馈给业务层接口。

本实施例中，针对图像数据的卷积处理，在模型训练过程可以采用非结构化剪枝方式进行模型训练，从而保持非结构化剪枝的模型精度高等优点；在推理过程中，对各组待处理数据进行并行处理，可以提高推理速度，有效进行加速；非零权重值的个数和/或待处理数据的个数可以基于用户终端的硬件并行结构确定，可以更好的应用到硬件上，实现硬件友好性，更有效进行加速；基于的硬件并行结构可以为SIMD结构，SIMD结构为通用结构，可以提高硬件通用性；通过对图像数据分块并存储在缓存内，可以提高数据访问效率；通过单次加载多路输出数据对应的输入数据，可以提高数据复用性。综上，可以提高数据处理效果，在保证数据处理精度的同时，有效提高数据处理效率。

图8是本公开实施例提供的一种数据处理装置的结构图，本实施例提供一种数据处理装置，该装置800包括：第一获取模块801、第二获取模块802和处理模块803。

第一获取模块801用于根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的；第二获取模块802用于获取所述非零权重值对应的至少两个待处理数据；处理模块803用于根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。

一些实施例中，所述算子为卷积算子；所述处理模块803进一步用于：将所述非零权重值与对应的每个所述待处理数据并行进行乘法运算操作。

通过并行相乘，可以提高运算速度，进而提高推理速度。

一些实施例中，所述非零权重值的数量为至少两个；每个所述非零权重值对应一个乘法结果数据集合；所述处理模块803还用于：将所述乘法运算操作后得到的至少两个乘法结果数据集合并行进行加法运算操作。

通过并行相加，可以进一步提高运算速度，进而提高推理速度。

一些实施例中，所述装置800应用于电子设备上，以下至少一项是基于所述电子设备的SIMD结构确定的：所述非零权重值的数量；与每个所述非零权重值对应的所述待处理数据的数量。

通过基于电子设备的SIMD结构确定上述两个参数中至少一项的数量，可以保证卷积处理更好的应用到硬件上，提高资源利用率，提高硬件友好性和适用性。

一些实施例中，所述装置800应用于电子设备上，所述第二获取模块802进一步用于：从所述电子设备的缓存中，获取所述至少两个待处理数据。

通过从缓存内读取数据，相对于从内存读取数据，可以提高数据访问效率，进而提高卷积运算效率

一些实施例中，所述算子用于对图像数据进行处理，所述待处理数据为分块数据中的数据，所述装置还包括：分块模块，用于基于所述缓存的大小，对所述图像数据进行分块处理，以获得所述分块数据。

一些实施例中，所述处理后数据为多路数据，所述第二获取模块802进一步用于：从所述缓存内的分块数据中，加载当前数据，所述当前数据包括多路处理后数据中各路处理后数据对应的输入数据；从所述当前数据中，获取所述至少两个待处理数据。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的；

获取所述非零权重值对应的至少两个待处理数据；

根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。

2.根据权利要求1所述的方法，其中，所述算子为卷积算子；所述根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据，包括：

将所述非零权重值与对应的每个所述待处理数据并行进行乘法运算操作。

3.根据权利要求2所述的方法，其中，所述非零权重值的数量为至少两个；每个所述非零权重值对应一个乘法结果数据集合；所述根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据，还包括：

将所述乘法运算操作后得到的至少两个乘法结果数据集合并行进行加法运算操作。

4.根据权利要求2所述的方法，其中，所述方法应用于电子设备上，

以下至少一项是基于所述电子设备的SIMD结构确定的：

所述非零权重值的数量；

与每个所述非零权重值对应的所述待处理数据的数量。

5.根据权利要求1-4任一项所述的方法，其中，所述方法应用于电子设备上，所述获取所述非零权重值对应的至少两个待处理数据，包括：

从所述电子设备的缓存中，获取所述至少两个待处理数据。

6.根据权利要求5所述的方法，其中，所述算子用于对图像数据进行处理，所述待处理数据为分块数据中的数据，所述方法还包括：

基于所述缓存的大小，对所述图像数据进行分块处理，以获得所述分块数据。

7.根据权利要求6所述的方法，其中，所述处理后数据为多路数据，所述从所述电子设备的缓存中，获取所述至少两个待处理数据，包括：

从所述缓存内的分块数据中，加载当前数据，所述当前数据包括多路处理后数据中各路处理后数据对应的输入数据；

从所述当前数据中，获取所述至少两个待处理数据。

8.一种数据处理装置，包括：

第一获取模块，用于根据算子的权重矩阵获取非零权重值，所述非零权重值是基于非结构化剪枝确定的；

第二获取模块，用于获取所述非零权重值对应的至少两个待处理数据；

处理模块，用于根据所述非零权重值，对所述非零权重值对应的每个所述待处理数据进行并行处理，得到所述算子的处理后数据。

9.根据权利要求8所述的装置，其中，所述算子为卷积算子；所述处理模块进一步用于：

10.根据权利要求9所述的装置，其中，所述非零权重值的数量为至少两个；每个所述非零权重值对应一个乘法结果数据集合；所述处理模块还用于：

11.根据权利要求9所述的装置，其中，所述装置应用于电子设备上，

以下至少一项是基于所述电子设备的SIMD结构确定的：

所述非零权重值的数量；

与每个所述非零权重值对应的所述待处理数据的数量。

12.根据权利要求8-11任一项所述的装置，其中，所述装置应用于电子设备上，所述第二获取模块进一步用于：

从所述电子设备的缓存中，获取所述至少两个待处理数据。

13.根据权利要求12所述的装置，其中，所述算子用于对图像数据进行处理，所述待处理数据为分块数据中的数据，所述装置还包括：

分块模块，用于基于所述缓存的大小，对所述图像数据进行分块处理，以获得所述分块数据。

14.根据权利要求13所述的装置，其中，所述处理后数据为多路数据，所述第二获取模块进一步用于：

从所述当前数据中，获取所述至少两个待处理数据。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。