CN114581676A

CN114581676A - 特征图像的处理方法、装置和存储介质

Info

Publication number: CN114581676A
Application number: CN202210194618.0A
Authority: CN
Inventors: 季映羽; 张演龙; 孙静静
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-03
Anticipated expiration: 2042-03-01
Also published as: CN114581676B; JP2023040162A; US20230137502A1; JP7427120B2; KR20230012075A

Abstract

本公开提供了一种特征图像的处理方法、装置和存储介质，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域。具体实现方案为：对参数矩阵中的参数进行分组，得到多个数组；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；根据多个数组内的参数值，对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；在稀疏参数矩阵的稀疏度满足预定条件的情况下，利用稀疏参数矩阵与数据矩阵进行计算，确定卷积层对应的输出特征图；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵。

Description

特征图像的处理方法、装置和存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域。

背景技术

深度卷积网络模型对输入的特征图像具有较高的识别精度，广泛应用于人脸识别、无人驾驶、机器翻译、医学检测等领域。但由于其参数量大、计算时间长，在一些算力低的嵌入式芯片上难以满足实时计算的要求，因此往往需要采取模型压缩的方法使其在通用硬件设备上实现加速计算。

现行的模型压缩方法存在的问题在于加速收益小，或者在满足加速收益的情况下模型精度显著降低。因此，如何在保证模型精度的同时，在通用硬件设备上实现较好加速收益成为需要解决的问题。

发明内容

本公开提供了一种特征图像的处理方法、装置和存储介质。

根据本公开的一方面，提供了一种特征图像的处理方法，该方法可以包括以下步骤：

对参数矩阵中的参数进行分组，得到多个数组；所述参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

根据所述多个数组内的参数值，对所述参数矩阵进行稀疏化处理，得到稀疏参数矩阵；

在所述稀疏参数矩阵的稀疏度满足预定条件的情况下，利用所述稀疏参数矩阵与数据矩阵进行计算，确定所述卷积层对应的输出特征图；所述数据矩阵包括输入至所述卷积层的输入特征图转换得到的矩阵。

根据本公开的另一方面，提供了一种特征图像的处理装置，该装置可以包括：

分组模块，用于对参数矩阵中的参数进行分组，得到多个数组；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

稀疏化处理模块，用于根据多个数组内的参数值，对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；

第一计算模块，用于在稀疏参数矩阵的稀疏度满足预定条件的情况下，利用稀疏参数矩阵与数据矩阵进行计算，确定卷积层对应的输出特征图；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术方案提供了一种综合性能较好的模型压缩方法，能够在保证模型精度损失较小的同时，在算力较低的通用硬件设备上实现较大的加速收益。如此解决了现有的卷积神经网络模型参数量大、计算时间长的问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开特征图像处理方法的流程图；

图2是根据本公开转换得到参数矩阵的示意图；

图3是根据本公开稀疏化处理的示意图一；

图4是根据本公开转换得到数据矩阵的示意图；

图5是根据本公开对参数矩阵中的参数进行分组的示意图一；

图6是根据本公开对参数矩阵中的参数进行分组的示意图二；

图7是根据本公开参数分组示例图；

图8是根据本公开稀疏化处理的示意图二；

图9是根据本公开确定输出特征图的示意图一；

图10是根据本公开进行矩阵运算的示意图；

图11是根据本公开确定输出特征图的示意图二；

图12是根据本公开确定第二相关数据的示意图；

图13是根据本公开分块运算的示意图；

图14是根据本公开确定分块矩阵的示意图；

图15是根据本公开特征图像处理装置的结构图；

图16是实现本公开实施例的特征图像处理的电子设备框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开涉及一种特征图像的处理方法，该方法可以包括以下步骤：

S101：对参数矩阵中的参数进行分组，得到多个数组；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

S102：根据多个数组内的参数值，对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；

S103：在稀疏参数矩阵的稀疏度满足预定条件的情况下，利用稀疏参数矩阵与数据矩阵进行计算，确定卷积层对应的输出特征图；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵。

本实施例可以应用于计算机设备，具体可以包括但不限于服务器，台式计算机、笔记本电脑、云端计算器或者多个服务器构成的服务器集，本申请对计算机设备的产品类型不做限定。

在执行步骤S101之前，可以首先对卷积神经网络中的各个隐藏层进行识别。当隐藏层的识别结果为池化层或者其他非卷积层时，直接对输入特征图进行通用计算。

当识别结果为卷积层时，执行步骤S101。其中，卷积神经网络的卷积层可以包括多个卷积核(w×h×c)，w可以表示宽度，h可以表示高度，c可以表示深度(或者通道数)。具体来说，卷积核的尺寸可以根据需要进行设定。在深度值固定(例如c＝3)的情况下，卷积核的尺寸可以取(1×1×3)、(3×3×3)、(5×5×3)等，此处不做限定。卷积核的数量也可以根据需要进行设定，例如3个、4个、5个等。

举例来说，如图2所示，在一个目标卷积层中包含4个(1×1×3)的卷积核的情况下，可以将其转换为一个A_4×3的矩阵。由此，将图示矩阵A_4×3作为目标卷积层对应的参数矩阵。

步骤S101的实现方式可以是将参数矩阵中多个连续参数划分为一个数组。其中，多个连续参数可以是在参数矩阵中按特定方向连续选取得到的参数，例如，可以是从左至右依次选取得到的多个连续参数，也可以是从上往下依次选取得到的多个连续参数。每个数组中的参数数量可以是2个，4个等，此处不做限定。

优选地，如图3所示，可以在参数矩阵中从上往下选取相邻的两个参数作为一个数组。例如，(0，-1.4)、(2.1，0)、(0，3.7)等，此处不做穷举。

在得到多个数组后执行步骤S102，根据多个数组内的参数值，对参数矩阵进行稀疏化处理，得到稀疏参数矩阵。对参数矩阵进行稀疏化处理，可以是选择一个或者多个参数矩阵进行稀疏化处理，此处不做限定。优选地，可以是对卷积层转换得到的每个参数矩阵做稀疏化处理。其中，参数值可以是参数矩阵中各元素的元素值，也可以是元素值的绝对值，此处不做限定。

其中，稀疏化的实现方式可以是将参数值较小的元素置为零。举例来说，如图3所示，可以是将-1.4、2.1、3.7、-1.9置为零，由此得到稀疏参数矩阵。也可以基于数组内的参数值得到相应的数组值，进而利用数组值对参数矩阵进行稀疏化处理，此处不做赘述。

输入特征图可以是包含有多个维度的特征信息的图像，例如，在人脸识别场景下，原始的输入特征图可以是一张包含人脸的特征图像，经过卷积神经网络多个隐藏层的处理可以提取人脸图像中的多个特征，例如纹理、边缘、颜色等。此外，使用场景还可以包括其他图像识别领域，例如，无人驾驶中的道路影像识别、机器翻译、医学图像检测等，不同的使用场景可以有对应的输入特征图，此处不做赘述。

稀疏参数矩阵的稀疏度表示参数值均为0的数组占据数组总数的比例。例如，图3中的稀疏参数矩阵中，参数值为0的数组个数为4，数组总数为6，该稀疏参数矩阵的稀疏度为4/6＝66.67％。

在稀疏参数矩阵的稀疏度满足预定条件的情况下，利用稀疏参数矩阵与数据矩阵进行计算，确定卷积层对应的输出特征图；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵。

预定条件可以是稀疏度大于某个预设阈值，例如，预设阈值可以取70％。此时在稀疏度大于70％的情况下，利用稀疏参数矩阵与数据矩阵进行计算并得到输出特征图。预设阈值可以根据需要进行设定，例如还可以是75％，80％等，此处不做限定。此外，预定条件还可以是某一预设范围。例如，在稀疏度处于50％-70％的情况下，利用稀疏参数矩阵与数据矩阵进行计算并得到输出特征图。预设范围的取值也可以根据需要进行设定，此处不做赘述。

数据矩阵可以是输入至卷积层的输入特征图转换得到的矩阵，数据矩阵的大小取决于三维输入特征图的长度、宽度以及通道数。为描述方便，如图4所示，假设输入特征图为3通道，在长度方向有2个像素，宽度方向有3个像素，将每一通道的像素按通道展开并依次组合，得到如图4所示的B_3×6二维矩阵作为数据矩阵。

通过以上过程，可以以数组为单位对卷积神经网络模型进行压缩，保证模型运算只有较小的精度损失。同时，在基于数组内的参数值进行稀疏化处理后，可以利用稀疏参数矩阵中的参数分布情况读取数据矩阵中的相关数据，如此可以缩短读取数据所需的时间，在模型压缩的情况下实现加速计算。

如图5所示，在一种实施方式中，步骤S101可以包括以下子步骤：

S501：根据预设行数对参数矩阵按行进行划分，得到多个中间矩阵；

S502：在中间矩阵的行数等于预设行数的情况下，对中间矩阵按列划分为多个数组；每个数组内包含预设行数个参数。

根据预设行数对参数矩阵按行进行划分得到多个中间矩阵，包括按照预设行数将参数矩阵从上往下依次分割为多个中间矩阵，划分得到的中间矩阵的列数与参数矩阵的列数相同。其中，预设行数可以是2行，4行，6行等，此处不做限定。

举例来说，根据预设行数将稀疏参数矩阵恰好划分为n个矩阵的情况下，将n个矩阵均作为中间矩阵。在划分得到的前n-1个矩阵的行数等于预设行数，第n个矩阵的行数小于预设行数的情况下，可以将第n个矩阵进一步划分得到的多个一维矩阵作为中间矩阵。

在中间矩阵的行数等于预设行数的情况下，对中间矩阵按列划分为多个数组；每个数组内包含预设行数个参数。

如图6所示，在一种实施方式中，步骤S101还可以包括以下子步骤：

S601：根据预设行数对参数矩阵按行进行划分，得到多个中间矩阵；

S602：在中间矩阵的行数小于预设行数的情况下，将每个中间矩阵按行划分为至少一个一维矩阵；

S603：将每个一维矩阵按列划分为多个数组；每个数组内均包含一个参数。

举例来说，如图7所示，参数矩阵是一个大小为5×3的矩阵，在预设行数为2行的情况下，将参数矩阵从上往下依次划分为多个行数为2的中间矩阵，将最后一个行数不足2行的矩阵作为一个单独的中间矩阵。其中，第一个和第二个中间矩阵的大小为2×3，第三个中间矩阵的大小为1×3。然后再将三个中间矩阵按列划分为多个数组。其中，每个中间矩阵都包含3个数组。第一个和第二个中间矩阵中每个数组包含2个参数，第三个中间矩阵中每个数组包含1个中间参数。

此外，在预设行数为4的情况下，第n个行数不满4的矩阵可以划分为一个二维矩阵和多个一维矩阵，或者直接划分为多个一维矩阵，此处不做限定。在预设行数取其他值的情况下，具体划分方法不再赘述。

通过以上过程，对参数矩阵中的参数进行分组可以得到多个数组。如此，可以基于得到的数组对参数矩阵进行稀疏化处理，实现模型压缩，进而基于压缩后的模型进行加速计算。

如图8所示，在一种实施方式中，步骤S102可以包括以下子步骤：

S801：分别对每个数组内的参数值的进行求和计算，将得到的求和计算的结果作为数组值；

S802：在数组值小于预设阈值的情况下，将数组内的参数值均置为零，得到归零数组；

S803：将归零数组和非零数组组成的矩阵，作为稀疏参数矩阵；其中，非零数组为数组值不为零的数组。

步骤S801的实现方式可以是，遍历稀疏参数矩阵中的多个数组。具体地，可以是按行进行遍历，在遍历至一行中的最后一个数组后换行继续遍历。或者也可以按列进行遍历，此处不做限定。遍历得到参数矩阵中各个参数值后，对每个数组内的参数值的进行求和计算，将得到的求和结果作为数组值。确定参数矩阵中数组值小于预设阈值的数组，并将其中的参数置为零。具体的，在数组中的参数值只有正数的情况下，预设阈值可以取3、4、5等正整数，也可以根据需要将预设阈值设置为小数，此处不做限定。在数组中的参数值有正数和负数的情况下，将参数矩阵中数组内参数的绝对值之和小于预设阈值的参数置为零。其中，预设阈值可以为6、7、8等，此处不予限定。

将参数值均置为零后的数组作为归零数组，将数组值不为零的数组作为非零数组。然后将归零数组和非零数组组成的矩阵作为稀疏参数矩阵。如图7所示，

通过以上过程，可以以数组为单位完成参数矩阵的稀疏化处理，进而以数组为单位读取数据并计算。如此，可以在保证运算精度的前提下显著提升模型的运算效率。

如图9所示，在一种实施方式中，步骤S103可以包括以下子步骤：

S901：确定稀疏参数矩阵中M个非零数组的位置；M为不小于1的整数；

S902：基于第j个非零数组的位置，读取数据矩阵中的第一相关数据；第一相关数据是在数据矩阵中基于预设规则确定的与第j个非零数组进行计算的数据；j为不小于1且不大于M的整数；

S903：利用第j个非零数组和第一相关数据进行计算，得到M组计算结果中的第j组计算结果；第j组计算结果包括第j个非零数组内各个参数分别与第一相关数据计算得到的至少一个一维矩阵；

S904：利用M组计算结果确定卷积层对应的输出特征图。

其中，稀疏参数矩阵中第j个非零数组的位置可以是在对稀疏参数矩阵进行遍历时确定的，其中j为不小于1的整数。具体的，可以由寄存器依次读取稀疏参数矩阵中的非零数组，在遇到数组值为0时，寄存器自动跳过并读取下一非零数组。其中，非零数组的位置可以利用数组中的参数位置表示，例如，第一个数组位于第1列及第1-2行。

在确定M个非零数组的位置后，基于第j个非零数组的位置，读取数据矩阵中的第一相关数据。其中，数据矩阵存储于相应的存储空间中，例如可以是高速缓冲存储器，此处不做限定。

在对稀疏参数矩阵中的非零数组进行定位后，基于第j个非零数组的位置，读取数据矩阵中的第一相关数据。第一相关数据是基于预设规则确定的与第j个非零数组进行计算的数据。首先，基于预设规则，可以由稀疏参数矩阵中第j个非零数组的位置确定第一相关数据在数据矩阵中的位置，其次，可以基于第一相关数据在数据矩阵中的位置读取第一相关数据并执行运算。

预设规则可以包括第一预设规则以及第二预设规则中的至少一种。其中，第一预设规则可以是根据第j个非零数组中的参数在稀疏参数矩阵中的行号，确定第一相关数据在分块矩阵中的列号；第二预设规则可以是根据第j个非零参数在稀疏参数矩阵中的列号，确定第一相关数据在分块矩阵中的行号。

具体来讲，假设第一个非零数组包含位于第一行第一列以及第二行第一列的两个参数，可以采用第一行第一列的元素依次与数据矩阵中第一行的元素相乘，稀疏参数矩阵中第二行第一列的元素依次与数据矩阵中第一行的元素相乘，由此可以基于稀疏参数矩阵中第一个数组中的参数列号，确定与之计算的数据矩阵中第一相关数据的行号，将得到的行号作为第一相关数据在数据矩阵中的位置。同理，可以确定稀疏参数矩阵中其他非零数组的参数在数据矩阵中的第一相关数据。

由此，确定第一相关数据在数据矩阵中所处位置的规则可以是，将稀疏参数矩阵中第j个非零数组的列号作为数据矩阵中第一相关数据的行号。为简化说明，如图10所示，A_5×3矩阵表示稀疏参数矩阵，B_3×6矩阵表示数据矩阵。稀疏参数矩阵中包括7个非零数组，分别为(4，-1.4)、(3.2，3.7)、(6，-1.9)、6、8.2，其中，第1个非零数组中的两个参数为分别位于第一行第一列的“4”和位于第二行第一列的“-1.4”，其他数组的参数位置不再赘述。对应地，数据矩阵中的第一行数据为第1个非零数组中“4”和“-1.4”的第一相关数据；同样的，A_5×3矩阵中第2个非零数组“3.2”和“3.7”分别位于第一行第三列和第二行第三列，数据矩阵中的第三行数据为其对应的第一相关数据。A_5×3矩阵中第3个非零数组“6”和“-1.9”分别位于第三行第二列和第四行第二列，数据矩阵中的第二行数据为其对应的第一相关数据。其他非零数组对应的第一相关数据不再一一赘述。

确定第一相关数据后，利用稀疏参数矩阵中的第j个非零数组的参数值和数据矩阵中的第一相关数据进行计算。在进行矩阵运算时，A_5×3矩阵中第1个非零数组中的“4”和“-1.4”位于第一列，将“4”和“-1.4”分别与B_3×6矩阵中第一行的参数依次相乘，得到两个一维矩阵；A_5×3矩阵中第2个非零数组“3.2”和“3.7”位于第三列，分别与B_3×6矩阵中第三行的参数依次相乘，也得到两个一维矩阵；A_5×3矩阵中第3个非零数组“6”和“-1.9”位于第二列，分别与B_3×6矩阵中第二行的参数依次相乘，也得到两个一维矩阵。其他非零数组与对应的第一相关数据的计算不再一一赘述。在非零数组中只包括一个参数的情况下，则由该唯一参数与对应的第一相关数据进行计算，得到一个一维矩阵。

每组计算结果中均包括至少一个一维矩阵，利用M组计算结果确定卷积层对应的输出特征图。

如图11所示，在一种实施方式中，步骤S904可以包括以下子步骤：

S1101：在M组计算结果中选取与目标行号参数对应的至少一个一维矩阵；目标位置参数为第j个非零数组中位于目标行号的参数；

S1102：利用至少一个一维矩阵确定目标数据；目标数据为输出矩阵中位于目标行号的数据；

S1103：对输出矩阵进行预设后处理，得到卷积层对应的输出特征图。

M组计算结果中包括多个一维矩阵，其中，多个一维矩阵包括至少一个基于目标行号参数计算得到的一维矩阵。目标行号可以是不大于输出矩阵行数的任一行号，例如第1行，第2行等等，此处不做限定。举例来说，图10中第一个非零数组中位于第1行的参数“4”与第一相关数据计算，得到的一维矩阵为第1行参数对应的一维矩阵。第二个非零数组中位于第1行的参数“3.2”与第一相关数据计算，得到的一维矩阵也为第1行参数对应的一维矩阵，利用两个一维矩阵求和得到位于输出矩阵中第1行的目标数据。

同理，分别利用位于第2行的“-1.4”和“3.7”与数据矩阵进行计算得到两个一维矩阵，再对其求和得到位于输出矩阵第2行的目标数据。利用位于第3行和第4行的“6”和“-1.9”与数据矩阵的第2行数据进行计算得到两个一维矩阵，分别作为位于输出矩阵第3行和第4行的目标数据。以此类推，利用稀疏参数矩阵A_5×3和B_3×6，计算得到的输出矩阵为C_5×6的输出矩阵。

对输出矩阵进行预设后处理，得到卷积层对应的输出特征图。其中，预设后处理可以是将输出矩阵输入预先设定的激活函数，或者是将添加偏置项后的输出矩阵输入到预先设定的激活函数，得到输出特征图。如图10所示，偏置项可以是与输出矩阵行数相同的一列参数，其中参数可以根据需要进行设定，此处不做限定。激活函数可以是预先设定的relu函数，relu函数的形式可以为：

relu函数的形式还可以根据需要进行其它设定，此处不做限定。

通过以上过程，跳过了对数组值为0对应的数据矩阵中相关数据的提取步骤，同时，可以基于稀疏参数矩阵的非零数组中同一列的参数，提取第一相关数据后分别跟数组中的不同参数进行计算，得到中间结果，避免了基于不同列的参数在数据矩阵中提取不同的第一相关数据所导致的效率低下的问题。

在一种实施方式中，在第j个非零数组和第一相关数据进行计算的过程中，将数据矩阵中的第二相关数据写入高速缓冲存储器；其中，第二相关数据是基于预设规则确定的与第j+1个非零数组进行计算的数据。

举例来说，如图10所示，在稀疏参数矩阵与数据矩阵进行运算时，首先提取与第一个非零数组(4，-1.4)(第1列，第1-2行)对应的第一相关数据进入高速缓冲存储器，执行相应运算。在执行运算的过程中，可以从内存中提取下一个非零数组(3.2，3.7)(第3列，第1-2行)对应的第二相关数据进入高速缓冲存储器，为执行下一阶段的运算做好准备。对于数据矩阵而言，执行主体跳过数组值为0所对应的行，在提取第一行数据并执行运算之后直接跳到第三行，提取第三行的数据进入高速缓冲存储器并执行下一次运算。

具体地，在第1个非零数组(4，-1.4)和第一相关数据(1、4、1、8、7、3)进行计算的过程中，将与第2个非零数组(3.2，3.7)计算的第二相关数据(3、5、1、0、2、9)写入高速缓冲存储器。同理，在第2个非零数组进行相应计算的过程中，将与第3个非零数组进行计算的数据写入高速缓冲存储器，具体不做赘述。

通过以上过程，基于稀疏参数矩阵中非零数组的位置，跳过了对数组值为0对应的数据矩阵中相关数据的提取步骤，避免了执行主体进行无效计算。同时，在当前计算过程中通过数据预取的方式使得待计算数据提前进入高速缓冲存储器，大大提升了网络模型的计算速度。

如图12所示，在一种实施方式中，第二相关数据的确定方式，包括：

S1201：确定第j+1个非零数组的列号；

S1202：基于第j+1个非零数组的列号与第j个非零数组的列号之间的列号差，确定第二相关数据与第一相关数据的行偏移量；

S1203：基于第一相关数据的位置以及行偏移量，确定第二相关数据的位置。

其中，第j+1个非零数组可以是与第j个非零数组属于同一中间矩阵的数组，也可以是其他中间矩阵的非零数组，此处不做限定。第j+1个非零数组的列号可以是不大于稀疏参数矩阵列数的任一列号，例如第1列，第2列等，此处不做限定。

第j+1个非零数组的列号与第j个非零数组的列号之间的列号差可以为正数，也可以为负数，此处不做限定。第二相关数据与第一相关数据的行偏移量与列号差相等，也可以为正数或者负数，此处不做限定。

第一相关数据的位置可以通过第一相关数据的行号表示，具体可以是不大于数据矩阵行数的任一行号。确定第二相关数据的位置的实现方式可以是，根据第一相关数据的行号以及行偏移量，确定第二相关数据的行号。其中，计算得到的第二相关数据的行号也是不大于数据矩阵行数的任一行号。

举例来说，如图10所示，稀疏参数矩阵中包括5个非零数组，列号分别为1、3、2、1、3，第2个非零数组(3.2，3.7)与第1个非零数组(4，-1.4)的列号差为“+2”，第3个非零数组(6，-1.9)与第2个非零数组(3.2，3.7)的列号差为“-1”，依次类推，第j+1个非零数组与第j个非零数组的列号差分别为“2、-1、-1、2”。与第1个非零数组进行计算的第一数据为位于数据矩阵第1行的数据，基于列号差确定的第二相关数据的行偏移量为2，由此可以确定第二相关数据位于数据矩阵的第3行。同样地，可以确定其他第二相关数据的位置，此处不予赘述。

通过以上过程，可以基于列号差得到下一个第二相关数据与前一个第二相关数据的行偏移量，如此可以快速定位第二相关数据，提升数据预取的效率，从而提升整个模型运算的速度。

如图13所示，在一种实施方式中，步骤S103还可以包括以下子步骤：

S1301：对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；

S1302：利用稀疏参数矩阵分别与N个分块矩阵进行计算。

输入特征图转换得到的数据矩阵包含大量元素，从而占用较大的存储空间，往往超过执行主体中高速缓冲存储器所对应的的容量值。本实施例可以通过矩阵分块处理，将原始数据矩阵分解为多个分块矩阵，其中每个分块矩阵包含少量元素且占据较小的存储空间。具体来说，分块处理可以是按照固定行数和列数对数据矩阵进行分块，或者也可以在行数/列数不变的情况下，对数据矩阵按列/按行进行分块，此处不做限定。

对数据矩阵进行分块处理得到N个分块矩阵，其中，N可以是1，2,3等，此处不做穷举。

利用稀疏参数矩阵与数据矩阵进行运算，可以转化为利用稀疏参数矩阵分别与N个分块矩阵进行运算。具体地，可以是利用稀疏参数矩阵与N个分块矩阵分别进行计算得到相应的分块计算结果，再按照分块矩阵的位置关系对分块结算结果进行拼接，并将拼接得到的结果作为输出矩阵。分块矩阵中第一相关数据、第二相关数据的确定方式与前述数据矩阵的确定方式相同，此处不再一一赘述。

如图14所示，在一种实施方式中，步骤S1301还可以包括以下子步骤：

S1401：将数据矩阵的行数作为每个分块矩阵的行数；

S1402：根据高速缓冲存储器的容量以及数据矩阵的列数，确定每个分块矩阵的列数；高速缓冲存储器用于存储参数矩阵及分块矩阵；

S1403：基于每个分块矩阵的行数和列数，对数据矩阵进行分块处理，得到N个分块矩阵。

本实施例执行主体可以获取硬件设备的参数。例如，可以通过直接读取硬件设备的高速缓冲存储器获取其存储容量信息，还可以获取硬件设备的峰值内存带宽、每秒最大操作量等，此处不做限定。

在输入特征图尺寸较大的情况下，终端设备中的高速缓冲存储器无法存储整个数据矩阵，或者伴随计算的进行导致在线存储的数据发生缓存丢失。基于此，可以对数据矩阵进行分块处理并结合数据预期的方式进行数据存储和计算。具体而言，可以在将每一通道的像素按通道展开并按照行方向依次组合后，对数据矩阵按列进行分块。此时由于得到的数据矩阵的列数远大于行数，在行数不变的情况下按列分块即可获取多个较小的分块矩阵。例如，在输入特征图在长度、宽度方向分别包括100个像素点的情况下，若通道数为100，则数据矩阵的列数为10000，此时可以对数据矩阵按列进行分块多个分块矩阵。

具体来说，分块处理的规则可以是将数据矩阵的行数作为每个分块矩阵的行数，即分块处理后行数不变。进而根据高速缓冲存储器的容量以及数据矩阵的列数，分别确定每个分块矩阵的列数。

举例来说，数据矩阵所占据的存储空间为1.8G的情况下，若缓冲存储器的容量为1G，对数据矩阵分块后得到的每个分块矩阵所占的存储空间应当小于1G(不考虑其他应用对缓存空间的占用)。例如，数据矩阵的列数为10000，经计算确定m列参数值对应的内存仅600M，那么可以按m列对数据矩阵进行分块得到多个分块矩阵(m列)。m的取值可以为48、32、16、8、4、1等，此处不做限定。若m的取值为48，可以将列数为10000的数据矩阵拆分208个列数为48的分块矩阵，此时，剩余16列可以作为最后一个分块矩阵执行相应运算。

在确定每个分块矩阵的行数和列数之后，可以基于行数和列数对数据矩阵进行分块处理，得到N个分块矩阵。

通过以上过程，高速缓冲存储器可以存储完整的分块矩阵，避免了数据矩阵过大导致的在线存储的相关数据发生缓存丢失的问题。

在一种实施方式中，在稀疏参数矩阵的稀疏度不满足预定条件的情况下，利用参数矩阵与数据矩阵进行计算。

预定条件可以是某一预设阈值或者某个预设范围，此处不做限定。例如，通过将稀疏参数矩阵的稀疏度与预设阈值的大小进行比较，对于稀疏度较小的卷积层直接采用顺序读取的方式执行相应运算，进一步提升了卷积神经网络的计算速度。

如图15所示，本公开涉及一种特征图像的处理装置，该装置可以包括：

分组模块1501，用于对参数矩阵中的参数进行分组，得到多个数组；所述参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

稀疏化处理模块1502，用于根据所述多个数组内的参数值，对所述参数矩阵进行稀疏化处理，得到稀疏参数矩阵；

第一计算模块1503，用于在所述稀疏参数矩阵的稀疏度满足预定条件的情况下，利用所述稀疏参数矩阵与数据矩阵进行计算，确定所述卷积层对应的输出特征图；所述数据矩阵包括输入至所述卷积层的输入特征图转换得到的矩阵。

在一种实施方式中，所述分组模块1501，包括：

中间矩阵确定子模块，用于根据预设行数对所述参数矩阵按行进行划分，得到多个中间矩阵；

第一数组确定子模块，用于在所述中间矩阵的行数等于所述预设行数的情况下，对所述中间矩阵按列划分为多个数组；所述数组内包含预设行数个参数。

在一种实施方式中，所述分组模块1501，包括：

一维矩阵确定子模块，用于在所述中间矩阵的行数小于所述预设行数的情况下，将所述中间矩阵按行划分为至少一个一维矩阵；

第二数组确定子模块，用于将每个所述一维矩阵按列划分为多个数组；每个所述数组内均包含一个参数。

在一种实施方式中，所述稀疏化处理模块1502，包括：

数组值确定子模块，用于分别对每个数组内的参数值的进行求和计算，将得到的求和计算的结果作为数组值；

置零执行子模块，用于在所述数组值小于预设阈值的情况下，将所述数组内的参数值均置为零，得到归零数组；

稀疏参数矩阵确定子模块，用于将所述归零数组和非零数组组成的矩阵，作为所述稀疏参数矩阵；其中，所述非零数组为数组值不为零的数组。

在一种实施方式中，所述第一计算模块1503，包括：

非零数组位置确定子模块，用于确定所述稀疏参数矩阵中M个非零数组的位置；M为不小于1的整数；

第一相关数据读取子模块，用于基于第j个所述非零数组的位置，读取所述数据矩阵中的第一相关数据；所述第一相关数据是在所述数据矩阵中基于预设规则确定的与所述第j个非零数组进行计算的数据；j为不小于1且不大于M的整数；

计算子模块，用于利用所述第j个非零数组和所述第一相关数据进行计算，得到M组计算结果中的第j组计算结果；所述第j组计算结果包括所述第j个非零数组内各个参数分别与所述第一相关数据计算得到的至少一个一维矩阵；

输出特征图执行子模块，用于利用所述M组计算结果确定所述卷积层对应的输出特征图。

在一种实施方式中，所述输出特征图执行子模块，包括：

一维矩阵选取子模块，用于在所述M组计算结果中选取与目标位置参数对应的至少一个一维矩阵；所述目标位置参数为所述第j个非零数组中位于目标行号的参数；

目标数据确定子模块，用于利用所述至少一个一维矩阵确定目标数据；所述目标数据为输出矩阵中位于目标行号的数据；

后处理子模块，用于对所述输出矩阵进行预设后处理，得到所述卷积层对应的输出特征图。

在一种实施方式中，输出特征图执行子模块还包括：

数据预取子模块，用于在所述第j个非零数组和所述第一相关数据进行计算的过程中，将所述数据矩阵中的第二相关数据写入所述高速缓冲存储器；其中，所述第二相关数据是基于预设规则确定的与第j+1个非零数组进行计算的数据。

在一种实施方式中，所述数据预取子模块，包括：

列号确定子模块，用于确定所述第j+1个非零数组的列号；

行偏移量确定子模块，用于基于所述第j+1个非零数组的列号与所述第j个非零数组的列号之间的列号差，确定所述第二相关数据与所述第一相关数据的行偏移量；

第二相关数据确定子模块，用于基于所述第一相关数据的位置以及所述行偏移量，确定所述第二相关数据的位置。

在一种实施方式中，所述第一计算模块1503，包括：

分块处理子模块，用于对所述数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；

分块计算子模块，用于利用所述稀疏参数矩阵分别与所述N个分块矩阵进行计算。

在一种实施方式中，所述分块处理子模块，包括：

行数确定子模块，用于将所述数据矩阵的行数作为每个所述分块矩阵的行数；

列数确定子模块，用于根据高速缓冲存储器的容量以及所述数据矩阵的列数，确定每个所述分块矩阵的列数；所述高速缓冲存储器用于存储所述参数矩阵及所述分块矩阵；

分块处理执行子模块，用于基于每个所述分块矩阵的行数和列数，对所述数据矩阵进行分块处理，得到所述N个分块矩阵。

在一种实施方式中，特征图像的处理装置还包括：

第二计算模块，用于在所述稀疏参数矩阵的稀疏度不满足预定条件的情况下，利用所述参数矩阵与所述数据矩阵进行计算。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图16示出了可以用来实施本公开的实施例的示例电子设备1600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图16所示，设备1600包括计算单元1601，其可以根据存储在只读存储器(ROM)1602中的计算机程序或者从存储单元1608加载到随机访问存储器(RAM)1603中的计算机程序，来执行各种适当的动作和处理。在RAM 1603中，还可存储设备1600操作所需的各种程序和数据。计算单元1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。

设备1600中的多个部件连接至I/O接口1605，包括：输入单元1606，例如键盘、鼠标等；输出单元1607，例如各种类型的显示器、扬声器等；存储单元1608，例如磁盘、光盘等；以及通信单元1609，例如网卡、调制解调器、无线通信收发机等。通信单元1609允许设备1600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1601执行上文所描述的各个方法和处理，例如图像处理的方法。例如，在一些实施例中，图像处理的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1602和/或通信单元1609而被载入和/或安装到设备1600上。当计算机程序加载到RAM 1603并由计算单元1601执行时，可以执行上文描述的图像处理的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种特征图像的处理方法，包括：

2.根据权利要求1所述的方法，其中，所述对参数矩阵中的参数进行分组，包括：

根据预设行数对所述参数矩阵按行进行划分，得到多个中间矩阵；

在所述中间矩阵的行数等于所述预设行数的情况下，对所述中间矩阵按列划分为多个数组；所述数组内包含预设行数个参数。

3.根据权利要求1所述的方法，其中，所述对参数矩阵中的参数进行分组，包括：

在所述中间矩阵的行数小于所述预设行数的情况下，将所述中间矩阵按行划分为至少一个一维矩阵；

将每个所述一维矩阵按列划分为多个数组；每个所述数组内均包含一个参数。

4.根据权利要求1所述的方法，其中，所述根据所述多个数组内的参数值，对所述参数矩阵进行稀疏化处理，得到稀疏参数矩阵，包括：

分别对每个数组内的参数值的进行求和计算，将得到的求和计算的结果作为数组值；

在所述数组值小于预设阈值的情况下，将所述数组内的参数值均置为零，得到归零数组；

将所述归零数组和非零数组组成的矩阵，作为所述稀疏参数矩阵；其中，所述非零数组为数组值不为零的数组。

5.根据权利要求4所述的方法，其中，所述利用所述稀疏参数矩阵与数据矩阵进行计算，确定所述卷积层对应的输出特征图，包括：

确定所述稀疏参数矩阵中M个非零数组的位置；M为不小于1的整数；

基于第j个非零数组的位置，读取所述数据矩阵中的第一相关数据；所述第一相关数据是在所述数据矩阵中基于预设规则确定的与所述第j个非零数组进行计算的数据；j为不小于1且不大于M的整数；

利用所述第j个非零数组和所述第一相关数据进行计算，得到M组计算结果中的第j组计算结果；所述第j组计算结果包括所述第j个非零数组内各个参数分别与所述第一相关数据计算得到的至少一个一维矩阵；

利用所述M组计算结果确定所述卷积层对应的输出特征图。

6.根据权利要求5所述的方法，其中，所述利用所述M组计算结果确定所述卷积层对应的输出特征图，包括：

在所述M组计算结果中选取与目标位置参数对应的至少一个一维矩阵；所述目标位置参数为所述第j个非零数组中位于目标行号的参数；

利用所述至少一个一维矩阵确定目标数据；所述目标数据为输出矩阵中位于目标行号的数据；

对所述输出矩阵进行预设后处理，得到所述卷积层对应的输出特征图。

7.根据权利要求6所述的方法，所述方法还包括：

在所述第j个非零数组和所述第一相关数据进行计算的过程中，将所述数据矩阵中的第二相关数据写入高速缓冲存储器；其中，所述第二相关数据是基于预设规则确定的与第j+1个非零数组进行计算的数据。

8.根据权利要求7所述的方法，其中，所述第二相关数据的确定方式，包括：

确定所述第j+1个非零数组的列号；

基于所述第j+1个非零数组的列号与所述第j个非零数组的列号之间的列号差，确定所述第二相关数据与所述第一相关数据的行偏移量；

基于所述第一相关数据的位置以及所述行偏移量，确定所述第二相关数据的位置。

9.根据权利要求1所述的方法，其中，所述利用所述稀疏参数矩阵与数据矩阵进行计算，包括：

对所述数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；

利用所述稀疏参数矩阵分别与所述N个分块矩阵进行计算。

10.根据权利要求9所述的方法，其中，所述对所述数据矩阵进行分块处理，包括：

将所述数据矩阵的行数作为每个所述分块矩阵的行数；

根据高速缓冲存储器的容量以及所述数据矩阵的列数，确定每个所述分块矩阵的列数；所述高速缓冲存储器用于存储所述参数矩阵及所述分块矩阵；

基于每个所述分块矩阵的行数和列数，对所述数据矩阵进行分块处理，得到所述N个分块矩阵。

11.根据权利要求1-10任一所述的方法，还包括：

在所述稀疏参数矩阵的稀疏度不满足预定条件的情况下，利用所述参数矩阵与所述数据矩阵进行计算。

12.一种特征图像的处理装置，包括：

分组模块，用于对参数矩阵中的参数进行分组，得到多个数组；所述参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

稀疏化处理模块，用于根据所述多个数组内的参数值，对所述参数矩阵进行稀疏化处理，得到稀疏参数矩阵；

第一计算模块，用于在所述稀疏参数矩阵的稀疏度满足预定条件的情况下，利用所述稀疏参数矩阵与数据矩阵进行计算，确定所述卷积层对应的输出特征图；所述数据矩阵包括输入至所述卷积层的输入特征图转换得到的矩阵。

13.根据权利要求12所述的装置，其中，所述分组模块，包括：

14.根据权利要求12所述的装置，其中，所述分组模块，包括：

15.根据权利要求12所述的装置，其中，所述稀疏化处理模块，包括：

16.根据权利要求15所述的装置，其中，所述第一计算模块，包括：

第一相关数据读取子模块，用于基于第j个非零数组的位置，读取所述数据矩阵中的第一相关数据；所述第一相关数据是在所述数据矩阵中基于预设规则确定的与所述第j个非零数组进行计算的数据；j为不小于1且不大于M的整数；

17.根据权利要求16所述的装置，其中，所述输出特征图执行子模块，包括：

18.根据权利要求17所述的装置，所述输出特征图执行子模块还包括：

数据预取子模块，用于在所述第j个非零数组和所述第一相关数据进行计算的过程中，将所述数据矩阵中的第二相关数据写入高速缓冲存储器；其中，所述第二相关数据是基于预设规则确定的与第j+1个非零数组进行计算的数据。

19.根据权利要求18所述的装置，其中，所述数据预取子模块，包括：

列号确定子模块，用于确定所述第j+1个非零数组的列号；

20.根据权利要求12所述的装置，其中，所述第一计算模块，包括：

21.根据权利要求20所述的装置，其中，所述分块处理子模块，包括：

22.根据权利要求12-21任一所述的装置，还包括：

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。