CN114092708A

CN114092708A - 特征图像的处理方法、装置和存储介质

Info

Publication number: CN114092708A
Application number: CN202111340620.6A
Authority: CN
Inventors: 季映羽; 张演龙; 王常凯; 孙静静
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-25

Abstract

本公开提供了一种特征图像的处理方法、装置和存储介质，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域。具体实现方案为：对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵；在稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用稀疏参数矩阵分别与N个分块矩阵进行计算，得到卷积层对应的输出特征图。

Description

特征图像的处理方法、装置和存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域。

背景技术

深度卷积网络模型对输入的特征图像具有较高的识别精度，广泛应用于人脸识别、无人驾驶、机器翻译、医学检测等领域。但由于其参数量大、计算时间长，在一些算力低的嵌入式芯片上难以满足实时计算的要求。因此，有必要开发与图像处理相关的模型压缩方法，用来在通用硬件设备实现加速计算。

发明内容

本公开提供了一种特征图像的处理方法、装置和存储介质。

根据本公开的一方面，提供了一种特征图像的处理方法，该方法可以包括以下步骤：

对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵；

在稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用稀疏参数矩阵分别与N个分块矩阵进行计算，得到卷积层对应的输出特征图。

根据本公开的另一方面，提供了一种特征图像的处理装置，该装置可以包括：

稀疏化模块，用于对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

分块处理模块，用于对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵；

第一计算模块，用于在稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用稀疏参数矩阵分别与N个分块矩阵进行计算，得到卷积层对应的输出特征图。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术方案解决了现有的卷积神经网络模型参数量大、计算时间长的问题。同时，采用矩阵分块以及数据预取的运算策略，使得非结构化稀疏网络模型在通用硬件设备上实现了加速计算。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开特征图像处理方法的流程图；

图2是根据本公开转换得到参数矩阵的示意图；

图3是根据本公开转换得到数据矩阵的示意图；

图4是根据本公开稀疏化处理的流程图；

图5是根据本公开稀疏化处理的示意图；

图6是根据本公开确定分块矩阵的流程图；

图7是根据本公开矩阵运算的流程图；

图8是根据本公开矩阵运算的流程图；

图9是根据本公开特征图像处理装置的结构图；

图10实现本公开实施例的特征图像处理的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开涉及一种特征图像的处理方法，该方法可以包括以下步骤：

S101：对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

S102：对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵；

S103：在稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用稀疏参数矩阵分别与N个分块矩阵进行计算，得到卷积层对应的输出特征图。

本实施例可以应用于计算机设备，具体可以包括但不限于服务器，台式计算机、笔记本电脑、云端计算器或者多个服务器构成的服务器集，本申请对计算机设备的产品类型不做限定。

在执行步骤S101之前，可以首先对卷积神经网络中的各个隐藏层进行识别。当隐藏层的识别结果为池化层或者其他非卷积层时，直接对输入特征图进行通用计算。

当识别结果为卷积层时，执行步骤S101。其中，卷积神经网络的卷积层可以包括多个卷积核(w×h×c)，w表示宽度，h表示高度，c表示深度(或者通道数)。具体来说，卷积核的尺寸可以根据需要进行设定。在深度值固定，例如c＝3的情况下，卷积核的尺寸可以取(1×1×3)，(3×3×3)，(5×5×3)等，此处不做限定。卷积核的数量也可以根据需要进行设定，例如3个，4个，5个等。

举例来说，如图2所示，在一个目标卷积层中包含4个(1×1×3)的卷积核的情况下，可以将其转换为一个A₄₃的矩阵。由此，将图示矩阵A_4×3作为目标卷积层对应的参数矩阵。

对参数矩阵进行稀疏化处理，可以是选择一个或者多个参数矩阵进行稀疏化处理，此处不做限定。优选地，可以是对卷积层转换得到的每个参数矩阵做稀疏化处理。

输入特征图可以是包含有多个维度的特征信息的图像，例如，在人脸识别场景下，原始的输入特征图可以是一张包含人脸的特征图像，经过卷积神经网络多个隐藏层的处理可以提取人脸图像中的多个特征，例如纹理、边缘、颜色等。此外，使用场景还可以包括其他图像识别领域，例如，无人驾驶中的道路影像识别、机器翻译、医学图像检测等，不同的使用场景可以有对应的输入特征图，此处不做赘述。

数据矩阵可以是输入至卷积层的输入特征图转换得到的矩阵，数据矩阵的大小取决于三维输入特征图的长度、宽度以及通道数。为描述方便，如图3所示，假设输入特征图为3通道，在长度方向有2个像素，宽度方向有3个像素，将每一通道的像素按通道展开并依次组合，得到如图所示的B_3×6二维平面矩阵作为数据矩阵。

输入特征图转换得到的数据矩阵包含大量元素，从而占用较大的存储空间，往往超过执行主体中高速缓冲存储器所对应的的容量值。本实施例可以通过矩阵分块处理，将原始数据矩阵分解为多个分块矩阵，其中每个分块矩阵包含少量元素且占据较小的存储空间。具体来说，分块处理可以是按照固定行数和列数对数据矩阵进行分块，或者也可以在行数/列数不变的情况下，对数据矩阵按列/按行进行分块，此处不做限定。

计算上述稀疏参数矩阵的稀疏度，可以是利用稀疏参数矩阵中的参数总数量以及其中包含的非零参数的数量进行计算。在稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用稀疏参数矩阵分别与N个分块矩阵进行计算得到N个计算结果，基于N个计算结果分别确定各个卷积层对应的输出特征图。示例性地，第一阈值可以是50％，60％，70％，此处不做限定。

通过以上过程，在对卷积神经网络模型实现了模型压缩的基础上，保证了只有较小的精度损失。同时，通过对数据矩阵进行分块处理，避免了数据矩阵的缓存丢失，使得在一般的通用硬件上即可实现上述加速计算。

如图4所示，在一种实施方式中，步骤S101可以包括以下子步骤：

S401：遍历参数矩阵中的参数值；

S402：将参数矩阵中小于第二阈值的参数值置为零。

其中，遍历参数矩阵可以是按行进行遍历，在遍历至一行中的最后一个元素后换行进行。或者也可以按列进行遍历，此处不做限定。遍历得到参数矩阵中各个参数值后，将参数矩阵中小于第二阈值的参数值置为零。具体的，在参数值只有正数的情况下，第二阈值可以取3，4，5等正整数，也可以根据需要将第二阈值设置为小数，此处不做限定。

如图5所示，在参数值有正数和负数的情况下，将参数矩阵中绝对值小于第二阈值的参数值置为零。本实施例中第二阈值取为5，将将图示矩阵中绝对值小于5的-1.4，-1.9，2.1，2.2，3.7置为零，其他参数值保持不变。由此可以计算参数矩阵以及稀疏化处理后的稀疏参数矩阵分别对应的稀疏度。如图5所示，参数矩阵中共包含12个参数，其中5个参数值为0，其稀疏度的计算结果为41.67％；稀疏化后的稀疏参数矩阵的12个参数中包含10个参数值为0，稀疏度提升至83.33％。

通过以上过程，通过非结构化剪枝对卷积神经网络模型进行压缩，在进行模型加速的同时保证了较小的精度损失。

如图6所示，在一种实施方式中，步骤S102可以包括以下子步骤：

S601：将数据矩阵的行数作为每个分块矩阵的行数；

S602：根据高速缓冲存储器的容量以及数据矩阵的列数，分别确定每个分块矩阵的列数；高速缓冲器用于存储参数矩阵及分块矩阵；

S603：基于每个分块矩阵的行数和列数，对数据矩阵进行分块处理，得到N个分块矩阵。

本实施例执行主体可以获取硬件设备的参数。例如，可以通过直接读取硬件设备的高速缓冲存储器获取其存储容量信息，还可以获取硬件设备的峰值内存带宽、每秒最大操作量等，此处不做限定。

在输入特征图尺寸较大的情况下，终端设备中的高速缓冲存储器无法存储整个数据矩阵，或者伴随计算的进行导致在线存储的数据发生缓存丢失。基于此，可以对数据矩阵进行分块处理并结合数据预期的方式进行数据存储和计算。具体而言，可以在将每一通道的像素按通道展开并按照行方向依次组合后，对数据矩阵按列进行分块。此时由于得到的数据矩阵的列数远大于行数，在行数不变的情况下按列分块即可获取多个较小的分块矩阵。例如，在输入特征图在长度、宽度方向分别包括100个像素点的情况下，若通道数为100，则数据矩阵的列数为10000，此时可以对数据矩阵按列进行分块多个分块矩阵。

具体来说，分块处理的规则可以是将数据矩阵的行数作为每个分块矩阵的行数，即分块处理后行数不变。进而根据高速缓冲存储器的容量以及数据矩阵的列数，分别确定每个分块矩阵的列数。

举例来说，数据矩阵所占据的存储空间为1.8G的情况下，若缓冲存储器的容量为1G，对数据矩阵分块后得到的每个分块矩阵所占的存储空间应当小于1G(不考虑其他应用对缓存空间的占用)。例如，数据矩阵的列数为10000，经计算确定m列参数值对应的内存仅600M，那么可以按m列对数据矩阵进行分块得到多个分块矩阵(m列)。m的取值可以为48，32，16，8，4，1等，此处不做限定。若m的取值为48，可以将列数为10000的数据矩阵拆分208个列数为48的分块矩阵，此时，剩余16列可以作为最后一个分块矩阵执行相应运算。

在确定每个分块矩阵的行数和列数之后，可以基于行数和列数对数据矩阵进行分块处理，得到N个分块矩阵。

通过以上过程，高速缓冲存储器可以存储完整的分块矩阵，避免了数据矩阵过大导致的在线存储的相关数据发生缓存丢失的问题。

如图7所示，在一种实施方式中，步骤S103可以包括以下子步骤：

S701：确定稀疏参数矩阵中第k个非零参数的位置；k为不小于1的整数；

S702：基于第k个非零参数的位置，读取第i个分块矩阵中的第一相关数据；第一相关数据是基于预设规则确定的与第k个非零参数进行计算的数据；i为不小于1且不大于N的整数；

S703：利用稀疏矩阵中的第k个非零参数的参数值和第i个分块矩阵中的第一相关数据进行计算。

其中，稀疏参数矩阵中第k个非零参数的位置可以是在对稀疏参数矩阵进行遍历时确定的，其中k为不小于1的整数。具体的，可以采用压缩稀疏行(CSR，Compressed SparseRow)的方法确定稀疏参数矩阵中的参数值、行偏移量以及所在行的非零参数的数目，进而基于行偏移量和非零参数的数目对非零参数进行定位。

在对稀疏参数矩阵中的非零参数进行定位后，基于第k个非零参数的位置，读取第i个分块矩阵中的第一相关数据。第一相关数据是基于预设规则确定的与第k个非零参数进行计算的数据。首先，基于预设规则，可以由稀疏参数矩阵中第k个非零参数的位置确定第一相关数据在分块矩阵中的位置，其次，可以基于第一相关数据在分块矩阵中的位置读取第一相关数据并执行运算。

预设规则可以包括第一预设规则以及第二预设规则中的至少一种。其中，第一预设规则可以是根据第k个非零参数在稀疏参数矩阵中的行号，确定第一相关数据在分块矩阵中的列号；第二预设规则可以是根据第k个非零参数在稀疏参数矩阵中的列号，确定第一相关数据在分块矩阵中的行号。

具体来讲，可以采用参数矩阵第一行第一列的元素依次与分块矩阵中第一行的元素相乘，参数矩阵第一行第二列的元素依次与分块矩阵中第二行的元素相乘，由此可以基于稀疏参数矩阵中第一行参数的列号，确定与之计算的分块矩阵中第一相关数据的行号，将得到的行号作为第一相关数据在分块矩阵中的位置。同理，可以确定稀疏参数矩阵中第二行、第三行的参数在数据矩阵中的第一相关数据。

由此，确定第一相关数据在分块矩阵中所处位置的规则可以是，将稀疏参数矩阵中第k个非零参数的列号作为分块矩阵中第一相关数据的行号。为简化说明，如图8所示，A_6×5矩阵表示稀疏参数矩阵，B_5×16矩阵表示分块矩阵，A_6×5矩阵中第1个非零参数“6”位于第一行第一列，对应地，分块矩阵中的第一行数据为第1个非零参数“6”的第一相关数据；同样的，A_6×5矩阵中第2个非零参数“8”位于第一行第三列，分块矩阵中的第三行数据为其对应的第一相关数据。其他非零参数对应的第一相关数据不再一一赘述。

确定第一相关数据的确定规则后，利用稀疏矩阵中的第k个非零参数的参数值和第i个分块矩阵中的第一相关数据进行计算。在进行矩阵运算时，A_6×5矩阵中第1个非零参数“6”位于第一行第一列，与B_5×48矩阵中第一行的参数依次相乘；A_6×5矩阵中第2个非零参数“8”位于第一行第三列，与B_5×16矩阵中第三行的参数依次相乘。其他非零参数与对应的第一相关数据的计算不再一一赘述。

在一种实施方式中，在第k个非零参数的参数值和第i个分块矩阵中的第一相关数据进行计算的过程中，将第i个分块矩阵的第二相关数据写入高速缓冲存储器；其中，第二相关数据是基于预设规则确定的与第k+1个非零参数进行计算的数据。

如图8所示，在稀疏参数矩阵与第i个分块矩阵进行运算时，首先提取与第一个非零参数“1”(位于第一行第一列)对应的第一相关数据进入高速缓冲存储器，执行相应运算。在执行运算的过程中，可以从内存中提取下一个非零参数“3”(位于第一行第三列)对应的第二相关数据进入高速缓冲存储器，为执行下一阶段的运算做好准备。也就是说，对于稀疏参数矩阵而言，执行主体跳过参数值为0的参数位置，直接提取非零参数。对于分块矩阵而言，执行主体跳过参数值为0所对应的行，在提取第一行数据并执行运算之后直接跳到第三行，提取第三行的数据进入高速缓冲存储器并执行下一次运算。

通过以上过程，基于稀疏参数矩阵中非零参数的位置，跳过了对参数为0对应的分块矩阵中相关数据的提取步骤，避免了执行主体进行无效计算。同时，在当前计算过程中通过数据预取的方式使得待计算数据提前进入高速缓冲存储器，大大提升了网络模型的计算速度。

在一种实施方式中，在稀疏参数矩阵的稀疏度不大于第一预设阈值的情况下，利用参数矩阵与数据矩阵进行计算。

通过将稀疏参数矩阵的稀疏度与第一预设阈值的大小进行比较，对于稀疏度较小的卷积层直接采用顺序读取的方式执行相应运算，进一步提升了卷积神经网络的计算速度。

如图9所示，本公开涉及一种特征图像的处理装置，该装置可以包括：

稀疏化模块901，用于对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

分块处理模块902，用于对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；数据矩阵包括输入至卷积层的输入特征图转换得到的矩阵；

第一计算模块903，用于在稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用稀疏参数矩阵分别与N个分块矩阵进行计算，得到卷积层对应的输出特征图。

在一种实施方式中，稀疏化模块901，可以进一步包括：

遍历子模块，用于遍历参数矩阵中的参数值；

置零子模块，用于将参数矩阵中小于第二阈值的参数值置为零。

在一种实施方式中，分块处理模块902，可以进一步包括：

行数确定子模块，用于将数据矩阵的行数作为每个分块矩阵的行数；

列数确定子模块，用于根据高速缓冲存储器的容量以及数据矩阵的列数，分别确定每个分块矩阵的列数；高速缓冲器用于存储参数矩阵及分块矩阵；

分块处理子模块，用于基于每个分块矩阵的行数和列数，对数据矩阵进行分块处理，得到N个分块矩阵。

在一种实施方式中，第一计算模块903，可以进一步包括：

位置确定子模块，用于确定稀疏参数矩阵中第k个非零参数的位置；k为不小于1的整数；

相关数据确定子模块，用于基于第k个非零参数的位置，读取第i个分块矩阵中的第一相关数据；第一相关数据是基于预设规则确定的与第k个非零参数进行计算的数据；i为不小于1且不大于N的整数；

计算子模块，用于利用第k个非零参数和第i个分块矩阵中的第一相关数据进行计算，得到计算结果。

在一种实施方式中，计算子模块还用于：

在第k个非零参数和第i个分块矩阵中的第一相关数据进行计算的过程中，将第i个分块矩阵的第二相关数据写入高速缓冲存储器；其中，第二相关数据是基于预设规则确定的与第k+1个非零参数进行计算的数据。

在一种实施方式中，该特征图像的处理装置还包括：

第二计算模块，用于在稀疏参数矩阵的稀疏度不大于第一预设阈值的情况下，利用参数矩阵与数据矩阵进行计算。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像处理的方法。例如，在一些实施例中，图像处理的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的图像处理的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种特征图像的处理方法，包括：

对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；所述参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；所述数据矩阵包括输入至所述卷积层的输入特征图转换得到的矩阵；

在所述稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用所述稀疏参数矩阵分别与所述N个分块矩阵进行计算，得到所述卷积层对应的输出特征图。

2.根据权利要求1所述的方法，其中，所述对参数矩阵进行稀疏化处理，包括：

遍历所述参数矩阵中的参数值；

将所述参数矩阵中小于第二阈值的参数值置为零。

3.根据权利要求1所述的方法，所述对数据矩阵进行分块处理，包括：

将所述数据矩阵的行数作为每个所述分块矩阵的行数；

根据高速缓冲存储器的容量以及所述数据矩阵的列数，分别确定每个所述分块矩阵的列数；所述高速缓冲存储器用于存储所述参数矩阵及所述分块矩阵；

基于每个所述分块矩阵的行数和列数，对所述数据矩阵进行分块处理，得到所述N个分块矩阵。

4.根据权利要求3所述的方法，所述利用所述稀疏参数矩阵分别与所述N个分块矩阵进行计算，包括：

确定所述稀疏参数矩阵中第k个非零参数的位置；k为不小于1的整数；

基于所述第k个非零参数的位置，读取第i个分块矩阵中的第一相关数据；所述第一相关数据是基于预设规则确定的与所述第k个非零参数进行计算的数据；i为不小于1且不大于N的整数；

利用所述第k个非零参数和所述第i个分块矩阵中的第一相关数据进行计算，得到计算结果。

5.根据权利要求4所述的方法，所述方法还包括：

在所述第k个非零参数和所述第i个分块矩阵中的所述第一相关数据进行计算的过程中，将所述第i个分块矩阵的第二相关数据写入所述高速缓冲存储器；其中，所述第二相关数据是基于预设规则确定的与第k+1个非零参数进行计算的数据。

6.根据权利要求1-5任一所述的方法，还包括：

在所述稀疏参数矩阵的稀疏度不大于第一预设阈值的情况下，利用所述参数矩阵与所述数据矩阵进行计算。

7.一种特征图像的处理装置，包括：

稀疏化模块，用于对参数矩阵进行稀疏化处理，得到稀疏参数矩阵；所述参数矩阵为卷积神经网络中的卷积层转换得到的矩阵；

分块处理模块，用于对数据矩阵进行分块处理，得到N个分块矩阵，N为不小于1的整数；所述数据矩阵包括输入至所述卷积层的输入特征图转换得到的矩阵；

第一计算模块，用于在所述稀疏参数矩阵的稀疏度大于第一阈值的情况下，利用所述稀疏参数矩阵分别与所述N个分块矩阵进行计算，得到所述卷积层对应的输出特征图。

8.根据权利要求7所述的装置，其中，所述稀疏化模块，包括：

遍历子模块，用于遍历所述参数矩阵中的参数值；

置零子模块，用于将所述参数矩阵中小于第二阈值的参数值置为零。

9.根据权利要求7所述的装置，所述分块处理模块，包括：

行数确定子模块，用于将所述数据矩阵的行数作为每个所述分块矩阵的行数；

列数确定子模块，用于根据高速缓冲存储器的容量以及所述数据矩阵的列数，分别确定每个所述分块矩阵的列数；所述高速缓冲存储器用于存储所述参数矩阵及所述分块矩阵；

分块处理子模块，用于基于每个所述分块矩阵的行数和列数，对所述数据矩阵进行分块处理，得到所述N个分块矩阵。

10.根据权利要求9所述的装置，所述计算模块，包括：

位置确定子模块，用于确定所述稀疏参数矩阵中第k个非零参数的位置；k为不小于1的整数；

相关数据确定子模块，用于基于所述第k个非零参数的位置，读取第i个分块矩阵中的第一相关数据；所述第一相关数据是基于预设规则确定的与所述第k个非零参数进行计算的数据；i为不小于1且不大于N的整数；

计算子模块，用于利用所述第k个非零参数和所述第i个分块矩阵中的第一相关数据进行计算，得到计算结果。

11.根据权利要求10所述的装置，所述计算子模块还用于：

12.根据权利要求7-11任一所述的装置，还包括：

第二计算模块，用于在所述稀疏参数矩阵的稀疏度不大于第一预设阈值的情况下，利用所述参数矩阵与所述数据矩阵进行计算。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。