CN115293335A

CN115293335A - 基于隐式通用矩阵乘的图像识别方法及装置

Info

Publication number: CN115293335A
Application number: CN202210966211.5A
Authority: CN
Inventors: 陈永青; 高娅; 文进辉
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-04

Abstract

本发明公开了一种基于隐式通用矩阵乘的图像识别方法及装置，该方法包括：根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息；依次将期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与期望输出矩阵对应的聚合输出矩阵；其中，N为正偶数；将聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取期望输出矩阵，并根据期望输出矩阵对输入图像进行识别。本发明实施例的技术方案，输入矩阵从物理层读取数据时，实现了加载数据的复用，降低了数据加载时间，提高了异构硬件加速器执行卷积运算的计算效率，避免了由于边界点与非边界点的数据加载逻辑不同，导致编码分支带来性能下降问题。

Description

基于隐式通用矩阵乘的图像识别方法及装置

技术领域

本发明涉及人工智能领域，尤其涉及基于隐式通用矩阵乘的图像识别方法及装置。

背景技术

伴随着卷积神经网络技术的不断进步，异构硬件加速器得到了迅速发展，而卷积层作为异构硬件加速器计算中最为密集的算子，对卷积算子的优化也成为了异构硬件加速器提高计算性能的重中之重。

隐式通用矩阵乘(igemm)是异构硬件加速器中常用的卷积算法，也是部分卷积参数下(例如，2D卷积核尺寸为3×3、步长为2的情况下)性能最优越的算法；igemm是基于通用矩阵乘(gemm)内的矩阵分块方法与im2col方法相结合，将im2col过程做隐式转化，然后对转换后的gemm矩阵使用gemm的分块方式对卷积过程进行优化。

然而，现有的igemm算法中，针对输入数据的加载流程优化不足，使得加载数据的复用率较低，数据加载时间过长，进而导致异构硬件加速器的计算效率较低，性能优化不足。

发明内容

本发明提供了一种基于隐式通用矩阵乘的图像识别方法及装置，以解决异构硬件加速器执行卷积运算时，计算效率较低的问题。

根据本发明的一方面，提供了一种基于隐式通用矩阵乘的图像识别方法，包括：

根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息；

依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵；其中，N为正偶数；

将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别。

所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：根据内存资源占用率，获取匹配的N值。在合理利用内存资源，避免线程数量过多导致内存资源占用率过高的同时，通过多线程并行计算方式，提高异构加速器的卷积运算效率。

所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则判断剩余原始数据点的数量是否大于第一预设阈值；若剩余原始数据点的数量大于第一预设阈值，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点。在减少启动线程数量的同时，各线程中进行卷积运算时，均可以基于本发明实施例公开的聚合数据点为矩阵分块依据，进而实现分块输入矩阵的加载数据复用，减少线程内部的卷积运算量。

在判断剩余原始数据点的数量是否大于等于第一预设阈值后，还包括：若剩余原始数据点的数量小于等于第一预设阈值，则根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。在不插入边界元素以避免增加额外计算开销的前提下，使得剩余原始数据点仍然可以基于已有igemm算法的矩阵分块方式进行卷积计算，确保了获取到的期望输出矩阵的数据完整性。

所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则通过降低N的数值，继续对剩余原始数据点进行聚合，直至N的数值降低为2或者不存在剩余原始数据点为止。通过不断地降低N值，最大限度的将原始数据点进行了聚合，特别是当N值降低为2时，最多仅剩余1列和/或1行原始数据点，此时除上述剩余的1列和/或1行原始数据点之外，其它线程中的分块输入矩阵均实现了加载数据的复用，最大限度的提高了数据加载效率，减少了大量的无效乘积运算。

在通过降低N的数值，继续对剩余原始数据点进行聚合后，包括：当N的数值降低为2时，若还存在剩余原始数据点，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点，或者根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。在仅增加较少额外计算开销的前提下，实现对剩余原始数据点的聚合，使得上述剩余原始数据点所在的线程中，同样可以实现分块输入矩阵的加载数据的复用，提高数据加载效率；或者在不插入边界元素避免增加额外开销的前提下，使得剩余原始数据点仍然可以基于已有igemm算法的矩阵分块方式进行卷积计算，确保了获取到的期望输出矩阵的数据完整性。

所述将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别，包括：根据所述卷积核的结构参数，将所述聚合输出矩阵中聚合数据点对应的分块输入矩阵进行数据融合，以获取融合完成的分块输入融合矩阵；根据所述分块输入融合矩阵与所述卷积核，获取对应聚合数据点的像素值。极大地减少了数据计算量，避免了大量无效计算(即将0值与卷积核进行乘积运算)的发生，进一步提高了异构硬件加速器的计算效率。

根据本发明的另一方面，提供了一种基于隐式通用矩阵乘的图像识别装置，包括：

维度信息获取模块，用于根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息；

数据聚合执行模块，用于依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵；其中，N为正偶数；

图像识别执行模块，用于将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别。

根据本发明的另一方面，提供了一种异构硬件加速器，所述异构硬件加速器用于执行本发明任一实施例所述的基于隐式通用矩阵乘的图像识别方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于隐式通用矩阵乘的图像识别方法。

本发明实施例的技术方案，根据期望输出矩阵的维度信息，依次将期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与期望输出矩阵对应的聚合输出矩阵，进而将聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取期望输出矩阵，使得输入矩阵从物理层读取数据时，实现了加载数据的复用，降低了数据加载时间，提高了异构硬件加速器执行卷积运算的计算效率，避免了由于边界点与非边界点的数据加载逻辑不同，导致编码分支带来性能下降问题。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是根据本发明实施例一提供的一种基于隐式通用矩阵乘的图像识别方法的流程图；

图1B是根据本发明实施例一提供的原始数据点的聚合过程示意图；

图1C是根据本发明实施例一提供的卷积算子优化前输入数据的加载示意图；

图1D是根据本发明实施例一提供的卷积算子优化前输入数据的数据重复加载点的位置示意图；

图1E是根据本发明实施例一提供的卷积算子优化后输入数据的加载示意图；

图1F是根据本发明实施例一提供的分块输入融合矩阵的获取流程图；

图2是根据本发明实施例二提供的一种基于隐式通用矩阵乘的图像识别方法的流程图；

图3是根据本发明实施例三提供的一种基于隐式通用矩阵乘的图像识别方法的流程图；

图4是根据本发明实施例四提供的一种基于隐式通用矩阵乘的图像识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1A为本发明实施例一提供的一种基于隐式通用矩阵乘的图像识别方法的流程图，本实施例可适用于通过优化igemm算法的卷积算子，提高异构硬件加速器的卷积运算效率，该方法可以由基于隐式通用矩阵乘的图像识别装置来执行，该基于隐式通用矩阵乘的图像识别装置可以采用硬件和/或软件的形式实现，该基于隐式通用矩阵乘的图像识别装置可配置于异构硬件加速器中。如图1A所示，该方法包括：

S101、根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息。

中央处理器(Central Processing Unit，CPU)在获取到待识别的图像后，将上述待识别图像传输给异构硬件加速器，以通过异构硬件加速器执行与图像识别相关的数据运算；异构硬件加速器通过igemm算法执行图像的卷积运算时，首先根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的行列数；异构硬件加速器可以包括图形处理器(Graphics Processing Unit，GPU)等多种功能组件，在本发明实施例中，对异构硬件加速器的类型不作具体限定。

如表1所示，输入图像的结构参数包括输入图像的高、宽、通道数和批次大小；其中，输入图像的高表示竖直方向的像素数量，宽表示水平方向的像素数量，批次大小表示该批次的图像数量，黑白图像的通道数为1，RGB彩色图像的通道数为3；输入图像的结构参数还包括输入图像高度方向上的补边数量，以及输入图像宽度方向上的补边数量；卷积核的结构参数包括卷积核的数量、高和宽，卷积核在输入图像的高度方向的滑动步长，以及卷积核在输入图像的宽度方向的滑动步长。

表1输入图像的结构参数和卷积核的结构参数

结构参数	标识	结构参数	标识
				输入图像的高	h	输入图像的批次大小	n
输入图像的宽	w	输入图像的通道数	c
				卷积核的数量	k	输入图像高度方向上的补边数	t<sub>1</sub>
卷积核的高	r	输入数据宽度方向上的补边数	t<sub>2</sub>
				卷积核的宽	s	卷积核在输入图像高度方向的滑动步长	d<sub>1</sub>
		卷积核在输入图像宽度方向的滑动步长	d<sub>2</sub>

其中，卷积核的通道数量＝输入图像的通道数量c；输出数据的数量＝卷积核的数量k；输出数据的高p＝(h+2*t₁-r)/d₁+1；输出数据的宽q＝(w+2*t₂-s)/d₂+1。

基于上述结构参数，在igemm算法中，将输入图像转化为输入矩阵M(n*p*q，r*s*c)，将卷积核转化为卷积矩阵N(r*s*c，k)，由此可以获取输出数据(即期望输出矩阵)对应的行列数分别为n*p*q和k；其中，期望输出矩阵为待求取的目标矩阵，其反应了执行卷积运算后的图像特征。

S102、依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵；其中，N为正偶数。

如图1B所示，左侧为期望输出矩阵的数据点示意图，左侧图形中的每个正方形方格代表期望输出矩阵中的一个数据点(即原始数据点)，从该矩阵的左上角开始，以N×N阶的相邻数据点作为一个聚合数据点；其中，N为2的正整数倍，图1B中以2×2阶的相邻数据点为例；右侧为聚合输出矩阵的数据点示意图，右侧的每个正方形方格代表聚合输出矩阵中的一个数据点(即聚合数据点)。

S103、将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别。

在igemm算法中，输入图像基于聚合输出矩中的矩阵分块方式，将每个通道上的卷积核滑动时对应位置伸展为一维向量，再将输入图像的批次大小、宽、高方向上的每次滑动拼接成一个较大的输入矩阵M(n*p*q，r*s*c)，上述转化仅处于逻辑层面，其物理存储地址不变，因此，输入矩阵M仅存在于逻辑层面，输入矩阵M仍然需要去对应的物理位置读取各个数据点的数据。

以尺寸为3×3的2D卷积核，步长为2的误差反向传播，输入布局为nchw模式(即先取c方向数据,然后取w方向数据，再取h方向数据，最后取n方向数据)为例；依据反向传播的基本原理可知，需要在输入数据中插入步长为1的空白行列，并转换为步长为1的卷积操作，在具体执行卷积运算时，需要在输入数据的高和宽方向各滑动两步，以上述技术方案为例，输入图像对应的输入矩阵如下所示：

以卷积滑块在数据点M11、M12、M21、M22之间的滑动为例；图1C为现有的igemm算法中，输入数据的加载示意图；卷积滑块在每次滑动时，输入数据中的9个点都需要进行数据读取，即对图1C中阴影区域内的数据进行读取，那么对于图1C中相邻的四个数据点M11、M12、M21、M22而言，上述数据加载操作，输入数据总共需要从物理层读取4×9＝36个点的数据，也即总共需要加载36个数据；相应的输入数据与卷积核的乘积次数也为36次，即每个点的数据要与卷积核中的对应数据进行乘积运算，因此共进行36次数据乘积计算。

而实际上在卷积滑块的上述滑动过程中，如图1D中虚线围成区域所示，虚线中的数据为卷积滑块执行滑动操作过程中，输入数据中重复加载数据的点；现有的igemm算法中，由于边界问题的存在，即边界点的数据加载逻辑与非边界点的数据加载逻辑不同，因此不能去除这些重复加载的数据，异构硬件加速器在执行并行计算时，边界的处理不当会导致性能的急剧下降；由于现有的igemm算法中，是以单个原始数据点作为矩阵分块的基础点时，无法解决边界数据点与非边界数据点的数据加载逻辑不一致的问题，导致不可避免的出现编码判断分支，即判断当前数据点为边界数据点还是为非边界数据点，而这样的判断逻辑会极大地降低异构硬件加速器的计算性能，所以现有的igemm算法中，无法实现加载数据的复用，只能采用上述全部读取的方式加载数据。

而在本发明实施例中，将N×N阶的聚合数据点作为分块矩阵的基础点时，卷积滑块在输入图像中滑动时，不存在边界数据点，异构硬件加速器不需要执行当前数据点为边界数据点还是为非边界数据点的判断分支，每个聚合数据点均以相同的数据读取逻辑执行，使得加载数据具备了复用基础；如图1E所示，本发明实施例中，输入数据实质上仅需要加载上述四个数据点M11、M12、M21、M22的数据即可，其余均为0值；相比于现有的igemm算法中，需要加载的数据总量为36个，显然极大地降低了输入矩阵M从物理层加载的数据总量。

卷积核基于期望输出矩阵中的分块方式，转化为卷积矩阵N(r*s*t，k)时，上述转化也同样处于逻辑层面，其物理存储地址不变，因此，卷积矩阵N也仅存在于逻辑层面，卷积矩阵N同样需要去对应的物理位置读取各个数据点的数据；之后异构硬件加速器通过多线程的并行计算的方式，将每个分块输入矩阵与对应的分块卷积矩阵进行卷积运算，运算结果即为对应的分块输出矩阵，再将各个线程下的分块输出矩阵拼接成完整的期望输出矩阵；最后根据期望输出矩阵反映的图像特征，对输入图像进行识别及分类处理，获取该输入图像的具体类型。

可选的，在本发明实施例中，所述将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别，包括：根据所述卷积核的结构参数，将所述聚合输出矩阵中聚合数据点对应的分块输入矩阵进行数据融合，以获取融合完成的分块输入融合矩阵；根据所述分块输入融合矩阵与所述卷积核，获取对应聚合数据点的像素值。

具体的，以上述技术方案为例，输入矩阵加载数据完成后，其与卷积核进行卷积运算的乘积方式如图1F所示，在第一个数据加载图中，输入矩阵加载数据后，需要与卷积核进行乘积运算的数据点是编号为1、3、7、9号位的数据，其余位置均为0值，不需要与卷积核进行乘积运算，即使进行乘积运算结果也为0，不影响最终的累加结果；在第二个数据加载图中，加载数据后，需要与卷积核进行乘积运算的是编号为2、8号位的数据；在第三个数据加载图中，加载数据后，需要与卷积核进行乘积运算的是编号为4、6号位的数据；在第四个数据加载图中，加载数据后，需要与卷积核进行乘积运算的是编号为5号位的数据；将上述数据加载后的数据点融合为，与当前使用的卷积核相同维度的3×3阶的输入融合矩阵，仅需要将输入融合矩阵中的9个点的数据，分别与卷积核中对应位置的数据进行乘积运算即可，也即仅需要进行9次乘积运算即可，相比于上述技术方案中，现有的igemm算法需要进行36次乘积运算，显然极大地减少了数据计算量，避免了大量无效计算(即将0值与卷积核进行乘积运算)的发生，进一步提高了异构硬件加速器的计算效率。

可选的，在本发明实施例中，所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：根据内存资源占用率，获取匹配的N值。具体的，异构硬件加速器是通过启动多个线程，对各个分块矩阵分别进行并行计算，N的数值越小，启动的线程数量越多，每个线程内的数据加载量越少、卷积计算量也越少，数据处理效率越高，但线程数量越多，也需要占用更多的内存资源；因此，如果当前内存资源占用率较高，表明当前可用内存资源较少，将N设置为较大数值，例如，6和8；如果当前内存资源占用率较低，表明当前可用内存资源较多，将N设置为较小数值，例如，2和4；由此根据内存资源占用率所在的数值区间，即可获取匹配的N值，以在合理利用内存资源，避免线程数量过多导致内存资源占用率过高的同时，通过多线程并行计算方式，提高异构加速器的卷积运算效率。

实施例二

图2为本发明实施例二提供的一种基于隐式通用矩阵乘的图像识别方法的流程图，本实施例与上述实施例之间的关系在于，期望输出矩阵中包括未能聚合成功的剩余原始数据点。如图2所示，该方法包括：

S201、根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息；执行S202。

S202、依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵；其中，N为正偶数；执行S203。

S203、若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则判断剩余原始数据点的数量是否大于第一预设阈值；若是，执行S204；若否，执行S205。

S204、通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点；执行S206。

如果期望输出矩阵的行数和/或列数，不是当前N值的正整数倍，那么对于期望输出矩阵而言，在其右边界和/或下边界，存在未能聚合完成的剩余原始数据点；当剩余原始数据点的数量较多时，如果每个原始数据点作为一个独立的数据点保留，即将剩余原始数据点也视为聚合数据点，并由将每个剩余原始数据点由一个独立线程进行卷积计算时，不但启动的线程数量较多，占用了过多的内存资源，而且剩余原始数据点对应的各个线程中，均存在加载数据无法复用以及卷积运算的计算量较大等问题；而通过边界补全，仅需要插入较少数量的0元素边界，即可将上述剩余原始数据点组合成新的聚合数据点，在减少启动线程数量的同时，各线程中进行卷积运算时，均可以基于本发明实施例公开的聚合数据点为矩阵分块依据，进而实现分块输入矩阵的加载数据复用，减少线程内部的卷积运算量；例如，N值为8时，如果剩余7列原始数据点，此时仅需要在右边界插入1列0元素，即可将上述7列原始数据点与新插入的1列0元素组成聚合数据点。

S205、根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵；执行S206。

当剩余原始数据点的数量较少时，如果N值较大，需要插入较多数量的0元素边界才能完成边界补全，如上述技术方案中，N值为8时，如果剩余1列原始数据点，此时需要在右边界插入7列0元素，才能将上述1列剩余原始数据点与新插入的7列0元素组成聚合数据点，而插入较多数量的0元素边界点，无疑增加了计算过程中的额外开销，同时，由于剩余原始数据点的数量较少，需要启动的线程数量也较少，可直接将剩余原始数据点作为一个独立的数据点保留，即将剩余原始数据点也视为聚合数据点，并同样由独立线程进行卷积计算，在不插入边界元素以避免增加额外计算开销的前提下，使得剩余原始数据点仍然可以基于已有igemm算法的矩阵分块方式进行卷积计算，确保了获取到的期望输出矩阵的数据完整性。

S206、将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别。

本发明实施例的技术方案，当期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点时，如果剩余原始数据点的数量较多，则通过零元素对期望输出矩阵进行边界补全，在减少启动线程数量的同时，各线程中进行卷积运算时，均可以实现分块输入矩阵的加载数据复用，减少线程内部的卷积运算量，如果剩余原始数据点的数量较少，则根据聚合数据点和剩余原始数据点，获取与期望输出矩阵对应的聚合输出矩阵，在不插入边界元素以避免增加额外计算开销的前提下，使得剩余原始数据点仍然可以基于已有igemm算法的矩阵分块方式进行卷积计算，确保了获取到的期望输出矩阵的数据完整性。

实施例三

图3为本发明实施例三提供的一种基于隐式通用矩阵乘的图像识别方法的流程图，本实施例与上述实施例之间的关系在于，当期望输出矩阵中除聚合数据点之外，还包括未能聚合成功的剩余原始数据点时，通过降低N的数值，继续对剩余原始数据点进行聚合。如图3所示，该方法包括：

S301、根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息。

S302、依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点。

S303、若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则通过降低N的数值，继续对剩余原始数据点进行聚合，直至N的数值降低为2或者不存在剩余原始数据点为止。

例如，当N的初始值为8时，如果剩余7列原始数据点，那么可以将N值降低为4，继续对剩余的7列原始数据点进行聚合；再次经过聚合后，剩余3列原始数据点，再将N值降低为2，继续对剩余的3列原始数据点进行聚合；再次经过聚合后，仅剩余1列原始数据点，此时N值已降低为2，停止聚合；或者当N的初始值为8时，如果剩余4列原始数据点，那么同样可以将N值降低为4，继续对剩余的4列原始数据点进行聚合，且恰好将剩余原始数据点全部聚合完成，同样停止聚合。通过不断地降低N值，最大限度的将原始数据点进行了聚合，特别是当N值降低为2时，最多仅剩余1列和/或1行原始数据点，此时除上述剩余的1列和/或1行原始数据点之外，其它线程中的分块输入矩阵均实现了加载数据的复用，最大限度的提高了数据加载效率，减少了大量的无效乘积运算。

S304、当N的数值降低为2时，若还存在剩余原始数据点，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点，或者根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。

如上述技术方案所述，当N值降低为2时，最多仅剩余1列和/或1行原始数据点，此时仅需要插入1列和/或1行零元素，即可在仅增加较少额外计算开销的前提下，实现对剩余原始数据点的聚合，使得上述剩余原始数据点所在的线程中，同样可以实现分块输入矩阵的加载数据复用，提高数据加载效率；或者保留上述剩余的1列和/或1行原始数据点，即将其同样视为聚合数据点，并由独立线程进行卷积计算，在不插入边界元素避免增加额外开销的前提下，使得剩余原始数据点仍然可以基于已有igemm算法的矩阵分块方式进行卷积计算，确保了获取到的期望输出矩阵的数据完整性。

S305、将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别。

本发明实施例的技术方案，当期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点时，通过不断地降低N值，最大限度的将原始数据点进行了聚合，特别是当N值降低为2时，最多仅剩余1列和/或1行原始数据点，此时除上述剩余的1列和/或1行原始数据点之外，其它线程中的分块输入矩阵均实现了加载数据的复用，最大限度的提高了数据加载效率，减少了大量的无效乘积运算。

实施例四

图4是本发明实施例四所提供的一种基于隐式通用矩阵乘的图像识别装置的结构框图，该装置具体包括：

维度信息获取模块401，用于根据输入图像的结构参数以及卷积核的结构参数，获取期望输出矩阵的维度信息；

数据聚合执行模块402，用于依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵；其中，N为正偶数；

图像识别执行模块403，用于将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别。

可选的，数据聚合执行模块402，具体用于根据内存资源占用率，获取匹配的N值。

可选的，数据聚合执行模块402，具体还用于若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则判断剩余原始数据点的数量是否大于第一预设阈值；若剩余原始数据点的数量大于第一预设阈值，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点。

可选的，数据聚合执行模块402，具体还用于若剩余原始数据点的数量小于等于第一预设阈值，则根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。

可选的，数据聚合执行模块402，具体还用于若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则通过降低N的数值，继续对剩余原始数据点进行聚合，直至N的数值降低为2或者不存在剩余原始数据点为止。

可选的，数据聚合执行模块402，具体还用于当N的数值降低为2时，若还存在剩余原始数据点，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点，或者根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。

可选的，图像识别执行模块403，具体用于根据所述卷积核的结构参数，将所述聚合输出矩阵中聚合数据点对应的分块输入矩阵进行数据融合，以获取融合完成的分块输入融合矩阵；根据所述分块输入融合矩阵与所述卷积核，获取对应聚合数据点的像素值。

上述装置可执行本发明任意实施例所提供的基于隐式通用矩阵乘的图像识别方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的基于隐式通用矩阵乘的图像识别方法。

实施例五

本发明实施例五还提供的一种异构硬件加速器，所述异构硬件加速器用于执行本发明任一实施例所述的基于隐式通用矩阵乘的图像识别方法。

在一些实施例中，基于隐式通用矩阵乘的图像识别方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到异构硬件加速器上。当计算机程序加载到RAM并由处理器执行时，可以执行上文描述的基于隐式通用矩阵乘的图像识别方法的一个或多个步骤。备选地，在其他实施例中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于隐式通用矩阵乘的图像识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在异构硬件加速器上实施此处描述的系统和技术，该异构硬件加速器具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给异构硬件加速器。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于隐式通用矩阵乘的图像识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：

根据内存资源占用率，获取匹配的N值。

3.根据权利要求1所述的方法，其特征在于，所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：

若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则判断剩余原始数据点的数量是否大于第一预设阈值；

若剩余原始数据点的数量大于第一预设阈值，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点。

4.根据权利要求3所述的方法，其特征在于，在判断剩余原始数据点的数量是否大于等于第一预设阈值后，还包括：

若剩余原始数据点的数量小于等于第一预设阈值，则根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。

5.根据权利要求1所述的方法，其特征在于，所述依次将所述期望输出矩阵中N×N阶的原始数据点作为聚合数据点，以获取与所述期望输出矩阵对应的聚合输出矩阵，包括：

若所述期望输出矩阵中除所述聚合数据点之外，还包括未能聚合成功的剩余原始数据点，则通过降低N的数值，继续对剩余原始数据点进行聚合，直至N的数值降低为2或者不存在剩余原始数据点为止。

6.根据权利要求5所述的方法，其特征在于，在通过降低N的数值，继续对剩余原始数据点进行聚合后，还包括：

当N的数值降低为2时，若还存在剩余原始数据点，则通过零元素对所述期望输出矩阵进行边界补全，以将剩余原始数据点转化为聚合数据点，或者根据所述聚合数据点和剩余原始数据点，获取与所述期望输出矩阵对应的聚合输出矩阵。

7.根据权利要求1-6任一所述的方法，其特征在于，所述将所述聚合输出矩阵中的数据点作为分块基础点，基于隐式通用矩阵乘获取所述期望输出矩阵，并根据所述期望输出矩阵对所述输入图像进行识别，包括：

根据所述卷积核的结构参数，将所述聚合输出矩阵中聚合数据点对应的分块输入矩阵进行数据融合，以获取融合完成的分块输入融合矩阵；

根据所述分块输入融合矩阵与所述卷积核，获取对应聚合数据点的像素值。

8.一种基于隐式通用矩阵乘的图像识别装置，其特征在于，包括：

9.一种异构硬件加速器，其特征在于，所述异构硬件加速器用于执行权利要求1-7中任一项所述的基于隐式通用矩阵乘的图像识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的基于隐式通用矩阵乘的图像识别方法。