CN115880132A

CN115880132A - 图形处理器、矩阵乘法任务处理方法、装置及存储介质

Info

Publication number: CN115880132A
Application number: CN202310064272.7A
Authority: CN
Inventors: 阙恒; 周义满; 朱康挺; 商秋
Original assignee: Li Computing Technology Shanghai Co ltd; Nanjing Lisuan Technology Co ltd
Current assignee: Li Computing Technology Shanghai Co ltd; Nanjing Lisuan Technology Co ltd
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-03-31
Anticipated expiration: 2043-02-06
Also published as: CN115880132B

Abstract

本发明公开了一种图形处理器、矩阵乘法任务处理方法、装置及存储介质，涉及图像处理技术领域；该图形处理器包括：数据管理模块，用于将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中；指令调度器，用于根据元素存储结果构建点积累加压缩指令；指令执行器，用于根据构建完成的点积累加压缩指令，执行矩阵乘法任务。本发明实施例的技术方案，减少了矩阵乘法元素对寄存器资源的占用，降低了从寄存器中获取数据时的搬运开销，同时，GPU基于每条点积累加压缩指令可执行较多次数的乘法及加法运算，极大地提高了GPU的计算能力。

Description

图形处理器、矩阵乘法任务处理方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图形处理器、矩阵乘法任务处理方法、装置及存储介质。

背景技术

随着图形显示渲染应用场景的复杂化，越来越多的图形处理器（graphicsprocessing unit，GPU）开始通过卷积神经网络等深度学习方式进行图像的超分辨率采样，而上述图像处理过程中最主要的数据处理任务，集中在大规模矩阵之间的乘法运算上，因此，提高大规模矩阵之间的乘法运算效率，便成为了图像处理的重中之重。

以两个32×32阶的矩阵A和B相乘为例，获取其结果矩阵C，需要计算32*32*32次乘法和32*32*31次加法，现有技术中，为了提高矩阵乘法之间的计算效率，通常会在simd（single instruction multi-data）32机制下执行，由此，可将指令数量减少为32*32条整数乘法指令和32*31条整数加法指令。

在实践过程中，发现现有技术存在如下缺陷：上述图像处理过程中，GPU依然需要基于大量的算术指令执行矩阵乘法，极大地降低了指令传输效率和数据运算效率，而大量的算术指令也同时占用了过多的寄存器资源，增加了GPU的数据搬运开销。

发明内容

本发明提供了一种图形处理器、矩阵乘法任务处理方法、装置及存储介质，以解决GPU执行矩阵乘法任务时，算术指令过多且占用过多寄存器资源的问题。

根据本发明的一方面，提供了一种图形处理器，包括：数据管理模块、指令调度器和指令执行器；

所述数据管理模块，用于将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中；

所述指令调度器，用于根据行元素存储结果构建点积累加压缩指令的第一操作数，以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数；

所述指令执行器，用于根据构建完成的所述点积累加压缩指令，执行所述矩阵乘法任务。

根据本发明的另一方面，提供了一种矩阵乘法任务处理方法，应用于图形处理器，包括：

数据管理模块将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中；

指令调度器根据行元素存储结果构建点积累加压缩指令的第一操作数，以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数；

指令执行器根据构建完成的所述点积累加压缩指令，执行所述矩阵乘法任务。

其中，所述指令调度器，还用于根据所述点积累加压缩指令中的重复发出次数，重复发出所述点积累加压缩指令；其中，所述点积累加压缩指令在每次发出时，所述第一操作数和所述第二操作数均依次递增；所述指令执行器，还用于根据所述点积累加压缩指令和所述重复发出次数，执行所述矩阵乘法任务。

所述指令调度器，具体还用于根据所述点积累加压缩指令中的重复发出次数，基于连续发射机制，重复发出所述点积累加压缩指令。

所述数据管理模块，具体用于将所述第一寄存器组的单通道容量和所述第二寄存器组的单通道容量中，数值较小的一个作为目标单通道容量，并根据所述目标单通道容量，将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中。

所述数据管理模块，具体还用于若所述第一寄存器组的部分通道被占用，则在未被占用的通道中选择指定数量的目标通道，并将所述第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器的目标通道中。

所述数据管理模块，具体用于将矩阵乘法任务中第一特征矩阵的四个连续行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的四个连续列元素，依次存储进第二寄存器组的各个通道中；所述指令调度器，用于根据行元素存储结果构建四元素点积指令的第一操作数，以及根据列元素存储结果构建所述四元素点积指令的第二操作数。

所述指令执行器具体还用于根据当前四元素点积指令执行点积运算，以将点积运算结果存放于内部的累加缓存器，并在当前四元素点积指令的点积运算次数达到指定次数时，将点积运算结果存入指定寄存器中。

根据本发明的另一方面，提供了一种矩阵乘法任务处理装置，应用于图形处理器，包括：

元素存储执行模块，配置于数据管理模块，用于将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中；

点积累加压缩指令构建模块，配置于指令调度器，用于根据行元素存储结果构建点积累加压缩指令的第一操作数，以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数；

矩阵乘法执行模块，配置于指令执行器，用于根据构建完成的所述点积累加压缩指令，执行所述矩阵乘法任务。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个图形处理器；以及

与所述至少一个图形处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个图形处理器执行的计算机程序，所述计算机程序被所述至少一个图形处理器执行，以使所述至少一个图形处理器能够执行本发明任一实施例所述的矩阵乘法任务处理方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使图形处理器执行时实现本发明任一实施例所述的矩阵乘法任务处理方法。

本发明的技术方案中，数据管理模块将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中，减少了矩阵乘法元素对寄存器资源的占用，也降低了从寄存器中获取数据时的搬运开销；而指令执行器根据指令调度器中构建的点积累加压缩指令，执行第一特征矩阵与所述第二特征矩阵的乘法运算时，不但减少了指令的执行数量，而且GPU基于每条点积累加压缩指令可执行较多次数的乘法及加法运算，极大地提高了GPU的计算能力。

应当理解，本部分所描述的内容并非旨在标识本发明的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是根据本发明实施例一提供的一种图形处理器的结构示意图；

图1B是根据本发明实施例一提供的第一寄存器组的结构示意图；

图1C是根据本发明实施例一提供的第二寄存器组的结构示意图；

图2是根据本发明实施例二提供的第一寄存器组的结构示意图；

图3是根据本发明实施例三提供的一种矩阵乘法任务处理方法的流程图；

图4是根据本发明实施例四提供的一种矩阵乘法任务处理装置的结构示意图；

图5是实现本发明实施例的矩阵乘法任务处理方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1A为本发明实施例一提供的一种图形处理器100的结构示意图，该图形处理器100包括：数据管理模块200、指令调度器300和指令执行器400。所述数据管理模块200，用于将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中。

具体的，矩阵乘法任务中的第一特征矩阵和第二特征矩阵，可以是从不同的大规模矩阵中获取的分块矩阵，各自表示了其所在大规模矩阵中的部分图像特征；上述两个分块矩阵的乘法运算结果，作为上述两个大规模矩阵之间乘法运算结果的一部分；而分块矩阵通常为大小固定且相等的方阵，例如，16×16阶矩阵、32×32阶矩阵、64×64阶矩阵等；第一特征矩阵和第二特征矩阵，还可以是两个图像特征信息完整的大规模矩阵，上述两个大规模矩阵直接进行乘法运算；在本发明实施例中，可选的，对第一特征矩阵和第二特征矩阵的阶数、来源，以及矩阵元素的数据类型均不作具体限定。

在利用深度学习进行图像处理时，特别是基于卷积神经网络进行图像处理时，两个待执行乘法运算的矩阵中，各自承载的图像特征的精度相同，即元素的数据类型相同，例如，第一特征矩阵和第二特征矩阵中元素的数据类型均为int8（即8位有符号的整型数）；因此，本发明实施例中，以第一特征矩阵和第二特征矩阵均为32×32阶的矩阵，元素数据类型均为int8为例；由此可以获知第一特征矩阵A和第二特征矩阵B的矩阵大小均为32*32*8bits（比特），其乘积运算结果为第三特征矩阵C，第三特征矩阵C的矩阵大小为32*32*32bits。

每个寄存器组均由GPU中的不同的多个寄存器组成，各寄存器的通道数量相同，各通道的通道大小（即单通道容量）也可以相同；其中，寄存器可以包括向量寄存器和通用寄存器等；在本发明实施例中，以寄存器组包括多个通用寄存器为例，每个通用寄存器包括32个通道（lane），每个通道的大小可以为32bits；假设第一寄存器组以通用寄存器r0为存储起点，第二寄存器组以通用寄存器r16为存储起点。

如图1B所示，每个方格表示第一特征矩阵中的一个元素，即一个数据大小为8比特的元素；将第一特征矩阵的行元素，存放入第一寄存器组时；首先将第一特征矩阵A的第一行的各个元素，依次放入第一寄存器组的r0中，由于第一特征矩阵中，每个元素的大小为8比特，而每个通道的容量为32比特，因此，在将第一行的元素0至元素3存储进r0的lane0（表示为r0.ln0）之后，r0.ln0即被填满，然后继续将第一行的元素4至元素7存储进r0的lane1，由此r0（即r0.ln0至r0.ln31）即完成了第一特征矩阵中前4行元素的存储，通过r0至r7即可完成第一特征矩阵中所有元素的存储。

如图1C所示，每个方格表示第二特征矩阵中的一个元素，将第二特征矩阵的列元素，存放入第二寄存器组时；首先将第二特征矩阵B的第一列的各个元素，依次放入第二寄存器组的各个寄存器的lane0中，由于第二特征矩阵中，每个元素的大小也为8比特，而每个通道的容量为32比特，因此，在将第一列的元素0至元素3存储进r16的lane0（表示为r16.ln0）之后，r16.ln0即被填满，然后继续将第一列的元素4至元素7存储进r17.lane0，由此r16至r23中的lane0即完成了第二特征矩阵中前4列元素的存储，由此通过r16至r23即可完成第二特征矩阵中所有元素的存储。

上述技术方案中，仅需要r0至r7以及r16至r23总共16个寄存器，即可完成第一特征矩阵与第二特征矩阵的元素存储，相比于现有的多算术指令计算方式，上述元素的存储至少需要64个寄出器才能满足存储需求，极大地减少了矩阵乘法任务对寄存器资源的占用，也减少了从寄存器中搬运数据时的搬运开销。

可选的，在本发明实施例中，所述数据管理模块200，具体还用于将所述第一寄存器组的单通道容量和所述第二寄存器组的单通道容量中，数值较小的一个作为目标单通道容量，并根据所述目标单通道容量，将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中。

具体的，如果第一寄存器组和第二寄存器组的单通道容量不同，例如，第一寄存器组与第二寄存器组中的单通道容量，分别为32bits和64bits，那么显然第一寄存器组与第二寄存器组中单通道可容纳的元素数量分别为4个和8个，为了确保上述两个通道具备点积运算基础，即两个通道中的元素数量相等，需要将数值较低的单通道容量32bite作为目标单通道容量，由此第一寄存器组与第二寄存器组均以该数值作为元素分配依据，即第一寄存器组和第二寄存器组中每个寄存器的每个通道中均存储4个元素，确保不同寄存器组的通道之间执行点积运算时，乘积元素之间的一一匹配，同时可以最大限度的利用每个寄存器的通道容量，节省占用的寄存器资源。

所述指令调度器300，用于根据行元素存储结果构建点积累加压缩指令的第一操作数，以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数。指令调度器300（SCH）是GPU中用于指令生成及指令发出的调度单元，其可以根据第一特征矩阵和第二特征矩阵中各元素的存储位置，构建点积累加压缩指令；其中，点积累加压缩指令，是执行多个元素矢量之间的点积运算的指令，例如，四元素点积指令（即DP4A指令），二元素点积指令（即DP2A指令）。

所述指令执行器400，用于根据构建完成的所述点积累加压缩指令，执行所述矩阵乘法任务。指令执行器400（ALP）是GPU中用于获取指令调度器300发出的指令，并根据该指令执行具体数学运算的功能单元；在本发明实施例中，每个点积累加压缩指令可以用于执行第一特征矩阵中的一个元素行，与第二特征矩阵的各个元素列之间的乘法运算，也即基于每个点积累加压缩指令可以获取到第三特征矩阵C中的一个元素行。

可选的，在本发明实施例中，所述数据管理模块200，具体用于将矩阵乘法任务中第一特征矩阵的四个连续行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的四个连续列元素，依次存储进第二寄存器组的各个通道中；所述指令调度器300，用于根据行元素存储结果构建四元素点积指令的第一操作数，以及根据列元素存储结果构建所述四元素点积指令的第二操作数。由于DP4A指令可同时执行两个四元素矢量的点积运算，因此，可以在进行第一寄存器组和第二寄存器组的元素存储时，可以分别将连续的四个行元素或者连续的四个列元素作为存储依据，依次存储到各个寄存器的通道中，由此，确保各个通道之间的元素数量相等，且每个通道中均存储有四个元素，在满足DP4A指令的元素计算需求的同时，节省矩阵乘法运算占用的寄存资源。

可选的，在本发明实施例中，所述指令调度器300，还用于根据所述点积累加压缩指令中的重复发出次数，重复发出所述点积累加压缩指令；其中，所述点积累加压缩指令在每次发出时，所述第一操作数和所述第二操作数均依次递增所述指令执行器400，还用于根据所述点积累加压缩指令和所述重复发出次数，执行所述矩阵乘法任务。在构建完成的点积累加压缩指令中，指令调度器300可以根据设置的重复发射次数，重复发出该指令，例如，指令1为“DP4A.rp7 r24, r24，r16, r0.ln0”；其中，rp7表示将该指令发出后，再重复发出7次，即该指令总共发出8次；而指令执行器400在每次执行该四元素点积指令时，则将第一操作数和第二操作数同时遍历递增，以此减少指令执行器400执行的指令数量和指令类型。

具体的，以上述技术方案为例，指令执行器400在8次获取到指令1的过程中，实际上依次执行如下指令，即（指令1.0）DP4A r24，r24，r16，r0.ln0；（指令1.1）DP4A r24，void，r17，r0.ln1；（指令1.2）DP4A r24，void，r18，r0.ln2；（指令1.3）DP4A r24，void，r19，r0.ln3；（指令1.4）DP4A r24，void，r20，r0.ln4；（指令1.5）DP4A r24，void，r21，r0.ln5；（指令1.6）DP4A r24，void，r22，r0.ln6；（指令1.7）DP4A r24，void，r23，r0.ln7；其中，上述指令1.0至指令1.7可以分别获取第三矩阵C中第一行的4个元素的数值，执行完成指令1.0至指令1.7后，即可获取到第三矩阵C中第一行元素的数值；而上述指令1实际上包含了1024次乘法运算和768次加法运算，依次提高了GPU的计算能力。

同样的，第三特征矩阵C的其它元素行也可以通过同样的方法，即分别通过一个四元素点积指令获取，那么第三特征矩阵C即由总计32个四元素点积指令即可完成所有元素值的计算获取，32个四元素点积指令依次为：（指令1）DP4A rp7 r24，r24，r16，r0.ln0；（指令2）DP4A rp7 r25，r25，r16，r0.ln8；（指令3）DP4A rp7 r26，r26，r16，r0.ln16；（指令4）DP4A rp7 r27，r27，r16，r0.ln25；（指令5）DP4A rp7 r28，r28，r16，r1.ln0；……（指令32）DP4A rp7 r55，r55，r16，r7.ln25。因此，上述32个四元素点积指令，即为执行第一特征矩阵与第二特征矩阵之间矩阵乘法运算的所有指令。

可选的，在本发明实施例中，所述指令调度器300，具体还用于根据所述点积累加压缩指令中的重复发出次数，基于连续发射机制，重复发出所述点积累加压缩指令。指令调取器可以通过连续发射机制，重复发出上述点积累加压缩指令，以确保GPU的内核并行执行过程中，不会被其他有竞争关系的指令打断发射，确保矩阵乘法的运算效率及运算结果的准确。

可选的，在本发明实施例中，所述指令执行器400具体还用于根据当前四元素点积指令执行点积运算，以将点积运算结果存放于内部的累加缓存器，并在当前四元素点积指令的点积运算次数达到指定次数时，将点积运算结果存入指定寄存器中。累加缓存器（accumulator buffer），是用于存储点积运算中间结果的装置，以上述技术方案为例，在第一次获取到指令1时，执行指令1.0，会把r0.ln0的数据和r16中32条通道的数据分别做点积运算，得到的中间结果会和第三个操作数r24做累加，累加结果暂存在指令执行器400的累加缓存器中，并不会写入到寄存器r24中；第二次获取到指令1时，执行指令1.1，把操作数地址移到r0.ln1和r17，在执行点积运算后会与累加缓存器中的前次结果做累加，累加结果继续存在累加缓存器中；直到第八次获取到指令1时，即执行指令1.7时，把操作数地址移到r0.ln7和r23，在执行点积运算后会和累加缓存器中的前次结果做累加，累加结果存放于r24（即指定寄存器）中，由此完成指令1的点积运算；累加缓存器的设置，避免了指令执行器400频繁地读写寄存器中存放的中间结果，进而导致寄存器的访问冲突，提高了矩阵乘法运算的运算效率。

实施例二

在图1A所示的图形处理器100中，所述数据管理模块200，具体还用于若所述第一寄存器组的部分通道被占用，则在未被占用的通道中选择指定数量的目标通道，并将所述第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器的目标通道中。

以上述技术方案为例，对于32×32×8bits的第一特征矩阵而言，只要满足连续8个通道可用，即可满足第一特征矩阵A中第一行元素的存储需求，进而符合点积累加压缩指令的构建需求，因此，如果部分通道被占用，则在剩余通道中，选择8的整数倍个通道作为目标通道，并通过目标通道存储第一特征矩阵的行元素。

如图2所示，如果寄存器r0至r15的lane16至lane31已被占用，例如，寄存器的lane16至lane31，作为与lane0至lane15匹配的镜像通道使用时，lane16至lane31中的每个通道，均与lane0至lane15中的一个通道一一匹配，用于存放匹配通道中的镜像数据，因此，寄存器r0至r15中仅有lane0至lane15可用，此时根据可使用的lane0至lane15，可以确定寄存器r0至r15中，每个寄存器中存在16个可用通道，因此，将上述lane0至lane15均作为目标通道。具体的，将第一特征矩阵的行元素，存放入第一寄存器组时；在将第一特征矩阵A的第一行元素和第二行元素存储到r0.lane0至r0.lane15之后，继续将第三行元素和第四行元素存储到r1.lane0至r1.lane15，由此，通过r0至r15 中的lane0和lane15同样可以完成第一特征矩阵中所有元素的存储。

由于第一特征矩阵中元素的存储方式进行了改变，因此，点积累加压缩指令中的第一操作数需要进行相应的改变；而第一特征矩阵中元素的存储方式未发生改变，因此，点积累加压缩指令中的第二操作数保持不变；那么第三特征矩阵C对应的32个点积累加压缩指令依次为：（1）DP4A rp7 r24，r24，r16，r0.ln0；（2）DP4A rp7 r25，r25，r16，r0.ln8；（3）DP4A rp7 r26，r26，r16，r1.ln0；（2）DP4A rp7 r27，r27，r16，r1.ln8；（5）DP4A rp7 r28，r28，r16，r2.ln0；……（32）DP4A rp7 r55，r55，r16，r15.ln8。

本发明的技术方案中，当第一寄存器组的部分通道被占用时，在未被占用的通道中选择指定数量的目标通道，进而将第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器的目标通道中，使得在寄存器的部分通道被占用时，可以基于选择获取的目标通道，继续执行矩阵元素的存储操作，充分利用了寄存器资源，避免了空闲通道导致寄存器资源的浪费。

实施例三

图3为本发明实施例三提供的一种矩阵乘法任务处理方法的流程图，该方法可以由实施例一或实施例二中的图形处理器执行。如3所示，该方法包括：

S301、数据管理模块将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中。

S302、指令调度器根据行元素存储结果构建点积累加压缩指令的第一操作数，以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数。

S303、指令执行器根据构建完成的所述点积累加压缩指令，执行所述矩阵乘法任务。

实施例四

图4是本发明实施例四所提供的一种矩阵乘法任务处理装置的结构框图，所述矩阵乘法任务处理装置可配置于图形处理器中，该图形处理器具体包括：

元素存储执行模块401，配置于数据管理模块，用于将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中；

点积累加压缩指令构建模块402，配置于指令调度器，用于根据行元素存储结果构建点积累加压缩指令的第一操作数，以及根据列元素存储结果构建所述点积累加压缩指令的第二操作数；

矩阵乘法执行模块403，配置于指令执行器，用于根据构建完成的所述点积累加压缩指令，执行所述矩阵乘法任务。

本发明所提供的图形处理器可执行本发明任意实施例所提供的矩阵乘法任务处理方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的矩阵乘法任务处理方法。

实施例五

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个图形处理器11，以及与至少一个图形处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，图形处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。图形处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

图形处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。图形处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。图形处理器11执行上文所描述的各个方法和处理，例如矩阵乘法任务处理方法。

具体的，该矩阵乘法任务处理方法，具体包括：

在一些实施例中，矩阵乘法任务处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM 和/或通信单元而被载入和/或安装到异构硬件加速器上。当计算机程序加载到RAM 并由处理器执行时，可以执行上文描述的矩阵乘法任务处理方法的一个或多个步骤。备选地，在其他实施例中，处理器可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行矩阵乘法任务处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在异构硬件加速器上实施此处描述的系统和技术，该异构硬件加速器具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给异构硬件加速器。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种图形处理器，其特征在于，包括：数据管理模块、指令调度器和指令执行器；

2.根据权利要求1所述的图形处理器，其特征在于，所述指令调度器，还用于根据所述点积累加压缩指令中的重复发出次数，重复发出所述点积累加压缩指令；其中，所述点积累加压缩指令在每次发出时，所述第一操作数和所述第二操作数均依次递增；

所述指令执行器，还用于根据所述点积累加压缩指令和所述重复发出次数，执行所述矩阵乘法任务。

3.根据权利要求2所述的图形处理器，其特征在于，所述指令调度器，具体还用于根据所述点积累加压缩指令中的重复发出次数，基于连续发射机制，重复发出所述点积累加压缩指令。

4.根据权利要求1所述的图形处理器，其特征在于，所述数据管理模块，具体用于将所述第一寄存器组的单通道容量和所述第二寄存器组的单通道容量中，数值较小的一个作为目标单通道容量，并根据所述目标单通道容量，将矩阵乘法任务中第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的列元素，依次存储进第二寄存器组的各个通道中。

5.根据权利要求1所述的图形处理器，其特征在于，所述数据管理模块，具体还用于若所述第一寄存器组的部分通道被占用，则在未被占用的通道中选择指定数量的目标通道，并将所述第一特征矩阵的行元素，依次存储进第一寄存器组的各个寄存器的目标通道中。

6.根据权利要求1所述的图形处理器，其特征在于，所述数据管理模块，具体用于将矩阵乘法任务中第一特征矩阵的四个连续行元素，依次存储进第一寄存器组的各个寄存器中，以及将所述矩阵乘法任务中第二特征矩阵的四个连续列元素，依次存储进第二寄存器组的各个通道中；

所述指令调度器，用于根据行元素存储结果构建四元素点积指令的第一操作数，以及根据列元素存储结果构建所述四元素点积指令的第二操作数。

7.根据权利要求1所述的图形处理器，其特征在于，所述指令执行器具体还用于根据当前四元素点积指令执行点积运算，以将点积运算结果存放于内部的累加缓存器，并在当前四元素点积指令的点积运算次数达到指定次数时，将点积运算结果存入指定寄存器中。

8.一种矩阵乘法任务处理方法，应用于如权利要求1-7任一所述的图形处理器中，包括：

9.一种矩阵乘法任务处理装置，应用于如权利要求1-7任一所述的图形处理器中，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使图形处理器执行时实现权利要求8所述的矩阵乘法任务处理方法。