CN117435855A

CN117435855A - 用于进行卷积运算的方法、电子设备和存储介质

Info

Publication number: CN117435855A
Application number: CN202311751966.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Bi Ren Technology Co ltd; Beijing Bilin Technology Development Co ltd
Current assignee: Shanghai Bi Ren Technology Co ltd; Beijing Bilin Technology Development Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-01-23
Anticipated expiration: 2043-12-19
Also published as: CN117435855B

Abstract

本公开涉及一种用于进行卷积运算的方法、电子设备和存储介质。其中方法包括对卷积核进行预处理，以便得到目标卷积核；经由向量核，将卷积算子转换为矩阵乘的数据，并将矩阵乘的数据存储至目标存储区；以及经由张量核，针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作，以便基于矩阵乘加结果生成卷积运算结果。本公开的方案能够显著提高卷积运算的性能。

Description

用于进行卷积运算的方法、电子设备和存储介质

技术领域

本公开的实施例总体涉及AI（人工智能）神经网络技术领域，并且更具体地涉及一种卷积运算方法、电子设备和存储介质。

背景技术

AI深度学习领域涉及到大量的卷积运算。以GPGPU为例，其中所设置的张量计算核心可以大幅度提升卷积计算能力。但是，由于卷积算子参数多、参数范围大以及计算量大等特点，常规的卷积运算的性能有待提高。

发明内容

针对上述问题，本公开提供了一种用于进行卷积运算的、电子设备和存储介质，能够有效提高卷积运算的性能。

根据本公开的第一方面，提供一种用于进行卷积运算的方法。该方法包括：对卷积核进行预处理，以便得到目标卷积核；经由向量核（VectorCore），将卷积算子转换为矩阵乘的数据，并将矩阵乘的数据存储至目标存储区；以及经由张量核（TensorCore），针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作，以便基于矩阵乘加结果生成卷积运算结果。

在一些实施例中，基于矩阵乘加结果生成卷积结果包括：经由向量核，针对矩阵乘加结果进行排布调整，以便生成卷积运算结果。

在一些实施例中，经由向量核将卷积算子转换为矩阵乘的数据并将矩阵乘的数据存储至目标存储区包括：从高带宽存储器获取待卷积运算的卷积算子；经由向量核，针对卷积算子进行im2col操作，以便将操作结果确定为矩阵乘的数据；以及基于卷积参数，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元。

在一些实施例中，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元包括：经由向量核，将当前子基本块存储至片上高速缓存单元中的第一子存储区和第二子存储区中的其中一个；生成对应的数据就绪信号；以及在张量核读取当前子基本块时，经由向量核将下一子基本块存储至片上高速缓存单元中的第一子存储区和第二子存储区中的另一个。

在一些实施例中，该方法还包括：张量核在确定接收到对应的数据就绪信号后，读取存储在第一子存储区和第二子存储区中的其中一个的当前子基本块；以及张量核在完成当前子基本块的读取之后，生成对应的子存储区就绪信号。

在一些实施例中，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元还包括：向量核在确定接收到对应的子存储区就绪信号后，将对应的子基本块存储至对应的子存储区就绪信号所对应的子存储区。

在一些实施例中，该方法还包括：将目标卷积核划分为分别与多个子基本块相对应的多个子卷积核；针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作包括：分别针对多个子卷积核中的每一个子卷积核和对应的子基本块进行矩阵乘加操作，以确定对应的子矩阵乘加结果；以及基于多个子基本块对应的子矩阵乘加结果确定矩阵乘加结果。

在一些实施例中，该方法还包括：将子基本块划分为多个分基本块；将子卷积核划分为分别与多个分基本块相对应的多个分卷积核；分别针对多个子卷积核中的每一个子卷积核和对应的子基本块进行矩阵乘加操作，以确定对应的子矩阵乘加结果包括：分别针对多个分卷积核中的每一个分卷积核和对应的分基本块进行矩阵乘加操作，以确定对应的分矩阵乘加结果；以及基于多个分基本块对应的分矩阵乘加结果确定子矩阵乘加结果。通过子基本块和分基本块的多级流水并行，得以充分大核计算能力优势。

在一些实施例中，针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作包括：如果卷积运算为conv1d FWD卷积运算，则以子目标卷积核作为左矩阵，以子基本块的转置作为右矩阵，进行矩阵乘加操作；如果卷积运算为conv1d BPA卷积运算，则以子目标卷积核作为左矩阵，以反向传播中输出的梯度数据的转置作为右矩阵，进行矩阵乘加操作；以及如果卷积运算为conv1d BPW卷积运算，则以反向传播中输出的梯度数据作为左矩阵，以子基本块作为右矩阵，进行矩阵乘加操作。

根据本公开的第二方面，提供一种电子设备。该电子设备包括：至少一个处理器；以及与该至少一个处理器通信连接的存储器；该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行根据本公开的第一方面的方法。

根据本公开的第三方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被机器执行时实现根据本公开的第一方面的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了本公开的实施例的卷积运算方法的流程图。

图2示出了可以用来实施本公开内容的实施例的方法的GPGPU的示意性框图。

图3示出了一种卷积运算的示意图。

图4示出了本公开的实施例的卷积运算转换为矩阵乘加运算的示意图。

图5示出了本公开的实施例的确定子矩阵乘加运算的示意图。

图6示出了本公开的实施例的时间轴的示意图。

图7示出了本公开的实施例的目标存储区的示意图。

图8示出了本公开的实施例的确定分矩阵乘加结果的示意图。

图9示出了本公开的实施例的时间轴的示意图。

图10示出了本公开的实施例的conv1d FWD卷积运算的示意图。

图11示出了本公开的实施例的conv1d BPA卷积运算的示意图。

图12示出了本公开的实施例的conv1d BPW卷积运算的示意图。

图13示出了可以用来实施本公开内容的实施例的方法的示例电子设备的示意性框图。

图14示出了本公开的实施例的时间轴的示意图。

图15示出了向量核以及张量核针对目标存储区操作的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所描述，由于卷积算子参数多、参数范围大以及计算量大等特点，常规的卷积运算的性能有待提高。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开提供一种用于进行卷积运算的方案。在本公开的方案中，对卷积核进行预处理，以便得到目标卷积核，将卷积算子转换为矩阵乘的数据，针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作，以便基于矩阵乘加结果生成卷积运算结果，从而可以将卷积运算转换为矩阵乘加操作，因而可以显著提高卷积运算的性能。

以下对本公开的实施例的方法进行详细说明。

图1示出了本公开的实施例的卷积运算方法100的流程图。应当理解的是，方法100还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的范围在此方面不受限制。方法100可以基于处理器实现，也可以在图13所示的电子设备1300处实现。值得说明的是，用于实现方法100的处理器可以采用MCU（Micro Controller Unit，微控制单元）、CPU（Central Processing Unit，中央处理器）、GPU（Graphics Processing Unit，图形处理器）、GPGPU（General-purpose Computing on Graphics Processing Units，通用图形处理器）、FPGA（Field Programmable Gate Array，现场可编程逻辑门阵列）等实现。

在一些实施例中，该处理器采用GPGPU实现。图2示出了可以用来实施本公开内容的实施例的方法的GPGPU的示意性框图。该GPGPU上具有片上高速缓存单元（GMB）502，以及高带宽存储器（HBM）504。该GPGPU上可以实现有多个编程单元（warp）。这些编程单元例如可以是Cwarp（一种编程单元）。具体实现时，可以将向量核以及张量核所对应的代码分别写入不同的编程单元中，以便利用例如两个不同的编程单元分别实现向量核506以及张量核508。

参照图1，在步骤102处，对卷积核进行预处理，以便得到目标卷积核。值得说明的是，步骤102可以由向量核以及张量核中的任何一个执行，也可以由基于GPGPU上的其他编程单元所实现的计算核执行，也可以由机外内核（offline kernel）执行。

在步骤104处，经由向量核，将卷积算子转换为矩阵乘的数据，并将矩阵乘的数据存储至目标存储区。

在步骤106处，经由张量核，针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作，以便基于矩阵乘加结果生成卷积运算结果。

在一些实施例中，基于矩阵乘加结果生成卷积结果例如包括：经由向量核，针对矩阵乘加结果进行排布调整，以便生成卷积运算结果。

在一些实施例中，经由向量核将卷积算子转换为矩阵乘的数据并将矩阵乘的数据存储至目标存储区例如包括：从高带宽存储器获取待卷积运算的卷积算子；经由向量核，针对卷积算子进行im2col操作，以便将操作结果确定为矩阵乘的数据；以及基于卷积参数，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元。

在一些实施例中，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元例如包括：经由向量核，将当前子基本块存储至片上高速缓存单元中的第一子存储区和第二子存储区中的其中一个；生成对应的数据就绪信号；以及在张量核读取当前子基本块时，经由向量核将下一子基本块存储至片上高速缓存单元中的第一子存储区和第二子存储区中的另一个。

在一些实施例中，方法100例如还包括：张量核在确定接收到对应的数据就绪信号后，读取存储在第一子存储区和第二子存储区中的其中一个的当前子基本块；以及张量核在完成当前子基本块的读取之后，生成对应的子存储区就绪信号。

在一些实施例中，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元例如还包括：向量核在确定接收到对应的子存储区就绪信号后，将对应的子基本块存储至对应的子存储区就绪信号所对应的子存储区。

图3示出了一种卷积运算的示意图。其中，卷积算子202与卷积核204进行卷积运算，得到卷积结果206。卷积算子202例如可以以形状为[N,C,H,W]的第一张量表征，卷积算子202具有4个维度，每一个维度所对应的维度值分别为“N”、“C”、“H”、“W”。卷积核204例如可以以形状为[K,C,R,S]的第二张量表征，卷积核204具有4个维度，每一个维度所对应的维度值分别为“K”、“C”、“R”、“S”。卷积结果206例如可以以形状为[N,K,P,Q]的第三张量表征，卷积结果206具有4个维度，每一个维度所对应的维度值分别为“N”、“K”、“P”、“Q”。

需要说明的是，为了提高卷积运算的性能，在本公开的方案中，将卷积运算转换为矩阵乘加运算，从而通过矩阵乘加运算实现对应的卷积运算。

图4示出了本公开的实施例的卷积运算转换为矩阵乘加运算的示意图。其中，经由步骤102，卷积核204被转换为目标卷积核304。其中，目标卷积核304例如可以以形状为[1,K,CRS]的第四张量表征，目标卷积核304具有3个维度，每一个维度所对应的维度值分别为“1”、“K”、“CRS”。需要说明的是，“CRS”为“C”、“R”、“S”三者的乘积。由卷积核204向目标卷积核304的转换，可以经由重塑操作实现。重塑操作例如可以利用重塑算子（例如reshape算子、view算子等）实现。

经由步骤104，卷积算子202被转换为矩阵乘的数据302。

具体实现时，步骤104例如包括：从高带宽存储器504获取待卷积运算的卷积算子202；经由向量核506，针对卷积算子202进行im2col操作，以便将操作结果确定为矩阵乘的数据302；基于卷积参数，将矩阵乘的数据302划分为多个子基本块322以写入片上高速缓存单元502。

待卷积运算的卷积算子202例如存储于高带宽存储器504中，向量核506从高带宽存储器504中读取卷积算子202，然后将卷积算子202转换为矩阵乘的数据302。

其中，矩阵乘的数据302例如可以以形状为[N,PQ,CRS]的第五张量表征，矩阵乘的数据302具有3个维度，每一个维度所对应的维度值分别为“N”、“PQ”、“CRS”。需要说明的是，“PQ”为“P”与“Q”的乘积，“CRS”为“C”、“R”、“S”三者的乘积。需要说明的是，作为一种简化的表达，图中未展示出矩阵乘的数据302的第三个维度所对应的维度值“N”。由卷积算子202向矩阵乘的数据302的转换，可以基于im2col算法实现。应当理解，基于im2col算法，可以实现例如将图像数据转换为矩阵形式。在一些实施例中，可以将im2col运算分配到其中一个编程单元（例如Cwarp0）中，映射到硬件向量核执行。

在一些实施例中，可以针对矩阵乘的数据302与目标卷积核304利用矩阵乘加（Matrix Multiply and Add，MMA）算法直接得到矩阵乘加结果306。当符合一定条件时，矩阵乘加结果306可以直接作为卷积结果。在一些情况下，可以对矩阵乘加结果306进行排布调整（reorder）操作，得到卷积结果206。在一些实施例中，可以将矩阵乘加运算分配到另一个编程单元（例如Cwarp1）中，映射到硬件张量核执行。

考虑到矩阵乘的数据302、目标卷积核304本身数据量较大，针对矩阵乘的数据302与目标卷积核304利用矩阵乘加算法直接得到矩阵乘加结果306，则占用的存储器资源较大。

因此，在一些实施例中，向量核506还将矩阵乘的数据302划分为多个子基本块322。图5示出了本公开的实施例的确定子矩阵乘加运算的示意图。在一些实施例中，经由向量核506，基于卷积参数，将矩阵乘的数据302划分为多个子基本块322以写入片上高速缓存单元502。其中所涉及的卷积参数例如包括步长（stride）、膨胀（dilation）、内核大小（kernel size）、填充（padding）中的至少一项。

相应地，方法100中还包括：将目标卷积核304划分为分别与多个子基本块322对应的多个子卷积核342。

然后，经由张量核508，针对每一组对应的子基本块322与子卷积核342分别利用矩阵乘加算法得到对应的子矩阵乘加结果362。

可以利用向量核506将第一个子基本块322存储至目标存储区400，在存储完成后，向量核506生成数据就绪信号，以便通知张量核508读取对应的子基本块322。也即，不必将矩阵乘的数据302的全部数据一次性从高带宽存储器504读取并存储至片上高速缓存单元502，这样可以节省存储空间，以便可以在GPGPU上设置较小的片上高速缓存单元502。在一些实施例中，卷积算子202例如存储在高带宽存储器504中，目标存储区400例如设置在片上高速缓存单元502中。其中，片上高速缓存单元502相比于高带宽存储器504更加靠近计算核（例如向量核506以及张量核508），因此，对片上高速缓存单元502的访问具有更高传输的速率。

在一些实施例中，张量核508用于执行矩阵乘加算法，以便基于每一个子基本块322以及所对应的子卷积核确定对应的子矩阵乘加结果362。张量核508在确定接收到对应的数据就绪信号后，读取对应的子基本块322（例如第一个子基本块322）。在读取对应的子基本块322（例如第一个子基本块322）完成后，张量核508生成存储区就绪信号，以便通知向量核506对应的子基本块322已读取完成、目标存储区400已就绪，向量核506可以继续向目标存储区400中存储下一个（例如第二个子基本块322）。向量核506确定收到存储区就绪信号后，向目标存储区400中存储下一个（例如第二个子基本块322）。与此同时，张量核508读取与第一个子基本块322对应的第一个子卷积核342，并针对第一个子基本块322以及对应的第一个子卷积核342进行矩阵乘加运算，以便得到第一个子基本块322以及第一个子卷积核342所对应的子矩阵乘加结果362。

图15示出了向量核以及张量核针对目标存储区操作的示意图。为了便于说明，其中说明性地示意出向量核“等待子存储区就绪”、“设置数据就绪”操作，张量核“等待数据就绪”、“设置子存储区就绪”操作。

然后，向量核506以及张量核508按照以上操作针对后续的子基本块322逐一进行相应的操作，以便将多个子基本块322按照预定顺序依次存储至目标存储区400，以便按照预定顺序依次读取多个子基本块322中的每一个子基本块322以确定对应的子矩阵乘加结果362。

在针对所有的子基本块322均分别完成矩阵乘加运算，得到对应的子矩阵乘加结果362之后，基于多个子基本块322对应的子矩阵乘加结果362确定矩阵乘的数据302与目标卷积核对应的矩阵乘加结果306。应当理解，矩阵乘加结果306可以用于确定卷积结果206。当符合一定条件时，矩阵乘加结果306可以直接作为卷积结果206。在一些情况下，可以对矩阵乘加结果306进行排布调整操作，得到卷积结果206。矩阵乘加结果306例如可以以形状为[N, PQ, K]的第六张量表征，矩阵乘加结果306具有3个维度，每一个维度所对应的维度值分别为“N”、“PQ”、“K”。

在一些实施例中，可以利用向量核506以及张量核508进行流水线操作，以便节省处理时间，提高运算效率。图6示出了本公开的实施例的时间轴的示意图。图7示出了本公开的实施例的目标存储区400的示意图。例如，目标存储区400中设置有第一子存储区402以及第二子存储区404。向量核506将对应的子基本块322（例如第一个子基本块322）存储至目标存储区400中的第一子存储区402和第二子存储区404中的其中一个（例如第一子存储区402）。然后，向量核506生成对应的数据就绪信号（例如表征第一子存储区402中的第一个子基本块322已就绪），以便通知张量核508读取对应的子基本块322。例如，在t0时刻至t1时刻之间，向量核506将对应的第一个子基本块322存储至目标存储区400中的第一子存储区402。然后，在t1时刻处，向量核506生成对应的数据就绪信号，以表征第一子存储区402中的第一个子基本块322已就绪，以便通知张量核508读取对应的子基本块322。

因为在初始状态下，第二子存储区404处于就绪状态，因此，向量核506在存储完成第一个子基本块322后，在t1时刻至t2时刻之间，继续向第二子存储区404中写入第二个子基本块322。

在t1时刻，张量核508在确定接收到对应的数据就绪信号后，从第一子存储区402中读取对应的子基本块322（例如第一个子基本块322）。在读取对应的子基本块322（例如第一个子基本块322）完成后，张量核508生成对应的子存储区就绪信号，以便通知向量核506对应的子基本块322已读取完成、第一子存储区402已就绪，向量核506可以继续向第一子存储区402中存储下一个子基本块322（例如第三个子基本块322）。

向量核506确定收到存储区就绪信号后，可以向目标存储区400中存储下一个子基本块322。

在t1时刻至t2时刻之间，张量核508还读取与第一个子基本块322对应的第一个子卷积核342，并针对第一个子基本块322以及对应的第一个子卷积核342进行矩阵乘加运算，以便得到第一个子基本块322以及第一个子卷积核342所对应的子矩阵乘加结果362。

也即，在t1时刻至t2时刻之间，向量核506执行向第二子存储区404中写入第二个子基本块322，与此同时，张量核508执行从第一子存储区402中读取第一个子基本块322、读取与第一个子基本块322对应的第一个子卷积核342，并针对第一个子基本块322以及对应的第一个子卷积核342进行矩阵乘加运算。向量核506与张量核508并行执行，可以有效节省运算时间，提高运算效率。

在t2时刻处，向量核506向第二子存储区404中写入第二个子基本块322执行完成，相生成对应的数据就绪信号，以表征第二子存储区404中的第二个子基本块322已就绪，以便通知张量核508读取对应的子基本块322。

另外，在t2时刻处，向量核506向对应的子存储区中存储对应的子基本块322执行完成，并且向量核506已经接收到对应的子存储区就绪信号（例如在t1时刻至t2时刻之间，张量核508所生成的用于表征第一子存储区402就绪的子存储区就绪信号），向量核506向目标存储区400中存储下一个子基本块322。例如，从t2时刻处开始，向量核506向第一子存储区402中存储第三个子基本块322。

因此，可以利用第一子存储区402和第二子存储区404这两个子存储区进行“乒乓操作”，以实现多个子基本块322按照预定顺序依次存取，可以有效节省存储空间。

由此可知，在tn时刻至t(n+1)时刻之间，向量核506执行向第一子存储区402和第二子存储区404中的其中一个中写入第n+1个子基本块322，与此同时，张量核508执行从第一子存储区402和第二子存储区404中的另一个中读取第n个子基本块322、读取与第n个子基本块322对应的第n个子卷积核342，并针对第n个子基本块322以及对应的第n个子卷积核342进行矩阵乘加运算，以便得到第n个子基本块322以及第n个子卷积核342所对应的子矩阵乘加结果362。

依此类推，在针对所有的子基本块322得到对应的子矩阵乘加结果362之后，基于多个子基本块322对应的子矩阵乘加结果362确定矩阵乘加结果。

在一些实施例中，参照图8，还可以将子卷积核342划分为多个分卷积核344，以及将对应的子基本块322划分为多个分基本块324。图8示出了本公开的实施例的确定分矩阵乘加结果的示意图。在一些实施例中，卷积算子202例如存储在高带宽存储器504中，目标存储区400例如设置在片上高速缓存单元502中。通过合理地划分子基本块322的大小以及与分基本块324的比例，可以有效降低针对高带宽存储器504的访问次数。

图9示出了本公开的实施例的时间轴的示意图。例如，在t0时刻至t1时刻之间，向量核506将对应的第一个子基本块322存储至目标存储区400中的第一子存储区402。然后，在t1时刻处，向量核506生成对应的数据就绪信号，以表征第一子存储区402中的第一个子基本块322已就绪，以便通知张量核508读取对应的子基本块322。

在t1时刻，张量核508在确定接收到对应的数据就绪信号后，从一子存储区中读取对应的分基本块（例如第一个子基本块322的第一个分基本块324）。t1时刻至t1_1时刻之间，张量核508执行从第一子存储区402中读取第一个分基本块324、读取与第一个分基本块324对应的第一个分卷积核344，并针对第一个分基本块324以及对应的第一个分卷积核344进行矩阵乘加运算，以便得到第一个分基本块324以及第一个分卷积核344所对应的分矩阵乘加结果364。t1_1时刻至t1_2时刻之间，张量核508执行从第一子存储区402中读取第二个分基本块324、读取与第二个分基本块324对应的第二个分卷积核344，并针对第二个分基本块324所对应的第二个分卷积核344进行矩阵乘加运算，以便得到第二个分基本块324以及第二个分卷积核344所对应的分矩阵乘加结果364。依此类推，在重复上述操作多次后，张量核508可以获得第一个子基本块322所对应的多个分基本块324分别对应的分矩阵乘加结果364。然后，张量核508基于多个分基本块对应的分矩阵乘加结果确定子矩阵乘加结果362。

其中，在张量核508读取第二个分基本块324所对应的最后一个分卷积核344之后，则意味着读取对应的子基本块322（例如第一个子基本块322）完成，张量核508（例如在t2时刻）生成对应的子存储区就绪信号，以便通知向量核506对应的子基本块322已读取完成、第一子存储区402已就绪，向量核506可以继续向第一子存储区402中存储下一个子基本块322（例如第三个子基本块322）。

在一些实施例中，可以将im2col运算、MMA运算以及针对矩阵乘加结果进行排布调整3个环境分别映射到Cwarp0、Cwarp1、Cwarp2处理。Cwarp0、Cwarp1、Cwarp2异步执行。每个异步执行的Cwarp均按照一定的分块（tile）大小循环处理，通过流水线相互隐藏访存时间。每个异步执行的Cwarp所对应的分块的大小，为该Cwarp的访存粒度，也即，该Cwarp每一次访存操作所读取或者写入的最小数据量。

例如，Cwarp0在执行im2col运算后，以“GMB_Tile”作为分块向目标存储区（例如片上高速缓存单元）中写入子基本块。“GMB_Tile”的大小对应于子基本块的大小。可以根据“GMB_Tile”的大小（即子基本块的大小）确定片上高速缓存单元中用于设置第一子存储区和第二子存储区的大小。假设，第一子存储区和第二子存储区的大小均为GMBShape= [kM,kK]。

Cwarp1以“GIB_Tile”作为分块从目标存储区（例如片上高速缓存单元）中读取分基本块。“GIB_Tile”的大小对应于分基本块的大小。可以根据“GIB_Tile”为张量核设置矩阵运算缓存区，矩阵运算缓存区的大小GIBShape=[kM, kN, kK]。矩阵运算缓存区可以为两块缓存区，第一块缓存区的大小Buf_A=[kM*kK], 第二块缓存区的大小Buf_B=[kK*kN],第一块缓存区以及第二块缓存区可以用于从GMB加载数据。

图14示出了本公开的实施例的时间轴的示意图。为了便于说明，其中以“GMB_TILE”表征Cwarp0针对以“GMB_Tile”作为分块的子基本块的操作所对应的时间区间；以“GIB_TILE”表征Cwarp1以“GIB_Tile”作为分块从目标存储区中读取分基本块所对应的时间区间。图中，第一行演示了Cwarp0（向量核）执行的im2col操作，在时间区间1402处，Cwarp0从高带宽存储器504中加载（load）数据。在时间区间1404处，Cwarp0按照“GMB_Tile”将结果写入片上高速缓存单元502中。第二行和第三行演示了张量核从片上高速缓存单元502加载数据并计算MMA结果，每次张量核循环粒度为“GIB_Tile”。其中，在时间区间1406处，张量核从片上高速缓存单元502加载数据；在在时间区间1408处，张量核执行MMA计算。值得说明的是，第二行和第三行对应的操作分别是加载数据和MMA计算操作，两者是异步的，可以并行。对于load_aync来说，只需指令发射到队列中，不需完成即可返回执行下一条指令（可能是MMA或其他load）。因此，同一时刻，张量核可能在load部件在加载数据，同时MMA在运算。图中，为了便于理解，图中以虚线箭头示意被处理的数据在时序上的对应关系。例如，在当前的时间区间1406处所加载的“GIB_Tile”来自于上一个周期Cwarp0所加载至片上高速缓存单元502的“GMB_Tile”；在当前的时间区间1408处所执行的MMA计算的数据源来自时间区间1406处张量核所加载的“GIB_Tile”。

值得说明的是，通过子基本块和分基本块的多级流水并行，得以充分大核计算能力优势。

对于卷积运算为conv1d卷积运算的情形，还可以采取措施，使得得到的矩阵乘加结果即为卷积结果，以便省略得到矩阵乘加结果之后，再进行排布调整操作的步骤。

所要进行的conv1d卷积运算中，卷积算子例如可以以形状为[N,C,W]的第七张量表征，卷积算子具有3个维度，每一个维度所对应的维度值分别为“N”、“C”、“W”；卷积核例如可以以形状为[K,C,S]的第八张量表征，卷积核具有3个维度，每一个维度所对应的维度值分别为“K”、“C”、“S”；所对应的卷积结果例如可以以形状为[N,K,Q]的第九张量表征，卷积结果具有3个维度，每一个维度所对应的维度值分别为“N”、“K”、“Q”。

图10示出了本公开的实施例的conv1d FWD卷积运算的示意图。在一些实施例中，以conv1d FWD卷积运算为例。在得到矩阵乘的数据以及目标卷积核之后，以目标卷积核作为左矩阵702，以矩阵乘的数据的转置矩阵作为右矩阵704，以便确定矩阵乘加结果。其中所得到的矩阵乘加结果即可直接作为卷积结果706。其中，左矩阵702例如可以以形状为[K,CRS]的张量表征，左矩阵702具有2个维度，每一个维度所对应的维度值分别为“K”、“CRS”。矩阵乘的数据例如可以以形状为[N,PQ,CRS]的张量表征，矩阵乘的数据具有3个维度，每一个维度所对应的维度值分别为“N”、“PQ”、“CRS”。右矩阵704为矩阵乘的数据的转置矩阵。

图11示出了本公开的实施例的conv1d BPA卷积运算的示意图。在一些实施例中，以conv1d BPA卷积运算为例。在得到矩阵乘的数据以及目标卷积核之后，以目标卷积核作为左矩阵802，以反向传播中输出的梯度数据的转置矩阵作为右矩阵804，以便确定矩阵乘加结果。其中所得到的矩阵乘加结果即可直接作为卷积结果806。其中，左矩阵802例如可以以形状为[C,KRS]的张量表征，左矩阵702具有2个维度，每一个维度所对应的维度值分别为“C”、“KRS”。反向传播中输出的梯度数据例如可以以形状为[N,HW,KRS]的张量表征，反向传播中输出的梯度数据具有3个维度，每一个维度所对应的维度值分别为“N”、“HW”、“KRS”。右矩阵704为反向传播中输出的梯度数据的转置矩阵。

图12示出了本公开的实施例的conv1d BPW卷积运算的示意图。在一些实施例中，以conv1d BPW卷积运算为例。在得到矩阵乘的数据以及目标卷积核之后，以反向传播中输出的梯度数据作为左矩阵902，以矩阵乘的数据作为右矩阵904，以便确定子矩阵乘加结果906。其中，左矩阵902例如可以以形状为[N,K,PQ]的张量表征，左矩阵902具有3个维度，每一个维度所对应的维度值分别为“N”、“K”、“PQ”。右矩阵904例如可以以形状为[N,PQ,CRS]的张量表征，右矩阵904具有3个维度，每一个维度所对应的维度值分别为“N”、“PQ”、“CRS”。

图13示出了可以用来实施本公开内容的实施例的方法的示例电子设备1300的示意性框图。如图所示，电子设备1300包括中央处理单元（即，CPU 1301），其可以根据存储在只读存储器（即，ROM 1302）中的计算机程序指令或者从存储单元1308加载到随机存取存储器（即，RAM 1303）中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1303中，还可存储电子设备1300操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出接口（即，I/O接口1305）也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标、麦克风等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法100，可由CPU 1301执行。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。当计算机程序被加载到RAM 1303并由CPU1301执行时，可以执行上文描述的方法100的一个或多个动作。

本公开涉及方法、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘电子设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于进行卷积运算的方法，其特征在于，包括：

对卷积核进行预处理，以便得到目标卷积核；

经由向量核，将卷积算子转换为矩阵乘的数据，并将矩阵乘的数据存储至目标存储区；以及

经由张量核，针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作，以便基于矩阵乘加结果生成卷积运算结果。

2.如权利要求1所述的方法，其特征在于，基于矩阵乘加结果生成卷积结果包括：

经由向量核，针对矩阵乘加结果进行排布调整，以便生成卷积运算结果。

3.如权利要求1所述的方法，其特征在于，经由向量核将卷积算子转换为矩阵乘的数据并将矩阵乘的数据存储至目标存储区包括：

从高带宽存储器获取待卷积运算的卷积算子；

经由向量核，针对卷积算子进行im2col操作，以便将操作结果确定为矩阵乘的数据；以及

基于卷积参数，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元。

4.如权利要求3所述的方法，其特征在于，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元包括：

经由向量核，将当前子基本块存储至片上高速缓存单元中的第一子存储区和第二子存储区中的其中一个；

生成对应的数据就绪信号；以及

在张量核读取当前子基本块时，经由向量核将下一子基本块存储至片上高速缓存单元中的第一子存储区和第二子存储区中的另一个。

5. 如权利要求4所述的方法，其特征在于，还包括：

张量核在确定接收到对应的数据就绪信号后，读取存储在第一子存储区和第二子存储区中的其中一个的当前子基本块；以及

张量核在完成当前子基本块的读取之后，生成对应的子存储区就绪信号。

6.如权利要求5所述的方法，其特征在于，将矩阵乘的数据划分为多个子基本块以写入片上高速缓存单元还包括：

向量核在确定接收到对应的子存储区就绪信号后，将对应的子基本块存储至对应的子存储区就绪信号所对应的子存储区。

7.如权利要求3所述的方法，其特征在于，还包括：

将目标卷积核划分为分别与多个子基本块相对应的多个子卷积核；

针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作包括：

分别针对多个子卷积核中的每一个子卷积核和对应的子基本块进行矩阵乘加操作，以确定对应的子矩阵乘加结果；以及

基于多个子基本块对应的子矩阵乘加结果确定矩阵乘加结果。

8.如权利要求7所述的方法，其特征在于，还包括：

将子基本块划分为多个分基本块；

将子卷积核划分为分别与多个分基本块相对应的多个分卷积核；

分别针对多个子卷积核中的每一个子卷积核和对应的子基本块进行矩阵乘加操作，以确定对应的子矩阵乘加结果包括：

分别针对多个分卷积核中的每一个分卷积核和对应的分基本块进行矩阵乘加操作，以确定对应的分矩阵乘加结果；以及

基于多个分基本块对应的分矩阵乘加结果确定子矩阵乘加结果。

9.如权利要求1所述的方法，其特征在于，针对目标卷积核和从目标存储区中读取的矩阵乘的数据进行矩阵乘加操作包括：

如果卷积运算为conv1d FWD卷积运算，则以子目标卷积核作为左矩阵，以子基本块的转置作为右矩阵，进行矩阵乘加操作；

如果卷积运算为conv1d BPA卷积运算，则以子目标卷积核作为左矩阵，以反向传播中输出的梯度数据的转置作为右矩阵，进行矩阵乘加操作；以及

如果卷积运算为conv1d BPW卷积运算，则以反向传播中输出的梯度数据作为左矩阵，以子基本块作为右矩阵，进行矩阵乘加操作。

10. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，所述计算机程序被机器执行时实现根据权利要求1至9中任一项所述的方法。