CN112784973A

CN112784973A - 卷积运算电路、装置以及方法

Info

Publication number: CN112784973A
Application number: CN201911067252.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Simm Computing Technology Co ltd
Current assignee: Beijing Simm Computing Technology Co ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2021-05-11
Also published as: WO2021088563A1

Abstract

本公开实施例公开了一种卷积运算电路、装置以及方法。其中该卷积运算电路包括：卷积运算控制电路；运算单元阵列，所述运算单元阵列包括多个运算单元；所述卷积运算控制电路用于接收卷积运算指令，按照所述卷积运算指令所指示的运算顺序逐个将所述输入数据和所述权重数据传送至所述多个运算单元中参与运算的运算单元，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据执行卷积运算操作，其中，所述指令为单条指令。通过上述方法，解决了现有技术中的在进行卷积计算时计算效率低、功耗大的技术问题。

Description

卷积运算电路、装置以及方法

技术领域

本公开涉及神经网络计算领域，尤其涉及一种卷积运算电路、装置以及方法。

背景技术

随着科学技术的发展，人类社会正在快速进入智能时代。智能时代的重要特点，就是人们获得数据的种类越来越多，获得数据的量越来越大，而对处理数据的速度要求越来越高. 芯片是数据处理的基石，它从根本上决定了人们处理数据的能力。从应用领域来看，芯片主要有两条路线：一条是通用芯片路线，例如CPU(Central Processing Unit，中央处理器) 等，它们能提供极大的灵活性，但是在处理特定领域算法时有效算力比较低；另一条是专用芯片路线，例如TPU(Tensor Processing Unit，张量处理器)等，它们在某些特定领域，能发挥较高的有效算力，但是面对灵活多变的比较通用的领域，它们处理能力比较差甚至无法处理。由于智能时代的数据种类繁多且数量巨大，所以要求芯片既具有极高的灵活性，能处理不同领域且日新月异的算法，又具有极强的处理能力，能快速处理极大的且急剧增长的数据量。

在人工智能计算中常常需要实现卷积计算，现有的实现卷积计算的方案中，通常有两种方案：

(1)CPU方案：此方案中，如果是单核CPU，会将卷积计算中涉及到的矩阵拆解成标量进行运算，通过组合标量指令实现卷积运算；如果是多核CPU，可能会通过多个核并行执行各自的标量指令，组合实现卷积运算。但是使用该方案有如下缺点：底层程序复杂，一般需要多层循环实现卷积运算；通过通用计算指令实现卷积运算，效率低，需要多次分支跳转； CPU的缓存有限，实现比较大的卷积运算需要多次从片外搬数，影响效率；CPU需要多次进行数据的存取，会增加实现卷积运算的计算时间；CPU需要多次进行数据的存取，会增加实现卷积运算加的计算功耗；如果是多核并行计算，核间的通信复杂，通信性能可能成为瓶颈。

(2)GPU(Graphics Processing Unit，图形处理器)方案：此方案中，GPU会将卷积运算拆解成多条指令运算，这些指令主要是向量指令，通过组合执行向量指令实现卷积运算。但是使用该方案有如下缺点：底层程序复杂，一般需要多层循环实现卷积运算；通过向量指令多次组合实现卷积运算，效率较低；GPU需要多次进行数据的存取，会增加实现卷积运算的计算时间；GPU需要多次进行数据的存取，会增加实现卷积运算的计算功耗；GPU的缓存有限，实现比较大的卷积运算需要多次从片外搬数，影响效率。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

为了解决现有技术中的在进行卷积计算时计算效率低、功耗大的技术问题，本公开实施例提出如下技术方案:

第一方面，本公开实施例提供一种卷积运算电路，包括：

卷积运算控制电路；

运算单元阵列，所述运算单元阵列包括多个运算单元；

所述卷积运算控制电路用于接收卷积运算指令，按照所述卷积运算指令所指示的运算顺序逐个将所述输入数据和所述权重数据传送至所述多个运算单元中参与运算的运算单元，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据执行卷积运算操作，其中，所述指令为单条指令。

进一步的，所述卷积运算指令包括指令名、输入数据的首地址、权重数据的首地址和输出数据的首地址。

进一步的，所述运算单元包括运算器，所述运算器至少包括乘法器和加法器；

所述运算单元用于根据所述卷积运算指令组合所述乘法器和所述加法器以执行卷积运算。

进一步的，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据的执行卷积运算操作，包括：

通过乘法器计算所述输入数据和所述权重数据的乘积；

通过加法器计算所述乘积的累加值；

将所述累加值输出。

进一步的，所述输入数据为第一输入矩阵的行向量数据；所述权重数据为卷积核的行向量数据。

第二方面，本公开实施例提供一种卷积运算装置，包括：

存储器，用于存储卷积运算指令、输入数据、权重数据以及输出数据；

取指模块，与所述存储器相连，用于从所述存储器中获取所述卷积运算指令；

解码模块，与所述取指模块相连，用于对所述取指模块所获取到的所述卷积运算指令进行解码；

寄存器，用于存储所述输入数据的属性数据、所述权重数据的属性数据和所述输出数据的属性数据；

执行模块，与所述解码模块、所述存储器和所述寄存器相连，包括如权利要求1-6所述的卷积运算电路，用于执行所述解码后的卷积运算指令。

进一步的，所述执行模块从所述解码模块中获取所述解码后的卷积运算指令；

所述执行模块从所述寄存器中获取所述输入数据的属性数据、所述权重数据的属性数据和所述输出数据的属性数据；

所述执行模块根据所述输入数据的属性数据和所述权重数据的属性数据从所述存储器中获取用于计算的所述输入数据和所述权重数据；

所述执行模块根据所述解码后的卷积运算指令对所述输入数据和权重数据进行计算得到输出数据；

所述执行模块根据所述输出数据的属性数据将所述输出数据存入所述存储器中。

进一步的，所述输入数据为第一输入矩阵的数据，所述权重数据为卷积核的数据，所述输出数据为卷积得到的输出矩阵的数据；所述输入数据的属性数据包括所述第一输入矩阵的行数、列数、深度以及深度存储间隔；所述权重数据的属性数据包括所述卷积核的行数、列数、步长以及卷积核的行存储间隔；所述输出数据的属性数据包括所述输出矩阵的行数、列数、深度以及深度存储间隔。

进一步的，所述执行模块根据所述输入数据的属性数据和所述权重数据的属性数据从所述存储器中获取用于计算的所述输入数据和所述权重数据，包括：

所述执行模块根据预设的第一读取方式以及所述输入数据的属性数据读取所述第一输入矩阵的数据；

所述执行模块根据预设的第二读取方式以及所述权重数据的属性数据读取所述卷积核的数据。

进一步的，所述第一读取方式为按行读取或按列读取；所述第二读取方式为按行读取或按列读取。

第三方面，本公开实施例提供一种矩阵运算方法，是基于前述第一方面中任一所述的卷积运算电路的矩阵运算方法，其特征在于，包括：

从存储器中取出卷积运算指令；

对所述卷积运算指令进行解码，并将所述解码后的卷积运算指令发送至所述卷积运算电路；

基于所述解码后的卷积运算指令，所述卷积运算电路从所述存储器中获取输入数据和权重数据并进行运算，在运算完成后将运算结果存储到所述存储器中。

第四方面，本公开实施例提供一种电子设备，包括：存储器，用于存储计算机可读指令；以及一个或多个处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现前述第三方面中的任一所述卷积运算方法。

第五方面，本公开实施例提供一种非暂态计算机可读存储介质，其特征在于，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行前述第三方面中的任一所述卷积运算方法。

第六方面，本公开实施例提供一种计算机程序产品，其中，其特征在于：包括计算机指令，当所述计算机指令被计算设备执行时，所述计算设备可以执行前述第三方面中的任一所述卷积运算方法。

第七方面，本公开实施例提供一种芯片，其特征在于，包括第一方面中的任一所述的矩阵运算电路。

第八方面，本公开实施例提供一种计算装置，其特征在于，包括所述第七方面中的任一所述的芯片。

本公开实施例公开了一种卷积运算电路、装置以及方法。其中该卷积运算电路包括：控制电路；卷积运算控制电路；运算单元阵列，所述运算单元阵列包括多个运算单元；所述卷积运算控制电路用于接收卷积运算指令，按照所述卷积运算指令所指示的运算顺序逐个将所述输入数据和所述权重数据传送至所述多个运算单元中参与运算的运算单元，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据执行卷积运算操作，其中，所述指令为单条指令。通过上述方法，解决了现有技术中的在进行卷积计算时计算效率低、功耗大的技术问题。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的矩阵运算电路的结构示意图；

图2为本公开实施例提供的运算单元的结构示意图；

图3为本公开实施例提供的运算单元的进一步的结构示意图；

图4a-图4b本公开实施例中的卷积运算的整体示意图；

图5-图9为本公开实施例提供的卷积运算的分解计算过程；

图10为本公开实施例中卷积运算的一个具体实例的示意图。

图11为本公开实施例提供的矩阵计算装置的结构示意图；

图12a-12e为本公开中的输入数据、权重数据和输出数据的存储格式的示意图；

图13为本公开中的卷积运算的分块计算的示意图；

图14a-图14f为使用本公开实施例中所公开的卷积运算电路进行卷积运算的实例示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例” 表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1为本公开实施例提供的卷积运算电路的结构示意图。如图1所述，卷积运算电路100 包括卷积运算控制电路101和运算单元阵列102，其中所述运算单元阵列包括多个运算单元 (PU)103，所述运算单元103如图2所示，包括第一输入寄存器(Rin1)104、第二输入寄存器(Rin2)105以及输出寄存器(Rout)106，其中所述第一输入寄存器104用于接收输入数据，所述第二输入寄存器105用于接收权重数据；所述卷积运算控制电路101用于接收卷积运算指令，按照所述卷积运算指令所指示的运算顺序逐个将所述输入数据和所述权重数据传送至所述多个运算单元103中参与运算的运算单元103，所述参与运算的运算单元103根据所述指令的指示，对所述输入数据和所述权重数据执行卷积运算操作，其中，所述指令为单条指令；所述输出寄存器106用于存储所述运算操作的运算结果，即输出数据。

其中所述卷积运算指令所指示的运算顺序是指在卷积运算时，卷积运算被分为多个步骤来执行，步骤之间的前后关系即为卷积运算指令所指示的运算顺序。具体的运算顺序可以参考下文对指令的说明。

参与运算的运算单元是指多个运算单元中执行具体运算的至少一个运算单元。

在本公开中，所述的卷积运算指令包括指令名、输入数据的首地址、权重数据的首地址和输出数据的首地址。如下表所示为一个示例性的指令格式：

其中指令名与指令含义、格式以及实现的运算对应，输入数据的首地址、权重数据的首地址分别定义了指令的两个源操作数的读取地址，输出数据的首地址定义了指令的目的操作数的存储地址。所述卷积指令中包括乘法运算操作和加法运算操作，其将输入数据和权重数据先执行乘法运算，再对乘法运算的结果进行累加，得到输入数据与权重数据的卷积结果，即输出数据。其中，一个输出数据的计算过程如下：

其中

图3为本公开实施例提供的运算单元的进一步的结构示意图。如图3所示，所述运算单元除了第一输入寄存器、第二输入寄存器以及输出寄存器之外，还包括运算器，所述运算器至少包括乘法器301以及加法器302，其中所述运算单元用于根据所述卷积运算指令组合所述乘法器和所述加法器以执行卷积运算。

具体的，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据的执行卷积运算操作，包括：通过所述乘法器计算所述输入数据和所述权重数据的乘积；通过所述加法器计算所述乘积的累加值；将所述累加值存入所述输出寄存器。其中，所述第一输入寄存器中的输入数据，是根据所述输入数据的首地址依次读入到所述第一输入寄存器中的数据；所述第二输入寄存器中的权重数据，是根据所述权重数据的首地址依次读入到所述第二输入寄存器中的数据。

例如，在卷积运算控制电路将输入数据和权重数据传送至运算单元之后，运算单元通过乘法器计算第一输入寄存器中的输入数据和第二输入寄存器中的权重数据的乘积，如上示例中，在一个时钟周期中，如果第一输入寄存器中接收到的数据为a₁，第二输入寄存器中接收到的数据为b₁,则运算单元中的乘法器计算a₁*b₁的乘积，之后将所述a₁*b₁的乘积送入加法器做累加，由于此时累加器在上一时钟周期没有输入，因此累加器的累加结果为a₁*b₁；之后在下一个时钟周期，继续上述计算操作，此时第一输入寄存器中接收到的数据为a₂，第二输入寄存器中接收到的数据为b₂,则运算单元中的乘法器计算a₂*b₂的乘积，之后将所述a₂*b₂的乘积送入加法器做累加，累加器上一时钟周期的输入为a₁*b₁，因此在本时钟周期计算a₁*b₁+a₂*b₂；持续做上述操作，直至输入数据的一行和权重数据的一列计算完毕，得到最终的累加值，之后将累加值存入所述输出寄存器中。卷积运算控制电路根据所述指令中的输出数据首地址，将所述输出寄存器中的累加值存储系统存储器中。

一个示例性的卷积运算如下：

图4a-图4b为本公开实施例中的卷积运算的示意图。如图4a为卷积运算过程的整体示意图，其中的图示解释如下：

Win：输入特征图(Feature Map)的宽度；

Hin：输入特征图的高度；

Cin：输入特征图的通道数，后面统称输入特征图的深度；

S_Cin：输入特征图的深度上的物理存储的间隔；

Wout：输出特征图的宽度；

Hout：输出特征图的高度；

Cout：输出特征图的通道数，后面统称输出特征图的深度；

S_Cout：输出特征图的深度上的物理存储的间隔；

Kw：卷积核的宽度；

Kh：卷积核的高度；

S_kernel：卷积核在物理存储上的间隔；

N_dilation：卷积核的膨胀值；

S_K：卷积滑动的步长；

N_pad_u：上方补0数；

N_pad_d：下方补0数；

N_pad_l：左方补0数；

N_pad_r：由方补0数。

其中输入特征图上的特征点构成为第一输入矩阵；输出特征图为输出矩阵，输出特征图上的一个特征点为输出矩阵上的一个数据。在进行卷积运算时，卷积核会在输入特征图上滑动，每滑动一次，就会与输入特征图中对应的数据进行数据乘累加，提取一个输出特征点，即输出矩阵上的一个数据。

图4b为一个带深度的输入特征点的计算示意图。如图4b所示，卷积核在输入特征图上滑动，当它停在一个位置，会与该位置处的输入特征图中的特征点进行对应数据乘累加，得到与该位置对应的输出特征点；共有Cout个卷积核，每一个卷积核均会与此同一位置出的输入特征图中的特征点进行数据乘累加，得到深度方向的Cout个输出特征点；Cout个输出特征点组成整个输出特征图上的一个带深度的特征点，此点的深度即Cout；卷积核会滑完整个输入特征图，从而得到整个输出特征图。

对于处于深度l(1<＝l<＝Cout)上的某个卷积核，它进行特征提取的公式如下：

Dout是输出特征图中的某个带深度的点，其上标l对应输出的深度；Din是指输入特征图中对应于卷积核的数据，其上标i对应输入特征图的深度，j和k分别对应卷积核对应的宽度和高度；w是卷积核，其上标l和i分别对应输出特征图的深度和输入特征图的深度，j 和k分别对应此卷积核的宽度和高度。

对于尺寸为Kh*Kw*Cin的卷积核，可以分成Kh个Kw*Cin的部分卷积核，进行部分特征提取，每次实现的是整个特征提取的1/Kh，也就是Kw*Cin的部分卷积核对应的特征，得到的部分结果是：

最后将这Kh个部分结果相加即得到最终结果

其中，

又可以分成Kw步，每一步实现

然后将Kw个部分结果相加即得到最终结果

的实现，是一个一行的输入数据矩阵(即部分的第一输入矩阵)和一个一列的权重矩阵(即部分的卷积核)相乘，其实现如图5所示。

的实现，同样是一个一行的输入数据矩阵和一个一列的权重矩阵相乘，只是此时的行和列中数据的个数是

中数据的个数的Kw倍，其实现如图6所示。

而对于得到一个完整的输出特征图的点的卷积，也就是

的实现，还是一个一行的输入数据矩阵和一个一列的权重矩阵相乘，只是此行和此列中元素的个数，是

中元素的个数的Kh倍，其实现如图7所示。

卷积核的数量是Cout个，因此，输出特征点的深度是Cout，可以将一行的输入数据矩阵与由Cout个卷积核构成的Cout列的卷积核矩阵即权重矩阵相乘，得出一个带深度的特征点，此特征点是一个向量，向量的长度即输出特征点的深度Cout，其实现如图8所示。

又由于神经网络实现卷积或者部分卷积的过程，就是卷积核在输入特征图上的滑动过程，可以看成是输入特征图的数据随着滑动变化，而权重不变的过程，这样神经网络实现卷积的过程就变成了卷积核在输出特征图上滑动Wout*Hout次，Wout*Hout行的输入数据矩阵和Cout 列的权重矩阵的相乘，得出Wout*Hout行、Cout列的输出数据矩阵，其实现如图9示。

上述的卷积运算，在本公开中只需要使用一条单独的指令，即上述卷积运算指令即可完成整个卷积过程，其只需要输入数据、权重以及输出数据会以预定的方式存储，使用单独的卷积运算电路来即可实现整个卷积。

具体的，在上述实施例中的卷积运算电路中：所述输入数据为第一输入矩阵的行向量数据；所述权重数据为卷积核的行向量数据。也就是说，第一输入寄存器中的数据和第二输入寄存器中的数据，均需要是矩阵的行向量数据，这样计算出来的数据才是卷积结果。如图10 所示为上述卷积计算的示意图，以第一输入矩阵为一个3*3*2的矩阵，卷积核为两个2*2*2 的矩阵为例，步长为1，输出矩阵为一个2*2*2的矩阵。如图10所示，进行卷积时，所述卷积核在所述第一输入矩阵上滑动，读取出的第一输入矩阵的数据如1001的所示，每行为卷积核1002的一个位置上对应的第一输入矩阵的数据，包括深度为2的4个数，一共8个数据； 1002中的一列为一个卷积核以深度优先的方式按行读出的数据，包括深度的为2的4个数，一共8个数据,；1001中的一行数据与1002中的一列数据做乘累加运算，得到1003中的一个数据，1003中的一个数据为输出矩阵上的一个深度为2的数据中的2个值中的一个，输出数据的每一行，对应于输出矩阵中的一个深度为2的数据。

结合图1-3所示的PU阵列，简要说明一下PU阵列如何实现卷积的计算。

如图10中所示，1001为第一输入矩阵的存储结构，1002为卷积核的存储结构，1003为输出矩阵的存储结构，1004为按照卷积的运算顺序，控制单元从所述1001中读取出的数据，每一行数据表示卷积核在第一输入矩阵上滑动时所对应的数据块。运算单元将数据读出后，逐个将数据送入参与运算的运算单元中。例如：将图10中第一输入矩阵的数据1004的第一行的第一个数值1送入PU11的Rin1和PU12的Rin1，第一输入矩阵的数据1004的第二行的第一个数值3送入PU21的Rin1和PU22的Rin1，第一输入矩阵数据1004的第三行的第一个数值7送入PU31的Rin1和PU32的Rin1，第一输入矩阵数据1004的第四行的第一个数值9送入PU41的Rin1和PU42的Rin1；将卷积核1002中的第一列的第一个数值0.1送入PU11 的Rin2、PU21的Rin2、PU31的Rin2以及PU41的Rin2，卷积核1002中的第二列的第一个数值0.9送入PU12的Rin2、PU22的Rin2、PU32的Rin2和PU42的Rin2；PU11、PU12、PU21、 PU22、PU31、PU32、PU41、PU42分别执行数据乘操作，并将结果送入输出寄存器保存；在下一个时钟周期，第一输入矩阵的数据1004的第一行的第二个数值2送入PU11的Rin1和PU12 的Rin1，第一输入矩阵的数据1004的第二行的第二个数值4送入PU21的Rin1和PU22的Rin1，第一输入矩阵数据1004的第三行的第二个数值8送入PU31的Rin1和PU32的Rin1，第一输入矩阵数据1004的第四行的第二个数值10送入PU41的Rin1和PU42的Rin1；将卷积核1002 中的第一列的第二个数值0.2送入PU11的Rin2、PU21的Rin2、PU31的Rin2以及PU41的 Rin2，卷积核1002中的第二列的第二个数值1.0送入PU12的Rin2、PU22的Rin2、PU32的 Rin2和PU42的Rin2，PU11、PU12、PU21、PU22、PU31、PU32、PU41、PU42分别执行此次的数据乘操作，并将结果送入输出寄存器与上次保存的结果进行累加。

依次类推，最后求得卷积的乘累加结果。

图11为本公开实施例提供的矩阵计算装置的结构示意图。如图11所示，所述卷积运算装置1100包括：存储器1101，用于存储卷积运算指令、输入数据、权重数据以及输出数据；取指模块1102，与所述存储器1101相连，用于从所述存储器1101中获取所述卷积运算指令；解码模块1103，与所述取指模块1102相连，用于对所述取指模块1102所获取到的所述卷积运算指令进行解码；寄存器1104，用于存储所述输入数据的属性数据、所述权重数据的属性数据和所述输出数据的属性数据；执行模块1105，与所述解码模块1103、所述存储器1101 和所述寄存器1104相连，包括上述实施例中的卷积运算电路，用于执行所述解码后的卷积运算指令。

在一个实施例中，所述执行模块从所述解码模块中获取所述解码后的矩阵运算指令；所述执行模块从所述寄存器中获取所述输入数据的属性数据、所述权重数据的属性数据和所述输出数据的属性数据；所述执行模块根据所述输入数据的属性数据和所述权重数据的属性数据从所述存储器中获取用于计算的所述输入数据和所述权重数据；所述执行模块根据所述解码后的卷积运算指令对所述输入数据和权重数据进行计算得到输出数据；所述执行模块根据所述输出数据的属性数据将所述输出数据存入所述存储器中。其中，所述输入数据为第一输入矩阵的数据，所述权重数据为卷积核的数据，所述输出数据为卷积得到的输出矩阵的数据；所述输入数据的属性数据包括所述第一输入矩阵的行数、列数、深度以及深度存储间隔；所述权重数据的属性数据包括所述卷积核的行数、列数、步长以及卷积核之间的存储间隔；所述输出数据的属性数据包括所述输出矩阵的行数、列数、深度以及深度存储间隔。其中，所述行数和列数定义了矩阵的大小，所述输入数据存储间隔定义了的输入数据在深度上的存储地址差，所述输出数据存储间隔定义了输出数据在深度上的存储地址差，所述卷积核的存储间隔定义了两个卷积核之间的存储地址差。例如第一输入矩阵在深度方向上有10个int8的矩阵元素，如果是连续存储，那么行存储间隔就是10Byte，如果是以一定的间隔存储，例如 20Byte，那么有10Byte是矩阵元素，另外10Byte的内容不属于本矩阵，可能是无效的数据，也可能是其他用途的数据。

可选的，所述执行模块根据所述输入数据的属性数据和所述权重数据的属性数据从所述存储器中获取用于计算的所述输入数据和所述权重数据，包括：所述执行模块根据预设的第一读取方式以及所述输入数据的属性数据读取所述第一输入矩阵的数据；所述执行模块根据预设的第二读取方式以及所述权重数据的属性数据读取所述卷积核的数据。可选的，所述第一读取方式为按行读取或按列读取；所述第二读取方式为按行读取或按列读取。

举例来说，如果所述属性数据定义了第一输入矩阵的行数为5行，列数为5列，深度为 2，深度存储间距为4，预设的读取方式为按行读取，则根据指令中的第一输入矩阵的首地址、列数、深度以及深度存储间隔读取第一输入矩阵的第一行，通过列数可以知道该第一行有5 个矩阵元素，每个矩阵元素的深度为2，则读取2*5＝10个数据之后，得到第一输入矩阵的一行数据，之后将首地址加上5个深度存储间隔作为新的首地址，读取第二行，同样是5个矩阵元素，这样依次读取5次，则所述执行模块可以获取到第一输入矩阵的所有数据。

同样的，所述卷积核的数据按照同样的方式获取。可选的，所述执行模块根据所述输出矩阵的属性数据将所述输出矩阵的数据存入所述存储器中，包括：所述执行模块根据预设的存储方式以及所述输出矩阵的属性数据将所述输出矩阵的数据存入所述存储器中。其中，所述预定的存储方式为按行存储或者按列存储，具体的存储方式与读取类似，只是方向相反，在此不再赘述。

图12a为本公开中的第一输入矩阵的存储顺序和格式的示意图。如图12a所示，为上述实施例中的第一输入矩阵的一个示例，其在存储器中存储时，按照深度Cin优先，然后是宽度 Win，最后是高度Hin的方式存储，深度的间隔为S_Cin。以Cin＝2、Win＝3、Hin＝3、S_Cin＝4 为例，先存储Hin＝3行中的第一行的第一个点，由于带深度，所述一个点包含2个数据，由于S_Cin＝4，因此在存储的首地址上加上4个数据的存储地址，再存第二个点，也包含2个数据，之后再在该点的首地址上加上4个数据的存储地址，再存第三个点，也包含2个数据，直到存完第3个点，第一行一共有3*2＝6个数据，包含Win方向上的3个点；之后开始存 Hin＝3行中的第二行的第一个点，依次这样存储，直到所有的点被存储完毕。第一输入矩阵的存储顺序和格式的实例如图12b所示。

图12c为本公开的卷积核的存储顺序和格式的示意图，如图12c所示，为上述实施例中的卷积核的一个示例，其在存储器中存储时，按照Cout(卷积核的个数)优先的方式按行存储，每一列存储一个卷积核，在列方向上，按照卷积核的深度Cin优先，然后是宽度Kw，然后是高度Kh的方式存储。以Cout＝2、Cin＝2、Kw＝2、Kh＝2、S_kernel＝2为例，一共会存储Cin*Kw*Kh＝8 行数据，每行存储2个数据。先存储第一个卷积核的第一行第一列的深度为2的点中的第一个数据，再存储第二个卷积核的第一行第一列的深度为2的点中的第一个数据，完成卷积核的第一行数据的存储；之后通过卷积核的首地址加上S_kernel计算第二行的首地址，存储第一个卷积核的第一行第一列的深度为2的点中的第二个数据，再存储第二个卷积核的第一行第一列的深度为2的点中的第二个数据，完成卷积核的第二行数据的存储,依次这样存储，直到所有的点被存储完毕。卷积核的存储顺序和格式的实例如图12d所示。

因为输出矩阵可以用作下一次卷积计算的第一输入矩阵，因此在一个实施例中，所述输出矩阵的存储顺序和格式与第一输入矩阵相同，如图12e所示为本公开的输出矩阵的存储顺序和格式的示意图。

如图12a中所示的rs1即为第一输入矩阵的首地址。通过存储格式的设定以及读取方式的设定可以控制读入的矩阵的数据，如按照上述示例中的按深度方向顺序存储，配合按行读取以及深度间隔，则可以读取出第一输入矩阵的行向量数据。如图12c中所示的rs2即为卷积核的首地址，通过存储格式的设定以及读取方式的设定可以控制读入的矩阵的数据，如按照上述示例中的顺序进行存储，配合按行读取以及卷积核的行间隔，则可以读取出卷积核的行向量数据。第一输入矩阵和卷积核的数据读出之后，利用上述卷积运算指令完成单指令的卷积运算。如图12e中所示的rd1即为输出矩阵的首地址。上述卷积运算指令所计算出的输出数据，按照图12e中的方式从rd1开始存储，直至所有的输出数据存储完毕。

在调用上述卷积运算指令之前，需要定义卷积运算的参数，在本公开中设置了寄存器1104 来存储卷积的参数，可以对所述第一输入矩阵、所述卷积核和所述输出矩阵的属性数据进行设置。寄存器1104的一个示例配置如下表所示：

其中，FM_in为第一输入矩阵，FM_out为输出矩阵，Kernel为卷积核。

在卷积运算中，卷积运算控制电路，按逻辑运算的顺序，计算输入数据、权重数据和输出数据的地址；运算单元阵列根据地址，从存储器中读取输入数据和权重数据，进行计算，然后将计算结果根据输出数据的地址存入存储器，完成整个卷积运算。

但是由于运算单元阵列中的运算单元个数有限，例如只有M*N个，而输出矩阵的元素个数远多于M*N个，因此在卷积运算中，通常会将输入数据和权重分块读入，而对输出数据也是分块输出存储，其卷积运算的示意图如图13所示，将输入数据和权重数据分为多个M*N的数据块输入运算单元阵列，将计算的结果也分为多个M*N的数据块分别输出。

如图14a-14f为上述卷积运算电路根据所述卷积运算指令进行卷积运算的一个实例。在该实例中，卷积运算的参数如下：

运算单元阵列M*N是2*2；

输入数据(第一输入矩阵)的属性数据为：Win＝Hin＝Cin＝4,S_Cin＝8；

输出数据(输出矩阵)的属性数据为：Wout＝Hout＝Cout＝4,S_Cout＝8；

权重数据(卷积核)的属性数据为：S_kernel＝8,Kw＝Kh＝1,N_dilation＝1,S_K＝1；

Padding的参数为：N_pad_u＝N_pad_d＝N_pad_l＝N_pad_r＝0。

整个卷积示意图如图14a所示：4*4*4的输入数据与4个1*1*4的权重数据进行卷积运算得到4*4*4的输出数据。

其中，所述输入数据的存储格式如图14b所示，输入数据存储格式中的每一行存储了一个深度为4的输入数据中的点，相邻两点之间的间隔为8。权重数据的存储格式如图14c所示，权重数据的存储格式中的每一列存储了一个卷积核的4个点，每一行存储的是同深度上的4个卷积核的点，行间隔为8。输出数据的存储格式如图14d所示，输出数据的存储格式与输入数据的存储格式相同，输出数据存储格式中的每一行存储了一个深度为4的输出数据中的点，相邻两点之间的间隔为8。

卷积的实际计算过程如图14e和图14f所示。具体的，在一个时钟周期中，卷积运算控制电路从第一输入矩阵中读取输入数据，将输入数据送入运算单元的第一输入寄存器中，卷积运算控制电路从卷积核中读取权重数据，将权重数据送入运算单元的第二输入寄存器中，在下一个时钟周期中，运算单元中的运算器使用第一输入寄存器中的输入数据和第二输入寄存器中权重数据进行乘运算，并与之前的周期中的乘加运算的累计值进行累加。如图14e所示，由于运算单元阵列的大小为2*2,因此以2*2为单元分别取输入数据和权重数据进行计算。第一次取数据和权重进行矩阵乘加运算，之后暂存中间数据。每一个运算单元PU实现的是其对应的输入数据的行和权重数据的列的乘加，例如在输入数据和权重数据已经被送入运算单元的第一输入寄存器和第二输入寄存器中时，在第一个时钟周期，PU11计算1*0.1＝0.1，由于0.1只是整个卷积的一部分，所以将它暂时存在输出寄存器，而不是写入存储器中。同样，PU12计算1*0.5＝0.5；PU21计算5*0.1＝0.5；PU22计算5*0.5＝2.5。在计算完上述数据之后，在第二个时钟周期，PU11计算2*0.2＝0.4，且累加上次的计算结果0.1，得到：0.4+0.1＝0.5，将它暂时存在输出寄存器；PU12计算2*0.6＝1.2，且累加上次的计算结果0.5，得到： 1.2+0.5＝1.7，将它暂时存在输出寄存器；PU21计算6*0.2＝1.2，且累加上次的计算结果0.5，得到：1.2+0.5＝1.7，将它暂时存在输出寄存器；PU22计算6*0.6＝3.6，且累加上次的计算结果2.5，得到：3.6+2.5＝6.1，将它暂时存在输出寄存器。在第三个时钟周期，PU11计算 3*0.3＝0.9，且累加上次的计算结果0.5，得到：0.9+0.5＝1.4，将它暂时存在输出寄存器； PU12计算3*0.7＝2.1，且累加上次的计算结果1.7，得到：2.1+1.7＝3.8，将它暂时存在输出寄存器；PU21计算7*0.3＝2.1，且累加上次的计算结果1.7，得到：2.1+1.7＝3.8，将它暂时存在输出寄存器；PU22计算7*0.7＝4.9，且累加上次的计算结果6.1，得到：4.9+6.1＝11，将它暂时存在输出寄存器。在第四个时钟周期，PU11计算4*0.4＝1.6，且累加上次的计算结果1.4，得到：1.6+1.4＝3，将它暂时存在输出寄存器；PU12计算4*0.8＝3.2，且累加上次的计算结果3.8，得到：3.2+3.8＝7，将它暂时存在输出寄存器；PU21计算8*0.4＝3.2，且累加上次的计算结果3.8，得到：3.2+3.8＝7，将它暂时存在输出寄存器；PU22计算8*0.8＝6.4，且累加上次的计算结果7.4，得到：6.4+11＝17.4，将它暂时存在输出寄存器，得到输出数据，如图14f所示。

最终所有的输出结果会存入到存储区中。

可以理解的，每个运算单元PU的第一输入寄存器、第二输入寄存器和输出寄存器可以有多个，这样卷积运算控制电路在向第一输入寄存器、第二输入寄存器传送数据时以及从输出寄存器中读取数据时，可以在不同的寄存器之间交替进行，以便做到向寄存器传送数据和运算单元进行运算的并行操作，提高计算效率。

本公开实施例还提供了一种卷积运算方法，是基于前述任一卷积运算电路的卷积运算方法，其特征在于，包括：从存储器中取出卷积运算指令；对所述卷积运算指令进行解码，并将所述解码后的卷积运算指令发送至所述卷积运算电路；基于所述解码后的卷积运算指令，所述卷积运算电路从所述存储器中获取输入数据和权重数据并进行运算，在运算完成后将运算结果存储到所述存储器中。

本公开实施例还提供了一种电子设备，包括：存储器，用于存储计算机可读指令；以及一个或多个处理器，用于运行所述计算机可读指令，使得所述处理器运行时实现前述实施例中的任一所述卷积运算方法。

本公开实施例还提供了一种非暂态计算机可读存储介质，其特征在于，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行前述实施例中的任一所述卷积运算方法。

本公开实施例提供一种计算机程序产品，其中，其特征在于：包括计算机指令，当所述计算机指令被计算设备执行时，所述计算设备可以执行前述实施例中的任一所述卷积运算方法。

本公开实施例提供一种芯片，其特征在于，包括前述实施例中的任一所述的卷积运算电路。

本公开实施例提供一种计算装置，其特征在于，包括前述实施例中的任一所述的芯片。

本公开附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

Claims

1.一种卷积运算电路，包括：

卷积运算控制电路；

运算单元阵列，所述运算单元阵列包括多个运算单元；

所述卷积运算控制电路用于接收卷积运算指令，按照所述卷积运算指令所指示的运算顺序逐个将输入数据和权重数据传送至所述多个运算单元中参与运算的运算单元，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据执行卷积运算操作，其中，所述指令为单条指令。

2.如权利要求1所述的卷积运算电路，其特征在于，所述卷积运算指令包括指令名、输入数据的首地址、权重数据的首地址和输出数据的首地址。

3.如权利要求3所述的卷积运算电路，其特征在于：

所述运算单元包括运算器，所述运算器至少包括乘法器和加法器；

4.如权利要求3所述的卷积运算电路，其特征在于，所述参与运算的运算单元根据所述指令的指示，对所述输入数据和所述权重数据的执行卷积运算操作，包括：

通过所述乘法器计算所述输入数据和所述权重数据的乘积；

通过所述加法器计算所述乘积的累加值；

将所述累加值输出。

5.如权利要求4所述的卷积运算电路，其特征在于：

所述输入数据为第一输入矩阵的行向量数据；

所述权重数据为卷积核的行向量数据。

6.一种卷积运算装置，包括：

7.如权利要求6所述的卷积运算装置，其特征在于：

所述执行模块从所述解码模块中获取所述解码后的卷积运算指令；

8.如权利要求7所述的卷积运算装置，其特征在于：

所述输入数据为第一输入矩阵的数据，所述权重数据为卷积核的数据，所述输出数据为卷积得到的输出矩阵的数据；

所述输入数据的属性数据包括所述第一输入矩阵的行数、列数、深度以及深度存储间隔；

所述权重数据的属性数据包括所述卷积核的行数、列数、步长以及卷积核的行存储间隔；

所述输出数据的属性数据包括所述输出矩阵的行数、列数、深度以及深度存储间隔。

9.如权利要求7所述的卷积运算装置，其中，所述执行模块根据所述输入数据的属性数据和所述权重数据的属性数据从所述存储器中获取用于计算的所述输入数据和所述权重数据，包括：

10.如权利要求9所述的卷积运算装置，其特征在于：

所述第一读取方式为按行读取或按列读取；

所述第二读取方式为按行读取或按列读取。

11.一种卷积运算方法，是基于权利要求1至5中的任一项所述的卷积运算电路的卷积运算方法，其特征在于，包括：

从存储器中取出卷积运算指令；