CN112115665A

CN112115665A - 存算一体存储阵列及其卷积运算方法

Info

Publication number: CN112115665A
Application number: CN202010961690.2A
Authority: CN
Inventors: 沈灵; 蒋宇; 严慧婕; 段杰斌; 温建新
Original assignee: Shanghai IC R&D Center Co Ltd; Shanghai IC Equipment Material Industry Innovation Center Co Ltd
Current assignee: Shanghai IC R&D Center Co Ltd; Shanghai IC Equipment Material Industry Innovation Center Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-22
Anticipated expiration: 2040-09-14
Also published as: CN112115665B

Abstract

本发明提供了一种存算一体存储阵列及其卷积运算方法，通过同步操作同组斜向块，可完成输入矩阵及权重矩阵的卷积运算，且同步得到结果矩阵的每个元素，实现并行运算，从而节省时间和功耗；尽管每一次卷积运算涉及到的存储单元很稀疏，但是通过开关管可控制不需要参与运算的存储单元关闭，不会造成存储单元的浪费，也不会增加功耗。

Description

存算一体存储阵列及其卷积运算方法

技术领域

本发明涉及集成电路设计技术领域，尤其涉及一种存算一体存储阵列及其卷积运算方法。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是人工智能领域主要用于处理图像数据的一种网络架构。这种网络结构针对图像的特点，在常规的深度神经网络上进行了一些改进，结构主要包括了卷积层(Convolutional layer)，池化层(poolinglayer)和全连接层(fully connected layers)。

近年来，随着新型存储技术的发展，基于存储阵列的存算一体存储结构逐渐成为优化卷积神经网络运算速度和功耗的一种可行的技术。现在的存算一体存储结构主要利用了存储阵列的矩阵结构，与卷积神经网络中全连接层的结构相似，同时可以利用电学信号进行乘加运算，在实现方式上比较直观。

在卷积神经网络中，卷积层也占据了整个网络相当部分的运算量，现有的应用于全连接层的存储矩阵结构与卷积层的运算方式并不完全匹配。图1为卷积运算中每一层的卷积运算示意图，如图1所示，每次运算都会用到一个卷积核(权重矩阵W)，里面存在权重值，在运算时，会从输入矩阵X中选取与卷积核相同的区域，将该区域的每一个输入值与卷积核的相应权重值相乘，然后将所有乘积相加，作为一个输出值；然后不断重复乘加步骤直至得到结果矩阵Y。这种卷积的乘加方式，利用传统的存储阵列比较难以实现，主要的难点在于，无法简单的将处于不同行的乘积数值叠加在一起，以及无法简单的在同一时刻运算出多个卷积输出值。

发明内容

本发明的目的在于提供一种存算一体存储阵列及其卷积运算方法，能够在存储阵列中实现卷积运算。

为了达到上述目的，本发明提供了一种存算一体存储阵列，可用于输入矩阵X与权重矩阵W的卷积运算，所述输入矩阵X具有i行j列，所述权重矩阵W具有n行n列，i＝n＞1，j≤2n-1，至少包括p行q列存储单元，其中，p≥n(2n-1)，q＝n；

每列中相邻的n个存储单元构成一运算块，所述运算块中的n个存储单元的输出端均连接至同一开关管的一端，所述开关管的另一端作为所述运算块的输出端，同一列运算块的输出端相连后作为该列存储单元的输出端，同一行的存储单元的输入端相连后作为该行存储单元的输入端；

在行方向上相邻的n个运算块构成一斜向块，所述斜向块中的n个运算块的开关管位于同行且同步开闭，所述斜向块中第k列的运算块与第k+1列的运算块向下错位一个存储单元，其中，1≤k≤n-1；

在列方向上相隔(2n-1)行的斜向块的斜向块为同组斜向块，同组斜向块中的开关管同步开闭。

可选的，每个所述斜向块具有(2n-1)行存储单元及n列存储单元。

可选的，从上至下第m个斜向块中的n个所述运算块的开关管均位于第m·n行，其中m为正整数，且m·n≤p。

可选的，第m个斜向块中的n个所述运算块的开关管均由一条控制线控制。

可选的，每个所述斜向块中均具有n²个存储单元。

可选的，所述存储单元输出的数据为所述存储单元存储的数据与输入端输入的数据的乘积，所述运算块的输出端输出的数据为其包括的n个存储单元输出的数据的叠加。

可选的，每列存储单元的输出端输出的数据为该列中所述开关管开启的运算块输出的数据的叠加。

可选的，所述存储单元包括闪存、阻变存储器或忆阻器中的任一种。

本发明还提供了一种所述存算一体存储阵列的卷积运算方法，包括：

打开n个同组斜向块中的开关管，关闭其余的开关管；

在n个同组斜向块的第f个斜向块中，按照从上往下的顺序逐行向每行存储单元的输入端输入输入矩阵X中的x_f1～x_fj元素，向每个所述运算块的n个存储单元对应输入权重矩阵W中的w_f1～w_fn元素；

将n列存储单元的输出端输出的数据组合为结果矩阵Y。

可选的，所述结果矩阵Y具有一行及j-n+1列，每列存储单元的输出端输出的数据为所述结果矩阵Y中对应列的元素。

在本发明提供的存算一体存储阵列及其卷积运算方法具有如下有益效果：

1)通过同步操作同组斜向块，可完成输入矩阵及权重矩阵的卷积运算，且同步得到结果矩阵的每个元素，实现并行运算，从而节省时间和功耗；

2)尽管每一次卷积运算涉及到的存储单元很稀疏，但是通过开关管可控制不需要参与运算的存储单元关闭，不会造成存储单元的浪费，也不会增加功耗。

附图说明

图1为卷积运算中每一层的卷积运算示意图；

图2为本发明实施例提供的存算一体存储阵列的示意图；

图3为本发明实施例提供的存算一体存储阵列的局部示意图；

图4为本发明实施例提供的存算一体存储阵列在进行运算时的示意图；

图5为本发明实施例提供的存算一体存储阵列的卷积运算方法的流程图；

图6为本发明实施例提供的存算一体存储阵列中的前23行的示意图。

具体实施方式

下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

对于输入矩阵X与权重矩阵W的卷积运算，其结果矩阵Y可以用下列公式表示：

其中，y_uv为结果矩阵Y中第u行第v列的元素，x_ij为输入矩阵X中第i行第j列的元素，i＝u+s，j＝v+t，w_rz为权重矩阵W中第r行第s列的元素，r＝s+1，z＝t+1，且权重矩阵W为具有n行及n列卷积核，n为大于1的整数，s、t无实际含义。

可以将公式(1)变换为公式(2)：

或者可以将公式(1)变换为公式(3)：

可见，结果矩阵Y的每个元素均可以通过两步计算得到，其中第一步计算输入矩阵X的每一行与相应权重的乘加和，第二步将各行的乘加和再叠加起来。

基于此，本实施例提供了一种存算一体存储阵列，可对输入矩阵X与权重矩阵W的卷积运算得到结果矩阵Y。本实施例中，输入矩阵X的行数i及列数j与等于权重矩阵W的尺寸n满足如下关系：i＝n，j≤2n-1，如此一来，当输入矩阵X与权重矩阵W进行卷积运算之后，结果矩阵Y为一维矩阵，只有一行及(j-n+1)列，即：结果矩阵Y＝[y₁₁、y₁₂、…、y_1(j-n+1)]，本实施例中，j＝2n-1，结果矩阵Y具有n列。

所述存算一体存储阵列至少包括p行q列存储单元，也即，每一行中包括q个存储单元，每列中包括p个存储单元，其中，p≥n(2n-1)，q＝n。为了便于描述，接下来本实施例将以p＝n(2n-1)，q＝n为例对本实施例提供的存算一体存储阵列进行详细描述。

图2为本实施例提供的存算一体存储阵列的示意图，图3为本实施例提供的存算一体存储阵列的局部示意图，应理解，图2及图3中每行和每列仅绘制出部分存储单元，其余的存储单元仅是为了展示方便而未绘制出，并非是不存在。如图2及图3所示，所述存算一体存储阵列具有p(p＝n(2n-1))行及q(q＝n)列，每行中的q个存储单元的输入端相连作为这一行存储单元的输入端，每列中的p个存储单元的输出端相连作为这一列存储单元的输出端，从图2中可见，所述存算一体存储阵列具有p个输入端及q个输出端(C₁～C_n)。

请继续参阅图2及图3，每列中相邻的n个存储单元构成一运算块。例如，图2中适应性的展示出了运算块A11、A21…A(n-1)1、An1、Ak1、Ak1…A(k-1)1、A(k-1)1、A1n、A2n…A(n-1)n及Ann。

每个运算块中包括n个位于同一列的存储单元，每个运算块中的n个存储单元的输出端均连接至一开关管的一端，所述开关管的另一端作为运算块的输出端(D₁～D_n)，如此一来，每个运算块中的n个存储单元受同一个开关管控制，不同的运算块通过不同的开关管控制，通过控制运算块中的开关管开启或关闭即可控制该运算块中的n个存储单元同步开启或关断。进一步地，同一列的所有运算块的开关管的另一端相连后作为该列存储单元的输出端。

请继续参阅图2及图3，相邻的n个运算块构成一斜向块。例如，运算块A11、A21…A(n-1)1、An1构成斜向块B1，运算块A1k、A2k…A(n-1)k、Ank构成斜向块Bk，运算块A1n、A2n…A(n-1)n及Ann构成斜向块Bn。

所述斜向块中的运算块顺次向下错位一个存储单元，也即，第k列的运算块与第k+1列的运算块向下错位一个存储单元，其中，1≤k≤n-1。以斜向块B1为例，运算块A11中的n个存储单元位于第1列～第n列，与运算块A11相邻的运算块A21中的n个存储单元则位于第2列～第n+1列，…与运算块A(n-1)1相邻的运算块An1中的n个存储单元则位于第n列～第2n-1列，可见，运算块A21较运算块A11向下错位一个存储单元，…运算块An1较运算块A(n-1)1向下错位一个存储单元。类似的，斜向块Bk、Bn中的运算块也均顺次向下错位一个存储单元。由此可见，每个斜向块具有(2n-1)行存储单元及n列存储单元。

进一步地，所述斜向块中的n个运算块的开关管位于同行。具体而言，从上至下第m个斜向块中的n个所述运算块的开关管均位于第m·n行且由一条控制线控制，其中m为正整数，且m·n≤p。例如，斜向块B1是第一个斜向块，斜向块B1中的运算块A11、A21…A(n-1)1、An1的开关管均位于第n行处，且均由控制线S1控制；斜向块Bk是第k个斜向块，斜向块Bk中的运算块A1k、A2k…A(n-1)k、Ank的开关管均位于第kn行处，且均由控制线Sk控制；斜向块Bn是第n个斜向块，斜向块Bn中的运算块A1n、A2n…A(n-1)n、Ann的开关管均位于第n行处，且均由控制线Sn控制。如此一来，每个斜向块中的n个运算块的开关管可同步开闭，从而控制整个斜向块中的所有存储单元同步开启或关断。

进一步地，在列方向上相隔(2n-1)行的斜向块为同组斜向块，同组斜向块中的处于相同的n列存储单元中，同组斜向块中的开关管可同步开闭。例如，斜向块B1、Bk、Bn即为同组斜向块，因为其均包括第1列～第n列存储单元。同组斜向块中的开关管可同步开闭。如此一来，同组斜向块的所有存储单元可同步开启和关断。应理解，按照本实施例中的开关管的排布方式，不是同组斜向块中的运算块的控制线处于不同行，由此可以保证，在开启同组斜向块中的存储单元时，可以关闭不是同组斜向块中的存储单元。

应理解，存储单元输出的数据为存储单元存储的数据与输入端输入的数据的乘积，运算块的输出端(D₁～D_n)输出的数据为其包括的n个存储单元输出的数据的叠加，相当于计算公式(3)中的

每列存储单元的输出端(C₁～C_n)输出的数据为该列中所述开关管开启的运算块输出的数据的叠加，相当于计算出公式(3)中的

如此一来，通过控制线开启同组斜向块中的开关管之后，在同组斜向块的存储单元中存入权重矩阵W的元素，并对每行存储单元的输入端输入输入矩阵X的元素，即可实现输入矩阵X与权重矩阵W的卷积运算。

基于此，本实施例提供了所述存算一体存储阵列的卷积运算的方法，包括如下步骤：

步骤L1：打开n个同组斜向块中的开关管，关闭其余的开关管；

步骤L2：在n个同组斜向块的第f个斜向块中，按照从上往下的顺序逐行向每行存储单元的输入端输入输入矩阵X中的x_f1～x_fj元素，向每个所述运算块的n个存储单元对应输入权重矩阵W中的w_f1～w_fn元素；

步骤L3：将n列存储单元的输出端输出的数据组合为结果矩阵Y。

图5为存算一体存储阵列在进行运算时的示意图。请参阅图5，首先执行步骤L1，选取n个同组斜向块，本实施例中，选取同组斜向块B1…Bk…Bn，通过同组斜向块B1…Bk…Bn对应的控制线S1…Sk…Sn开启同组斜向块B1…Bk…Bn中的所有开关管，从而打开同组斜向块B1…Bk…Bn中的存储单元，并关闭其他的开关管，从而关闭其他的存储单元。

执行步骤L2，将输入矩阵X中的元素输入n个同组斜向块中。具体的，在n个同组斜向块的第f个斜向块中，按照从上往下的顺序逐行向每行存储单元的输入端输入输入矩阵X中的x_f1～x_fj元素，向每个所述运算块的n个存储单元对应输入权重矩阵W中的w_f1～w_fn元素。例如，对于第一个斜向块B1，f＝1，顺次在第一行～第(2n-1)行的存储单元的输入端输入x₁₁、x₁₂、x₁₃、…x_1(2n-1)，在运算块A11、A21…A(n-1)1、An1中的n个存储单元中均从上至下存储w₁₁、w₁₂、…w_1(n-1)、w_1n；对于第k个斜向块Bk，f＝k，顺次在第一行～第(2n-1)行的存储单元的输入端输入x_k1、x_k2、x_k3、…x_k(2n-1)，在运算块A1k、A2k…A(n-1)k、Ank中的n个存储单元中均从上至下存储w_k1、w_k2、…w_k(n-1)、w_kn；对于第n个斜向块Bk，f＝n，顺次在第一行～第(2n-1)行的存储单元的输入端输入x_n1、x_n2、x_n3、…x_n(2n-1)，在运算块A1n、A2n…A(n-1)n、Ann中的n个存储单元中均从上至下存储w_n1、w_n2、…w_n(n-1)、w_nn。

最后执行步骤L3，将n列存储单元的输出端C₁、C₂…、C_n对应输出的数据y₁₁、y₁₂、…、y_1n组合为结果矩阵Y，即结果矩阵Y＝[y₁₁、y₁₂、…、y_1n]，所述结果矩阵Y具有一行及n列(对应j＝2n-1的情况)，每列存储单元的输出端输出的数据为所述结果矩阵Y中对应列的元素。可见，结果矩阵Y的所有n个元素可以同时运算得到，完成并行运算。

应理解，本实施例中的存储单元可以是闪存、阻变存储器或忆阻器中的任一种，本发明不作限制。

图6为本实施例提供的具有23行、3列的存算一体存储阵列中的示意图。为了进一步描述本实施例提供的存算一体存储阵列及其卷积运算的方法，接下来将以存算一体存储阵列处理输入矩阵X与权重矩阵W进行卷积运算为例描述，其中输入矩阵X为3x5的矩阵，权重矩阵W为3x3的矩阵。

由于权重矩阵W的行数和列数均为3，即n＝3，所以每个运算块中具有3个位于同一列的存储单元，每列中每3个相邻的存储单元共享一个开关管。在行方向上相邻的三个运算块构成一个斜向块，每个斜向块具有5行3列存储单元。图6中具有共有三个斜向块，分别为：斜向块A₁₁、A₂₁和A₃₁，其中，斜向块A₁₁、A₂₁和A₃₁又为同组斜向块，每个斜向块中均具有9个存储单元。

进一步，斜向块A₁₁中的三个运算块的开关管均由控制线S3控制，斜向块A₂₁中的三个运算块的开关管均由控制线S12控制，斜向块A₃₁中的三个运算块的开关管均由控制线S21控制，通过控制线S3、S12、S21即可同步控制斜向块A₁₁、A₂₁和A₃₁中的所有存储单元开启。如此一来，即便在同一列或同一行中会夹杂其他的存储单元，但是它们的开关管是关闭的，不会对本次卷积运算造成影响。

接着，第1行～第5行存储单元的输入端输入输入矩阵X的第一行的五个元素，第10行～第14行输入输入矩阵X的第二行的五个元素，第19行～第23行输入输入矩阵X的第三行的五个元素；在斜向块A₁₁的每个运算块的3个存储单元中存入权重矩阵W的第一列的三个元素，在斜向块A₂₁的每个运算块的3个存储单元中存入权重矩阵W的第二列的三个元素，在斜向块A₃₁的每个运算块的3个存储单元中存入权重矩阵W的第三列的三个元素，那么C₁、C₂和C₃可以同时得到输入矩阵X与权重矩阵W卷积之后得到的结果矩阵Y的三个元素y₁₁、y₁₂、y₁₃。

综上，本实施例提供的存算一体存储阵列及其卷积运算方法通过同步操作同组斜向块，可完成输入矩阵及权重矩阵的卷积运算，且同步得到结果矩阵的每个元素，实现并行运算，从而节省时间和功耗；并且，尽管每一次卷积运算涉及到的存储单元很稀疏，但是通过开关管可控制不需要参与运算的存储单元关闭，不会造成存储单元的浪费，也不会增加功耗。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种存算一体存储阵列，可用于输入矩阵X与权重矩阵W的卷积运算，所述输入矩阵X具有i行j列，所述权重矩阵W具有n行n列，i＝n＞1，j≤2n-1，其特征在于，至少包括p行q列存储单元，其中，p≥n(2n-1)，q＝n；

在列方向上相隔(2n-1)行的斜向块为同组斜向块，同组斜向块中的开关管同步开闭。

2.如权利要求1所述的存算一体存储阵列，其特征在于，每个所述斜向块具有(2n-1)行存储单元及n列存储单元。

3.如权利要求2所述的存算一体存储阵列，其特征在于，从上至下第m个斜向块中的n个所述运算块的开关管均位于第m·n行，其中m为正整数，且m·n≤p。

4.如权利要求3所述的存算一体存储阵列，其特征在于，第m个斜向块中的n个所述运算块的开关管均由一条控制线控制。

5.如权利要求1或2所述的存算一体存储阵列，其特征在于，每个所述斜向块中均具有n²个存储单元。

6.如权利要求1所述的存算一体存储阵列，其特征在于，所述存储单元输出的数据为所述存储单元存储的数据与输入端输入的数据的乘积，所述运算块的输出端输出的数据为其包括的n个存储单元输出的数据的叠加。

7.如权利要求6所述的存算一体存储阵列，其特征在于，每列存储单元的输出端输出的数据为该列中所述开关管开启的运算块输出的数据的叠加。

8.如权利要求1所述的存算一体存储阵列，其特征在于，所述存储单元包括闪存、阻变存储器或忆阻器中的任一种。

9.一种如权利要求1-8中任一项所述的存算一体存储阵列的卷积运算方法，其特征在于，包括：

打开n个同组斜向块中的开关管，关闭其余的开关管；

将n列存储单元的输出端输出的数据组合为结果矩阵Y。

10.如权利要求9所述的存算一体存储阵列的卷积运算方法，其特征在于，所述结果矩阵Y具有一行及j-n+1列，每列存储单元的输出端输出的数据为所述结果矩阵Y中对应列的元素。