CN112766477B

CN112766477B - 神经网络运算电路

Info

Publication number: CN112766477B
Application number: CN202110043082.8A
Authority: CN
Inventors: 张峰; 赵婷; 马春宇; 李淼
Original assignee: Tianjin Zhimo Technology Co ltd
Current assignee: Tianjin Zhimo Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2023-05-30
Anticipated expiration: 2041-01-13
Also published as: CN112766477A

Abstract

本发明公开了一种神经网络运算电路，涉及神经网络技术领域。包括：乘运算结构和加运算结构，乘运算结构用于对量化权重和定点量化激活值进行乘法操作，乘运算结构包括k*N个移位寄存器，加运算结构包括与乘法操作结果的数量对应的k*N个全加器，全加器用于对乘法操作后的结果进行求和操作，其中，量化权重为2的指数次幂或0。本发明提供的神经网络运算电路适用于移动端和便携式设备，提升了神经网络模型的精度及输出结果的准确性，减少了神经网络模型卷积运算对资源的消耗，提高了神经网络模型的运算速度，降低了功耗，使其能够在终端上部署，同时保证了运算精度，在满足精度提升的同时克服高精度神经网络功耗大、硬件难以实现的问题。

Description

神经网络运算电路

技术领域

本发明涉及神经网络技术领域，尤其涉及一种神经网络运算电路。

背景技术

目前，随着神经网络技术的发展，在图像处理、语音识别等领域中，深度神经网络在云端都取得了非常好的成绩。基于延迟、带宽、隐私等要求，需要把神经网络从云端推向终端，在终端进行关键词检测、人脸识别、图像分类等推理类应用。然而，伴随着精度的提升，神经网络的深度和参数量也会急剧增加，现有技术无法在满足精度提升的条件下，同时克服神经网络功耗大硬件难以实现的问题，这导致高精度的神经网络难以在移动端和便携式设备上部署。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种神经网络运算电路、模块、终端及系统。

本发明解决上述技术问题的技术方案如下：

一种神经网络运算电路，包括：乘运算结构和加运算结构，所述乘运算结构用于对量化权重和定点量化激活值进行乘法操作，所述乘运算结构包括k*N个移位寄存器，每个所述移位寄存器的位宽为P+Q，每个所述移位寄存器用于对输入的定点量化激活值进行移位操作；

所述加运算结构用于对乘法操作后的结果进行求和操作，所述加运算结构包括k*N个全加器，每个移位寄存器的数据输出端与每个全加器的数据输入端一一对应连接，N个全加器及N个移位寄存器构成一个卷积核的一次卷积运算的运算行，共构成k个运算行；

其中，k为神经元网络的卷积核个数，N为卷积核尺寸的乘积，P为定点量化激活值的位宽，Q为移位操作的位数，量化权重为2的指数次幂或0。

本发明解决上述技术问题的另一种技术方案如下：

一种神经网络运算模块，包括：封装外壳，所述封装外壳外设置有输入引脚和输出引脚，所述封装外壳内设置有乘运算结构和加运算结构，所述乘运算结构与所述输入引脚连接，用于对量化权重和定点量化激活值进行乘法操作，所述乘运算结构包括k*N个移位寄存器，每个所述移位寄存器的位宽为P+Q，每个所述移位寄存器用于对输入的定点量化激活值进行移位操作；所述加运算结构与所述输出引脚连接，所述加运算结构用于对乘法操作后的结果进行求和操作，所述加运算结构包括k*N个全加器，每个移位寄存器的数据输出端与每个全加器的数据输入端一一对应连接，N个全加器及N个移位寄存器构成一个卷积核的一次卷积运算的运算行，共构成k个运算行；

本发明解决上述技术问题的另一种技术方案如下：

一种终端，包括如上述技术方案所述的神经网络运算电路。

本发明解决上述技术问题的另一种技术方案如下：

一种神经网络运算系统，包括如上述技术方案所述的神经网络运算电路。

本发明的有益效果是：本发明提供的神经网络运算电路适用于移动端和便携式设备，通过对神经网络激活值进行设定比特位的定点量化，对权重进行2的指数次幂或0量化，提升了神经网络模型的精度，提升了神经网络模型输出结果的准确性，通过乘运算电路和加运算电路实现卷积操作，通过移位寄存器实现乘法操作，通过循环复用全加器实现加法运算，输入数据及部分和采用流水线式传输，减少了神经网络模型卷积运算对资源的消耗，提高了神经网络模型的运算速度，降低了功耗，使其能够在终端上部署，同时保证了运算精度，在满足精度提升的同时克服高精度神经网络功耗大、硬件难以实现的问题。此外，可以根据应用场景动态调整计算精度，高精度时，通过增加迭代次数，提升计算精度；低功耗时，精度要求不高，可以减少迭代次数，降低功耗。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明神经网络运算电路的实施例提供的结构框架示意图；

图2为本发明神经网络运算电路的其他实施例提供的运算行结构示意图；

图3为本发明神经网络运算电路的实施例提供的卷积运算示意图；

图4为本发明神经网络运算电路的实施例提供的卷积运算时序示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

神经网络量化算法为网络的终端实现提供了极大的便利。然而，若同时对网络的权重和激活值都进行1bit量化会使得网络的精度有较大的损失；若同时对网络的权重和激活值都进行多bit量化将急剧增加乘加操作。一个卷积神经网络中包含数百万甚至数亿的MAC操作，传统的数字电路进行如此多的MAC操作功耗是非常高的。

因此，亟需在算法和硬件中对神经网络的实现进行改进，以适应网络精度的提升需求，便于在移动端和便携式设备上部署。

如图1所示，为本发明神经网络运算电路的实施例提供的结构框架示意图，该神经网络运算电路可以部署在手机、电脑、笔记本电脑等终端中，包括：乘运算结构和加运算结构，乘运算结构用于对量化权重和定点量化激活值进行乘法操作，乘运算结构包括k*N个移位寄存器1，每个移位寄存器1的位宽为P+Q，每个移位寄存器1用于对输入的定点量化激活值进行移位操作；

加运算结构用于对乘法操作后的结果进行求和操作，加运算结构包括k*N个全加器2，每个移位寄存器1的数据输出端与每个全加器2的数据输入端A一一对应连接，N个全加器2及N个移位寄存器1构成一个卷积核的一次卷积运算的运算行，共构成k个运算行；

具体地，移位操作方法为：定点量化激活值的位宽为P，权重量化结果为{±2^Q1,···,±2^Q2,0}，Q1和Q2都是整数，且Q2≤Q1，Q＝max(abs(Q1),abs(Q2))，若权重量化结果为0，则移位寄存器1输出为0；若权重量化结果为1，则移位寄存器1保持不变；若权重量化结果为其他数，移位寄存器1进行Q个移位操作，其中，abs表示取绝对值。

例如，假设Q1＝4，Q2＝1,那么权重量化结果为{±2¹,±2²,±2³,±2⁴,0}。

应理解，如图2所示，定点量化激活值X_ij与量化权重值W_ij进行乘运算，乘运算输出可为正数、负数或0。

如图3所示，给出了一种示例性的卷积运算示意图，假定神经元网络输入数据尺寸为H*G*M，卷积核尺寸为E*E*M，卷积核个数为k，即输出数据有k个通道，每个卷积核与输入数据进行一次卷积操作，乘运算结果的个数为N＝E*E*M，部分和位宽为R，时钟周期为t。整个运算系统包含k行*N列个全加器2和k行*N列个移位寄存器1，其中每行每次计算一个卷积核的一次卷积运算，得到一个输出通道的一个输出数据。

量化权重加载至寄存器，输入数据流水线式加载至移位寄存器1中，输入数据基于量化的权重进行移位操作，从而完成乘运算。通过采用流水线方式传递数据，具有系统结构简单的优点，减少了神经网络模型卷积运算对资源的消耗，可进行大量卷积操作，缩短卷积操作时间，提高了神经网络模型的运算速度，降低了功耗。

图1中，X表示输入的定点量化激活值，W表示量化权重。

需要说明的是，乘运算结构的功能可以通过现有电路结构实现，例如，乘法器，这些结构为现有技术，不再赘述。

完成卷积操作之后，所有输出通道的输出数据经过处理后写入存储器中，作为神经网络下一层的输入数据。

本实施例提供的神经网络运算电路适用于移动端和便携式设备，通过对神经网络激活值进行设定比特位的定点量化，对权重进行2的指数次幂或0量化，提升了神经网络模型的精度，提升了神经网络模型输出结果的准确性，通过乘运算电路和加运算电路实现卷积操作，通过移位寄存器实现乘法操作，通过循环复用全加器实现加法运算，输入数据及部分和采用流水线式传输，减少了神经网络模型卷积运算对资源的消耗，提高了神经网络模型的运算速度，降低了功耗，使其能够在终端上部署，同时保证了运算精度，在满足精度提升的同时克服高精度神经网络功耗大、硬件难以实现的问题。此外，可以根据应用场景动态调整计算精度，高精度时，通过增加迭代次数，提升计算精度；低功耗时，精度要求不高，可以减少迭代次数，降低功耗。

可选地，在一些可能的实现方式中，如图2所示，全加器包括数据输入端A、部分和输入端B、进位输入端C_in、部分和输出端S以及进位输出端C_out，其中，每个运算行内的第i个全加器的数据输入端A与第i个移位寄存器的数据输出端连接，第i个全加器的部分和输入端B与第i-1个全加器的部分和输出端S连接，第i个全加器的进位输入端C_in与第i个全加器的进位输出端C_out连接；

其中，i＝1,2,…,N。

下面以1bit全加器为例，结合图2和图4，对工作流程进行说明。

图2中共有K个卷积核，对应k个运算行，共进行M(E*E)个MAC操作，对应M列，S_REG表示移位寄存器。

如图4所示，量化权重加载至寄存器，输入数据流水线式加载至移位寄存器中，输入数据基于量化的权重进行移位操作，从而完成乘运算。开始计时，在0时刻，第一行第一列全加器部分和S0为0，进位C0为0，第一行第一列乘运算结果的第一位Z10与S0、C0进行加运算得到S11、C11，C11复用，仍与第一行第一列全加器的进位输入端连接，S11传递至第一行第二列全加器的部分和输入端B；

在t时刻，第一行第一列乘运算结果的第二位Z₁₁与S₀、C₁₁进行加运算得到S₁₂和C₁₂，与此同时，第一行第二列乘运算结果的第一位Z₂₀与第一行第一列全加器的部分和输出S₁₁、C₀进行加运算得到S₂₁、C₂₁，C₂₁复用，仍与第一行第二列全加器的进位输入端连接，S₂₁传递至第一行第三列全加器的部分和输入端B；

在2t时刻，第一行第一列乘运算结果的第三位Z₁₂与S₀、C₁₂进行加运算得到S₁₃和C₁₃，与此同时，第一行第二列乘运算结果的第二位Z₂₁与第一行第一列全加器的部分和输出S₁₂、C₂₁进行加运算得到S₂₂、C₂₂，与此同时，第一行第三列乘运算结果的第一位Z₃₀与第一行第二列全加器的部分和输出S₂₁、C₀进行加运算得到S₃₁、C₃₁，C₃₁复用，仍与第一行第三列全加器的进位输入端Cin连接，S₃₁则传递至第一行第四列全加器的部分和输入端B。

以此类推，在(N-1)t时刻，第一行第N列乘运算结果的第一位Z_N0与S_(N-1)0、C₀进行加运算得到S_N1，直至(R+N-1)t时刻，第一个卷积核的第一次卷积运算结束，得到第一个输出通道的第一个输出数据y⁽¹⁾ ₁₁。

在Rt时刻，第一个输入数据X⁽¹⁾ ₁₁与其对应的权重完成卷积运算后，X⁽¹⁾ ₁₁进行卷积核滑窗，即将X⁽¹⁾ ₁₂加载至第一行第一列移位寄存器，开始计算第一个输出通道的第二个输出数据y⁽¹⁾ ₁₂。

与此同时，X⁽¹⁾ ₁₁纵向传递至第二行第一列的移位寄存器，开始第二个卷积核的卷积运算，在(R+N-1)t时刻，第二行第N列乘运算结果的第一位Z_N0与S_(N-1)0、C₀进行加运算得到S_N1，直至(2R+N-1)t时刻，第二个卷积核的第一次卷积运算结束，得到第二个输出通道的第一个输出数据y⁽²⁾ ₁₁。

以此类推，在(k-1)Rt时刻，第k行第一列乘运算结果的第一位Z₁₀与S₀、C₀进行加运算得到S₁₁，在((k-1)R+N-1)t时刻，第k行第N列乘运算结果的第一位Z_N0与S_(N-1)0、C₀进行加运算得到S_N1，直至(kR+N-1)t时刻，第k个卷积核的第一次卷积运算结束，得到第k个输出通道的第一个输出数据y^(k) ₁₁。

可选地，在一些可能的实现方式中，全加器为1bit全加器。

可选地，在一些可能的实现方式中，全加器为2bit全加器、4bit全加器或8bit全加器。

通过采用2bit、4bit或8bit等全加器代替1bit全加器以实现多bit输入数据的加法操作，能够提高运算速度。

应理解，在一些可能的实现方式中，可以包含上述各实施方式的全部或部分。

在本发明的其他实施例中，还提供一种神经网络运算模块，包括：封装外壳，封装外壳外设置有输入引脚和输出引脚，封装外壳内设置有乘运算结构和加运算结构，乘运算结构与输入引脚连接，用于对量化权重和定点量化激活值进行乘法操作，乘运算结构包括k*N个移位寄存器，每个移位寄存器的位宽为P+Q，每个移位寄存器用于对输入的定点量化激活值进行移位操作；加运算结构与输出引脚连接，加运算结构用于对乘法操作后的结果进行求和操作，加运算结构包括k*N个全加器，每个移位寄存器的数据输出端与每个全加器的数据输入端一一对应连接，N个全加器及N个移位寄存器构成一个卷积核的一次卷积运算的运算行，共构成k个运算行；

在本发明的其他实施例中，还提供一种终端，包括如上述任意实施方式公开的神经网络运算电路。

在本发明的其他实施例中，还提供一种神经网络运算系统，包括如上述任意实施方式公开的神经网络运算电路。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络运算电路，其特征在于，包括：乘运算结构和加运算结构，所述乘运算结构用于对量化权重和定点量化激活值进行乘法操作，所述乘运算结构包括k*N个移位寄存器，每个所述移位寄存器的位宽为P+Q，每个所述移位寄存器用于对输入的定点量化激活值进行移位操作；

其中，k为神经元网络的卷积核个数，N为卷积核尺寸的乘积，P为定点量化激活值的位宽，Q为移位操作的位数，量化权重为2的指数次幂或0；

其中，对于每个所述卷积核，在通过所述卷积核对应的N个移位寄存器进行乘法操作和通过N个全加器进行求和操作时，将一个所述移位寄存器和一个所述全加器作为一个乘加计算单元，采用流水线式的方式依次将各个所述乘加计算单元中的一个所述乘加计算单元的计算结果加载至相邻的下一个乘加计算单元中的全加器中，并在得到每个所述乘加计算单元的计算结果后，将每个所述乘加计算单元对应的输入数据加载至该卷积核的下一个卷积核的对应位置的乘加计算单元中。

2.根据权利要求1所述的神经网络运算电路，其特征在于，所述全加器包括数据输入端、部分和输入端、进位输入端、部分和输出端以及进位输出端，其中，每个运算行内的第i个全加器的数据输入端与第i个移位寄存器的数据输出端连接，第i个全加器的部分和输入端与第i-1个全加器的部分和输出端连接，第i个全加器的进位输入端与第i个全加器的进位输出端连接；

其中，i＝1,2,…,N。

3.根据权利要求1或2所述的神经网络运算电路，其特征在于，所述全加器为1bit全加器。

4.根据权利要求1或2所述的神经网络运算电路，其特征在于，所述全加器为2bit全加器、4bit全加器或8bit全加器。

5.一种神经网络运算模块，其特征在于，包括：封装外壳，所述封装外壳外设置有输入引脚和输出引脚，所述封装外壳内设置有乘运算结构和加运算结构，所述乘运算结构与所述输入引脚连接，用于对量化权重和定点量化激活值进行乘法操作，所述乘运算结构包括k*N个移位寄存器，每个所述移位寄存器的位宽为P+Q，每个所述移位寄存器用于对输入的定点量化激活值进行移位操作；所述加运算结构与所述输出引脚连接，所述加运算结构用于对乘法操作后的结果进行求和操作，所述加运算结构包括k*N个全加器，每个移位寄存器的数据输出端与每个全加器的数据输入端一一对应连接，N个全加器及N个移位寄存器构成一个卷积核的一次卷积运算的运算行，共构成k个运算行；

6.一种终端，其特征在于，包括如权利要求1至4中任一项所述的神经网络运算电路。

7.一种神经网络运算系统，其特征在于，包括如权利要求1至4中任一项所述的神经网络运算电路。