CN112346703A

CN112346703A - 一种用于卷积神经网络计算的全局平均池化电路

Info

Publication number: CN112346703A
Application number: CN202011326338.8A
Authority: CN
Inventors: 刘冬生; 陆家昊; 魏来; 成轩; 刘子龙; 卢楷文; 马贤; 刘波
Original assignee: Huazhong University of Science and Technology; Hikstor Technology Co Ltd
Current assignee: Huazhong University of Science and Technology; Hikstor Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-09
Anticipated expiration: 2040-11-24
Also published as: CN112346703B

Abstract

本发明公开了一种用于卷积神经网络计算的全局平均池化电路，包括累加器和移位寄存器，所述累加器用于对卷积层中每层的卷积运算结果进行累加，所述移位寄存器用于对所述累加器的累加结果进行移位操作，并在移位完成后向所述累加器输出复位信号。在进行全局平均池化层操作计算时，将累加器中输出的数据用简单的移位操作替代了除法操作得到全局平均池化层的计算结果，能够有效提高计算资源的利用率，加快整体系统的计算速度。

Description

一种用于卷积神经网络计算的全局平均池化电路

技术领域

本发明属于人工智能算法硬件实现领域，更具体地，涉及一种用于卷积神经网络计算的全局平均池化电路。

背景技术

随着人工智能算法的不断发展，各种网络模型层出不穷，其中卷积神经网络(CNN)以其独特的权值共享特性、更高的预测精度而得到广泛应用。

CNN模型包括卷积层、池化层和全连接层。其中，卷积层是CNN模型的核心，将输入层的输入信息进行特征提取，池化层进行特征选取和信息过滤，全连接层对提取的特征信息进行进一步非线性组合得到输出。而在传统CNN模型中，全连接层层数较少但包含整个模型的大部分训练参数和计算量，导致CNN模型的计算前后不平衡，降低了CNN的计算效率。全局平均池化层(Global Average Pooling,GAP)是池化层的一种，在全连接层前使用全局平均池化，能有效地减少计算参数、简化计算过程以及增大卷积核的感受野。传统的全局平均池化电路没有特殊的处理方式，求卷积层输出的平均值时，首先需要将卷积计算结果写入存储器，再将其从存储器中取出，再进行累加和除法操作，导致CNN的硬件资源开销增加，并且计算速度、吞吐量降低。在硬件中实现结构简单并且高效的全局平均池化电路，能有效地提高硬件资源的利用率以及电路的吞吐量、计算速度，因此设计一种用于CNN计算的全局平均池化电路具有重要意义。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种用于CNN计算的全局平均池化电路，旨在提高硬件资源的利用率以及电路的吞吐量、计算速度。

为实现上述目的，根据本申请的一个方面，本发明设计了一种用于卷积神经网络计算的全局平均池化电路，包括累加器和移位寄存器，所述累加器用于对卷积层中每层的卷积运算结果进行累加，所述移位寄存器用于对所述累加器的累加结果进行移位操作，并在移位完成后向所述累加器输出复位信号。

可选地，所述累加器包括加法器和D触发器，所述加法器的一个输入端输入所述乘加运算结果，另一个输入端输入所述D触发器的输出结果；所述D触发器的输出结果还发送至所述移位寄存器的输入端，所述D触发器的复位端口连接至所述移位寄存器，所述D触发器的时钟端口输入时钟信号。

可选地，所述全局平均池化电路计算全局平均池化值G_k的公式如下：

其中，n_pkx为单个卷积核的长度，n_pif为单个卷积核的通道数，n_pix为时间维度上输入数据的个数，k为卷积层中的第k个卷积核，i,j,m和k为正整数，b^k为第k个卷积核的偏置参数，

为第k个卷积核中第j个通道中的第i个权重参数，

为第k个卷积核中第j个通道第i个乘加单元第m次的输入数据，z_(m，k)为第k个卷积核的第m次卷积输出；G_k为第k个卷积核的全局平均池化值；N_shift为移位寄存器的需要移位的次数。

根据本申请的另一个方面，还提供了一种用于卷积神经网络的计算全局平均池化值的方法，包括：

获取卷积核的权重参数，并采用修正系数对所述权重参数进行修正，形成修正后的权重参数用于进行卷积运算；

通过累加器对卷积层中每层的卷积运算结果进行累加；以及

通过移位寄存器对所述累加结果进行移位操作，并在移位完成后向所述累加器反馈复位信号。

根据本申请的又一个方面，还提供了一种用于卷积神经网络计算的装置，包括中央控制电路、乘加阵列电路、权重参数缓存器、偏置参数缓存器、输入数据缓存器和上述的全局平均池化电路；所述中央控制电路用于控制电路的状态转移和使能；所述乘加阵列电路用于计算卷积操作中的卷积计算以及偏置计算；所述权重缓存器、偏置缓存器以及输入数据缓存器分别用于存储卷积操作所需要的权重参数、偏置参数和输入数据；所述全局平均池化电路用于将所述乘加阵列电路输出的数据进行累加并移位输出以获得全局平均池化值。

可选地，所述乘加阵列电路的时钟信号与所述全局平均池化电路的时钟信号相连。

总而言之，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益结果：

(1)本发明所提供的全局平均池化层电路可以以流水线结构运行卷积层和全局平均池化层的操作计算，无需额外数据访存，因此能够有效地缩减卷积网络前向推理过程的计算复杂度，降低电路的硬件资源开销。

(2)本发明所提供的全局平均池化层电路，在进行全局平均池化层操作计算时，将累加器中输出的数据用简单的移位操作替代了除法操作得到全局平均池化层的计算结果，能够有效提高计算资源的利用率，加快整体系统的计算速度。

附图说明

图1是本发明实施例提供的全局平均池化电路结构示意图；

图2是本发明实施例提供的用于卷积神经网络计算的电路的结构示意图；

图3本发明实施例提供的全局平均池化方法的流程图；

图4是本发明提供的全局平均池化层流水线操作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参照图1，本实施例提供了一种用于卷积神经网络计算的全局平均池化电路300，包括累加器301和移位寄存器302。所述累加器301用于对卷积层中每层的卷积运算结果data进行累加，所述移位寄存器302用于对所述累加器301的累加结果data_sum进行移位操作，并在移位完成后向所述累加器301输出复位信号ctr_rst。通过本实施例的全局平均池化电路300处理后，并行输入的32位运算结果data被转化成了16位串行输出数据。

进一步地，如图1所示，所述累加器301包括加法器3011和D触发器3012。所述加法器的一个输入端输入所述乘加运算结果data，另一个输入端输入所述D触发器3012的输出结果，从而完成累加运算。所述D触发器3012的输出结果还发送至所述移位寄存器302的输入端，所述D触发器2012的复位端口set连接至所述移位寄存器302，所述D触发器3012的时钟端口Clk输入时钟信号ctr_clk。

进一步地，所述全局平均池化电路300计算全局平均池化值G_k的公式如下：

其中，n_pkx为单个卷积核的长度，也就是卷积核单个通道内乘加单元的个数。n_pif为单个卷积核的通道数。n_pix为时间维度上输入数据的个数，也就是一次流水线计算中，单个卷积核需要计算出的输出数据的个数。k为卷积层中的第k个卷积核。i,j,m和k为正整数。b^k为第k个卷积核的偏置参数。

为第k个卷积核中第j个通道中的第i个权重参数。

为第k个卷积核中第j个通道第i个乘加单元第m次的输入数据，m的取值范围为1～n_pix。z_(m，k)为第k个卷积核的第m次卷积输出。G_k为第k个卷积核的全局平均池化值。N_shift为移位寄存器的需要移位的次数。

N_shift的大小由n_pix的大小决定，它们之间的关系为

例如，若n_pix为10，那么N_shift＝3。那说明针对卷积核的10个输出数据进行全局平均池化，需要移位3次。

而传统的计算模式是先计算出所有的卷积运算结果，将其存储在缓存器中，然后在从缓存器中取出来求和，再通过除法计算平均值。其计算公式如下：

本申请中的全局平均池化电路，只需要移位寄存器302将输出的结果移动N_shift位，并在卷积层中的卷积运算中对权重数据

乘

替代传统全局平均池化层电路的除法操作效果，权重参数

的乘法操作可以预先在软件端训练完成的参数中进行，无需在硬件层面上完成该操作。

请参阅图3，本实施例提供了一种用于卷积神经网络的计算全局平均池化值的方法，包括以下步骤：

S1，获取卷积核的权重参数，并采用修正系数对所述权重参数进行修正，形成修正后的权重参数用于进行卷积运算；

S2，通过累加器对卷积层中每层的卷积运算结果进行累加；以及

S3，通过移位寄存器对所述累加结果进行移位操作，并在移位完成后向所述累加器反馈复位信号。

该计算方法可采用上述实施例中的全局平均池化电路进行实施，工作原理在上述实施例中已经阐述，在此不再累述。

上述方法可采用上述公式(1)、(2)和(3)进行计算，再次不再累述。

请参阅图2，本实施例提供了一种用于卷积神经网络计算的装置，包括中央控制电路100、乘加阵列电路200、全局平均池化电路300、权重参数缓存器400、偏置参数缓存器500和输入数据缓存器600。所述的全局平均池化电路300的结构与工作原理与图1所展示的实施例相同，在此不再累述。

所述中央控制电路100用于控制电路的状态转移和使能。所述乘加阵列电路200用于计算卷积操作中的卷积计算以及偏置计算。所述权重缓存器400、偏置缓存器500以及输入数据缓存器600分别用于存储卷积操作所需要的权重参数、偏置参数和输入数据。所述全局平均池化电路用于将所述乘加阵列电路200输出的数据进行累加并移位输出以获得全局平均池化值。

具体地，如图2所示，所述乘加阵列电路200的时钟信号与所述全局平均池化电路300的时钟信号相连。

图4为本发明提供的全局平均池化层流水线操作示意图。首先权重参数缓存器、偏置参数缓存器以及输入数据缓存器的输出端口将在每个周期持续输出权重参数、偏置参数以及数据，其中输出的数据p每个周期是由中央控制电路所输入的地址得到的，其中p11～p(1N_x)为输入数据的第一层数据(也就是第一个卷积核的输入数据)，包含N_x个数据。当输入数据缓存器将第一层数据输送完成后，权重参数缓存器、偏置参数缓存器在下一个周期会输出第二层卷积计算所需要的权重和偏置参数，输入数据缓存器将输出第二层的像素数据。权重参数缓存器、偏置参数缓存器以及输入数据缓存器的输入信号模式由上所述，经过多次周期后，直到将最后一层Ni的最后一个像素数据p(N_iN_x)为止。

进一步地，MAC(乘加)阵列电路将输入的权重参数、偏置参数以及输入数据进行卷积操作，延后一个周期将卷积计算的结果输出，MAC阵列模块依次输出卷积计算的结果，直到将最后一层N_i的最后一个数据D(N_i N_x)输出为止。

进一步地，累加器将延后一个周期接收到MAC阵列模块输出的数据data，并将输入的data进行累加计算，当累加器将第一层输入数据卷积计算结果累加完后，累加器将累加结果sum输出到移位寄存器，并输出移位信号。

进一步地，移位寄存器一直等待累加器输入的累加数据sum以及移位信号，接受到累加数据sum以及移位信号后，移位寄存器对累加数据sum进行移位处理，并将移位的32位的数据转换为16位的数据进行输出，依次输出每一层的结果，输出到第N_i层的移位结果，即完成全局平均池化层计算。

总的来说，本发明所提供的全局平均池化层电路能增大电路的吞吐量以及运算效率，并且有效地提升硬件资源的利用率，降低计算电路的功耗、成本。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于卷积神经网络计算的全局平均池化电路，其特征在于，包括累加器和移位寄存器，所述累加器用于对卷积层中每层的卷积运算结果进行累加，所述移位寄存器用于对所述累加器的累加结果进行移位操作，并在移位完成后向所述累加器输出复位信号。

2.根据权利要求1所述的全局平均池化电路，其特征在于，所述累加器包括加法器和D触发器，所述加法器的一个输入端输入所述乘加运算结果，另一个输入端输入所述D触发器的输出结果；所述D触发器的输出结果还发送至所述移位寄存器的输入端，所述D触发器的复位端口连接至所述移位寄存器，所述D触发器的时钟端口输入时钟信号。

3.根据权利要求1所述的全局平均池化电路，其特征在于，所述全局平均池化电路计算全局平均池化值G_k的公式如下：

其中，n_pkx为单个卷积核的长度，n_pif为单个卷积核的通道数，n_pix为时间维度上输入数据的个数，k为卷积层中的第k个卷积核，i，j，m和k为正整数，b^k为第k个卷积核的偏置参数，

为第k个卷积核中第j个通道中的第i个权重参数，

4.一种用于卷积神经网络的计算全局平均池化值的方法，其特征在于，包括：

通过累加器对卷积层中每层的卷积运算结果进行累加；以及

5.根据权利要求4所述的用于卷积神经网络的计算全局平均池化值的方法，其特征在于，所述累加器包括加法器和D触发器，所述加法器的一个输入端输入所述乘加运算结果，另一个输入端输入所述D触发器的输出结果；所述D触发器的输出结果还发送至所述移位寄存器的输入端，所述D触发器的复位端口连接至所述移位寄存器，所述D触发器的时钟端口输入时钟信号。

6.根据权利要求4所述的用于卷积神经网络的计算全局平均池化值的方法，其特征在于，所述全局平均池化值G_k的公式如下：

为第k个卷积核中第j个通道中的第i个权重参数，

为第k个卷积核中第j个通道第i个乘加单元第m次的输入数据，z_(m，k)为第k个卷积核的第m次卷积输出；G_k为第k个卷积核的全局平均值；N_shift为移位寄存器的需要移位的次数。

7.一种用于卷积神经网络计算的装置，包括中央控制电路、乘加阵列电路、权重参数缓存器、偏置参数缓存器、输入数据缓存器，其特征在于，还包括如权利要求1-4任意一项所述的全局平均池化电路；所述中央控制电路用于控制电路的状态转移和使能；所述乘加阵列电路用于计算卷积操作中的卷积计算以及偏置计算；所述权重缓存器、偏置缓存器以及输入数据缓存器分别用于存储卷积操作所需要的权重参数、偏置参数和输入数据；所述全局平均池化电路用于将所述乘加阵列电路输出的数据进行累加并移位输出以获得全局平均池化值。

8.根据权利要求7所示的用于卷积神经网络计算的装置，其特征在于，所述乘加阵列电路的时钟信号与所述全局平均池化电路的时钟信号相连。