CN114154631A

CN114154631A - 一种基于fpga的卷积神经网络量化实现方法以及装置

Info

Publication number: CN114154631A
Application number: CN202111454682.XA
Authority: CN
Inventors: 孟德远; 安向京; 胡庭波; 李世星
Original assignee: Changsha Xingshen Intelligent Technology Co Ltd
Current assignee: Changsha Xingshen Intelligent Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-08

Abstract

本发明公开一种基于FPGA的卷积神经网络量化实现方法以及装置，该量化实现方法包括量化CNN卷积核步骤，包括：将CNN卷积层分解为逻辑运算与加法运算的组合，转换为N×N卷积逻辑核；在FPGA中使用多个LUT分别实现逻辑运算以及加法运算，以实现N×N卷积逻辑核。本发明能够充分利用FPGA的强大逻辑运算能力，高效的实现CNN网络低位量化。

Description

一种基于FPGA的卷积神经网络量化实现方法以及装置

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于FPGA的卷积神经网络量化实现方法以及装置。

背景技术

CNN(Convolutiona lNeura lNetworks，卷积神经网络)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neura lNetworks)，是深度学习(deeplearning)的代表算法之一。在硬件层面上，当前CNN的部署主要是基于CPU、GPU、ASIC和FPGA实现，各类部署均具有各自的优缺点：

1、基于CPU

CPU的运算时串行的，它具有灵活性高、可迁移性好的特点，但它在大规模并行运算上延时过大，难以在大规模CNN网络上应用，只能应用于一些专门设计的小规模网络。

2、基于GPU

GPU的灵活性较CPU略差，但GPU具有很多计算核心，这也让它有更强大的并行处理能力，同时它还有更加强大的控制数据流和储存数据的能力。但GPU功耗过大，这限制了它在一些嵌入式设备上的使用。

3、基于ASIC

ASIC功耗最低，在大批量生产时具有成本优势。ASIC定制化的特点决定了它的可迁移性低，其开发代价高昂，生产周期长，在网络和数据快速迭代的当下也限制了其发展。

4、基于FPGA

FPGA在GPU和ASIC中取得了权衡，很好的兼顾了处理速度和功耗和开发成本。但是FPGA的一个缺点是其要求使用者能使用硬件描述语言对其进行编程，开发难度较大。

FPGA(Field Programmable Gate Array)是在PAL、GAL、CPLD等可编程逻辑器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了全定制电路的不足，又克服了原有可编程逻辑器件门电路数有限的缺点。FPGA的开发相对于传统PC、单片机的开发有很大不同。FPGA以并行运算为主，以硬件描述语言来实现；相比于PC或单片机(无论是冯诺依曼结构还是哈佛结构)的顺序操作有很大区别。FPGA开发需要从顶层设计、模块分层、逻辑实现、软硬件调试等多方面着手。FPGA可以通过烧写位流文件对其进行反复编程，目前，绝大多数FPGA都采用基于SRAM(StaTIc Random AccessMemory静态随机存储器)工艺的查找表结构，通过烧写位流文件改变查找表内容实现配置。相对于GPU、FPGA虽然灵活性和可迁移性较差、开发难度高，但FPGA具有功耗低、速度快的优点，同时还有一定的成本优势，适合在一定批量的前提下的嵌入式终端部署。相对于ASIC，FPGA与日增长的门资源和内存带宽使得它有更大的设计空间，同时FPGA还省去了ASIC方案中所需要的流片过程，开发周期短，开发成本低。

使用FPGA进行FPGA部署时，需要将CNN网络分解为适合FPGA实现的结构，FPGA的计算单元分为DSP、乘加器、LUT(逻辑查找表)，需要将CNN的每个操作按FPGA的计算单元1：1映射到对应的操作逻辑，在FPGA端再使用片上资源，整合数据搬运操作、数据计算操作所需单元，形成硬件操作层。

网络量化是现深度学习在应用端实现的关键，目前各类深度学习框架都已启用量化，通过网络量化可以实现：

1、降低内存容量。当卷积层的权重由32位浮点数量化为8位整型数时，权重的内存容量便减低为原来的1/4，这使得边缘端可以节约更多的内存容量和存储空间。

2、降低内存带宽。当卷积层的激活值由32位浮点数量化为8位整型数时，激活值向下传递时的内存带宽可以降低为原来的1/4，这对降低内存占用、提高读取性能有很大的帮助。

3、节约计算资源。在进行卷积运算时，当权重和激活值均由32位浮点数量化为8位整型数时，在支持8位乘法的设备上其运算效率可以提高4倍以上，大大节约了CPU的运算资源。

4、专门设计的量化方法使得网络在低端FPGA上实现成为可能。FPGA具有能耗低、可编程等优点，当专门设计的量化网络在FPGA上实现时，可以做到算法硬件化，节约成本。

传统的浮点卷积或定点数卷积需要依赖大量的乘法和加法，因而要在FPGA中实现CNN网络量化会存在大量的计算，导致计算量大，CNN实现效率低。当前神经网络在FPGA的部署一般都是使用8bW/8bA或4bW/4bA量化，均需要基于乘法操作，不能充分利用FPGA的强大逻辑运算能力，因而实际量化效率并不高。而现有技术中各类网络量化算法要实现低位量化，如Hash映射、非均匀量化等，实现逻辑通常是非硬件友好的，即不便于在硬件中实现，难以推广到通用场景，以至几乎无法引入软件栈，并不适用于CNN在FPGA中的部署量化。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种基于FPGA的卷积神经网络量化实现方法以及装置，能够充分利用FPGA的强大逻辑运算能力，高效实现CNN网络低位量化。

为解决上述技术问题，本发明提出的技术方案为：

一种基于FPGA的卷积神经网络量化实现方法，该方法包括量化卷积核步骤，包括：

将CNN卷积层分解为逻辑运算与加法运算的组合，转换为N×N卷积逻辑核，N为大于2的正整数；

在FPGA中使用多个LUT分别实现所述逻辑运算以及加法运算，以实现所述N×N卷积逻辑核。

进一步的，所述N×N卷积逻辑核，通过将所述CNN卷积层中量化激活值按照预设量化位数进行按位拆分，分解为多个同或运算与多个加法运算的组合得到；所述N×N卷积逻辑核中包括转换后量化卷积参数w′与量化激活值的各个位之间的同或运算。

进一步的，当N＝3，实现3×3卷积逻辑核时，使用多个LUT计算

其中

以及

分别为量化激活值的第2、1、0位，w′₁、w′₂、w′₃分别为对应位的转换后量化卷积参数，⊙为同或符号，使用一个LUT实现三个两位数加法，以及使用加法器实现各个分支输出的求和。

进一步的，该方法还包括将卷积层、尺度层、激活层合并，融合形成一个QCBR层，所述QCBR层由所述N×N卷积逻辑核与倍数系数相乘后再与尺度层偏移系数相加得到，以使得在FPGA上使用逻辑运算、定点数乘法与定点数加法实现所述QCBR层。

进一步的，实现所述QCBR层的步骤包括：

在FPGA中使用所述N×N卷积逻辑核计算输入通道上的各个N×N卷积，得到N×N卷积结果；

使用加法器将所有输入通道上的所述N×N卷积结果进行累加，得到卷积累加结果；

使用乘加器将所述卷积累加结果与对应预设倍数系数相乘后与尺度层偏移系数相加，得到尺度运算结果；

对所述尺度运算结果进行限位后输出。

进一步的，该方法还包括训练步骤，包括：

构造初始CNN网络N并进行训练，得到预训练模型BWN－model；

将所述初始CNN网络N中的激活层替换为预设的激活层QRelu，形成更新后CNN网络QN；

将所述预训练模型BWN－model的各层权重加载到所述更新后CNN网络QN中，并对所述更新后CNN网络QN进行训练，直至训练完成。

进一步的，所述对所述更新后CNN网络QN进行训练的过程中包括分批次更新每个所述激活层QRelu的量化系数，步骤包括：

每次取当前批次的数据，对当前网络进行前向推理，判断所述更新后CNN网络QN中每一个所述激活层QRelu的输入，如果不存在大于0的数，则根据当前批次b更新所述量化系数，否则计算[a_j，-a_j]的标准差δ，a_j为所述激活层QRelu中大于0的数，2δ为量化映射范围，根据所述标准差δ以及当前批次b更新所述量化系数。

一种基于FPGA的卷积神经网络量化实现装置，包括FPGA，所述FPAG上配置有量化卷积核模块，量化卷积核模块包括：

第一LUT单元，包括多个LUT，用于计算将CNN卷积层转换为N×N卷积逻辑核中的逻辑运算，所述N×N卷积逻辑核为通过将CNN卷积层分解为逻辑运算与加法运算的组合转换得到；

第二LUT单元，包括多个LUT，用于计算将CNN卷积层转换为N×N卷积逻辑核中的加法运算；

加法器单元，用于对各个分支进行求和，得到最终的结果。

进一步的，所述第一LUT单元具体计算3×3卷积逻辑核中权重参数与量化激活值第0、1、2位之间的逻辑运算，所述第二LUT单元具体计算3×3卷积逻辑核中权重参数与量化激活值第1位之间的各逻辑运算结果的加法运算，所述第一LUT单元的输出端还设置有位拼接电路，以用于将各所述LUT62的各位数据进行位拼接，所述第二LUT单元的输出端还设置有末位补0电路，以用于将所述第二LUT单元的输出数据进行末尾补0。

进一步的，还包括将卷积层与尺度层、激活层融合形成的QCBR层实现模块，所述QCBR层实现模块包括：

量化卷积单元，用于使用所述量化卷积核模块计算输入通道上的各个N×N卷积，得到N×N卷积结果；

累加器，用于将所有输入通道上的所述N×N卷积结果进行累加，得到卷积累加结果；将所述卷积累加结果与对应预设融合系数相乘后与尺度层偏移系数相加，得到尺度运算结果；

限位器，用于对所述尺度运算结果进行限位后输出。

与现有技术相比，本发明的优点在于：

1、本发明通过将CNN卷积层分解为逻辑运算与加法运算，转换为N×N卷积逻辑核，然后在FPGA中实现该N×N卷积逻辑核，由于只需要进行逻辑运算与加法运算，适合于FPGA实现，可以充分发挥FPGA的强大逻辑运算能力，大幅降低所需的计算量、内存容量和读写带宽，实现高效的低位量化CNN卷积层。

2、本发明进一步将卷积层、尺度层、激活层合并，融合形成一个QCBR层，QCBR层仅包含简单的逻辑元算、定点数乘法与定点数加法，适合于FPGA实现，因而可以充分利用FPGA同时高效的实现卷积层、尺度层以及激活层的计算功能，进一步降低所需的计算量、内存容量和读写带宽。

3、本发明进一步通过采用边训练边量化的前量化方法进行低位量化CNN网络量化，相比于传统量化方式，可以有效提高量化训练的效率以及精度，实现低位量化CNN网络高精度训练。

附图说明

图1是本实施例基于FPGA的卷积神经网络量化实现方法的流程示意图。

图2是本发明具体应用实施例中基于FPGA实现3×3卷积逻辑核的结构原理示意图。

图3是本实施例中基于FPGA实现QCBR层的结构原理示意图。

图4是传统混合量化方式的流程示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

CNN的网络模型量化主要包括两个部分，一是针对权重Weight量化，一是针对激活值Activation量化，将权重和激活值量化到8bit时可以等价32bit的性能。在神经网络中的基本操作就是权重和激活值的卷积、乘加操作，如果将其中一项量化到{－1，1}，那么就能够将乘加操作简化为了加减操作，如果两项都量化到{－1，1}，乘加操作就简化为了按位操作，通过上述将CNN的量化简化为加减、按位操作，可以使得量化过程对于硬件计算是友好的，即便于硬件实现。本发明基于上述考虑，通过将CNN卷积层分解为逻辑运算与加法运算，转换为N×N卷积逻辑核，N为卷积核数，然后在FPGA中实现该N×N卷积逻辑核，由于只需要进行逻辑运算与加法运算，可以充分发挥FPGA的强大逻辑运算能力，实现高效的低位量化CNN卷积层。

如图1所示，本实施例基于FPGA的卷积神经网络量化实现方法包括量化卷积核步骤，包括：

S01.将CNN卷积层分解为逻辑运算与加法运算的组合，转换为N×N卷积逻辑核，N为大于2的正整数；

S02.在FPGA中使用多个LUT(逻辑查找表)分别实现逻辑运算以及加法运算，以实现N×N卷积逻辑核。

本实施例中N×N卷积逻辑核，具体是通过将所述CNN卷积层中量化激活值按照预设量化位数进行按位拆分，分解为多个同或运算与多个加法运算的组合得到。上述N×N卷积逻辑核中包括转换后量化卷积参数w′与量化激活值的各个位之间的同或运算。

当量化位n＝k时，k为大于1的正整数，将量化卷积公式转换得到3×3卷积逻辑核的推导过程如下：

其中，x_i，j为量化激值，i表示1到c的任意一个通道，c为输入通道数，j表示N＊N块中的第j个数值，w_i，j为权重系数，

中的q表示一个累加变量。

以N＝3，量化位数为3为例，将量化卷积公式转换得到3×3卷积逻辑核的推导过程如下：

上式中，w为量化卷积参数，其值为[－1，1]，c为输入通道数；w′为转换量化卷积参数，值为[0，1]，与w的值互为映射；x为3位量化激活值，其值为[0，1，…，6，7]，x²为量化激活值第2位，其值为[0，1]；x¹为量化激活值第1位，其值为[0，1]；x⁰为量化激活值第0位，其值为[0，1]。

上述推导过程中，首先将量化激活值x_ij按位进行拆分表示，即

由于w_i，j的值为[－1，1]，

的值为[0，1]，相乘后会出现3值情况，无法用1位表示，因此将

变换为

变换后相乘的结果为[－1，1]仍为2值；由于

的值为[－1，1]，1位无法表示，因此通过公式

将

进行同等替换，其中⊙为同或符号，则转换得到3×3卷积逻辑核为

由于w_i，j与c均为已知数，设

则β_c为常数项，可以与后面的尺度(Scale)层合并。上述3×3卷积逻辑核基于3位量化位分解得到，各部分均只需要一位表示，在FPGA中通过LUT与加法器，即可实现上述1bW3bA的3＊3卷积核逻辑。

为实现上述3×3卷积逻辑核f_3×3(w′_i，x_i)，如图2所示，具体可使用多个LUT计算

其中

以及

分别为量化激活值的第2、1、0位，w′₁、w′₂、w′₃分别为对应位的转换后量化卷积参数，使用一个LUT实现三个两位数(outmh、outmm、outml)加法，以及使用加法器实现各个分支(out1、out2、out3、out4)输出的求和。

参见图2，使用22个LUT(包括9个LUT62以及1个LUT64，每个LUT62由2个LUT组成，LUT64由4个LUT组成)、若干位操作电路和加法器实现上述3×3卷积逻辑核f_3×3(w′_i，x_i)，LUT是FPGA最小可编程单元，运算结果是一bit数据，图2即是使用LUT实现3bit特征图1bit权重的3乘3卷积，其中

到

是输入的9个3bit的特征数据的最低位，

到

是输入的9个3bit的特征图的中间位，

到

是输入的9个3bit的特征图的最高位，w′_i，1到w′_i，9是输入的9个1bit的权重。由LUT62实现计算

功能，即实现权重wi，1－wi，9分别和量化激活值xi，1～xi,9的第0位、第1位、第2位进行逻辑运算，输出为2位，值域为[0，3]；LUT64实现三个两位数(outmh、outmm、outml)加法功能，outmh、outmm、outml分别为w′_i，1到w′_i，9与

到

的三个逻辑运算结果，输出为4位，值域为[0，9]，乘2后值域为[0，18]；加法器实现4个分支(out1、out2、out3、out4)输出的求和，得到3*3卷积的结果，其输出值域为[0，63]，刚好使用一个6位无符号整数表示。位拼接电路设置在各LUT62的输出端，用于将各bit数据结合在一起，并不占用LUT资源；末位补0电路输出在LUT64的输出端，用于将1bit0数据拼接到该数据末尾，也不占用FPGA资源。

除上述量化为3位以外，还可以采用其他的量化位数(量化位数大于等于2)，即将一个n位的激活值表示为：

xⁱ代表x的第i位；然后按照上述量化卷积公式进行同理推导，在不同的量化位数时，可以得出不同的FPGA实现方式。

以下以量化位数n＝4为例重新推导得到：

即量化位n＝4时，3×3卷积逻辑核f_3×3(w′_i，x_i)为

除构造如上述的3×3卷积逻辑核外，当然还可以构造其它N×N卷积，n位量化位数，原理与上述相同，即为：

其中，x_ij量化激活值，w_i，j为权重系数。

以N＝5为例，卷积逻辑核推导如下：

综上，本实施例是通过将CNN卷积层按照量化位n，分解为多个逻辑运算与多个加法运算，构造出N×N卷积逻辑核，卷积逻辑核中各运算部分均可以使用1位进行表示，使得通过FPGA中LUT与加法器即可高效实现N×N卷积逻辑核。通过将CNN网络分解为适合FPGA实现的结构，可以大幅降低CNN所需的计算量、内存容量和读写带宽。以一个3×3卷积为例，不同量化方式的计算量如下表1所示：

表1：一个3X3卷积不同量化方式对比

量化方式	参数大小(bit)	激活值大小(bit)	计算量
				FP32	288	32	9次浮点乘法+9次浮点加法
Int8	72	8	9次8位乘法+9次32位加法
				1bW 3bA	9	3	22次逻辑操作+4次6位加法

如上述，量化卷积公式中转换后除卷积逻辑核外其余部分为常量，因为可以和尺度层合并。本实施例还包括将卷积层、尺度层、激活层合并，融合形成一个QCBR层，在FPGA上使用逻辑运算、定点数乘法与定点数加法实现QCBR层，从而利用FPGA的运算性能可以高效的同时实现卷积层、尺度层、激活层的功能。

为构建QCBR层，本实施例首先为QCBR层定义以下参数：

(1)c：输入通道数；

(2)l：卷积层的序号；

(3)w：量化卷积参数，其值为[－1，1]；

(4)

第l层卷积层的参数量化系数；

(5)x：Uint3量化输入激活值，是第l－1层QCBR层的量化输出，第l层QCBR层的量化输入；

(6)

第l－1层QCBR层输出激活值的量化系数，单系数常量；

(7)

第l层QCBR层输出激活值的量化系数，单系数常量；

(8)

第l层尺度层倍数系数；

(9)

第l层尺度层偏移系数；

(10)

第l层QCBR层倍数系数；

(11)

第l层QCBR层偏移系数。

然后将卷积层、尺度层与激活层融合形成QCBR层：

卷积层表示为：

尺度层表示为：

激活层表示为：

将上述(4)、(5)、(6)融合形成：

其中，

函数为限位函数，当x小于a时，输出为a；当x大于b时，输出为b；否则输出x。

上述量化卷积逻辑核仅是以3×3卷积逻辑核为例，当然还可以为其他N×N卷积逻辑核。

在FPGA中通过计算单元实现上式(8)，即可以实现QCBR层，QCBR层由卷积逻辑核与倍数系数相乘后再与尺度层偏移系数相加构成，仅包含简单的逻辑元算、定点数乘法与定点数加法，因而通过FPGA可以同时的高效实现卷积层、尺度层以及激活层的计算功能。

本实施例中，实现QCBR层的步骤包括：

在FPGA中使用N×N卷积逻辑核计算输入通道上的各个N×N卷积，得到N×N卷积结果；

使用加法器将所有输入通道上的N×N卷积结果进行累加，得到卷积积加结果；

使用乘加器将卷积累加结果与对应预设倍移系数相乘后与尺度层偏移系数相加，得到尺度运算结果；

对尺度运算结果进行限位后输出。

以实现如上式(8)的QCBR层为例，在FPGA中首先使用量化卷积逻辑核

计算输入通道上的每个3×3卷积，然后使用加法器将所有输入通道的上的3×3卷积结果累加；然后使用乘加器实现卷积累加结果乘以

并加上

得到尺度运算结果；最后使用比较器对尺度运算结果进行限位后输出。

训练量化也即为前量化，既网络边训练边进行量化，具有精度高、模型一致的特点，且低位量化网络必须使用训练量化。为在FPGA中实现上述低位量化CNN网络前，本实施例采用训练量化方法实现网络的量化，该训练量化方法包括：

构造初始CNN网络N并进行训练，得到预训练模型BWN－model；

将初始CNN网络N中的激活层替换为预设的QRelu层，形成更新后CNN网络QN；

将预训练模型BWN－model的各层权重加载到更新后CNN网络QN中，并对更新后CNN网络QN进行训练，直至训练完成。

上述QRelu层按照下式定义激活值：

其中

q_r为QRelu层的量化系数，初始值为6/(2^q-1)；a_i为QRelu层的输入激活值，a_k为QRelu层的输出激活值，a、b为预设阈值。

传统FP32与INT8的混合量化方式(如图4所示)，在FP32在推理期间使用INT8取代，但是训练仍然是基于FP32，因而训练效率以及精度并不高。本实施例通过的采用边训练边量化的前量化方法进行低位量化CNN网络量化，相比于传统FP32与INT8的混合量化方式，可以有效提高量化训练的效率以及精度，实现低位量化CNN网络高精度训练。

本实施例中，对更新后CNN网络QN进行训练的过程中包括分批次更新每个QRelu层的量化系数，具体步骤包括：

每次取当前批次的数据，对当前网络进行前向推理，判断更新后CNN网络QN中每一QRelu层的输入，如果不存在大于0的数，则根据当前批次b更新所述量化系数，否则计算[a_j，-a_j]的标准差δ，a_j为QRelu层中大于0的数，2δ为量化映射范围，根据标准差δ以及当前批次b更新量化系数。

在具体应用实施例中，采用上述训练方法的详细步骤为：

步骤1、构造L层CNN网络N，网络中所有的Relu层均替换为Relu6层，即使用Relu6作为激活函数，Relu6具体表示为：

步骤2、对网络N进行训练(网络训练方式可根据实际需求选取，如×NOR－netBWN网络训练方式)，得到预训练模型BWN－model。

步骤3、定义激活值量化位数q，q为大于1的正整数；将网络N中的Relu6层替换为QRelu层，生成新的量化网络命名为QN，其中QRelu层的激活值按上述式(8)定义，且梯度定义为：

其中，

为QRelu层的输入激活值的梯度，

为QRelu层的输出激活值的梯度。

将预训练模型BWN－model的各层权重加载到QN中。

步骤4、定义训练总轮数E，设当前训练轮数e为0。

步骤5、更新每个QRelu层的量化系数q_r。

步骤5.1令B为一个轮次的最小批次的个数，设当前批次b为0；

步骤5.2取当前批次b的数据，对网络进行前向推理，对于L层CNN量化网络QN中每一QRelu层的输入进行如下操作：

设l为L层CNN量化网络中某一层，1≤l≤L，取第l层的QRelu层的输入中大于0的数，记为a_j。若a_j的个数为0，更新

令

否则计算[a_j，-a_j]的标准差δ，2δ为量化映射范围，更新

令

步骤5.3当前批次b递增1，如果b大于等于B，跳转6；否则跳转5.2。

步骤6、对网络QN进行训练。

步骤7、当前训练轮数e递增1，如果e大于等于E，结束；否则跳转5。

上述QRelu层的激活值量化系数也可以不基于统计的方式，而是采用直接指定量化范围的方式，如取q_r＝P/(2^q-1)，P为量化映射范围。

为验证本发明上述训练方法的有效性，在具体应用实施例中分别对不同类型网络使用传统多种不同量化网络方法与本发明方法进行对比，结果如下表2所示，从表中可以看出，本发明通过特殊的低位量化网络的训练方式，可以使低位量化网络的精度仅仅略低于全精度网络，即可以实现高精度的网络量化。

表2：不同类型网络在不同量化方式下指标对比

本实施例基于FPGA的卷积神经网络量化实现装置，包括FPGA，在FPGA上配置有量化卷积核模块，量化卷积核模块包括：

第一LUT单元，包括多个LUT，用于计算将CNN卷积层转换为N×N卷积逻辑核中的逻辑运算，N×N卷积逻辑核为通过将CNN卷积层分解为逻辑运算与加法运算的组合转换得到；

加法器单元，用于对各个分支进行求和，得到最终的结果。

本实施例中，第一LUT单元具体计算3×3卷积逻辑核中权重参数与量化激活值第0、1、2位之间的逻辑运算，即计算

其中

以及

分别为量化激活值的第2、1、0位，w′₁、w′₂、w′₃分别为对应位的转换后量化卷积参数，⊙为同或符号，第二LUT单元具体计算3×3卷积逻辑核中权重参数与量化激活值第1位之间的各逻辑运算结果的加法运算，第一LUT单元的输出端还设置有位拼接电路，以用于将各LUT62的各位数据进行位拼接，第二LUT单元的输出端还设置有末位补0电路，以用于将第二LUT单元的输出数据进行末尾补0。如图2所示，N＝3且量化位为3时，量化卷积核模块具体包括9个LUT62(由2个LUT组成)、1个LUT64(由4个LUT组成)、若干位操作电路和加法器以实现上述3×3卷积逻辑核f_3×3(w′_i，x_i)，即第一LUT单元包括9个LUT62，实现计算

功能，输出为2位，值域为[0，3]，各LUT62计算量化激活值的各位(xi1～xi9的第0、1、2位)与权重参数(wi1～wi9)之间的逻辑运算；第二LUT单元包括1个LUT64，实现三个两位数(outmh、outmm、outml)加法功能，输出为4位，值域为[0，9]，乘2后值域为[0，18]；由位拼接电路将各LUT62的各位数据结合在一起，通过末位补0电路将0数据拼接到数据末尾，加法器单元实现4个分支(out1、out2、out3、out4)输出的求和，即将out1、out2、out3、out4四个数加起来得到3*3卷积的结果，其输出值域为[0，63]，使用一个6位无符号整数表示。

本实施例中，还包括将卷积层与尺度层、激活层融合形成的QCBR层实现模块，如图3所示，QCBR层实现模块包括：

量化卷积单元，用于使用量化卷积核模块计算输入通道上的各个N×N卷积，得到N×N卷积结果；

限位器，用于对所述尺度运算结果进行限位后输出。

本实施例基于FPGA的卷积神经网络量化实现装置与上述基于FPGA的卷积神经网络量化实现方法的原理相同，在此不再一一赘述。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于FPGA的卷积神经网络量化实现方法，其特征在于，该方法包括量化卷积核步骤，包括：

2.根据权利要求1所述的基于FPGA的卷积神经网络量化实现方法，其特征在于，所述N×N卷积逻辑核，通过将所述CNN卷积层中量化激活值按照预设量化位数进行按位拆分，分解为多个同或运算与多个加法运算的组合得到；所述N×N卷积逻辑核中包括转换后量化卷积参数w′与输入的量化激活值的各个位之间的同或运算。

3.根据权利要求1所述的基于FPGA的卷积神经网络量化实现方法，其特征在于，当N＝3，实现3×3卷积逻辑核时，使用多个LUT计算

其中

以及

4.根据权利要求1或2或3所述的基于FPGA的卷积神经网络量化实现方法，其特征在于，该方法还包括将卷积层、尺度层、激活层合并，融合形成一个QCBR层，所述QCBR层由所述N×N卷积逻辑核与倍数系数相乘后再与尺度层偏移系数相加得到，以使得在FPGA上使用逻辑运算、定点数乘法与定点数加法实现所述QCBR层。

5.根据权利要求4所述的基于FPGA的卷积神经网络量化实现方法，其特征在于，实现所述QCBR层的步骤包括：

使用加法器将所有输入通道上的所述N×N卷积结果进行累加，得到卷积结果；

对所述尺度运算结果进行限位后输出。

6.根据权利要求1或2或3所述的基于FPGA的卷积神经网络量化实现方法，其特征在于，该方法还包括网络训练步骤，包括：

构造初始CNN网络N并进行训练，得到预训练模型BWN－model；

7.根据权利要求6所述的基于FPGA的卷积神经网络量化实现方法，其特征在于，所述对所述更新后CNN网络QN进行训练的过程中包括分批次更新每个所述激活层QRelu的量化系数，步骤包括：

每次取当前批次的数据，对当前网络进行前向推理，判断所述更新后CNN网络QN中每一所述激活层QRelu的输入，如果不存在大于0的数，则根据当前批次更新所述量化系数，否则计算[a_j，-a_j]的标准差δ，a_j为所述激活层QRelu中大于0的数，2δ为量化映射范围，根据所述标准差δ以及当前批次更新所述量化系数。

8.一种基于FPGA的卷积神经网络量化实现装置，包括FPGA，其特征在于，所述FPAG上配置有量化卷积核模块，所述量化卷积核模块包括：

加法器单元，用于对各个LUT分支进行求和，得到最终的结果。

9.根据权利要求8所述的基于FPGA的卷积神经网络量化实现装置，其特征在于，所述第一LUT单元具体计算3×3卷积逻辑核中权重参数与量化激活值第0、1、2位之间的逻辑运算，所述第二LUT单元具体计算3×3卷积逻辑核中权重参数与量化激活值第1位之间的各逻辑运算结果的加法运算，所述第一LUT单元的输出端还设置有位拼接电路，以用于将各所述LUT的各位数据进行位拼接，所述第二LUT单元的输出端还设置有末位补0电路，以用于将所述第二LUT单元的输出数据进行末尾补0。

10.根据权利要求8或9所述的基于FPGA的卷积神经网络量化实现装置，其特征在于，还包括将卷积层与尺度层、激活层融合形成的QCBR层实现模块，所述QCBR层实现模块包括：

限位器，用于对所述尺度运算结果进行限位后输出。