CN106909970A

CN106909970A - 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块

Info

Publication number: CN106909970A
Application number: CN201710029955.3A
Authority: CN
Inventors: 王中风; 王逸致; 林军; 周杨灿
Original assignee: Nanjing University
Current assignee: Nanjing Fengxing Technology Co Ltd
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2017-06-30
Anticipated expiration: 2037-01-12
Also published as: CN106909970B

Abstract

本发明公开了一种基于近似计算的二值权重卷积神经网络硬件加速器的计算模块。硬件加速器的计算模块可接收输入神经元以及二值卷积核(权重)并进行快速的卷积乘累加计算。计算模块使用补码数据表示形式，主要包含了优化的近似二值乘法器，一个压缩器树，创新的近似加法器及用于串行地累加部分和的暂存器。除此之外，针对优化的二值近似乘法器，提出了两种误差补偿方案，能在极少增加硬件资源开销的前提下使二值近似乘法器带来的误差得到降低或完全消除。本发明通过优化的计算单元，能够使使用该计算模块的二值权重卷积神经网络硬件加速器的关键路径大大缩短，并减少了面积损耗和功耗，适用于需要使用卷积神经网络的低功耗嵌入式系统。

Description

一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块

技术领域

本发明设计计算机及电子信息技术领域，特别涉及一种基于近似计算的二值权重卷积神经网络硬件加速器的计算模块。

背景技术

深度卷积神经网络模型在诸多领域譬如图像分类、动作检测、语音识别以及其他大数据分析的任务中取得了极大的突破和成功。一方面，随着卷积神经网络的效果变得越来越好，其本身拓扑结构也在不断加深，参数数量也达到了10的6次方及以上级别，这带来了计算复杂度的极大提升，所需的计算能力爆炸性增长。另一方面，嵌入式系统仅能够提供有限的资源，其功耗也受限在一定范围内，现有常用的使用大规模GPU的解决方案虽然有较高的吞吐率，但其功耗过高(约250W)，难以应用于嵌入式系统中。

二值权重卷积神经网络是一种简化的卷积神经网络模型，其最早由加拿大蒙特利尔大学的Matthieu Courbariaux等人提出，后又经过Itay hubara、Mohammad Rasteg等人的改进。此模型通过特别的训练方式将卷积神经网络的权重训练为二值的+1和-1，这使得模型的计算复杂度大大降低，模型的大小也能够被压缩达到32倍。

然而尽管如此，对于深度卷积神经网络，即使参数二值化能够使得复杂度有所降低，其仍然需要大量的计算，直接应用于嵌入式系统中很难满足实时性和低功耗的要求。

在二值权重卷积神经网络中的核心计算在于卷积层的乘累加计算，这涉及了多个数据(从几百到几千个)的计算，如何达到高速低功耗且不会对系统计算精度带来明显误差，是二值权重卷积神经网络加速器设计的关键。

发明内容

本发明旨在解决二值权重卷积神经网络应用于功耗受限而又需求实时性的嵌入式系统的技术问题，或至少提出一种有用的商业选择。为此，本发明的目的在于提出一种基于近似计算的二值权重卷积神经网络硬件加速器的计算模块，以完成大量输入神经元的二值权重乘累加计算。在不明显降低二值权重卷积神经网络计算精度的前提下，设计了专门优化的近似二值乘法器及对应的两种补偿方案和近似加法器，能够缩短最长路径，减少面积以及降低功耗。除此之外，使用了压缩器树代替传统的加法器树，消除了最长路径与输入数据位宽的依赖性，并且不增加面积的消耗。

从该计算模块的整体上来看，其包含了：

1.多个输入神经元输入端，用于接收输入神经元数据值，所述多个数据输入端包括四个输入通道，每个输入通道若干个的数据输入端；

2.多个二值权重(卷积核)输入端。所述二值权重输入端包括四个输入通道，每个输入通道若干个权重值的输入端；

3.多个近似二值乘法器，用于进行二值权重与输入神经元的乘法计算。四个输入通道，每个输入通道有若干个近似二值乘法器；

4.一个压缩器树。用于将若干个并行输入通道，每个输入通道若干个输入神经元在进行二值乘法计算后的结果进行快速相加；此压缩器树包含多个3∶2压缩器和4∶2压缩器；

5.第一近似加法器，用于将压缩器树输出的两个数值结果进行相加；

6.一个串行累加单元，用于将上述单元的运算结果进行串行累加，或是与偏置项结合。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，计算模块中的串行累加单元，包含了：

1.第二近似加法器，用于将第一近似加法器的结果与偏置项，或是近似二值乘法器的补偿项，或是中间结果暂存器的数据进行累加；

2.饱和逻辑，用于防止第二近似加法器计算结果的溢出而进行饱和处理；

3.中间结果暂存器，用于暂存累加的中间结果以进入下一次累加；

4.多路选择器，用于接收输入的偏置项，或是近似二值乘法器补偿项，或是暂存器中的计算中间结果，并根据控制信号选择送入第二近似加法器的项；

5.数据门选通寄存器，通过选通信号用于输出卷积结果，并在卷积结果未完全计算完毕时阻止数据输出。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，还包括多个寄存器，其中所述多个寄存器被配置为实现流水线操作。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，数值被编码为定点的2的补码形式。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，可通过扩展支持多种卷积核大小，如3×3，5×5，7×7等等；根据需要的不同的卷积核大小，如权利要求1所述的若干个神经元输入端、二值权重输入端、近似二值乘法器的数量、并行输入通道数量可相应扩展；例如针对3×3卷积核，神经元输入端、二值权重输入端、近似二值乘法器的数量则可设定为9个；而并行输入通道可根据需求任意设定；说明书的实施例是以3×3卷积核、4个并行输入通道为例，但不应理解为对本发明的限制。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，第一、第二近似加法器中，包括：第一子加法器，用于近似的计算第一、第二近似加法器输入数据的高位之和。第二子加法器，用于计算第一、第二近似加法器输入数据的低位之和。一个输出并接模块，用于将第一、第二子加法器的计算结果并接起来并输出。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，近似二值权重乘法器的输入其中之一为二值权重，其数字值为+1或-1，但使用1个比特分别表示，0表示-1，1表示+1。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，压缩器树中的3∶2压缩器由多个1比特全加器构成；这些1比特全加器的三个输入分别为3∶2压缩器的3个输入(X、Y、Z)的某一个比特；输出为S、C，他们的关系满足：X+Y+Z＝S+C×2，每个1比特全加器无相互连接。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，压缩器树中的4∶2压缩器由多个1比特全加器构成，与3∶2压缩器不同的是在4∶2压缩器中由两个1比特全加器作为一个基本单元；每个基本单元内包含一个第一全加器和第二全加器；第一全加器的三个输入为4∶2压缩器的4个输入中某三个输入的某一个比特，进位输出连接至下一个比特的基本单元的第二全加器的输入之一，另一输出连接至第二全加器输入之一；基本单元内的第二全加器的三个输入分别来自于上一个比特的基本单元的第一全加器的进位输出、当前基本单元第一全加器的输出之一，以及整个4∶2压缩器中4个输入之一的某比特；假设4∶2压缩器的输入为X、Y、Z、W、C_in(1比特)，输出为Carry、Sum，他们都有多个比特，则满足以下关系：X+Y+Z+W+C_in＝Carry+Sum。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，近似二值乘法器，包含：与输入数据比特数相同数量的反相器，用于计算输入数据与二值权重为-1时的近似结果；一个两输入多路选择器，用于根据二值权重选择近似二值乘法器的输出结果。

在二值权重卷积神经网络硬件加速器的计算模块的一些实施例中，串行累加单元其中的多入选择器的输入之一为近似二值乘法器的补偿值。根据补偿方案的不同，有以下两种补偿方式：1)直接将补偿值设置为0.5C_inW_kernelH_kernel；其中C_in为当前卷积层输入通道数，W_kernel、H_kernel分别为当前卷积层的卷积核的列数和行数，常见值为3、5、7、11等；2)通过在模型的训练过程中，记录当前卷积层每个输出通道对应的所有卷积核中-1的权重的数量，记为n；则对每一个输出通道的计算结果，都补偿此值n。

本发明的有益效果：在不产生明显的精度损失的前提下，加速二值权重卷积神经网络的计算速度，并且功耗低，面积小。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的整体结构图。

图2是本发明中3∶2压缩器、4∶2压缩器(1比特)的详细结构图。

图3是本发明中带有补偿方案的近似二值乘法器、近似加法器的详细结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。其中自始至终使用相同的名称表示相同或有类似功能的模块。下面通过参考附图描述的实施示例以3×3的卷积核大小为例，并行输入通道数设为4，旨在用于解释本发明，而不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括一个或更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

如图1所示，为本发明的整体结构图。该基于近似计算的二值权重卷积神经网络硬件加速器的计算模块主要包含了：

6.一个串行累加单元，用于将上述单元的运算结果进行串行累加，或是与偏置项结合，或是对近似二值乘法器的误差进行补偿。

本实施例以3×3卷积核大小为例，并行的输入通道数设为4通道。因此，在进行二值卷积过程中，同时将有3×3×4＝36个输入神经元与二值权重相乘后进行相加。而当输入通道数大于4时，此4通道的累加和将是计算输出神经元的中间结果的部分和，需要在串行累加单元中进行串行累加。因此此计算模块使用的是一种部分并行的方式，计算模块将被复用。

使用压缩器树完成上述相加过程的方式如图1上半部分所示。输入通道1、2、3、4有相同的结构，区别在于输入数据为不同输入通道的神经元，二值权重也为对应不同输入通道的卷积核的权重。为了清晰，图中仅绘出1个通道的具体结构。压缩器树由多个3∶2压缩器和4∶2压缩器前后串联而成，最终使36个数据相加变成了需要进行2个数据相加。

如图2所示是压缩器树中的3∶2压缩器和4∶2压缩器内部结构图。一个压缩器由多个1比特的全加器组成。对于一个3∶2压缩器，如图2左半部分所示，其含有3个输入X、Y、Z，两个输出C、S，他们分别由多个比特组成。每个比特的全加器之间无相互依赖关系。3∶2压缩器的输出关系是：

X+Y+Z＝S+C×2，

如果有三个数据需要进行相加计算，可以由一个3∶2压缩器后串联一个普通加法器来实现，此普通加法器一端输入为3∶2压缩器的输出S，一端的输出为3∶2压缩器的输出C的两倍，可由移位来实现。这将比直接使用两个两输入加法器有更短的关键路径，这是因为普通串行进位加法器的延迟与输入数据位宽成正比，而3∶2压缩器的关键路径延迟仅为1个比特的全加器的延迟，与输入数据位宽无关。使用压缩器和普通加法器的组合，可以使计算3个数据相加之和的延迟降低为一个加法器延迟+一个1比特全加器延迟，少于两倍普通串行进位加法器与输入数据位宽的延迟。而相对使用两个超前进位加法器进行3个数字相加，压缩器和普通加法器的组合能够有更小的面积。因为3∶2压缩器的面积是与串行进位加法器的面积相同，而比超前进位加法器小。

图2中所绘的4∶2压缩器也由多个1比特全加器组成，为了简洁起见，途中仅绘出了1个比特的4∶2压缩器，多个1比特4∶2压缩器可通过下面介绍的连接方式组合成多个输入比特数位宽的4∶2压缩器。4∶2压缩器与3∶2压缩器不同之处在于它以2个全加器为一个基本单元。其连接方式如图2所示，图2所示的是第k个1比特4∶2压缩器。X_k、Y_k、Z_k、W_k为多位输入的第k个比特，C_in是来自于低位比特的进位。C_out是此位基本单元的进位输出，用于连接在下一比特的C_in输入。4∶2压缩器的特性如下：

1、其输出代表了五个输入之和。

2.为了防止进位位的串行传播，每一个基本单元中的C_{out_k}仅与X_k、Y_k、Z_k有关，与C_{in_k}没有依赖关系。

3.多个1比特4∶2压缩器组成一个多比特的4∶2压缩器。连接方式如下：第k-1个1比特压缩器的G_out被连接在第k比特的C_in输入端。第一个1比特压缩器的C_in输入可以置为0。

4.一个多比特4∶2压缩器的输入输出关系如下：

X+Y+Z+W+C_{in_0}＝Carry×2+Sum

一个4∶2比较器仅有两个1比特的全加器延迟，相比于使用有2阶与输入数据位宽成正比的加法器延迟的4输入加法器，能显著降低关键路径的延迟。

将上述3∶2压缩器和4∶2压缩器组合成树形，即可将多个数据的相加最终压缩成两个数据的相加，组合方式如图1所示。

使用压缩器树累加36个数据的总延时可估计如下：

D_tree＝2×D_3∶2+4×D_4∶2+D_Adder≈8×D_AOI+8×D_Inv+D_Adder

其中D表示延迟，D_3∶2、D_4∶2、D_Adder、D_AOI、D_Inv分别指的是3∶2压缩器、4∶2压缩器、串接在压缩器树后的加法器、与或非门、反相器的延迟。相比直接使用串行进位加法器树累加36个数据，总的延迟为7个加法器的延迟，且每个加法器的延迟与其数据位宽成正比。可以看出压缩器树相比加法器树在延迟上得到大大的改善。

为了进一步降低路径延迟和功耗，本发明将压缩器树后的加法器以及串行累加单元中的加法器进行了优化，设计了一个近似加法器进行代替。

近似加法器的结构如图3左侧所示。包含了：第一子加法器，用于近似的计算第一、第二近似加法器输入数据的高位之和；第一子加法器的最低位进位位连接到第二子加法器某一个输入的最高位；第二子加法器，用于计算第一、第二近似加法器输入数据的低位之和；一个输出并接模块，用于将第一、第二子加法器的计算结果并接起来并输出。

此结构将一个多位全加器在第k个比特处，拆分成高位和低位两部分，并分别相加，然后并接起来。由于这种拆分，高位子加法器无需依赖于低位的串行进位，所以能够减少缩短最长路径长度。带来的误差来自于某个输入的第k-1位的值与实际所需的第k-1位进位的误差。

表1

X[k-1]	0	0	0	0	1	1	1	1
									Y[k-1]	0	0	1	1	0	0	1	1
C[k-2]	0	1	0	1	0	1	0	1
										0	0	0	0	1	1	1	1
	0	0	0	1	0	1	1	1
									δ	0	0	0			0	0	0

表2

为了能够对本发明中近似加法器的效果有更清楚的理解，表1给出了近似加法器输入的组合方式以及带来的误差。其中X[k-1]、Y[k-1]、C[k-2]分别表示第k位的两个输入以及在第k-1位的进位(从0开始索引)。C[k-1]_approx·，C[k-1]_correct分别为第k个比特进位输入的近似值和正确值。而近似加法器一次计算所带来的误差表示为δ。

对于一个深度二值卷积神经网络来说，将会有大量的输入数据进行相加。举例来说，如VGG-16网络的某些层数的输入通道数达到512，那么将有3×3×512＝4608个数相加。而整个计算模块中有2个近似加法器，那么就会引入2×4608＝9216次加法。假设近似加法器的输入每个比特满足均匀分布，那么由独立同分布随机变量的中心极限定律，总误差的均值将趋近于0，即在大量数据累加的过程中大部分正误差和负误差相互抵消，最后产生的总误差较小。而二值卷积神经网络由于其对于噪声的鲁棒性，对最终的分类结果不会造成太大的影响。表2显示了在不同数据集上本发明中设计的近似加法器所带来的分类精度误差不会超过0.5％，在某些数据集如CIFAR-10甚至分类精度还有所提升。表2的结果中CIFAR10和CIFAR100数据集是使用VGG16二值权重卷积神经网络测试的结果。MNIST是使用LENET-5二值权重版本测试的结果。

近似二值乘法器及补偿方案说明如下：

本发明使用2的补码形式来表示数据。由于二值权重卷积神经网络的权重都为+1或者-1，因此可以将原有的进行加权乘法的乘法器改为由求补码操作的电路加多路选择器代替，相比使用普通乘法器，可以使面积和功耗大大减少。为了进一步进行优化功耗和性能，本发明提出了一种近似二值乘法器以及两种误差补偿方案。

上述的求补码电路及多路选择器组成的二值乘法器中，求补码电路一般主要为对输入进行求反码，在加一个加法器，向输入的反码加1求得。因此仍然需要一个多位的加法器。本发明提出一种近似的二值乘法器，如图3右侧所示，取消了求反码操作后的“加一加法器”，而仅保留反相器和多路选择器，也即在输入权重为+1时无误差，在权重为-1时，得到了输入神经元乘上-1结果的近似值，带来的误差为-1。

对于某一个输出神经元，使用上述近似二值乘法器对其相关的所有输入神经元进行加权后，所带来的有误差的输出神经元与其原本正确的值的关系为：

x^*＝x-n

其中，x^*是带有误差的输出神经元值，x是正确的输出神经元值，n为该输出神经元对应的卷积核中为-1权重的数量。

为了降低或消除近似二值乘法器带来的误差，本发明在串行累加单元中对此误差进行补偿(如图1所示)。关于误差的补偿，本发明提出两种方案：

1)直接将补偿值设置为0.5C_inW_kernelH_kernel；其中C_in为当前卷积层输入通道数，W_kernel、H_kernel分别为当前卷积层的卷积核的列数和行数，常见值为3、5、7、11等。这是因为从统计上来讲，+1和-1的权重比例近似相同。经过在CIFAR10数据集上的测试，这种方案所带来的分类精度损失仅为0.71％。

2)第二种方案是，通过在模型的训练过程中，记录当前卷积层每个输出通道对应的所有卷积核中-1的权重的数量，记为n；则对每一个输出通道的计算结果，都补偿此值n。这是一个精确补偿方案，将完全消除近似二值乘法器带来的误差。此方案与第一种方案相比，需要多存储C_in个参数。

选择何种补偿方案，可以视作对于精度要求和片上参数存储空间的一种权衡。

根据使用Synopsys Design Compiler工具的综合结果，使用上述的近似二值乘法器及补偿方案，可以在不损失或损失极低分类精度的情况下，相比使用补码电路加多路选择器组成二值乘法电路的方案，有效节省40％的面积需求。

图1下半部分的串行累加单元，包括：

第二近似加法器，用于将第一近似加法器的结果与偏置项，或是近似二值乘法器的补偿项，或是中间结果暂存器的数据进行累加；

饱和逻辑，用于防止第二近似加法器计算结果的溢出而进行饱和处理；

中间结果暂存器，使用寄存器文件(Register file)实现，用于暂存累加的中间结果以进入下一次累加；

多路选择器，用于接收输入的偏置项，或是近似二值乘法器补偿项，或是暂存器中的计算中间结果，并根据控制信号选择送入第二近似加法器的项；

数据门选通寄存器，通过选通信号用于输出卷积结果，并在卷积结果未完全计算完毕时阻止数据输出。

串行累加单元的功能主要是对36个数据的相加结果进行累加，以部分并行的形式进行卷积计算。前述的近似二值乘法器和压缩器树以及第一近似加法器将被多个输入通道及不同的输入二值权重复用，他们的结果为串行累加单元累加，最终得到输出神经元的最终值。

综上所述，利用本发明实施例提出的基于近似计算的二值权重卷积神经网络硬件加速器的计算模块，可以有效的提高二值卷积神经网络计算的吞吐率，且能够在损失极少精度的前提下，显著降低功耗和面积，适用于需要应用卷积神经网络算法进行实时处理的低功耗嵌入式系统。

尽管你已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下载本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于近似计算的二值权重卷积神经网络硬件加速器的计算模块，包括：

多个输入神经元输入端，用于接收输入神经元数据值，所述多个数据输入端包括四个输入通道，每个输入通道若干个的数据输入端；

多个二值权重(卷积核)输入端。所述二值权重输入端包括四个输入通道，每个输入通道若干个权重值的输入端；

多个近似二值乘法器，用于进行二值权重与输入神经元的乘法计算。四个输入通道，每个输入通道有若干个近似二值乘法器；

一个压缩器树。用于将若干个并行输入通道，每个输入通道若干个输入神经元在进行二值乘法计算后的结果进行快速相加；此压缩器树包含多个3：2压缩器和4：2压缩器；

第一近似加法器，用于将压缩器树输出的两个数值结果进行相加；

一个串行累加单元，用于将上述单元的运算结果进行串行累加，或是与偏置项结合。

2.如权利要求1所述的串行累加单元，包括：

中间结果暂存器，用于暂存累加的中间结果以进入下一次累加；

3.如权利要求1所述二值权重卷积神经网络硬件加速器的计算模块，还包括多个寄存器，其中所述多个寄存器被配置为实现流水线操作。

4.如权利要求1所述的二值权重卷积神经网络硬件加速器的计算模块，可通过扩展支持多种卷积核大小，如3×3，5×5，7×7等等；根据需要的不同的卷积核大小，如权利要求1所述的若干个神经元输入端、二值权重输入端、近似二值乘法器的数量、并行输入通道数量可相应扩展；例如针对3×3卷积核，神经元输入端、二值权重输入端、近似二值乘法器的数量则可设定为9个；而并行输入通道可根据需求任意设定；说明书的示例是以3×3卷积核、4个并行输入通道为例，但不应理解为对本发明的限制。

5.如权利要求1、权利要求2所述的第一、第二近似加法器，包括：

第一子加法器，用于近似的计算第一、第二近似加法器输入数据的高位之和；第一子加法器的最低位进位位连接到第二子加法器某一个输入的最高位；

第二子加法器，用于计算第一、第二近似加法器输入数据的低位之和；

一个输出并接模块，用于将第一、第二子加法器的计算结果并接起来并输出。

6.如权利要求1所述的近似二值权重乘法器的输入其中之一为二值权重，其数字值为+1或-1，但使用1个比特分别表示，0表示-1，1表示+1。

7.如权利要求1所述压缩器树中的3：2压缩器由多个1比特全加器构成；这些1比特全加器的三个输入分别为3：2压缩器的3个输入(X、Y、Z)的某一个比特；输出为S、C，他们的关系满足：X+Y+Z＝S+C×2，每个1比特全加器无相互连接。

8.如权利要求1所述压缩器树中的4：2压缩器由多个1比特全加器构成，与3：2压缩器不同的是在4：2压缩器中由两个1比特全加器作为一个基本单元；每个基本单元内包含一个第一全加器和第二全加器；第一全加器的三个输入为4：2压缩器的4个输入中某三个输入的某一个比特，进位输出连接至下一个比特的基本单元的第二全加器的输入之一，另一输出连接至第二全加器输入之一；基本单元内的第二全加器的三个输入分别来自于上一个比特的基本单元的第一全加器的进位输出、当前基本单元第一全加器的输出之一，以及整个4：2压缩器中4个输入之一的某比特；假设4：2压缩器的输入为X、Y、Z、W、C_in(1比特)，输出为Carry、Sum，他们都有多个比特，则满足以下关系：X+Y+Z+W+Cin＝2×Carry+Sum。

9.如权利要求1所述的近似二值乘法器，其特征在于，包含：

与输入数据比特数相同数量的反相器，用于计算输入数据与二值权重为-1时的近似结果；

一个两输入多路选择器，用于根据二值权重选择近似二值乘法器的输出结果。

10.如权利要求2所述的串行累加单元，其中的多入选择器的输入之一为近似二值乘法器的补偿值，根据补偿方案的不同，有以下两种补偿方式：

1)直接将补偿值设置为0.5C_inW_kernelH_kernel；其中C_in为当前卷积层输入通道数，W_kernel、H_kernel分别为当前卷积层的卷积核的列数和行数，常见值为3、5、7、11等；

2)通过在模型的训练过程中，记录当前卷积层每个输出通道对应的所有卷积核中-1的权重的数量，记为n；则对每一个输出通道的计算结果，都补偿此值n。