CN111523637A

CN111523637A - 一种信息保留网络的生成方法及装置

Info

Publication number: CN111523637A
Application number: CN202010076953.1A
Authority: CN
Inventors: 刘祥龙; 秦浩桐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2020-08-11

Abstract

本发明公开了一种信息保留网络的生成方法及装置。该生成方法包括Libra参数二值化步骤和误差衰减估计步骤；其中，Libra参数二值化步骤在前向传播中更改权重分布，通过最大化量化参数的信息熵和最小化量化误差使前向传播中的信息损失最小化；误差衰减估计步骤通过逐步近似后向传播中的符号函数，减少梯度信息损失。本发明解决了前向传播中权重/激活和后向传播中梯度的信息丢失问题，可以广泛应用于各种神经网络架构。

Description

一种信息保留网络的生成方法及装置

技术领域

本发明涉及一种信息保留网络的生成方法，同时涉及一种信息保留网络的生成装置，属于机器学习技术领域。

背景技术

卷积神经网络(Convolutional Neural Networks，简称为CNN)是一种包含卷积计算且具有深度结构的前馈神经网络，在机器学习的多个领域，包括语言识别、图像分类、物体识别与检测等都取得了良好的应用效果。典型的卷积神经网络由多种类型的网络层组成，主要包括：卷积层、批量标准化层、池化层、非线性层、全连接层等。目前，卷积神经网络模型普遍采用具有极大深度和广度的深度神经网络，使得卷积神经网络模型需要使用大量的存储资源，并且在训练和推理过程中需要产生数量巨大的浮点数运算操作，占用大量的计算资源。

卷积神经网络的二值化是将神经网络中全精度的多位浮点数(例如为32-bit)的权重(简称为W)和激活(简称为A)，量化为1-bit的二值权重B_w和1-bit的二值激活B_a。这种二值化可以最大程度地降低卷积神经网络模型占用的存储资源和计算量，并将原本参数的计算由浮点数运算转化为位运算，极大地加速了卷积神经网络的推理过程并降低了计算复杂度，同时也使得卷积神经网络可以在小型智能设备如智能手机、可穿戴设备等上进行部署。但是，尽管许多二值化方法通过最小化前向传播中的量化误差提高了卷积神经网络模型的准确性，但是在二值化模型和全精度模型之间仍然存在明显的性能差距。

在公开号为107832837A的中国专利申请中，南京大学提出了一种基于压缩感知原理的卷积神经网络压缩方法及解压缩方法。其中，压缩方法包括：预处理步骤、将卷积神经网络中的每一层的权值预处理为一系列矩阵；压缩步骤、将预处理步骤得到的预处理结果进行压缩处理得出压缩后的权值；训练步骤、对压缩后的权值进行训练；编码步骤、对训练步骤训练后的已压缩权值进行编码；模型生成步骤、根据经编码步骤得到的编码结果生成压缩后的卷积神经网络模型文件。该卷积神经网络压缩方法，比现在较为流行的直接剪枝量化方法有更高的压缩率，而且可以通过在频域中保留低频信息来防止过多的信息损失。

发明内容

本发明所要解决的首要技术问题在于提供一种信息保留网络的生成方法。

本发明所要解决的另一技术问题在于提供一种信息保留网络的生成装置。

为实现上述目的，本发明采用下述的技术方案：

根据本发明实施例的第一方面，提供一种信息保留网络的生成方法，包括Libra参数二值化步骤和误差衰减估计步骤；其中，

所述Libra参数二值化步骤在前向传播中更改权重分布，通过最大化量化参数的信息熵和最小化量化误差使前向传播中的信息损失最小化；

所述误差衰减估计步骤通过逐步近似后向传播中的符号函数，减少梯度信息损失。

其中较优地，所述Libra参数二值化步骤中，卷积神经网络中的二值权重和二值激活服从伯努利分布。

其中较优地，所述Libra参数二值化步骤中，提高卷积神经网络中的权重和激活在量化后的信息熵。

其中较优地，所述误差衰减估计步骤中，在后向传播过程中近似量化函数f(x)＝Sign(x)，定义误差衰减估计为g(x)＝k Tanh(t x)

其中，k和t为两个超参数，

其中较优地，使用两个所述超参数k和t控制近似函数的曲线形状。

其中较优地，当t≤1时，

当t＞1时，

其中，i表示前向传播和后向传播中所有批次的单次训练迭代。

其中较优地，当t≤1时，g(x)在0处的导数值为0。

其中较优地，当t＞1时，g(x)近似f(x)＝Sign(x)。

根据本发明实施例的第二方面，提供一种信息保留网络的生成装置，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行以下操作：

Libra参数二值化步骤：在前向传播中更改权重分布，通过最大化量化参数的信息熵和最小化量化误差使前向传播中的信息损失最小化；

误差衰减估计步骤：通过逐步近似后向传播中的符号函数，减少梯度信息损失。

与现有技术相比较，本发明所提供的信息保留网络(IR-Net)一方面利用Libra参数二值化步骤，通过在前向传播的二值化之前进行平衡处理和标准化权重使信息最大化；另一方面，利用误差衰减估计步骤逐步近似后向传播中的符号函数，最大程度地减少梯度信息损失，从而解决了前向传播中权重/激活和后向传播中梯度的信息丢失问题，可以广泛应用于各种神经网络架构。

附图说明

图1为本发明所提供的信息保留网络(IR-Net)的生成过程示意图；

图2为Libra参数二值化步骤提高信息熵的效果示意图；

图3为误差衰减估计步骤中，y＝Clip(x)与y＝x与Sign函数导数偏差对比示意图；

图4为误差衰减估计步骤中，STEP 1、STEP 2起始近似函数的曲线变化示意图；

图5为误差衰减估计步骤中，STEP 1、STEP 2起始近似函数导数的曲线变化示意图；

图6为本发明所提供的信息保留网络生成装置的示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

发明人经过深入研究，认为二值化卷积神经网络的性能下降主要是由于有限的表示能力和二值化的离散性造成的，从而导致前向传播和后向传播中严重的信息丢失。在前向传播中，当激活和权重限制为两个值时，模型的多样性急剧下降，而多样性被证明是实现神经网络高精度的关键。这种多样性意味着在前向传播过程中能够携带足够的信息，同时在后向传播中的准确梯度可以为后续优化提供正确的信息。然而，在二值化卷积神经网络的训练过程中，离散二值化总是导致不正确的梯度，从而导致错误的优化方向。

如图1所示，本发明实施例公开了一种信息保留网络(Information RetentionNetwork，简称为IR-Net)，以尽量保留在前向传播和后向传播中包含的信息。IR-Net主要包括两方面的具体步骤，分别是：(1)Libra参数二值化(Libra Parameter Binarization，简称为Libra-PB)步骤：在前向传播中更改权重分布，通过最大化量化参数的信息熵和最小化量化误差使前向传播中的信息损失最小化；(2)误差衰减估计(Error Decay Estimator，简称为EDE)步骤：通过逐步近似后向传播中的符号函数来最大程度地减少梯度信息损失，在训练开始时进行足够的更新，在训练结束时确保准确的梯度，从而将梯度信息损失降至最低。

下面，首先介绍实现Libra参数二值化的具体步骤。

众所周知，量化会在卷积神经网络的前向传播和后向传播中带来信息损失，这是训练高精度二值化卷积神经网络模型的瓶颈所在。发明人经过深入研究，认为只减小量化偏差是远远不够的。在二值化卷积神经网络的训练过程中，使用Sign函数将32-bit的参数量化到1-bit是关键的一步。相比于卷积神经网络中使用的其他函数，Sign函数具有非常独特的性质，它将网络中连续的参数映射到离散的参数空间中，并且它的导数是脉冲函数，不能在后向传播过程中直接使用。因此，Sign函数导致了二值化卷积神经网络在训练过程中出现了多种偏差，包括量化偏差、信息熵偏差和导数偏差等。通过在训练中修正这些偏差，可以得到令人满意的二值化卷积神经网络。下面，对此展开具体说明：

1.量化前后数据的量化偏差

在二值化卷积神经网络中，权重和激活均从32位浮点数被量化为1位整数，这就带来了数据的量化误差。通常，这一误差被定义为∫f(w)||w-Q_w||²，其中x代表全精度数据，Q_x代表x量化后的数据，f(x)代表x的概率密度函数。

为了使卷积神经网络拥有二值权重和二值激活，本发明实施例中用量化后的权重Q_w和量化后的激活Q_a近似卷积层的权重和激活。通常，在二值化卷积神经网络中，Q_w和Q_a分别表示为：

Q_w＝αB_w，Q_a＝βB_a (1)

其中B_w，B_a∈{-1，+1}，α和β为比例因子。这一过程会产生量化误差。以权重为例，为了找到一个优化近似W＝Qw，需要求解以下优化问题：

argmin∫f(w)||w-Q_w||² (2)

对于优化问题，

argmin J(W，Q_w)＝argmin∫f(w)||w-Q_w||² (3)

＝argmin||W-Q_w||²

＝argmin(W^TW-2W^TQ_w+Q_w ^TQ_w)

Q_w可以简单的使用

Q_w＝αSign(W) (4)

取得，带入公式(3)中可以得到：

argmin J(W，Q_w)＝argmin(W^TW-2W^TQ_w+Q_w ^TQ_w) (5)

＝argmin(W^TW-2αW^TB_w+α²B_w ^TB_w)

其中，W^TW是一个常数，本发明实施例中可以使用c来代替，代入上式中，则该优化问题转化为：

argmin J_DQ(W，Q_w)＝argmin(c-2αW^TB_w+α²B_w ^TB_w) (6)

同时，因为B_w∈{+1，-1}ⁿ，求解方法为B_w＝Sign(W)，所以B_w ^TB_w也是一个常数，B_w ^TB_w＝n，带入得：

argmin J_DQ(W，Q_w)＝argmin(c-2αW^TB_w+α²n) (7)

所以上述优化问题可以被转化为最大化下面的优化问题：

B_w ^*＝argmax{W^TB_w}，s.t.B_w∈{+1，-1}ⁿ (8)

以上的优化问题可以通过以下设置来解决：B_w＝-1 if w<0 and B_w＝+1 if w≥0，因此最优解是B_w＝Sign(W)。为了找到比例因子α的最佳值，我们采用J_DQ(W，Q_w)的导数并将其设置为零，求解得：

进一步地，将B_w ^*替换为Sign(W)，

因此，本发明实施例将二值化过程中的权重量化偏差定义为J_DQ(W，Q_w)。同理，激活的量化偏差为argmin J_DQ(A，Q_a)，两者都可以通过以J_DQ(W，Q_w)为例的上述过程求解，从而在前向传播中更改权重分布。

2.量化前后数据的信息熵偏差

信息熵是衡量数据携带信息的重要指标。在卷积神经网络中，卷积神经网络中的权重成钟形分布。受到Batch Normalization(批标准化)过程的影响，全精度卷积神经网络中的激活一般围绕某个均值呈高斯分布，高斯分布具有在该均值和方差下的最大信息熵。但在二值化卷积神经网络中，由于所有参与卷积的权重和激活均被量化为+1或-1，B_w和B_a的信息熵相比原始的权重和激活极大下降。极端情况下，由于激活中大量的元素集中在0附近，二值激活B_a中的绝大多数元素甚至会集中到同一数值。这造成全精度参数与二值化参数之间的信息熵偏差。

除了减小参数的量化偏差，提高二值化卷积神经网络中量化参数的信息熵也是提升网络性能的有效方法。由于在二值化卷积神经网络训练的前向传播过程中，卷积层中所有的权重和激活均被量化为离散的二值权重B_w和二值激活B_a。这种离散特性给卷积神经网络的训练带来了更多麻烦，也带来了信息熵的巨大下降。

现有研究表明，全精度卷积神经网络中的权重和激活都呈现钟形分布，可以近似看作是高斯分布。在使用Sign函数量化之后，卷积神经网络中的二值权重B_w和二值激活B_a服从伯努利分布。所以在讨论信息熵偏差时，本发明实施例中使用参数X代表全精度卷积神经网络中的权重和激活，使用B代表二值化卷积神经网络中的二值权重和二值激活。对于全精度卷积神经网络中的参数X，参数的信息熵可以表示为：

其中，代表p(x)参数x分布的概率质量函数。高斯分布的概率密度函数f(x)可以表示为

所以，对于使用32位浮点数表示的全精度卷积神经网络的参数，可以近似使用：

p(x)＝f(x)Δ (13)

表示32位全精度参数的概率质量分布函数。Δ表示X中任意两个样本的最小距离，由于在计算机中，全精度参数一般使用32位的数据大小存储，所以在这里Δ可以近似的看作1/2³²。基于以上公式，本发明实施例可以用以下公式(14)计算的H(x)表示全精度卷积神经网络训练一次前向传播中X的信息熵：

可以看出，对于全精度卷积神经网络中的信息熵，不仅取决于卷积神经网络中的参数分布，信息熵也取决于表示参数的位数。近似表示连续分布的参数时，需要使用极大的位数。

对于B，由于二值化后的卷积神经网络的参数可以近似看作是伯努利分布，所以参数的概率质量函数可以近似的表示为

p代表B_x为1的概率。带入到信息熵计算公式中，可以得到

对比H(x)和H(B_x)，在相同的均值和方差下，H(x)远大于H(B_x)，不仅因为X和B_x具有不同的分布，也因为X使用了更多的位数表示。因此本发明实施例中定义量化前后的信息偏差为J(X，Bx)，需要求解的优化问题为：

argmin J(X，Bx)＝H(x)-H(B_x) (17)

显然，无论是权重和激活，都需要提高量化后的信息熵，而非减少量化前全精度参数携带的信息熵。所以优化问题可以转化为：

argmax H(B_x) (18)

如图2所示，通过求解上述优化问题所获得的参数具有最大的信息熵。发明人将上述二值化步骤称为“Libra参数二值化步骤”，因为参数在二值化之前已经进行了平衡处理，可以保留尽可能多的信息。

下面，进一步介绍信息保留网络生成方法的另一个核心步骤-误差衰减估计(EDE)的实现过程。

在卷积神经网络的二值化过程中，受到二值化的不连续性限制，对于后向传播，采用梯度近似是不可避免的。由于不能用近似值精确建模，因此常规的二值化过程将造成巨大的信息损失。例如，对于一个训练好的32-bit卷积神经网络，打算将它的权重量化为4-bit。在前向传播过程中，所有的权重会得到量化。但是一旦权重被量化，就会返回平的或为零的梯度值，这意味着该卷积神经网络的训练成果将不复存在。为了在后向传播中避免这一问题，业内广泛使用STE(Straight Through Estimator)方法，直接将二值参数的梯度作为对应的浮点型参数的梯度，并未修改顶端节点的量化值。

但是，发明人发现在STE方法中，前向量化函数的导数f(x)与后向近似函数g(x)的导数存在偏差。目前，广泛被使用的近似函数g(x)有两种：g(x)＝x与g(x)＝Clip(x)。在卷积神经网络的训练过程中，量化函数f(x)＝Sign(x)的导数是一个脉冲函数。由于量化函数Sign不可微分，所以在后向传播时，一般使用一个可微的函数g(x)的导数g’(x)来近似Sign函数的导数，使训练者可以使用近似导数进行神经网络的训练。在STE方法中，g(x)通常为g(x)＝x或g(x)＝Clip(x)，图3中的阴影部分代表STE中方法使用的近似函数的导数g’(x)与Sign函数的导数f’(x)的不同：通过比较阴影部分很容易发现，相比于g(x)＝Clip(x)，g(x)＝x的导数g’(x)＝1与量化函数f(x)的导数f’(x)差距更大。这造成了前向量化函数的导数f’(x)与后向近似函数的导数g’(x)之间的偏差，在后向传播过程中持续地使用具有偏差的导数的近似函数，会给卷积神经网络的训练带来持续的累积误差。

相比于g(x)＝Clip(x)，g(x)＝x函数可以让更多的参数得到更新，而不仅是(-1，1)范围内的参数。在此基础上，发明人提出了两步渐进近似实现误差衰减估计(EDE)的量化函数近似方法。该方法的目标是：尽可能缩小量化函数与近似函数导数之间的差距，同时使所有参数得到合理的更新。

本发明的一个实施例中，在后向传播过程中近似量化函数f(x)＝Sign(x)，定义误差衰减估计(EDE)为

g(x)＝k Tanh(t x) (19)

其中，k和t为两个超参数，

在该实施例中，使用上述两个超参数控制近似函数的曲线形状。两步渐进近似的曲线变化示意图如图4所示。超参数k与t的数值的变化过程分为两步，具体说明如下：

当t≤1(图示为STEP 1)时，

当t＞1(图示为STEP 2)时，

当t≤1时，g(x)在0处的导数值始终为0。在这一步骤中，近似函数逐渐近似Tanh，同时可以让更多的参数得到更新。当t＞1时，g(x)逐渐近似f(x)＝Sign(x)。

由于g(x)在任意时刻的导数可以表示为：

g(x)＝k*t*(1-(Tanh(t x))²) (20)

整个过程中，g(x)的导数曲线变化如图5所示。由此可以看出，g’(x)是逐渐接近f’(x)的。

进一步地，本发明还提供一种信息保留网络的生成装置。如图6所示，该装置包括存储器61和处理器62，还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中，存储器61、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器62连接。该装置中的存储器61可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等；处理器62可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用现有智能手机或计算机中的通用部件实现，在此就不具体说明了。

另一方面，在该信息保留网络的生成装置中，所述处理器读取所述存储器中的计算机程序，用于执行以下操作：Libra参数二值化步骤：在前向传播中更改权重分布，通过最大化量化参数的信息熵和最小化量化误差使前向传播中的信息损失最小化；误差衰减估计步骤：通过逐步近似后向传播中的符号函数，减少梯度信息损失。

上面对本发明所提供的信息保留网络的生成方法及装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种信息保留网络的生成方法，其特征在于包括Libra参数二值化步骤和误差衰减估计步骤；其中，

2.如权利要求1所述的信息保留网络的生成方法，其特征在于：

所述Libra参数二值化步骤中，卷积神经网络中的二值权重和二值激活服从伯努利分布。

3.如权利要求1所述的信息保留网络的生成方法，其特征在于：

所述Libra参数二值化步骤中，提高卷积神经网络中的权重和激活在量化后的信息熵。

4.如权利要求1所述的信息保留网络的生成方法，其特征在于：

所述误差衰减估计步骤中，在后向传播过程中近似量化函数f(x)＝Sign(x)，定义误差衰减估计为

g(x)＝k Tanh(t x)

其中，k和t为两个超参数，

5.如权利要求4所述的信息保留网络的生成方法，其特征在于使用两个所述超参数k和t控制近似函数的曲线形状。

6.如权利要求4所述的信息保留网络的生成方法，其特征在于：

当t≤1时，

当t＞1时，

7.如权利要求6所述的信息保留网络的生成方法，其特征在于：

当t≤1时，g(x)在0处的导数值为0。

8.如权利要求6所述的信息保留网络的生成方法，其特征在于：

当t＞1时，g(x)近似f(x)＝Sign(x)。

9.一种信息保留网络的生成装置，包括处理器和存储器，其特征在于所述处理器读取所述存储器中的计算机程序，用于执行以下操作：