CN110070119B

CN110070119B - 一种基于二值化深度神经网络的手写数字图像识别分类方法

Info

Publication number: CN110070119B
Application number: CN201910288642.9A
Authority: CN
Inventors: 杨新武; 王聿铭; 孙芃; 李彤
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-11-26
Anticipated expiration: 2039-04-11
Also published as: CN110070119A

Abstract

本发明公开了一种基于二值化深度神经网络的手写数字图像识别分类方法，基于BinaryConnect二值化深度神经网络，并通过公式推导得出最优权重缩放因子α，将该因子α在前向传播过程中与权重W相乘，以达到增强网络表达能力、提高训练精度的目的。与现有技术相比，本发明人提出的权重缩放因子和XNOR‑Net中提出的权重缩放因子均能够在MLP‑MNIST问题上使得二值化深度神经网络达到较高的精度，但是本专利的方法在四层二值化MLP和MNIST数据集上的实验效果要优于XNOR‑Net的方法。具体表现为：在验证集精度上，本方法高出XNOR‑Net方法0.05％，在测试集精度上，本方法高出XNOR‑Net方法0.01％。

Description

一种基于二值化深度神经网络的手写数字图像识别分类方法

技术领域

本发明属于深度学习技术领域，是一种基于改进的二值化深度神经网络的手写数字图像识别分类新方法。

背景技术

机器学习是人工智能界近三十年最为火热的研究领域，而其中的深度学习则是机器学习界近十年内发展最快、最有前途的研究应用领域。在经历了两次兴起与两次低谷之后，神经网络终于迎来了第三次兴起。在摩尔定律和大数据的强大支持下，神经网络从浅层学习迈入了深度学习时代。

时至今日，深度学习技术已经在语音、图像、自然语言处理，人机博弈，金融欺诈检测，生物特征识别等方面做出了最佳成绩，并成为了计算机视觉、模式识别、生物医药研发、智慧城市、智能安防、智慧医疗、智能驾驶等众多领域的核心技术。

以计算机视觉领域为例，自2012年的ImageNet大型视觉识别挑战赛开始，深度神经网络历经AlexNet、Overfeat、VGGNet、GoogLeNet(Inception)、ResNet等网络架构的逐步革新之后，最终超过人类视觉识别分类的平均水平。

当前时期，深度学习技术正在各个领域大放异彩，前途一片光明。

尽管深度学习技术在诸多领域成绩斐然，但是，它的成绩却极大依赖于带有海量参数、需要大量高精度计算的神经网络模型以及强大的大规模并行计算能力。以VGG-16的D型网络为例，其可学习参数量(未使用bias)超过1.38亿个，若以4字节的32-bit单精度浮点数类型存储，内存和存储占用将超过527.74MB，对一幅224×224像素的彩色图片进行一次推断，需要近309.25亿次浮点运算(其中，浮点乘法运算超过154.70亿次，浮点加法运算超过154.54亿次)。因此，深度学习技术发展至今，已经遇到了内存、计算开销过大的瓶颈。

由于深度学习面临内存与计算开销过大的挑战，这使得深度学习技术难以应用于移动端、小型化、嵌入式等设备中，因此对于深度学习模型进行压缩加速就成为了近几年深度学习研究的一个热门领域。

如果深度学习的压缩加速问题得到了有效解决，那么就意味着深度学习技术完全可以在移动设备、嵌入式平台、可穿戴设备、消费娱乐电子产品等低功耗、低性能、便携式、高性价比的应用领域得到普遍推广，而不是只能在GPU、FPGA等价格昂贵、高功耗、不便携移动的高性能专用平台上才能应用。

二值化是一种典型的深度学习压缩加速方法。二值化方法的基本原理是：对于深度神经网络模型的权重、激活(有时含有输入、输出)信号进行二值量化；量化方式可以是确定性的或随机性的；量化的两种值可以是±1，也可以是其它两种值，比如±α(α＞0，α是常数)。

二值化的好处在于两个方面：第一，二值信号可以使用1bit来表示，可以直接达到减少内存/缓存占用(即：压缩)的目的。例如：如果原信号是32bit的float类型的话，压缩为1bit的话，可以达到32倍压缩的效果。第二，±1权重与实值激活之间的运算，由于涉及到实数乘以±1，因此，浮点乘法可以被取消掉(仅使用浮点加/减法即可)，从而达到减少浮点运算量(即：加速)的目的。这是因为，浮点乘法运算既耗时、又耗能、又占用较大空间，且是深度神经网络的运算过程中数量和占比相当多的一种运算(占全部浮点运算量的一半以上)，所以减少浮点乘法运算量是压缩加速的关键点之一。

二值化的常见方法有BinaryConnect、BinaryNet、BWN、XNOR-Net等。

BinaryConnect是将权重二值化为±1两种值，且有确定性和随机性两种二值化方式。

BinaryNet是将权重和激活都二值化为±1。

BWN是BinaryConnect的改进，它将权重二值化为±α，其中，α＞0是通过L2范数意义下推导出来的最优公式解。

XNOR-Net是BinaryNet的改进，它将权重和激活(包括输入)都二值化为±α，α＞0同样是通过L2范数意义下推导出来的最优公式解，另外还具有层换序(将Pooling层前移到BinConv层之后，以减少信息损失)。

发明内容

本发明的目的在于提出一种新的手写数字图像识别分类方法，使得识别分类的精度得到有效提高。本发明是对BWN方法的进一步改进。本发明的核心创新是将权重二值化为±α，其中，α＞0是通过L1范数意义下推导出来的最优公式解(这一点与BWN不同，因为BWN是在L2范数意义下推导出的最优公式解)。

为解决手写数字图像识别分类方法这一技术问题，本发明的技术方案是：基于BinaryConnect二值化深度神经网络，并通过公式推导得出最优权重缩放因子α，将该因子α在前向传播过程中与权重W相乘，以达到增强网络表达能力、提高训练精度的目的。

由于α能够扩大二值化深度学习模型的网络表达能力(因为当α＝1时，BWN和XNOR-Net就退化为了BinaryConnect和BinaryNet方法)，因此理论上来说，对于α的改进完全进一步提高二值化深度学习模型的精度。而且，BWN和XNOR-Net的实验也证实了改进α确实能够提升二值模型精度这一理论上的预测。

二值化方法与BinaryConnect、BinaryNet、BWN、XNOR-Net都有所不同。二值化方法主要创新在于：对于α进行了与BWN、XNOR-Net不同的公式推导，但是同样能够使得二值化深度神经网络达到同等水平的精度，在MLP-MNIST问题上，本方法的精度比BWN要更高。

在除了L2范数意义下之外(因为BWN就是在L2范数意义下推导的)，还对于L1范数意义下做了理论分析和公式推导，发现在L1意义下同样具有公式最优解，而且与L1范数意义下的结果不一样。

本方法的技术流程描述如下：

步骤1：获取手写数字训练集。输入手写数字数据集，输出数据集中的所有训练样本，包括实例x和标签y。

步骤2：预处理。

输入步骤1输出的实例x和标签y，经过预处理，输出预处理后的实例x’和标签y’。

步骤3：批量拼接。

输入步骤2输出的预处理后的实例x’和标签y’，经过mini_batch(小批量)的拼接，输出批量拼接后的实例x_和标签y_。

步骤4：权重初始化。

输入未初始化的当前权重W，经过初始化赋值，输出初始化后的权重W。

步骤5：学习率初始化。

输入未初始化的当前学习率lr，经过初始化赋值，输出初始化后的学习率lr。

步骤6：获取批样本。

输入步骤3输出的批量拼接后的实例x_和标签y_，取出其中一个批次的样本作为输出，其中包括小批量实例batch_x和小批量标签batch_y。

步骤7：前向传播。

输入步骤6输出的小批量实例batch_x，作为深度神经网络的第零层，向前逐层计算各层的特征图，最终输出前向传播的分类结果y^。

需要特别注意的是，深度神经网络模型可以是MLP或者CNN。对于其中的全连接层和卷积层，首先需要对权重W进行二值化(二值化方式详见BinaryConnect中的确定性二值化与随机二值化)，然后需要使用本方法方法推导出的最优二值权重缩放因子α*＝Median(|W|)进行计算，使得二值权重得到L1范数意义下最优的缩放重构。这一步是本方法能够进一步提高二值化深度神经网络精度的关键。

步骤8：损失函数。

输入步骤7输出的前向传播分类结果y^，输入步骤6输出的小批量标签batch_y，经过损失函数的计算，输出损失值C。

步骤9：反向传播。

输入步骤8输出的损失值C，作为网络的最后一层，反向逐层计算各层权重的梯度值g_W。

步骤10：学习率调整。

输入当前学习率lr，经过学习率调整之后，输出调整后的学习率lr。

步骤11：权重更新。

输入步骤9输出的各层权重的梯度值g_W，输入当前学习率lr，输入当前权重W，经过优化方法的处理，输出更新之后的权重W。

步骤12：重复步骤6至步骤11，直至达到训练轮数或者训练精度(或者参数设置不合适导致精度明显达不到要求时，可以提前中止训练)为止。

与现有技术相比，本发明具有如下有益效果：

首先，本发明使用的权重二值化方法，使得原先由32位表示的单精度浮点数可以由1位二进制来表示，意味着具有32倍的内存压缩潜力；其次，权重二值化会使得实值激活会与±1相乘，意味着具有节省一半的浮点运算量(免去了浮点乘法运算)以及获得2倍以上速度提升的潜力；然后，本发明在L1范数意义下推导出的一种全新的二值权重缩放因子计算方式，理论上可以获得与在L2范数意义下推导出的α计算方法不相上下的效果，且实验证明：本发明方法在MLP-MNIST问题上取得了比BWN更高的精度。

实验表明，本方法提出的权重缩放因子和BWN中提出的权重缩放因子均能够在MLP-MNIST问题上使得二值化深度神经网络达到较高的精度，但是本方法在四层二值化MLP和MNIST数据集上的实验效果要优于BWN的方法。具体表现为：在验证集精度上，本方法高出BWN方法0.05％，在测试集精度上，本方法方法高出BWN方法0.01％。

【附录】公式推导说明

1权重二值化的问题描述

设W∈Rⁿ是实值权重，B∈{-1，+1}ⁿ是实值权重经过二值化之后的二值权重，α∈R⁺是二值权重的缩放因子，则权重二值化的过程需要求解如下最优化问题：

由于对于L_p范数(p＞0)有||·||_p≥0，因此，求解与公式(1)等价的最优化问题：

当p＝0和p＝∞时，只能使用公式(1)进行求解，而不能使用公式(2)。

2 p＞0时α^*和B^*的求解

2.1 p＞0时B^*的求解

求解B^*，意味着α视为常量。

2.1.1当n＝1时

B＝B_i。

公式(2)变成：

其中，i的取值范围是i＝1。

由于L_p范数中的p≥0，且有|·|^p≥0，因此，可以求解与公式(3)等价的最优化问题：

由于B_i∈{-1，+1}，所以，把B_i＝+1和B_i＝-1分别代入公式(4)，可得：

由于α∈R⁺，因此经过比较即可得出：

2.1.2当n≥2时

由于B_i(i＝1，2，...，n)之间是相互独立的，因此有：

B^*＝sign(W) (7)

2.2 p＞0时α^*的求解

求解α^*，意味着B视为常量。

公式(7)代入公式(2)变成：

对公式(8)中的|W_i-αsign(W_i)|进行分类讨论并总结概括可得：

公式(9)代入公式(8)变成：

令

|α-|W_i||^p＝f_p，i(α) (11)

令

则有：

下面单独探讨f_p(α)的导数。

注意到：

所以有：

总结形式上的规律，于是有：

其中，k的取值范围是k＝1，2，...。 (17)

注意到，当p取非负整数时，有：

所以，公式(17)变成：

注意到：

|α-|W_i||·sign(α-|W_i|)＝α-|W_i| (20)

还注意到：

[sign(α-|W_i|)]²＝1 (21)

于是，特别地，当p取非负整数时，有：

其中，(p-k)≥0。

2.2.1当p＝2时

当p＝2时，[f_p(α)]′＝0当且仅当：

即：

解得：

其中，ArithmeticMean(·)返回的是算数平均值。

需要指出的是，公式(25)的结论与BWN的结论一致。也就是说，公式(25)并不是本方法的创新，但确实是本方法拓展BWN结论的出发点，或者说受到BWN启发之处。

2.2.2当p＝1时

当p＝1时，[f_p(α)]′＝0当且仅当：

解得：

α^*＝Median(|W|) (27)

其中，Median(·)为取中位数函数。特别地，当n为偶数时，α^*也可以取W中的中间两个数所在闭区间内的所有值(因为此时该区间内的f_p(α)值都相等，相当于是并列最优解区间)。

此公式即为本方法提出的二值权重缩放因子α的一种新的求解方法。

3总结α^*和B^*的求解公式或求解方法

表1本方法与BWN中的权重二值化方法的求解方式对比

由此可见，本方法的权重二值化方法是对于BWN中的二值化方法的进一步推广，是完全的理论创新。创新点在于：权重的缩放因子α的求解公式完全不同。本方法推导出的计算公式是权重绝对值的中位数(Median)，而BWN中推导出的计算公式则是权重绝对值的算数平均数(Arithmetic Mean)。

附图说明

图1是本方法的实施流程图。

图2是本方法提出的二值化深度神经网络手写数字图像识别方法的训练过程流程图。

具体实施方式

由于本方法提出的一种基于二值化深度神经网络的手写数字图像识别分类方法，其核心创新点就在于权重W的缩放因子α，所以，本方法的具体实施方式就是：按照表1中本方法α^*的计算公式，计算出深度神经网络每一层的权重缩放因子α，然后将之在前向传播过程中与对应层的权重W相乘，网络其余的操作与BinaryConnect二值神经网络的训练和推断过程完全一样。

为了证明本方法提出的原创性方法相比于BWN方法的可行性和优势，做了对比实验，如表2所示。表2中的实验数据是在如下实验条件下获得的：本实验采用的MLP架构和训练方式，以及MNIST数据集的处理和使用方式与BinaryConnect基本一致。

表2本方法与BWN中的权重二值化方法的实验结果对比

方法	权重缩放因子的计算方式	验证集精度	测试集精度	训练时间
					BWN	α<sup>*</sup>＝ArithmeticMean(\|W\|)	98.85％	98.68％	12min 45s
本方法发明	α<sup>*</sup>＝Median(\|W\|)	98.90％	98.69％	24min 20s

实验表明，两种权重缩放因子均能够在MLP-MNIST问题上使得二值化深度神经网络达到较高的精度，但是本方法的方法在四层二值化MLP和MNIST数据集上的实验效果要优于BWN的方法。具体表现为：在验证集精度上，本方法方法高出BWN方法0.05％，在测试集精度上，本方法方法高出BWN方法0.01％。

不过，同样值得注意的是，BWN方法的训练时间更短，约为本发明训练时间的一半。但是，训练时间差距较大的主要原因是由于不同编程框架(作者做实验使用的是PyTorch框架)对于算术平均值和中位数的底层实现效率导致的，并不能说明本方法算法的推断效率不高。这是因为，如果把训练完成的可学习参数(权重W和偏置b)以及权重缩放因子α保存下来，那么在推断过程中就不需要再进行算数平均值或者中位数的运算了，此时，两者的前向推断效率理论上是相同的，不存在孰优孰劣的情况。

最后，考虑到本发明和BWN都是权重二值化方法，而权重二值化方法的优势是：首先，权重二值化方法使得原先由32位表示的单精度浮点数可以由1位二进制来表示，意味着具有32倍的内存压缩潜力；其次，权重二值化会使得实值激活会与±1相乘，意味着具有节省一半的浮点运算量(免去了浮点乘法运算)以及获得2倍以上速度提升的潜力；因此，本发明和BWN方法都具有32倍的内存压缩和2倍的计算加速的潜力，但是本发明的精度比BWN更高。