CN115311506B

CN115311506B - 基于阻变存储器的量化因子优化的图像分类方法及装置

Info

Publication number: CN115311506B
Application number: CN202211238897.2A
Authority: CN
Inventors: 高丽丽; 时拓; 刘琦; 顾子熙; 张徽; 张程高; 崔狮雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-03-28
Anticipated expiration: 2042-10-11
Also published as: CN115311506A

Abstract

本发明公开了基于阻变存储器的量化因子优化的图像分类方法及装置，分别构建基于阻变存储器的浮点神经网络模型及与其对应的基于阻变存储器的神经网络量化模型，通过一种新的量化因子优化损失函数结合分类损失函数，对神经网络量化模型进行训练，并且与阻变存储器的特性结合，通过迭代优化使图像分类神经网络模型学习到的量化因子尽可能的接近2的幂次方，在推理阶段，将量化后的值映射到阻变存储器阵列的电压值和电导值，并对输出电流进行移位操作，得到卷积层输出量化后的值，最终得到基于阻变存储器的神经网络量化模型的图像分类结果，由于每层的量化因子通过基于阻变存储器的神经网络模型学习得到，能够加快模型的推理速度。

Description

基于阻变存储器的量化因子优化的图像分类方法及装置

技术领域

本发明涉及阻变存储器、神经网络加速器和图像分类技术领域，尤其是涉及基于阻变存储器的量化因子优化的图像分类方法及装置。

背景技术

随着深度学习的快速发展，神经网络技术已经广泛应用于图像识别、语音识别、自然语言处理等多种领域。神经网络的应用通常部署在边缘设备端。传统的芯片架构中，内存和计算分离，计算单元要先从内存中读取数据，计算完成后再存回内存。然而面对神经网络高并发的需求，传统的芯片架构需要频繁的搬运数据，会导致巨大的功耗和计算瓶颈。

ReRAM（Resistive random-access memory，阻变存储器）具有低功耗，结构简单，工作速度快以及阻值可控可变等优点，同时可以实现逻辑运算，矩阵乘法等多种运算形式。利用ReRAM存算一体的特性可以减少数据的搬运，降低存储的需求。因此，ReRAM有很大的潜力可以解决传统芯片架构所带来的问题。近年来，基于ReRAM的神经网络加速器，为图像分类模型的神经网络进行的推理，提供了一种有效的解决方案。

虽然ReRAM对于实现神经网络的推理有很大的优势，但是在实现的过程中需要对基于神经网络的图像分类模型进行压缩，这会导致精度的损失。合理有效的量化方法在精度损失较低的情况下，可以减少数据的存储空间，提高计算的速度。由于ReRAM器件的电导范围有限，需要有限的bit位宽来存储神经网络的权重，由于ADC的精度有限，因此网络当前层的输出位宽有限。然而在进行卷积算子操作后会超出当前层的输出位宽，因此在进行卷积算子操作后需要通过移位来做截断操作，以保证用有限的位宽来存储当前层的输出值。如果未对量化因子进行优化，会降低神经网络对于图像识别的精度。目前的量化方法通常采用两种方法来计算量化因子：第一种量化方法，通过统计最大最小值的方法计算量化因子，该方法的缺点在于，在推理阶段，量化因子的计算需要通过统计浮点值的最大最小值来获取，该操作会降低模型的推理速度。另一种量化方法，量化因子直接采用量化后的最大值，该方法的缺点在于，在量化的过程中，需要将浮点值先归一化到0到1的范围，该操作在ReRAM上无法实现，需要在PC端来计算，同样会降低模型的推理速度。且两种量化方法在8bit推理精度上均有损失。现有的基于ReRAM的量化方法对于量化因子没有进行更好的优化，导致模型的推理速度较低，量化精度有所损失。

发明内容

为解决现有技术的不足，通过移位截断处理，避免图像分类神经网络中的层输出超出存储位宽，同时通过优化量化因子，降低了图像分类模型在ReRAM上推理时，由于移位操作所带来的精度的损失，提升图像分类模型推理速度，本发明采用如下的技术方案：

基于阻变存储器的量化因子优化的图像分类方法，包括如下步骤：

步骤S1：构建基于阻变存储器的浮点神经网络模型，包括输入层、卷积层，通过训练集图像进行浮点神经网络模型预训练，得到预训练的浮点神经网络模型参数；

步骤S2：构建基于阻变存储器的神经网络量化模型，为浮点神经网络模型的相应层，构建对应的量化层和反量化层；

步骤S3：将训练集图像输入基于阻变存储器的神经网络量化模型中，进行量化感知训练精调，并加载预训练的浮点神经网络模型参数，进行量化感知训练，得到的量化感知训练后的基于阻变存储器的神经网络量化模型，包括浮点神经网络模型相应层的量化因子以及量化感知训练后的神经网络量化模型参数；神经网络量化模型的总损失函数包括分类损失函数和量化因子优化损失函数；

步骤S4：将量化感知训练后的基于阻变存储器的神经网络量化模型，映射到阻变存储器忆阻器上，输入测试集图像，进行前向推理测试，其中输入层推理阶段量化后的值映射为阻变存储器阵列的电压值，卷积层量化后的卷积核映射为阻变存储器阵列的电导值，对通过电压值与电导值得到的输出电流进行移位操作，得到卷积层输出量化后的值，最终得到基于阻变存储器的神经网络量化模型的图像分类结果。

进一步地，所述步骤S3中的量化因子优化损失函数如下：

其中

表示取绝对值操作，

表示神经网络量化模型当前层数，

表示第

层量化因子的符号函数，

表示神经网络量化模型的总层数，

目的是优化网络学习的量化因子，减少学习到的量化因子与之最接近的2的幂次方的误差。

进一步地，所述基于阻变存储器的浮点神经网络模型还包括激活层和全连接层，所述步骤S3的量化感知训练包括如下步骤：

步骤S3-1：对输入层通过输入量化层进行量化操作，得到量化以后的输入值

，然后再通过输入反量化层进行反量化操作，得到反量化以后的输入值

，

步骤S3-2：与步骤3-1同理，通过第一卷积量化层进行量化操作，得到量化以后的卷积核

，通过第一卷积反量化层进行反量化操作，得到反量化以后的卷积核

；

步骤S3-3：将反量化以后的输入值

与反量化以后的卷积核

进行卷积操作，得到卷积输出值

，

步骤S3-4：与步骤3-1和3-2同理，将

通过第一激活量化层进行量化操作，得到量化以后的激活值

，通过第一激活反量化层进行反量化操作，然后再通过ReLU激活函数得到反量化以后的激活值

；

以此类推，得到全连接层的浮点值，然后通过softmax分类器得到网络的输出，通过量化因子优化损失函数更新网络参数和每层的量化因子，直至网络收敛，最后得到量化感知训练后的基于阻变存储器的神经网络量化模型。

总损失函数

通过结合分类损失函数

和量化因子优化损失函数

，训练神经网络量化模型：

其中

为超参数，表示

占

的权重，可调节，用于平衡

和

，加快网络收敛，

表示图像分类神经网络模型的总损失函数，通过优化总损失函数，更新神经网络模型的权重参数和量化因子，直至网络收敛。

进一步地，所述步骤S3-1中量化操作如下：

其中

表示输入层的浮点值，

表示四舍五入，

表示截断操作，

表示量化后的最小值，

表示量化后的最大值，

表示输入层待训练的浮点值的量化因子，由神经网络模型通过优化损失函数得到。

进一步地，所述步骤S4的映射及前向推理测试过程如下：

首先将测试集图像作为基于阻变存储器的神经网络量化模型的输入，将输入层、第一卷积量化层、第一激活量化层进行量化，量化方法如下：

其中

表示输入层的浮点值，

表示第一卷积量化层卷积核的浮点值，

表示第一激活量化层的输入浮点值，

表示神经网络量化模型训练好的输入层的量化因子，

表示神经网络量化模型训练好的第一卷积量化层的量化因子，

表示神经网络量化模型训练好的第一激活量化层的量化因子，

表示输入层在推理阶段量化后的值，然后将

映射为电压值，将网络学习到的第一卷积量化层的卷积核进行量化，得到量化后的卷积核

，然后将

映射为基于阻变存储器阵列的电导值，输出的电流为卷积操作后的值

，其次将电流值进行移位操作，得到卷积层输出量化后的值

，然后通过最大池化操作得到池化后的值；以此类推，得到全连接层的量化值，将全连接层量化值的最大值的索引作为神经网络量化模型预测的图像类别。

进一步地，所述步骤S3中的分类损失函数：

其中

表示输入图像经过神经网络模型最后一层第i个节点的输出值，C表示输出节点的个数，即分类的类别数，

表示输入经过softmax分类器后的输出值，

表示输入图像的真实标签值，

表示交叉熵损失，目的是减小网络输出与人工标记的正确类别之间的误差。

进一步地，所述步骤S1构建基于阻变存储器的浮点神经网络模型前，先构建图像训练集和图像测试集，首先对图像数据集进行归一化操作，将图像的像素值归一化到0-1之间，得到归一化后的图像；然后通过归一化后的图像构建图像训练集和图像测试集。

进一步地，所述浮点神经网络模型包括依次连接的输入层、一组卷积模块、全连接层和激活层，卷积模块包括卷积层、激活层和池化层；

相应的所述神经网络量化模型包括依次连接的输入层、输入量化层、输入反量化层、一组卷积量化模块、全连接量化层、全连接反量化层和激活层，卷积量化模块包括卷积量化层、卷积反量化层、激活量化层、激活反量化层和池化层。

基于阻变存储器的量化因子优化方法，所述方法包括：

构建基于阻变存储器的神经网络量化模型，为浮点神经网络模型的相应层，构建对应的量化层和反量化层；

将训练集图像输入基于阻变存储器的神经网络量化模型中，进行量化感知训练精调，并加载预训练的浮点神经网络模型参数，进行量化感知训练，得到的量化感知训练后的基于阻变存储器的神经网络量化模型，包括浮点神经网络模型相应层的量化因子以及量化感知训练后的神经网络量化模型参数；神经网络量化模型的总损失函数包括基于图像预测类别和图像真实类别的分类损失函数，以及量化因子优化损失函数。

基于阻变存储器的量化因子优化的图像分类装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于阻变存储器的量化因子优化的图像分类方法。

本发明的优势和有益效果在于：

本发明提出的基于阻变存储器的量化因子优化的图像分类方法及装置，由于ReRAM器件电导范围有限和ADC精度有限的特性，在对神经网络模型进行量化时，对超出量化位宽的数据进行移位截断处理，并通过一种新的损失函数结合ReRAM器件电导范围有限和ADC精度有限的特性，通过迭代优化神经网络模型学习到的量化因子，使其尽可能的接近2的幂次方，降低了模型在ReRAM上推理由于移位操作所带来的精度损失。同时，由于在推理阶段，量化因子的计算可以通过网络学习得到，不需要通过统计浮点值的最大最小值来计算，因此在8bit量化精度无损的情况下，大大提升了模型的推理速度。

附图说明

图1是本发明实施例中方法的流程图。

图2是本发明实施例中输入图像的部分示例图。

图3是本发明实施例中ReRAM交叉阵列的结构示意图。

图4是浮点模型与本发明实施例的8 bit量化、4 bit量化对测试集的分类精度对比图。

图5是本发明实施例中装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，基于阻变存储器的量化因子优化的图像分类方法，首先对图像数据集进行归一化操作，将图像的像素值归一化到0-1之间，得到归一化后的图像；然后通过归一化后的图像构建图像训练集和图像测试集；

本发明实施例中，采用fashion mnist图像数据集，如图2所示是输入图像的部分示例图，图像数据集一共有50000个训练样本图像，10000个测试样本图像，每个样本图像是尺寸为28*28的灰度图，图像数据集一共有10类，分别是T恤，裤子，套衫，连衣裙，上衣，凉鞋，衬衫，运动鞋，书包，短靴。

图像分类方法，包括如下步骤：

步骤S1：构建基于ReRAM的浮点神经网络模型，通过训练集图像进行浮点神经网络模型预训练，得到预训练的浮点神经网络模型参数；

浮点神经网络模型结构为：输入层→第一卷积层→第一激活层→池化层→第二卷积层→第二激活层→池化层→全连接层→softmax层。

本发明实施例中，每一层权重参数的尺寸设置如下：

输入层的尺寸大小为

；

第一卷积层，卷积核参数的尺寸为

，步长为1；

第二卷积层，卷积核参数的尺寸为

，步长为1；

全连接层，全连接参数的尺寸为

。

步骤S2：构建基于ReRAM的神经网络量化模型，为浮点神经网络模型的相应层，构建对应的量化和反量化层；

神经网络量化模型结构为：输入层→输入量化层→输入反量化层→第一卷积量化层→第一卷积反量化层→第一激活量化层→第一激活反量化层→池化层→第二卷积量化层→第二卷积反量化层→第二激活量化层→第二激活反量化层→池化层→全连接量化层→全连接反量化层→softmax层。

本发明实施例中，每一层权重参数的尺寸设置如下：

输入层的尺寸大小为

；

第一卷积量化层，卷积核参数的尺寸为

，步长为1；

第二卷积量化层，卷积核参数的尺寸为

，步长为1；

全连接量化层，全连接参数的尺寸为

。

步骤S3：将训练集图像输入基于ReRAM的神经网络量化模型中，进行量化感知训练精调，并加载预训练的浮点神经网络模型参数，进行量化感知训练，得到的量化感知训练后的基于ReRAM的神经网络量化模型，包括浮点神经网络模型相应层的量化因子以及量化感知训练后的神经网络量化模型参数；

本实施实例的量化位宽为8 bit、4 bit，对于8 bit量化，输入量化到[0,255]，每层的权重参数量化到[-128, 127]；对于4 bit量化，输入量化到[0,15]，每层的权重参数量化到[-8,7]。

量化感知训练包括如下步骤：

，如公式（1）所示：

（1）

其中

表示输入层的浮点值，

表示四舍五入，

表示截断操作，

表示量化后的最小值，

表示量化后的最大值，

表示输入层待训练的浮点值的量化因子，由神经网络模型通过优化损失函数得到；

然后再通过输入反量化层进行反量化操作，得到反量化以后的输入值

，如公式（2）所示：

（2）

损失函数如公式（3）、公式（4）、公式（5）、公式（6）所示：

（3）

其中

表示输入经过softmax分类器后的输出值；

（4）

其中

表示输入图像的真实标签值，

（5）

其中

表示取绝对值操作，

表示神经网络量化模型当前层数，

表示第

层量化因子的符号函数，

表示神经网络量化模型的总层数，

目的是优化网络学习的量化因子，减少学习到的量化因子与之最接近的2的幂次方的误差；

（6）

其中

为超参数，表示

占

的权重，可调节，用于平衡

和

，加快网络收敛，

步骤S3-2：与步骤3-1同理，通过第一卷积量化层进行量化操作，与公式（1）类似，得到量化以后的卷积核

，通过第一卷积反量化层进行反量化操作，与公式（2）类似，得到反量化以后的卷积核

；

步骤S3-3：将反量化以后的输入值

与反量化以后的卷积核

进行卷积操作，得到卷积输出值

，如公式（7）所示；

（7）

步骤S3-4：与步骤3-1和3-2同理，将

通过第一激活量化层进行量化操作，与公式（1）类似，得到量化以后的激活值

，通过第一激活反量化层进行反量化操作，与公式（2）类似，然后再通过ReLU激活函数得到反量化以后的激活值

；

以此类推，得到全连接层的浮点值，然后通过softmax分类器得到网络的输出，通过优化损失函数更新网络参数和每层的量化因子，直至网络收敛。最后得到量化感知训练后的基于ReRAM的神经网络量化模型。

步骤S4：将量化感知训练后的基于ReRAM的神经网络量化模型，映射到ReRAM忆阻器上，输入测试集图像，进行前向推理测试；

如图3所示，本发明实施例中，ReRAM构成的阵列中，V表示电压值，G表示电导值，I表示电流值。

映射及前向推理测试过程如下：

首先将测试集图像作为基于ReRAM的神经网络量化模型的输入，将输入层、第一卷积量化层、第一激活量化层进行量化，量化方法如公式（8）至公式（12）所示：

（8）

（9）

（10）

（11）

（12）

其中

表示输入层的浮点值，

表示第一卷积量化层卷积核的浮点值，

表示第一激活量化层的输入浮点值，

表示神经网络量化模型训练好的输入层的量化因子，

表示神经网络量化模型训练好的第一激活量化层的量化因子，如公式（8）所示，

表示输入层在推理阶段量化后的值，然后将

映射为电压值，按公式（9）将网络学习到的第一卷积量化层的卷积核进行量化，得到量化后的卷积核

，然后将

映射为基于ReRAM阵列的电导值，通过公式（8）至公式（11）推出公式（12），公式（12）中输出的电流为卷积操作后的值

，其次将电流值进行移位操作，得到卷积层输出量化后的值

，然后通过最大池化操作得到池化后的值；以此类推，得到全连接层的量化值，将全连接层量化值的最大值的索引作为神经网络量化模型预测的图像类别。其中池化层和全连接层用软件来实现。

下面结合仿真实验对本发明的效果做进一步的说明：

1、仿真条件：

本发明的仿真实验是在NVIDIA GV100的硬件环境和Pytorch1.5的软件环境下进行的。

2、仿真内容与结果分析：

对于fashion minist数据集的分类问题。如图4所示的直方图中，对于每一类测试集，柱状图从左到右依次表示用浮点精度的模型对测试集进行前向推理的分类结果，本发明用8 bit量化模型对测试集进行前向推理的分类结果，本发明用4 bit量化模型对测试集进行前向推理的分类结果。从图4中可以看出，对于8 bit量化，有4类样本测试集使用本发明8 bit量化的测试精度均明显高于浮点模型对测试集进行测试的精度。对于4 bit量化，使用本发明4 bit量化的测试精度均低于浮点模型对测试集进行测试的精度。但是推理速度比8 bit量化的推理速度快一倍左右。表1是浮点模型与本发明实施例的8 bit量化、4bit量化对测试集平均分类精度的对比表，展示了三者分别对测试集的平均识别精度：

表1 分类精度的对比表

可以看出，本发明的8 bit量化的平均测试精度比浮点模型的平均测试精度高1%，4 bit量化的平均测试精度比浮点模型的平均测试精度低3%。

综上所述，本发明提出的基于阻变存储器的量化因子优化的图像分类方法，结合了ReRAM的特性，提出了一种新的损失函数，通过迭代优化使神经网络模型学习到的量化因子尽可能的接近2的幂次方。对于fashion mnist数据集分类，在推理阶段，与浮点精度相比，8 bit量化精度提高1个百分点，4 bit量化精度降低3个百分点。

与前述基于阻变存储器的量化因子优化的图像分类方法的实施例相对应，本发明还提供了基于阻变存储器的量化因子优化的图像分类装置的实施例。

参见图5，本发明实施例提供的基于阻变存储器的量化因子优化的图像分类装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于阻变存储器的量化因子优化的图像分类方法。

本发明基于阻变存储器的量化因子优化的图像分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于阻变存储器的量化因子优化的图像分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于阻变存储器的量化因子优化的图像分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于阻变存储器的量化因子优化的图像分类方法，其特征在于包括如下步骤：

步骤S3：将训练集图像输入基于阻变存储器的神经网络量化模型中，并加载预训练的浮点神经网络模型参数，进行量化感知训练，得到的量化感知训练后的基于阻变存储器的神经网络量化模型，包括浮点神经网络模型相应层的量化因子以及量化感知训练后的神经网络量化模型参数；神经网络量化模型的总损失函数包括分类损失函数和量化因子优化损失函数；量化因子优化损失函数如下：