CN111310888A

CN111310888A - 处理卷积神经网络的方法

Info

Publication number: CN111310888A
Application number: CN201911171097.1A
Authority: CN
Inventors: 伍捷; 马云汉; 谢必克; 李湘村; 苏俊杰; 刘峻诚
Original assignee: Kneron Inc
Current assignee: Kneron Inc
Priority date: 2018-12-12
Filing date: 2019-11-26
Publication date: 2020-06-19
Also published as: TW202022798A; US12014273B2; TWI744724B; US20200193270A1

Abstract

本发明提供了一种处理卷积神经网络的方法，包含将输入数据输入至浮点预训练CNN模型以产生浮点预训练CNN模型的每层的浮点特征图，将浮点特征图输入至统计分析模拟器以产生浮点预训练CNN模型的每层的动态量化范围，依据浮点预训练CNN模型的每层的动态量化范围对浮点预训练CNN模型的每层的特征值进行量化以产生量化CNN模型的每层的特征值、量化CNN模型的每层的纯量因子、及量化CNN模型的分数位，及将量化CNN模型的每层的特征值输入至推论引擎以使用低精度的定点算数操作来产生定点推论CNN模型的每层的特征值。

Description

处理卷积神经网络的方法

技术领域

本发明关于影像处理，特别是一种节能的卷积神经网络实现方式。

背景技术

由于在影像网(ImageNet)竞赛中的卓越成功，卷积神经网络(ConvolutionNeural Network，CNN)已成为电脑视觉处理中最受欢迎的结构。通常的预训练CNN模型需要好几百万个运算、大量的存储器空间及好几瓦的功率来进行单一推论(inference)运作。有限的运算资源及储存空间已成为在物联网(Internet ofthings，IoT)或可携装置上执行CNN的主要障碍。

开发新的CNN加速器主要有三个挑战：

使用有限储存存储器的空间数据(spatial data)传输：由于物联网设备中的存储器有限(＜320KB SRAM)，因此实时人工智能(artificial intelligence，AI)应用无法接受芯片外(off-chip)存储器，如动态随机存取存储器(dynamic random access memory，DRAM)及芯片上(on-chip)存储器，如同步随机存储器(synchronous random accessmemory，SRAM)之间的大量数据传输的延迟。

CNN的大量乘法运算及高功耗：对于实时推论CNN模型来说，大规模的乘法运算需要极高功耗用于算术计算，因此难以设计满足IoT设备的功率要求的CNN。

重新训练CNN模型需要大量的训练数据集：在量化近似操作中重新训练CNN模型过程往往需要花费数小时。

CNN需要大量算数运算，因此无法在低功耗装置上实现。

发明内容

本发明实施例提供一种处理卷积神经网络的方法，包含将输入数据输入至浮点预训练CNN模型以产生浮点预训练CNN模型的每层的浮点特征图，将浮点特征图输入至统计分析模拟器以产生浮点预训练CNN模型的每层的动态量化范围，依据浮点预训练CNN模型的每层的动态量化范围对浮点预训练CNN模型的每层的特征值进行量化以产生量化CNN模型的每层的特征值、量化CNN模型的每层的纯量因子、及量化CNN模型的分数位，及将量化CNN模型的每层的特征值输入至推论引擎以使用低精度的定点算数操作来产生定点推论CNN模型的每层的特征值。

附图说明

图1为本发明实施例的处理卷积神经网络的方法的流程图。

图2显示量化图1中权重及激活值的方法。

符号说明：

100 方法

S102至S108 步骤

具体实施方式

图1为本发明实施例的处理卷积神经网络(convolution neural network，CNN)的方法100的流程图。方法100包含下列步骤：

S102：将输入数据输入至浮点预训练CNN模型以产生浮点预训练CNN模型的每层的浮点特征图(feature map)；

S104：将浮点特征图输入至统计分析模拟器以产生浮点预训练CNN模型的每层的动态量化范围；

S106：依据浮点预训练CNN模型的每层的动态量化范围对该浮点预训练CNN模型每层的特征值进行量化以产生量化CNN模型每层的特征值、量化CNN模型的每层的纯量因子、及量化CNN模型的分数位；及

S108：将量化CNN模型每层的特征值输入至推论(inference)引擎以使用低精度的定点算数操作来产生定点CNN模型。

步骤S102用于将输入数据输入至浮点预训练CNN以产生浮点预训练CNN模型的每层的浮点特征图。输入数据为多媒体数据。步骤S104由自动统计分析模拟器执行。步骤S106用于执行权重、偏差及激活值的量化方法。步骤S104由推论引擎执行以使用低精度的定点算数操作来产生定点推论CNN模型。定点推论CNN模型每层的特征值可被输入至浮点预训练CNN。

在CNN操作中，卷积(convolutional，CONV)操作及全连接(ully connected，FC)操作为主要运算负担(overhead)。透过通用矩阵乘法(general matrix multiplication，GEMM)，卷积操作及全连接操作的公式由公式1显示。在CNN模型的正向传递(forward-passing)程序中，第l层的第i通道的输出特征可表示为：

其中k代表卷积核(kemel)大小；N代表输入通道的总数；i等于{1，2，…，M}，其中M为输出通道的总数。

代表第l层中的第i输出通道的偏差值。对全连接操作来说，卷积核大小永远等于1。实施例中实现公式(1)中的量化方式，称为动态定点算数运算子(operator)，可减低大规模CNN的运算负担。因此量化问题可由最佳化公式2表示。

其中Q为量化函数，使用最近舍入(round-to-nearest)方法，可产生舍入误差的最小值。

为了最小化公式2中的量化误差，再次重新考虑公式1。公式1具有二个主要成分。一者为加权向量(ω及b)，另一者为激活向量(x)。对加权向量执行粗略至精细动态定点近似操作以最小化加权向量(ω及b)中的量化误差。将高效的固定精度表示法应用于激活值以最小化激活向量(x)中的量化误差。图2显示量化图1中权重及激活值的方法。

实施例揭露一种量化方法，以下以固定精度表示法描述激活向量。

当在激活向量(x)中使用动态定点格式完整表示32位浮点值时，纯量因子s由公式3定义。

其中p代表量化位长。在公式3中，动态量化范围为[[-max_v，max_v]]。对卷积操作及全连接操作中的激活向量(x)来说，max_v为一组大量数据组的通常输入特征的统计最大值。可由图1中的统计最大值来进行分析。

基于公式3，s为纯量因子，用以补足浮点值及定点值之间的缺口。纯量因子s为数学上的实数，以32位浮点格式表示。将纯量因子s应用于第l层中的激活向量x^l，则可将公式1重写为：

在完成公式1的乘法操作后，公式2表示的量化问题可重写如下：

CNN模型中的每层都有自己的第l层中的纯量因子s^(l)。将纯量因子及激活向量相乘可有效涵盖整个量化范围[[-2^p-1，2^p-1-1]]，因此量化误差被最小化。

以下描述本发明实施例中的量化方法，涉及将粗略量化及精细量化使用动态量化范围应用于加权向量。

首先对每层来说，公式(3)提到的纯量因子s可由公式(3)表示：

其中q等于

n为分数位的数量，表示分数位长，定义为：

注意2ⁿ为整数值，及q为32位浮点值。

加权向量具有卷积向量或批量正规化(batch-normalization)缩放向量(ω)及偏差向量(b)。由第l层的偏差向量(b^l)的观点来看，由于使用缩放激活向量，更新的偏差向量可更新为q^l.b。由第l层的卷积向量或批量正规化缩放加权向量(w(^l))的观点来看，由于考虑激活向量而透过每层纯量因子进行迭代更新。当l＞＝1时，第l层的卷积加权向量(w^(l))应更新为

当l＝0时，更新的加权向量应更新为q⁽⁰⁾.w⁽⁰⁾。对于没有加权向量的层，例如激活层及池化层来说，直接将来自输入层的浮点纯量因子传递至后续层。

依据卷积加权向量(w_{(k×k×N×M)×1})的统计分析，每个输出通道的值(输出通道的总数为M)都会有不同变动。因此当动态量化范围([-max_v(w)，-max_v(w)])用于涵盖整个输出通道时会对量化正确性造成极大影响。为了解决这个问题，所以在通道量化上使用了精细量化技术。在卷积加权向量中，第i输出通道的最大值定义为max_v(w_i)(i∈1，2，...，M)。每输出通道的更新的动态范围为[-max_v(w_i)，max_v(wi)]。透过量化范围应用粗略量化及精细量化以产生定点推论数据可对所有CNN提供极低的量化误差及提供靠近32位浮点正确度的量化结果。

本发明实施例提供处理卷积神经网络的方法。本方法将输入数据输入至浮点预训练CNN模型以产生浮点预训练CNN模型的每层的特征图，将特征图输入至统计分析模拟器以产生浮点预训练CNN模型的每层的动态量化范围，依据浮点预训练CNN模型的每层的动态量化范围对浮点预训练CNN模型的每层的特征值进行量化以产生量化CNN模型的每层的特征值、量化CNN模型的每层的纯量因子、及量化CNN模型的分数位，及将该量化CNN模型的每层的特征值输入至推论引擎以使用低精度的定点算数操作来产生定点推论CNN模型每层的特征值。应用本发明提出的技术可于仅具有限存储器大小及低算术能力的装置，例如移动电话或可携物联网装置上建造定点推论CNN模型而不会产生效能损失。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种处理卷积神经网络的方法，其特征在于，包含:

将输入数据输入至一浮点预训练CNN模型以产生所述浮点预训练CNN模型的每层的多个浮点特征图；

将所述浮点特征图输入至一统计分析模拟器以产生所述浮点预训练CNN模型的所述每层的一动态量化范围；

依据所述浮点预训练CNN模型的所述每层的所述动态量化范围对所述浮点预训练CNN模型的所述每层的特征值进行量化以产生一量化CNN模型的每层的多个特征值、所述量化CNN模型的所述每层的一纯量因子、及所述量化CNN模型的一分数位；及

将所述量化CNN模型的所述每层的所述特征值输入至一推论引擎以使用低精度的多个定点算数操作来产生一定点推论CNN模型的每层的多个特征值。

2.根据权利要求1所述的方法，其特征在于，还包含:

将所述定点推论CNN模型的所述每层的所述特征值输入至所述浮点预训练CNN模型。

3.根据权利要求1所述的方法，其特征在于，依据所述浮点预训练CNN模型的所述每层的所述动态量化范围对所述浮点预训练CNN模型的所述每层的所述特征值进行量化以产生所述量化CNN模型的所述每层的所述特征值、所述量化CNN模型的所述每层的所述纯量因子、及所述量化CNN模型的所述分数位包含:

依据所述浮点预训练CNN模型的所述每层的所述动态量化范围对所述浮点预训练CNN模型的所述每层的所述特征值执行一粗略至精细量化以产生所述量化CNN模型的所述每层的所述特征值、所述量化CNN模型的所述每层的所述纯量因子、及所述量化CNN模型的所述分数位。

4.根据权利要求3所述的方法，其特征在于，依据所述浮点预训练CNN模型的所述每层的所述动态量化范围对所述浮点预训练CNN模型的所述每层的所述特征值执行所述粗略至精细量化以产生所述量化CNN模型的所述每层的所述特征值包含:

依据所述浮点预训练CNN模型的所述每层的所述动态量化范围对所述浮点预训练CNN模型的所述每层的所述特征值执行一粗略量化以产生一粗略CNN模型；及

对所述粗略CNN模型的多个卷积层及/或多个全连接层的所有多个通道的所述每层的多个特征值执行一精细量化以产生所述量化CNN模型。

5.根据权利要求4所述的方法，其特征在于，依据所述浮点预训练CNN模型的所述每层的所述动态量化范围对所述浮点预训练CNN模型的所述每层的所述特征值执行所述粗略量化以产生所述粗略CNN模型包含:

执行一激活量化程序、一偏差量化程序及一权重量化程序以产生所述粗略CNN模型。

6.根据权利要求5所述的方法，其特征在于，执行所述激活量化程序、所述偏差量化程序及所述权重量化程序以产生所述粗略CNN模型包含:

对所述浮点预训练CNN模型的所述每层的多个激活向量执行所述激活量化程序以产生多个量化的激活值；

对所述浮点预训练CNN模型的偏差数据执行所述偏差量化程序以产生多个量化的偏差值；及

对所述浮点预训练CNN模型的权重数据执行所述权重量化程序以产生多个量化的权重。

7.根据权利要求4所述的方法，其特征在于，对所述粗略CNN模型的所述卷积层及/或所述全连接层的所有所述通道的所述每层的所述特征值执行所述精细量化以产生所述量化CNN模型包含:

对所述粗略CNN模型的所述卷积层及/或所述全连接层的所有所述通道的所述每层的所述特征值执行一每通道权重量化程序以产生权重所述量化CNN模型，所述量化CNN模型包含一每通道量化权重。

8.根据权利要求1所述的方法，其特征在于，所述输入数据为多媒体数据。