CN110663048A

CN110663048A - 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及程序

Info

Publication number: CN110663048A
Application number: CN201880034647.2A
Authority: CN
Inventors: D·A·古多夫斯基; L·里加齐奥
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-09-05
Filing date: 2018-08-30
Publication date: 2020-01-07
Anticipated expiration: 2038-08-30
Also published as: US20200097802A1; EP3679524A4; EP3679524A1; JP2020532777A; WO2019050771A1; JP6998968B2; CN110663048B; US11481613B2

Abstract

通过以下步骤执行深度神经网络：在深度神经网络推理期间，通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量，从而获得呈二进制表征的二进制中间特征映射(S210，S215)；通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射(S220)；将压缩特征映射存储到存储器中；通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射(S240)；并使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射(S245，S250)。

Description

用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及程序

技术领域

本公开例如涉及一种用于深度神经网络的执行方法。

背景技术

深度神经网络(以下称为DNN)的最新成就使它们成为许多计算机视觉应用(包括图像分类和对象检测)中有吸引力的选择。但是，DNN所需的存储器和计算可能会给低功耗部署带来过多的处理负载。

减少这样的处理负载的提议或建议的方法包括：层融合，其中可以在不将中间特征映射存储到存储器中的情况下融合层的计算；以及使用非线性降维层对量化的特征映射值进行压缩(参见非专利文献(NPL)1和2)。

引用列表

非专利文献

【NPL 1】

M.Alwani、H.Chen、M.Ferdman和P.A.Milder；Fused-layer CNN accelerators；Micro；第1-12页；2016年10月

【NPL 2】

F.N.Iandola、S.Han、M.W.Moskewicz、K.Ashraf、W.J.Dally和K.Keutzer；Squeezenet:Alexnet-level accuracy with 50x fewer parameters and<0.5MB modelsize；arXiv预印本arXiv：1602.07360，2016

发明内容

[技术问题]

但是，通过上述方法获得的DNN处理负载的减少很小，并且可能导致准确性降低。此外，处理速度的改善不足。

本公开例如提供一种执行方法和执行装置，其特征在于低处理负载和快速处理，同时减小准确性降低。

[问题的解决方案]

为了解决上述问题，根据本公开的一个方面的用于DNN的执行方法包括：在深度神经网络推理期间，通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射；通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射；将压缩特征映射存储到存储器中；通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射；使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。

可以使用系统、装置、集成电路、计算机程序、计算机可读记录介质(例如CD-ROM)或者是系统、设备、集成电路、计算机程序或计算机可读记录介质的任意组合来实现这些总体和具体方面。

[发明的有益效果]

根据本公开的DNN执行方法等的特征在于低处理负载和快速处理，同时减小准确性降低。

附图说明

[图1]图1示出了表示在推理期间根据执行DNN的实施例的方法的模型。

[图2]图2是示出了在推理期间正向传递的模型。

[图3]图3是示出与执行方法相对应的在反向传播期间反向传递的模型。

[图4]图4示出了在实施示例1中将执行方法应用于SqueezeNet架构时来自ImageNet数据集的推理准确性的结果。

[图5]图5显示了在实施示例1中将执行方法应用于MobileNetV2架构时来自ImageNet数据集的推理准确性的结果。

[图6]图6示出了在实施示例2中将执行方法应用于SSD512模型时来自VOC2007数据集的推理准确性的结果。

[图7]图7示出了实施示例2中SSD512模型中的存储使用情况。

[图8]图8是示出执行上述方法中的一个的信息处理装置的硬件配置示例的框图。

具体实施方式

根据本公开的一个方面的用于DNN的执行方法包括：在深度神经网络推理期间，通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射；通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射；将压缩特征映射存储到存储器中；通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射；使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。

这样，与传统技术相比，可以以很少的存储使用来执行DNN。存储带宽的减少导致处理速度的提高。

这里，例如，非线性降维层可以是单个投影卷积层或一系列投影卷积层，并且重建层可以是单个重建卷积层或一系列重建卷积层。

使用上述执行方法执行的用于深度神经网络的基于反向传播的学习方法包括：将第一变换模块和第二变换模块的解析导数应用至用于包括于深度神经网络中的各层中的下一层的梯度以生成用于包括于深度神经网络中的各层中的上一层的梯度；基于为上一层生成的梯度更新权重和偏差；基于恒等映射函数初始化用于非线性降维层的权重以及用于重建层的权重。

推理中增加对于二进制表征的处理使得在二进制级进行学习成为可能。与传统技术相比，这允许以更少的内存使用以及更快的处理速度执行DNN。

可以使用系统、装置、集成电路、计算机程序、计算机可读记录介质(例如CD-ROM)或者系统、装置、集成电路、计算机程序或计算机可读记录介质的任意组合来执行这些总体和具体方面。

在下文中，参考附图详细描述实施例。

以下实施例描述了总体或具体示例。在下面的实施例中示出的数值、形状、元件、元件的设置和连接、步骤、步骤的处理顺序等仅是示例，并且不旨在限制本发明的根据本公开的范围。因此，在以下实施方式的元件中，将任一项独立权利要求中未记载的元件描述为可选元件。

(实施例)

[DNN]

首先，将描述常用的DNN。

常用DNN中第l个卷积层的输入特征映射X^l-1可以由(1)表示，其中，

H和W分别是输入通道的数量、高度和宽度。

代表所有实数。

输入X^l-1与由(2)表示的权重张量W^l进行卷积，其中，C是输出通道的数量，H_f和W_f分别是滤波器核的高度和宽度。

注意，由(3)表示的偏差向量b被加到卷积运算的结果上。

一旦计算了所有C个通道，则将元素式非线性函数应用于卷积运算的结果。然后，可以使用由(5)表示的计算表达式来计算由(4)表示的输出张量X^l的第C个通道。

注意，(5)中的*表示卷积运算，而g()是一些非线性函数。例如，假设g()是定义为g(x)＝max(0，x)的修正线性单位(ReLU)，使得所有激活都是非负的。

为了理解附图和以下描述中使用的符号，请根据需要参考以上内容。

[DNN执行方法]

接下来，将描述根据本实施例的用于在推理期间执行DNN的方法。图1示出说明根据该实施例的DNN执行方法的模型。在图1中，由(a)表示的模型是常规方法，而由(b)表示的模型是根据本实施例的方法。出于比较目的，将这两种模型进行了对比。

由(a)和(b)表示的模型示意性地示出了包括多个卷积层并从左向右进行处理的神经网络。请注意，为简化通知，两个模型均未显示偏差。

首先，利用由(a)表示的常规方法，将N个连续层的计算融合在一起(步骤S100)，而不存储中间特征映射X^1-N+1至X^l-1，以获得特征映射X^l。可以使用比整个特征映射小得多的存储缓冲器以通道式方式实现该融合。

接下来，使用非线性函数q()来量化特征映射X^l(步骤S110)。预量化特征映射X^l是实数域

的元素，而量化特征映射是整数上有限域的元素。由于不完美的近似，量化步骤可能导致准确性降低。量化后，网络架构不会更改，并且仅将特征映射压缩到一定次优位宽分辨率。

接下来，使用额外卷积层执行非线性降维(步骤S120)。在此，使用(7)所表示的投影权重P^l来执行(6)所表示的映射。

注意，在(6)和(7)中的

表示输出通道维度并且小于C。这里，仅压缩特征映射

需要被存储在存储缓冲器中(步骤S130)。

之后，可以使用权重R^l将压缩特征映射

投影回高维张量上(步骤S140)。最后，执行使用逆量化函数q^-1()的逆变换(步骤S150)以获得特征映射X^l+1，该特征映射X^l+1是实数域的元素。

接下来，将描述根据图1的(b)中示出的本实施例的DNN执行方法。与常规方法不同，该方法包括用于使用二进制向量表示中间特征映射的变换。首先，将描述这种变换。

首先，考虑从特征映射X¹派生的标量x，其是实数域的元素。在此，常规量化可以由(8)表示，其中标量到标量映射或非线性函数被表示为q(x)。

请注意，

是量化标量，是用于定点表征的GF(2^B)有限域，而B是位数。

在此，在本实施例中，由(9)定义的线性二值化函数b()引入新的

表征。

这里，

按位与运算。另外，向量b＝[2⁰,2¹，…，2^B-1]^T，并且

是有限域GF(2)。

线性二值化函数b()的反函数表示为(10)。

等式(9)和(10)表明，可以将更高基数有限域上的标量线性转换为有限域上具有两个元素的向量或者从有限域上具有两个元素的向量转换而来。

在下文中，将根据图1中的(b)描述根据本实施例的包括基于这些推导对特征映射进行压缩的DNN执行方法。

获得了特征映射X¹(步骤S200)的层之前的层与(a)中通过步骤S100的那些层相同。因此，省略了步骤S200之前的步骤的描述和在附图中的指示。

在下一层中，量化作为激活的特征映射X¹以获得特征映射

(步骤S210)。在下一层中，将(9)中的变换应用于特征映射

(步骤S215)。这种变换的结果，即特征映射

由(11)表示。

以这种方式转换为二进制表征的特征映射

在下文中也称为二进制中间特征映射。

为了实施方便，可以将新添加到(11)的位维沿着通道维度级联，从而生成(12)中所示的二进制中间特征映射

注意，其中执行步骤S210和S215中的处理的层的模块是根据该实施例的第一变换模块的一个示例。

可以将使用投影权重P^l的单个非线性降维层或具有投影权重的一系列非线性降维层应用于此二进制中间特征映射

以在有限域GF(2)上获得二进制向量的二进制中间特征映射

的压缩表征(以下也称为压缩特征映射

)(步骤S220)。

在推理期间，仅压缩特征映射

(其是域

的元素)需要被存储在存储器中(步骤S230)。非压缩特征映射可以使用小缓冲器例如以顺序按通道方式来处理，因此不需要存储在存储器中。

然后，在使用卷积层进行处理之后的层中，重建其上述压缩被撤销的二进制中间特征映射(步骤S240)。一旦将重建二进制中间特征映射输入到下一层，则使用来自(10)的反函数b^-1()来撤销二进制表征(步骤S245)，以将二进制中间特征映射转换成中间特征映射，该中间特征映射是整数元素域的元素，然后应用反量化函数q^-1()进一步将中间特征映射转换为特征映射，该特征映射是实数域的元素(S250)。

注意，其中执行步骤S245和S250中的处理的层的模块是根据该实施例的第二变换模块的一个示例。

以上结束了对本实施例的DNN执行方法的说明。接下来，将在实施示例(稍后描述)中介绍与该方法下的存储器使用和准确性有关的性能评估并将其与常规方法进行比较。

[DNN学习方法]

接下来，将描述使用上述方法执行的用于深度神经网络的反向传播学习方法。图2是示出在上述执行方法中在推理期间的正向传递的模型。图3是示出与上述执行方法相对应的在反向传播期间的反向传递的模型。图2中的推理传递对应于等式(9)，并且图3中的推理传递对应于等式(10)。

根据本实施例的DNN执行方法中新引入的函数b^-1()可以表示为做出类似于ReLU的硬决策的门。函数b^-1()的梯度然后可以使用(13)计算。

最后，函数b()的梯度是由(14)计算的梯度向量的缩放总和。

注意，(14)中的

是梯度缩放因子，其表示

中的非零元素数。实际上，缩放因子可以基于统计信息只计算一次并用作梯度归一化的静态超参数。

由于根据该实施例的网络的目的是学习并保持仅仅最小

因此P^l和R^l初始化的选择很重要。因此，我们可以通过恒等函数来初始化这些权重张量，该恒等函数将非压缩特征映射映射到压缩特征映射或相反，以提供合适的训练起点。同时，其他初始化也是可能的，例如，也可以添加从某些分布采样的噪声。

[实施示例1]

[概述]

使用SqueezeNet V1.1和Mobilenet V2作为基础浮点网络架构来实施本实施例中描述的二值化和量化层。

[SqueezeNet V1.1]

在该实施示例中，压缩了由于高空间维度而作为“squeeze”层中最大的层：“fire2/squeeze”层和“fire3/squeeze”层。网络的输入分辨率为227×227，并且权重均为浮点。

量化和压缩模型在ImageNet(ILSVRC2012)训练数据集上以1024的小批量重新训练了100,000次迭代，并且随机梯度下降求解器的步长策略学习率每20,000次迭代则从1e^-3/10开始。尽管原始模型使用了该大的小批量，但其也有助于量化和压缩模型来估计梯度。压缩模型是从8位量化模型中导出并重新迭代训练。图4显示了来自ImageNet验证数据集的50,000张图像的推理准确性结果。最左列指示模型类型(fp32：单精度浮点数，uint8：8位无符号整数数组等)，其余各列从左至右指示：权重数据大小；激活，即特征映射大小；最高答案(top-1)准确性；以及前五答案(top-5)准确性。括号外的值表示经过重新训练的准确性，并且括号内的值表示未经重新训练的准确性。

根据这些结果，与未执行二进制表征转换时相比，当执行二进制表征转换并使用1×1卷积内核时，尽管权重数略有增加，但各个模型的准确性却有所提高(top-1准确性：6位＝1.0％增加，4位＝2.4％增加)。当使用3×3跨步2卷积内核时，对于6位模型，观察到权重大小增加了大约47％。这允许通过利用局部空间量化冗余来减少特征映射的空间维度。然后，与没有转换为二进制表征时相比，特征映射激活的大小进一步减小为1/4，而与fp32相比，针对8位和6位模型的top-1准确性分别降低了4.3％和4.6％。

[MobileNetV2]

“conv2_1/linear”特征映射已压缩。此特征映射几乎是其他任何特征映射的大小的三倍。使用与SqueezeNet设置中相同的训练超参数。随着学习率策略的成比例变化，迭代次数为50,000。在“conv2_1/linear”之后添加了ReLU层，以与当前实施的压缩方法兼容。因此，“conv2_1/linear”特征映射包括原始模型中的带符号整数和修改后的模型中的无符号整数。注意，观察到批量归一化层会导致训练过程不稳定。因此，归一化和缩放参数是固定的并且合并进卷积层的权重和偏差。然后从原始模型中重新训练修改后的模型。图5示出了MobileNetV2 ImageNet推理准确性结果的表。这些列大多数情况下对应于图4中的表格。然而，在“量化而不转换为二进制表征”标题下使用的模型类型是包括上述有符号整数的模型(int9：9位有符号整数数组等)。

与fp32相比，重新训练后没有ReLU的量化模型对于9位、7位和5位量化而言分别经受了-0.3％，-0.3％和0.3％的top-1准确性下降。注意，量化的MobileNetV2可以适应较小的位宽，其中与9位模型相比，对于5位模型劣化仅为0.6％。另一方面，就准确性结果而言，ReLU量化模型优于表中的所有其他模型。

以二进制表征并使用1×1卷积内核的模型获得与没有二进制表征的常规方法大致相同的分数。当使用2×2跨步2卷积内核时，特征映射将压缩为1/2，而准确性劣化约4.5％且权重大小增加5％。

尽管未包括在表中，但是对使用2×2跨步2卷积内核和使用3×3跨步2卷积内核的结果进行了比较，结果表明前者在准确性和数据大小方面都优越。

[实施示例2]

[概述]

在此实施示例中，使用Pascal VOC数据集用于对象检测，并评估了准确性。更具体地，使用了4,952个VOC2007图像以及具有16,551个VOC2007和VOC2012图像的训练数据集。此外，在执行上述实施例中描述的方法中，使用了SSD(单发检测器)512模型，并且将在ImageNet上预先训练的SqueezeNet用于代替VGG-16来进行特征提取。这样可以将参数数量和总推理时间分别减少为1/4和1/3。

原始VOC图像重新缩放为512×512分辨率。与利用ImageNet的实施示例一样，生成了多个模型进行比较：浮点模型、量化模型和压缩模型。量化和压缩应用于“fire2/squeeze”和“fire3/squeeze”层，如果应用融合技术，则“fire2/squeeze”和“fire3/squeeze”层由于其较大空间维度而占据总特征映射存储的80％以上。通常，与深度维度中的线性增长相比，由于最大池化层而使空间维度呈二次方减小。压缩模型来自8位量化模型并且使用步长策略学习率每2500次迭代则从1e^-3/10开始的SGD求解器对这两个模型进行了10,000次小批量256迭代的重新训练。

[结果]

图6示出了根据该实施例的推理准确性结果的表。从左至右，各列表示：模型类型；权重大小；特征映射，即激活大小；以及mAP(平均精度均值)。

与浮点模型相比，在量化的且未转换为二进制表征(进行重新训练)的模型中，8位量化模型准确性降低了0.04％，而6位，4位和2位模型准确性分别降低约0.5％，2.2％和12.3％。括号内的值是未重新训练的模型的参考值。

在使用包括二进制表征转换的1×1卷积内核的模型中，6位模型的mAP增加了大约0.5％，而4位模型的mAP减少了大约0.5％。

使用跨步为2的2×2卷积内核的模型比相应的3×3卷积内核的性能更好，同时所需的参数和计算量更少，表现出mAP值提高了近1％。

[存储使用]

图7示出了汇总经评估的SSD模型中的存储使用的表。注意，此处仅考虑占据总激活存储的80％以上的最大特征映射。

假设输入帧是单独存储的，则融合技术可以将特征映射压缩为1/19。

融合且量化的8位和4位定点模型分别将特征映射的大小减少为1/4和1/8。

当应用根据上述的包括二进制表示转换(2×2跨步2内核)的实施例的方法时，与上述的4位模型相比，这获得了另2倍的压缩，而mAP仅劣化了1.5％。

总体而言，此特征提取器所需的存储使用量减少了两个数量级。

[结论]

如上所述，根据本发明的DNN执行方法通过在包括融合层计算和量化的常规DNN方法中额外包括在GF(2)上的推理和学习来执行。这种GF(2)二进制表征允许使用嵌入DNN的自动编码器启发层在更高维度的空间中进行特征映射压缩。可以使用具有按位运算的常规卷积层来实施这些压缩-解压缩层。更精确地，根据本公开的方法用有限域的基数与向量空间的维数进行折衷，这使得可以在二进制级学习特征。根据本公开的用于推理的压缩方法可以被用于GPU、CPU或定制加速器。可替代地，可以扩展现有的二进制神经网络，以针对新兴应用(尤其例如对象检测)实现更高的准确性。

[其他实施例]

以上，已经基于实施例描述了根据一个或多个方面的用于DNN的执行方法和学习方法，但是本发明不限于该实施例。只要不背离本发明的实质，则可以包括由本领域技术人员想到的对实施例的各种修改作为这些方面之一。

此外，尽管基于用于DNN的执行和学习方法描述了本公开中的实施例，但是本发明可以被实施为用于DNN的执行和学习装置，其包括执行每个层的处理的功能元件。这些装置各自实施为一个或多个信息处理装置，这些信息处理装置各自包括例如执行该方法的处理器以及用于存储未压缩特征映射的存储器。图8是示出根据该实施例的信息处理装置的硬件配置示例的框图。

如图8所示，信息处理装置100包括CPU(中央处理单元)101、主存储器102、存储装置103、通信I/F(接口)104以及GPU(图形处理单元)105。这些元件经由总线连接，并且能够相互收发数据。

CPU 101是执行例如存储在存储装置103中的控制程序以及例如用于实现上述DNN执行方法的程序的处理器。

主存储器102是由CPU 101用作执行程序的工作区域的易失性存储区域。

存储装置103是存储例如程序的非易失性存储区域。

通信I/F 104是经由通信网络(图中未示出)与外部装置通信的通信接口。例如，当DNN执行装置被实施为多个信息处理装置100时，则通过通信I/F 104经由通信网络执行信息处理装置100之间的数据发送和接收。通信I/F 104例如是有线LAN接口。注意，通信I/F104可以是无线LAN接口。此外，通信I/F 104不限于LAN接口；通信I/F 104可以是能够通信地连接到通信网络的任何种类的通信接口。

GPU 105例如是执行用于实现上述DNN学习方法的程序的处理器。

本发明还可以实施为用于使包括处理器和存储器的信息处理装置执行根据实施例的DNN执行或学习方法的程序，以及实施为在其上记录有这样的程序的非暂时性记录介质。

[工业适用性]

本公开适用于诸如图像分类和物体检测的计算机视觉应用。

[附图标记列表]

100 信息处理装置

101 CPU

102 主存储器

103 存储装置

104 通信接口

105 GPU

Claims

1.一种用于深度神经网络的执行方法，所述执行方法包括：

在深度神经网络推理期间，通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射；

通过使用非线性降维层来压缩所述二进制中间特征映射来生成压缩特征映射；

将所述压缩特征映射存储到存储器中；

通过使用与所述非线性降维层相对应的重建层对从所述存储器读取的所述压缩特征映射进行解压缩来重建所述二进制中间特征映射；以及

使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。

2.根据权利要求1所述的执行方法，其中，

所述非线性降维层是单个投影卷积层或一系列投影卷积层，并且

所述重建层是单个重建卷积层或一系列重建卷积层。

3.一种使用根据权利要求1或2所述的执行方法执行的用于深度神经网络的基于反向传播的学习方法，所述学习方法包括：

将所述第一变换模块和所述第二变换模块的解析导数应用至用于包括在所述深度神经网络中各层中的下一层的梯度，以生成用于包括在所述深度神经网络中各层中的上一层的梯度；

基于为所述上一层生成的所述梯度更新权重和偏差；以及

基于恒等映射函数初始化用于所述非线性降维层的权重以及用于所述重建层的权重。

4.一种用于深度神经网络的执行装置，所述执行装置包括：

执行深度神经网络推理的处理器，

其中，所述处理器：

通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射；

通过使用非线性降维层压缩所述二进制中间特征映射来生成压缩特征映射；

将所述压缩特征映射存储到存储器中；

5.一种用于深度神经网络的学习装置，该学习装置包括：

处理器，其通过使用根据权利要求1或2所述的执行方法所执行的深度神经网络来执行基于反向传播的学习，

其中，所述处理器：

基于为所述上一层生成的所述梯度更新权重和偏差；以及

6.一种程序，用于使计算机执行根据权利要求1所述的执行方法。

7.一种程序，用于使计算机执行根据权利要求3所述的学习方法。