CN110663048A - 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及程序 - Google Patents
用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及程序 Download PDFInfo
- Publication number
- CN110663048A CN110663048A CN201880034647.2A CN201880034647A CN110663048A CN 110663048 A CN110663048 A CN 110663048A CN 201880034647 A CN201880034647 A CN 201880034647A CN 110663048 A CN110663048 A CN 110663048A
- Authority
- CN
- China
- Prior art keywords
- feature map
- layer
- binary
- deep neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims description 60
- 230000009466 transformation Effects 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 14
- 238000013139 quantization Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 230000006835 compression Effects 0.000 description 14
- 238000007906 compression Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000010365 information processing Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000001994 activation Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 4
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Neurology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
通过以下步骤执行深度神经网络:在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量,从而获得呈二进制表征的二进制中间特征映射(S210,S215);通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射(S220);将压缩特征映射存储到存储器中;通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射(S240);并使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射(S245,S250)。
Description
技术领域
本公开例如涉及一种用于深度神经网络的执行方法。
背景技术
深度神经网络(以下称为DNN)的最新成就使它们成为许多计算机视觉应用(包括图像分类和对象检测)中有吸引力的选择。但是,DNN所需的存储器和计算可能会给低功耗部署带来过多的处理负载。
减少这样的处理负载的提议或建议的方法包括:层融合,其中可以在不将中间特征映射存储到存储器中的情况下融合层的计算;以及使用非线性降维层对量化的特征映射值进行压缩(参见非专利文献(NPL)1和2)。
引用列表
非专利文献
【NPL 1】
M.Alwani、H.Chen、M.Ferdman和P.A.Milder;Fused-layer CNN accelerators;Micro;第1-12页;2016年10月
【NPL 2】
F.N.Iandola、S.Han、M.W.Moskewicz、K.Ashraf、W.J.Dally和K.Keutzer;Squeezenet:Alexnet-level accuracy with 50x fewer parameters and<0.5MB modelsize;arXiv预印本arXiv:1602.07360,2016
发明内容
[技术问题]
但是,通过上述方法获得的DNN处理负载的减少很小,并且可能导致准确性降低。此外,处理速度的改善不足。
本公开例如提供一种执行方法和执行装置,其特征在于低处理负载和快速处理,同时减小准确性降低。
[问题的解决方案]
为了解决上述问题,根据本公开的一个方面的用于DNN的执行方法包括:在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射;将压缩特征映射存储到存储器中;通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射;使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
可以使用系统、装置、集成电路、计算机程序、计算机可读记录介质(例如CD-ROM)或者是系统、设备、集成电路、计算机程序或计算机可读记录介质的任意组合来实现这些总体和具体方面。
[发明的有益效果]
根据本公开的DNN执行方法等的特征在于低处理负载和快速处理,同时减小准确性降低。
附图说明
[图1]图1示出了表示在推理期间根据执行DNN的实施例的方法的模型。
[图2]图2是示出了在推理期间正向传递的模型。
[图3]图3是示出与执行方法相对应的在反向传播期间反向传递的模型。
[图4]图4示出了在实施示例1中将执行方法应用于SqueezeNet架构时来自ImageNet数据集的推理准确性的结果。
[图5]图5显示了在实施示例1中将执行方法应用于MobileNetV2架构时来自ImageNet数据集的推理准确性的结果。
[图6]图6示出了在实施示例2中将执行方法应用于SSD512模型时来自VOC2007数据集的推理准确性的结果。
[图7]图7示出了实施示例2中SSD512模型中的存储使用情况。
[图8]图8是示出执行上述方法中的一个的信息处理装置的硬件配置示例的框图。
具体实施方式
根据本公开的一个方面的用于DNN的执行方法包括:在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射;将压缩特征映射存储到存储器中;通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射;使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
这样,与传统技术相比,可以以很少的存储使用来执行DNN。存储带宽的减少导致处理速度的提高。
这里,例如,非线性降维层可以是单个投影卷积层或一系列投影卷积层,并且重建层可以是单个重建卷积层或一系列重建卷积层。
使用上述执行方法执行的用于深度神经网络的基于反向传播的学习方法包括:将第一变换模块和第二变换模块的解析导数应用至用于包括于深度神经网络中的各层中的下一层的梯度以生成用于包括于深度神经网络中的各层中的上一层的梯度;基于为上一层生成的梯度更新权重和偏差;基于恒等映射函数初始化用于非线性降维层的权重以及用于重建层的权重。
推理中增加对于二进制表征的处理使得在二进制级进行学习成为可能。与传统技术相比,这允许以更少的内存使用以及更快的处理速度执行DNN。
可以使用系统、装置、集成电路、计算机程序、计算机可读记录介质(例如CD-ROM)或者系统、装置、集成电路、计算机程序或计算机可读记录介质的任意组合来执行这些总体和具体方面。
在下文中,参考附图详细描述实施例。
以下实施例描述了总体或具体示例。在下面的实施例中示出的数值、形状、元件、元件的设置和连接、步骤、步骤的处理顺序等仅是示例,并且不旨在限制本发明的根据本公开的范围。因此,在以下实施方式的元件中,将任一项独立权利要求中未记载的元件描述为可选元件。
(实施例)
[DNN]
首先,将描述常用的DNN。
输入Xl-1与由(2)表示的权重张量Wl进行卷积,其中,C是输出通道的数量,Hf和Wf分别是滤波器核的高度和宽度。
注意,由(3)表示的偏差向量b被加到卷积运算的结果上。
一旦计算了所有C个通道,则将元素式非线性函数应用于卷积运算的结果。然后,可以使用由(5)表示的计算表达式来计算由(4)表示的输出张量Xl的第C个通道。
注意,(5)中的*表示卷积运算,而g()是一些非线性函数。例如,假设g()是定义为g(x)=max(0,x)的修正线性单位(ReLU),使得所有激活都是非负的。
为了理解附图和以下描述中使用的符号,请根据需要参考以上内容。
[DNN执行方法]
接下来,将描述根据本实施例的用于在推理期间执行DNN的方法。图1示出说明根据该实施例的DNN执行方法的模型。在图1中,由(a)表示的模型是常规方法,而由(b)表示的模型是根据本实施例的方法。出于比较目的,将这两种模型进行了对比。
由(a)和(b)表示的模型示意性地示出了包括多个卷积层并从左向右进行处理的神经网络。请注意,为简化通知,两个模型均未显示偏差。
首先,利用由(a)表示的常规方法,将N个连续层的计算融合在一起(步骤S100),而不存储中间特征映射X1-N+1至Xl-1,以获得特征映射Xl。可以使用比整个特征映射小得多的存储缓冲器以通道式方式实现该融合。
接下来,使用非线性函数q()来量化特征映射Xl(步骤S110)。预量化特征映射Xl是实数域的元素,而量化特征映射是整数上有限域的元素。由于不完美的近似,量化步骤可能导致准确性降低。量化后,网络架构不会更改,并且仅将特征映射压缩到一定次优位宽分辨率。
接下来,使用额外卷积层执行非线性降维(步骤S120)。在此,使用(7)所表示的投影权重Pl来执行(6)所表示的映射。
接下来,将描述根据图1的(b)中示出的本实施例的DNN执行方法。与常规方法不同,该方法包括用于使用二进制向量表示中间特征映射的变换。首先,将描述这种变换。
首先,考虑从特征映射X1派生的标量x,其是实数域的元素。在此,常规量化可以由(8)表示,其中标量到标量映射或非线性函数被表示为q(x)。
线性二值化函数b()的反函数表示为(10)。
等式(9)和(10)表明,可以将更高基数有限域上的标量线性转换为有限域上具有两个元素的向量或者从有限域上具有两个元素的向量转换而来。
在下文中,将根据图1中的(b)描述根据本实施例的包括基于这些推导对特征映射进行压缩的DNN执行方法。
获得了特征映射X1(步骤S200)的层之前的层与(a)中通过步骤S100的那些层相同。因此,省略了步骤S200之前的步骤的描述和在附图中的指示。
注意,其中执行步骤S210和S215中的处理的层的模块是根据该实施例的第一变换模块的一个示例。
可以将使用投影权重Pl的单个非线性降维层或具有投影权重的一系列非线性降维层应用于此二进制中间特征映射以在有限域GF(2)上获得二进制向量的二进制中间特征映射的压缩表征(以下也称为压缩特征映射)(步骤S220)。
然后,在使用卷积层进行处理之后的层中,重建其上述压缩被撤销的二进制中间特征映射(步骤S240)。一旦将重建二进制中间特征映射输入到下一层,则使用来自(10)的反函数b-1()来撤销二进制表征(步骤S245),以将二进制中间特征映射转换成中间特征映射,该中间特征映射是整数元素域的元素,然后应用反量化函数q-1()进一步将中间特征映射转换为特征映射,该特征映射是实数域的元素(S250)。
注意,其中执行步骤S245和S250中的处理的层的模块是根据该实施例的第二变换模块的一个示例。
以上结束了对本实施例的DNN执行方法的说明。接下来,将在实施示例(稍后描述)中介绍与该方法下的存储器使用和准确性有关的性能评估并将其与常规方法进行比较。
[DNN学习方法]
接下来,将描述使用上述方法执行的用于深度神经网络的反向传播学习方法。图2是示出在上述执行方法中在推理期间的正向传递的模型。图3是示出与上述执行方法相对应的在反向传播期间的反向传递的模型。图2中的推理传递对应于等式(9),并且图3中的推理传递对应于等式(10)。
根据本实施例的DNN执行方法中新引入的函数b-1()可以表示为做出类似于ReLU的硬决策的门。函数b-1()的梯度然后可以使用(13)计算。
最后,函数b()的梯度是由(14)计算的梯度向量的缩放总和。
由于根据该实施例的网络的目的是学习并保持仅仅最小因此Pl和Rl初始化的选择很重要。因此,我们可以通过恒等函数来初始化这些权重张量,该恒等函数将非压缩特征映射映射到压缩特征映射或相反,以提供合适的训练起点。同时,其他初始化也是可能的,例如,也可以添加从某些分布采样的噪声。
[实施示例1]
[概述]
使用SqueezeNet V1.1和Mobilenet V2作为基础浮点网络架构来实施本实施例中描述的二值化和量化层。
[SqueezeNet V1.1]
在该实施示例中,压缩了由于高空间维度而作为“squeeze”层中最大的层:“fire2/squeeze”层和“fire3/squeeze”层。网络的输入分辨率为227×227,并且权重均为浮点。
量化和压缩模型在ImageNet(ILSVRC2012)训练数据集上以1024的小批量重新训练了100,000次迭代,并且随机梯度下降求解器的步长策略学习率每20,000次迭代则从1e-3/10开始。尽管原始模型使用了该大的小批量,但其也有助于量化和压缩模型来估计梯度。压缩模型是从8位量化模型中导出并重新迭代训练。图4显示了来自ImageNet验证数据集的50,000张图像的推理准确性结果。最左列指示模型类型(fp32:单精度浮点数,uint8:8位无符号整数数组等),其余各列从左至右指示:权重数据大小;激活,即特征映射大小;最高答案(top-1)准确性;以及前五答案(top-5)准确性。括号外的值表示经过重新训练的准确性,并且括号内的值表示未经重新训练的准确性。
根据这些结果,与未执行二进制表征转换时相比,当执行二进制表征转换并使用1×1卷积内核时,尽管权重数略有增加,但各个模型的准确性却有所提高(top-1准确性:6位=1.0%增加,4位=2.4%增加)。当使用3×3跨步2卷积内核时,对于6位模型,观察到权重大小增加了大约47%。这允许通过利用局部空间量化冗余来减少特征映射的空间维度。然后,与没有转换为二进制表征时相比,特征映射激活的大小进一步减小为1/4,而与fp32相比,针对8位和6位模型的top-1准确性分别降低了4.3%和4.6%。
[MobileNetV2]
“conv2_1/linear”特征映射已压缩。此特征映射几乎是其他任何特征映射的大小的三倍。使用与SqueezeNet设置中相同的训练超参数。随着学习率策略的成比例变化,迭代次数为50,000。在“conv2_1/linear”之后添加了ReLU层,以与当前实施的压缩方法兼容。因此,“conv2_1/linear”特征映射包括原始模型中的带符号整数和修改后的模型中的无符号整数。注意,观察到批量归一化层会导致训练过程不稳定。因此,归一化和缩放参数是固定的并且合并进卷积层的权重和偏差。然后从原始模型中重新训练修改后的模型。图5示出了MobileNetV2 ImageNet推理准确性结果的表。这些列大多数情况下对应于图4中的表格。然而,在“量化而不转换为二进制表征”标题下使用的模型类型是包括上述有符号整数的模型(int9:9位有符号整数数组等)。
与fp32相比,重新训练后没有ReLU的量化模型对于9位、7位和5位量化而言分别经受了-0.3%,-0.3%和0.3%的top-1准确性下降。注意,量化的MobileNetV2可以适应较小的位宽,其中与9位模型相比,对于5位模型劣化仅为0.6%。另一方面,就准确性结果而言,ReLU量化模型优于表中的所有其他模型。
以二进制表征并使用1×1卷积内核的模型获得与没有二进制表征的常规方法大致相同的分数。当使用2×2跨步2卷积内核时,特征映射将压缩为1/2,而准确性劣化约4.5%且权重大小增加5%。
尽管未包括在表中,但是对使用2×2跨步2卷积内核和使用3×3跨步2卷积内核的结果进行了比较,结果表明前者在准确性和数据大小方面都优越。
[实施示例2]
[概述]
在此实施示例中,使用Pascal VOC数据集用于对象检测,并评估了准确性。更具体地,使用了4,952个VOC2007图像以及具有16,551个VOC2007和VOC2012图像的训练数据集。此外,在执行上述实施例中描述的方法中,使用了SSD(单发检测器)512模型,并且将在ImageNet上预先训练的SqueezeNet用于代替VGG-16来进行特征提取。这样可以将参数数量和总推理时间分别减少为1/4和1/3。
原始VOC图像重新缩放为512×512分辨率。与利用ImageNet的实施示例一样,生成了多个模型进行比较:浮点模型、量化模型和压缩模型。量化和压缩应用于“fire2/squeeze”和“fire3/squeeze”层,如果应用融合技术,则“fire2/squeeze”和“fire3/squeeze”层由于其较大空间维度而占据总特征映射存储的80%以上。通常,与深度维度中的线性增长相比,由于最大池化层而使空间维度呈二次方减小。压缩模型来自8位量化模型并且使用步长策略学习率每2500次迭代则从1e-3/10开始的SGD求解器对这两个模型进行了10,000次小批量256迭代的重新训练。
[结果]
图6示出了根据该实施例的推理准确性结果的表。从左至右,各列表示:模型类型;权重大小;特征映射,即激活大小;以及mAP(平均精度均值)。
与浮点模型相比,在量化的且未转换为二进制表征(进行重新训练)的模型中,8位量化模型准确性降低了0.04%,而6位,4位和2位模型准确性分别降低约0.5%,2.2%和12.3%。括号内的值是未重新训练的模型的参考值。
在使用包括二进制表征转换的1×1卷积内核的模型中,6位模型的mAP增加了大约0.5%,而4位模型的mAP减少了大约0.5%。
使用跨步为2的2×2卷积内核的模型比相应的3×3卷积内核的性能更好,同时所需的参数和计算量更少,表现出mAP值提高了近1%。
[存储使用]
图7示出了汇总经评估的SSD模型中的存储使用的表。注意,此处仅考虑占据总激活存储的80%以上的最大特征映射。
假设输入帧是单独存储的,则融合技术可以将特征映射压缩为1/19。
融合且量化的8位和4位定点模型分别将特征映射的大小减少为1/4和1/8。
当应用根据上述的包括二进制表示转换(2×2跨步2内核)的实施例的方法时,与上述的4位模型相比,这获得了另2倍的压缩,而mAP仅劣化了1.5%。
总体而言,此特征提取器所需的存储使用量减少了两个数量级。
[结论]
如上所述,根据本发明的DNN执行方法通过在包括融合层计算和量化的常规DNN方法中额外包括在GF(2)上的推理和学习来执行。这种GF(2)二进制表征允许使用嵌入DNN的自动编码器启发层在更高维度的空间中进行特征映射压缩。可以使用具有按位运算的常规卷积层来实施这些压缩-解压缩层。更精确地,根据本公开的方法用有限域的基数与向量空间的维数进行折衷,这使得可以在二进制级学习特征。根据本公开的用于推理的压缩方法可以被用于GPU、CPU或定制加速器。可替代地,可以扩展现有的二进制神经网络,以针对新兴应用(尤其例如对象检测)实现更高的准确性。
[其他实施例]
以上,已经基于实施例描述了根据一个或多个方面的用于DNN的执行方法和学习方法,但是本发明不限于该实施例。只要不背离本发明的实质,则可以包括由本领域技术人员想到的对实施例的各种修改作为这些方面之一。
此外,尽管基于用于DNN的执行和学习方法描述了本公开中的实施例,但是本发明可以被实施为用于DNN的执行和学习装置,其包括执行每个层的处理的功能元件。这些装置各自实施为一个或多个信息处理装置,这些信息处理装置各自包括例如执行该方法的处理器以及用于存储未压缩特征映射的存储器。图8是示出根据该实施例的信息处理装置的硬件配置示例的框图。
如图8所示,信息处理装置100包括CPU(中央处理单元)101、主存储器102、存储装置103、通信I/F(接口)104以及GPU(图形处理单元)105。这些元件经由总线连接,并且能够相互收发数据。
CPU 101是执行例如存储在存储装置103中的控制程序以及例如用于实现上述DNN执行方法的程序的处理器。
主存储器102是由CPU 101用作执行程序的工作区域的易失性存储区域。
存储装置103是存储例如程序的非易失性存储区域。
通信I/F 104是经由通信网络(图中未示出)与外部装置通信的通信接口。例如,当DNN执行装置被实施为多个信息处理装置100时,则通过通信I/F 104经由通信网络执行信息处理装置100之间的数据发送和接收。通信I/F 104例如是有线LAN接口。注意,通信I/F104可以是无线LAN接口。此外,通信I/F 104不限于LAN接口;通信I/F 104可以是能够通信地连接到通信网络的任何种类的通信接口。
GPU 105例如是执行用于实现上述DNN学习方法的程序的处理器。
本发明还可以实施为用于使包括处理器和存储器的信息处理装置执行根据实施例的DNN执行或学习方法的程序,以及实施为在其上记录有这样的程序的非暂时性记录介质。
[工业适用性]
本公开适用于诸如图像分类和物体检测的计算机视觉应用。
[附图标记列表]
100 信息处理装置
101 CPU
102 主存储器
103 存储装置
104 通信接口
105 GPU
Claims (7)
1.一种用于深度神经网络的执行方法,所述执行方法包括:
在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;
通过使用非线性降维层来压缩所述二进制中间特征映射来生成压缩特征映射;
将所述压缩特征映射存储到存储器中;
通过使用与所述非线性降维层相对应的重建层对从所述存储器读取的所述压缩特征映射进行解压缩来重建所述二进制中间特征映射;以及
使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
2.根据权利要求1所述的执行方法,其中,
所述非线性降维层是单个投影卷积层或一系列投影卷积层,并且
所述重建层是单个重建卷积层或一系列重建卷积层。
3.一种使用根据权利要求1或2所述的执行方法执行的用于深度神经网络的基于反向传播的学习方法,所述学习方法包括:
将所述第一变换模块和所述第二变换模块的解析导数应用至用于包括在所述深度神经网络中各层中的下一层的梯度,以生成用于包括在所述深度神经网络中各层中的上一层的梯度;
基于为所述上一层生成的所述梯度更新权重和偏差;以及
基于恒等映射函数初始化用于所述非线性降维层的权重以及用于所述重建层的权重。
4.一种用于深度神经网络的执行装置,所述执行装置包括:
执行深度神经网络推理的处理器,
其中,所述处理器:
通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;
通过使用非线性降维层压缩所述二进制中间特征映射来生成压缩特征映射;
将所述压缩特征映射存储到存储器中;
通过使用与所述非线性降维层相对应的重建层对从所述存储器读取的所述压缩特征映射进行解压缩来重建所述二进制中间特征映射;以及
使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
5.一种用于深度神经网络的学习装置,该学习装置包括:
处理器,其通过使用根据权利要求1或2所述的执行方法所执行的深度神经网络来执行基于反向传播的学习,
其中,所述处理器:
将所述第一变换模块和所述第二变换模块的解析导数应用至用于包括在所述深度神经网络中各层中的下一层的梯度,以生成用于包括在所述深度神经网络中各层中的上一层的梯度;
基于为所述上一层生成的所述梯度更新权重和偏差;以及
基于恒等映射函数初始化用于所述非线性降维层的权重以及用于所述重建层的权重。
6.一种程序,用于使计算机执行根据权利要求1所述的执行方法。
7.一种程序,用于使计算机执行根据权利要求3所述的学习方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762554224P | 2017-09-05 | 2017-09-05 | |
US62/554,224 | 2017-09-05 | ||
PCT/US2018/048867 WO2019050771A1 (en) | 2017-09-05 | 2018-08-30 | EXECUTION METHOD, EXECUTION DEVICE, LEARNING METHOD, LEARNING DEVICE, AND PROGRAM FOR DEEP NEURAL NETWORK |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110663048A true CN110663048A (zh) | 2020-01-07 |
CN110663048B CN110663048B (zh) | 2023-10-24 |
Family
ID=65634935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880034647.2A Active CN110663048B (zh) | 2017-09-05 | 2018-08-30 | 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及记录介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11481613B2 (zh) |
EP (1) | EP3679524A4 (zh) |
JP (1) | JP6998968B2 (zh) |
CN (1) | CN110663048B (zh) |
WO (1) | WO2019050771A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884123A (zh) * | 2021-02-23 | 2021-06-01 | 杭州海康威视数字技术股份有限公司 | 神经网络优化方法、装置、电子设备及可读存储介质 |
CN113537462A (zh) * | 2021-06-30 | 2021-10-22 | 华为技术有限公司 | 数据处理方法、神经网络的量化方法及相关装置 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190068255A (ko) * | 2017-12-08 | 2019-06-18 | 삼성전자주식회사 | 고정 소수점 뉴럴 네트워크를 생성하는 방법 및 장치 |
CN108256644B (zh) * | 2018-01-05 | 2021-06-22 | 上海兆芯集成电路有限公司 | 微处理器电路以及执行神经网络运算的方法 |
CN110163370B (zh) * | 2019-05-24 | 2021-09-17 | 上海肇观电子科技有限公司 | 深度神经网络的压缩方法、芯片、电子设备及介质 |
CN112085191B (zh) * | 2019-06-12 | 2024-04-02 | 上海寒武纪信息科技有限公司 | 一种神经网络的量化参数确定方法及相关产品 |
CN110738141A (zh) * | 2019-09-26 | 2020-01-31 | 五邑大学 | 一种静脉识别的方法、装置、设备及存储介质 |
CN111489739B (zh) * | 2020-04-17 | 2023-06-16 | 嘉楠明芯(北京)科技有限公司 | 音素识别方法、装置及计算机可读存储介质 |
US11829376B2 (en) * | 2020-05-06 | 2023-11-28 | Intel Corporation | Technologies for refining stochastic similarity search candidates |
JP7524667B2 (ja) | 2020-08-19 | 2024-07-30 | 富士通株式会社 | 情報処理装置、機械学習方法及び機械学習プログラム |
US20220067529A1 (en) * | 2020-08-25 | 2022-03-03 | Microsoft Technology Licensing, Llc | Compressing and Decompressing Data for Language Models |
US20210241025A1 (en) * | 2020-10-28 | 2021-08-05 | Beijing More Health Technology Group Co. Ltd. | Object recognition method and apparatus, and storage medium |
JP7538002B2 (ja) * | 2020-11-11 | 2024-08-21 | 日立Astemo株式会社 | 情報処理装置およびニューラルネットワーク縮約方法 |
CN113593538B (zh) * | 2021-09-02 | 2024-05-03 | 北京声智科技有限公司 | 语音特征的分类方法、相关设备及可读存储介质 |
KR20240131762A (ko) * | 2023-02-24 | 2024-09-02 | 한국전자기술연구원 | BNN의 ResNet에서 외부 메모리 접근 최소화를 위한 데이터 플로우 구조 및 연산 방법 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101094402A (zh) * | 2007-07-13 | 2007-12-26 | 青岛大学 | 基于神经网络与svm的图像编码方法 |
US20140156577A1 (en) * | 2012-12-05 | 2014-06-05 | Applied Brain Research Inc | Methods and systems for artificial cognition |
EP2741242A1 (en) * | 2012-12-05 | 2014-06-11 | Christopher David Eliasmith | Methods and systems for artificial cognition |
WO2014210368A1 (en) * | 2013-06-28 | 2014-12-31 | D-Wave Systems Inc. | Systems and methods for quantum processing of data |
CN105320495A (zh) * | 2014-07-22 | 2016-02-10 | 英特尔公司 | 用于卷积神经网络的权重移位机制 |
CN105719001A (zh) * | 2014-12-19 | 2016-06-29 | 谷歌公司 | 使用散列的神经网络中的大规模分类 |
WO2016118257A1 (en) * | 2015-01-22 | 2016-07-28 | Qualcomm Incorporated | Model compression and fine-tuning |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
CN105979201A (zh) * | 2016-04-11 | 2016-09-28 | 上海大学 | 一种基于并行处理器的智能可穿戴设备 |
US20170103303A1 (en) * | 2015-10-08 | 2017-04-13 | Via Alliance Semiconductor Co., Ltd. | Neural network unit with output buffer feedback for performing recurrent neural network computations |
CN106909970A (zh) * | 2017-01-12 | 2017-06-30 | 南京大学 | 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0734546B2 (ja) * | 1989-03-13 | 1995-04-12 | 彰 岩田 | データ圧縮装置 |
US5161204A (en) * | 1990-06-04 | 1992-11-03 | Neuristics, Inc. | Apparatus for generating a feature matrix based on normalized out-class and in-class variation matrices |
JPH08153081A (ja) * | 1994-11-30 | 1996-06-11 | Matsushita Electric Ind Co Ltd | 信号認識方法 |
US6832006B2 (en) * | 2001-07-23 | 2004-12-14 | Eastman Kodak Company | System and method for controlling image compression based on image emphasis |
US6608924B2 (en) * | 2001-12-05 | 2003-08-19 | New Mexico Technical Research Foundation | Neural network model for compressing/decompressing image/acoustic data files |
EP1949313A4 (en) | 2005-11-15 | 2010-03-31 | Bernadette Garner | METHOD FOR TRAINING NEURAL NETWORKS |
US20070233477A1 (en) * | 2006-03-30 | 2007-10-04 | Infima Ltd. | Lossless Data Compression Using Adaptive Context Modeling |
US8503539B2 (en) * | 2010-02-26 | 2013-08-06 | Bao Tran | High definition personal computer (PC) cam |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
JP6192010B2 (ja) * | 2013-09-05 | 2017-09-06 | 国立大学法人 東京大学 | 重み設定装置および方法 |
GB2530990A (en) * | 2014-10-06 | 2016-04-13 | Ibm | Decimal and binary floating point arithmetic calculations |
JP2016197389A (ja) * | 2015-04-03 | 2016-11-24 | 株式会社デンソーアイティーラボラトリ | 学習システム、学習プログラムおよび学習方法 |
US10034005B2 (en) * | 2015-06-05 | 2018-07-24 | Sony Corporation | Banding prediction for video encoding |
WO2018093796A1 (en) * | 2016-11-15 | 2018-05-24 | Magic Leap, Inc. | Deep learning system for cuboid detection |
US10586344B2 (en) * | 2018-02-21 | 2020-03-10 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for feature screening in SLAM |
WO2020080827A1 (en) * | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Ai encoding apparatus and operation method of the same, and ai decoding apparatus and operation method of the same |
US10922573B2 (en) * | 2018-10-22 | 2021-02-16 | Future Health Works Ltd. | Computer based object detection within a video or image |
US10853670B2 (en) * | 2018-11-21 | 2020-12-01 | Ford Global Technologies, Llc | Road surface characterization using pose observations of adjacent vehicles |
-
2018
- 2018-08-30 CN CN201880034647.2A patent/CN110663048B/zh active Active
- 2018-08-30 EP EP18854924.0A patent/EP3679524A4/en active Pending
- 2018-08-30 JP JP2019549546A patent/JP6998968B2/ja active Active
- 2018-08-30 WO PCT/US2018/048867 patent/WO2019050771A1/en unknown
-
2019
- 2019-11-26 US US16/696,005 patent/US11481613B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101094402A (zh) * | 2007-07-13 | 2007-12-26 | 青岛大学 | 基于神经网络与svm的图像编码方法 |
US20140156577A1 (en) * | 2012-12-05 | 2014-06-05 | Applied Brain Research Inc | Methods and systems for artificial cognition |
EP2741242A1 (en) * | 2012-12-05 | 2014-06-11 | Christopher David Eliasmith | Methods and systems for artificial cognition |
WO2014210368A1 (en) * | 2013-06-28 | 2014-12-31 | D-Wave Systems Inc. | Systems and methods for quantum processing of data |
CN105320495A (zh) * | 2014-07-22 | 2016-02-10 | 英特尔公司 | 用于卷积神经网络的权重移位机制 |
CN105719001A (zh) * | 2014-12-19 | 2016-06-29 | 谷歌公司 | 使用散列的神经网络中的大规模分类 |
WO2016118257A1 (en) * | 2015-01-22 | 2016-07-28 | Qualcomm Incorporated | Model compression and fine-tuning |
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
US20170103303A1 (en) * | 2015-10-08 | 2017-04-13 | Via Alliance Semiconductor Co., Ltd. | Neural network unit with output buffer feedback for performing recurrent neural network computations |
CN105979201A (zh) * | 2016-04-11 | 2016-09-28 | 上海大学 | 一种基于并行处理器的智能可穿戴设备 |
CN106909970A (zh) * | 2017-01-12 | 2017-06-30 | 南京大学 | 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块 |
Non-Patent Citations (1)
Title |
---|
L. DENG等: ""Binary Coding of Speech Spectrograms Using a Deep Auto-encoder"", 《INTERSPEECH 2010》, pages 1692 - 1695 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884123A (zh) * | 2021-02-23 | 2021-06-01 | 杭州海康威视数字技术股份有限公司 | 神经网络优化方法、装置、电子设备及可读存储介质 |
CN112884123B (zh) * | 2021-02-23 | 2024-03-01 | 杭州海康威视数字技术股份有限公司 | 神经网络优化方法、装置、电子设备及可读存储介质 |
CN113537462A (zh) * | 2021-06-30 | 2021-10-22 | 华为技术有限公司 | 数据处理方法、神经网络的量化方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200097802A1 (en) | 2020-03-26 |
EP3679524A4 (en) | 2020-10-28 |
EP3679524A1 (en) | 2020-07-15 |
JP2020532777A (ja) | 2020-11-12 |
WO2019050771A1 (en) | 2019-03-14 |
JP6998968B2 (ja) | 2022-01-18 |
CN110663048B (zh) | 2023-10-24 |
US11481613B2 (en) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110663048B (zh) | 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及记录介质 | |
KR102672004B1 (ko) | 저 정밀도 뉴럴 네트워크 학습을 위한 방법 및 장치 | |
US20200302276A1 (en) | Artificial intelligence semiconductor chip having weights of variable compression ratio | |
EP3906616B1 (en) | Neural network activation compression with outlier block floating-point | |
US12067495B2 (en) | Neural network activation compression with non-uniform mantissas | |
CN110659725B (zh) | 神经网络模型的压缩与加速方法、数据处理方法及装置 | |
KR102608467B1 (ko) | 뉴럴 네트워크의 경량화 방법, 이를 이용한 인식 방법, 및 그 장치 | |
US20200210838A1 (en) | Neural network activation compression with narrow block floating-point | |
CN113424202A (zh) | 针对神经网络训练调整激活压缩 | |
US10491239B1 (en) | Large-scale computations using an adaptive numerical format | |
CN114402596B (zh) | 神经网络模型解码方法、装置、系统和介质 | |
EP4008057B1 (en) | Lossless exponent and lossy mantissa weight compression for training deep neural networks | |
WO2020176250A1 (en) | Neural network layer processing with normalization and transformation of data | |
CN114581544A (zh) | 图像压缩方法、计算机设备及计算机存储介质 | |
CN114615507B (zh) | 一种图像编码方法、解码方法及相关装置 | |
TW202013261A (zh) | 算數框架系統及操作浮點至定點算數框架的方法 | |
TW202312033A (zh) | 雙指數邊界框浮點處理器 | |
CN113038134B (zh) | 一种图片处理方法、智能终端及存储介质 | |
WO2023159820A1 (zh) | 图像压缩方法、图像解压缩方法及装置 | |
CN113313253A (zh) | 神经网络压缩方法、数据处理方法、装置及计算机设备 | |
US20220188077A1 (en) | Arithmetic processing device, arithmetic processing method, and storage medium | |
CN118364879A (zh) | 一种量化训练方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |