CN110663048A - 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及程序 - Google Patents

用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及程序 Download PDF

Info

Publication number
CN110663048A
CN110663048A CN201880034647.2A CN201880034647A CN110663048A CN 110663048 A CN110663048 A CN 110663048A CN 201880034647 A CN201880034647 A CN 201880034647A CN 110663048 A CN110663048 A CN 110663048A
Authority
CN
China
Prior art keywords
feature map
layer
binary
deep neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880034647.2A
Other languages
English (en)
Other versions
CN110663048B (zh
Inventor
D·A·古多夫斯基
L·里加齐奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN110663048A publication Critical patent/CN110663048A/zh
Application granted granted Critical
Publication of CN110663048B publication Critical patent/CN110663048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Neurology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

通过以下步骤执行深度神经网络:在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量,从而获得呈二进制表征的二进制中间特征映射(S210,S215);通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射(S220);将压缩特征映射存储到存储器中;通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射(S240);并使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射(S245,S250)。

Description

用于深度神经网络的执行方法、执行装置、学习方法、学习装 置以及程序
技术领域
本公开例如涉及一种用于深度神经网络的执行方法。
背景技术
深度神经网络(以下称为DNN)的最新成就使它们成为许多计算机视觉应用(包括图像分类和对象检测)中有吸引力的选择。但是,DNN所需的存储器和计算可能会给低功耗部署带来过多的处理负载。
减少这样的处理负载的提议或建议的方法包括:层融合,其中可以在不将中间特征映射存储到存储器中的情况下融合层的计算;以及使用非线性降维层对量化的特征映射值进行压缩(参见非专利文献(NPL)1和2)。
引用列表
非专利文献
【NPL 1】
M.Alwani、H.Chen、M.Ferdman和P.A.Milder;Fused-layer CNN accelerators;Micro;第1-12页;2016年10月
【NPL 2】
F.N.Iandola、S.Han、M.W.Moskewicz、K.Ashraf、W.J.Dally和K.Keutzer;Squeezenet:Alexnet-level accuracy with 50x fewer parameters and<0.5MB modelsize;arXiv预印本arXiv:1602.07360,2016
发明内容
[技术问题]
但是,通过上述方法获得的DNN处理负载的减少很小,并且可能导致准确性降低。此外,处理速度的改善不足。
本公开例如提供一种执行方法和执行装置,其特征在于低处理负载和快速处理,同时减小准确性降低。
[问题的解决方案]
为了解决上述问题,根据本公开的一个方面的用于DNN的执行方法包括:在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射;将压缩特征映射存储到存储器中;通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射;使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
可以使用系统、装置、集成电路、计算机程序、计算机可读记录介质(例如CD-ROM)或者是系统、设备、集成电路、计算机程序或计算机可读记录介质的任意组合来实现这些总体和具体方面。
[发明的有益效果]
根据本公开的DNN执行方法等的特征在于低处理负载和快速处理,同时减小准确性降低。
附图说明
[图1]图1示出了表示在推理期间根据执行DNN的实施例的方法的模型。
[图2]图2是示出了在推理期间正向传递的模型。
[图3]图3是示出与执行方法相对应的在反向传播期间反向传递的模型。
[图4]图4示出了在实施示例1中将执行方法应用于SqueezeNet架构时来自ImageNet数据集的推理准确性的结果。
[图5]图5显示了在实施示例1中将执行方法应用于MobileNetV2架构时来自ImageNet数据集的推理准确性的结果。
[图6]图6示出了在实施示例2中将执行方法应用于SSD512模型时来自VOC2007数据集的推理准确性的结果。
[图7]图7示出了实施示例2中SSD512模型中的存储使用情况。
[图8]图8是示出执行上述方法中的一个的信息处理装置的硬件配置示例的框图。
具体实施方式
根据本公开的一个方面的用于DNN的执行方法包括:在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;通过使用非线性降维层压缩二进制中间特征映射来生成压缩特征映射;将压缩特征映射存储到存储器中;通过使用与非线性降维层相对应的重建层对从存储器读取的压缩特征映射进行解压缩来重建二进制中间特征映射;使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
这样,与传统技术相比,可以以很少的存储使用来执行DNN。存储带宽的减少导致处理速度的提高。
这里,例如,非线性降维层可以是单个投影卷积层或一系列投影卷积层,并且重建层可以是单个重建卷积层或一系列重建卷积层。
使用上述执行方法执行的用于深度神经网络的基于反向传播的学习方法包括:将第一变换模块和第二变换模块的解析导数应用至用于包括于深度神经网络中的各层中的下一层的梯度以生成用于包括于深度神经网络中的各层中的上一层的梯度;基于为上一层生成的梯度更新权重和偏差;基于恒等映射函数初始化用于非线性降维层的权重以及用于重建层的权重。
推理中增加对于二进制表征的处理使得在二进制级进行学习成为可能。与传统技术相比,这允许以更少的内存使用以及更快的处理速度执行DNN。
可以使用系统、装置、集成电路、计算机程序、计算机可读记录介质(例如CD-ROM)或者系统、装置、集成电路、计算机程序或计算机可读记录介质的任意组合来执行这些总体和具体方面。
在下文中,参考附图详细描述实施例。
以下实施例描述了总体或具体示例。在下面的实施例中示出的数值、形状、元件、元件的设置和连接、步骤、步骤的处理顺序等仅是示例,并且不旨在限制本发明的根据本公开的范围。因此,在以下实施方式的元件中,将任一项独立权利要求中未记载的元件描述为可选元件。
(实施例)
[DNN]
首先,将描述常用的DNN。
常用DNN中第l个卷积层的输入特征映射Xl-1可以由(1)表示,其中,
Figure BDA0002288398780000031
H和W分别是输入通道的数量、高度和宽度。
Figure BDA0002288398780000032
代表所有实数。
Figure BDA0002288398780000033
输入Xl-1与由(2)表示的权重张量Wl进行卷积,其中,C是输出通道的数量,Hf和Wf分别是滤波器核的高度和宽度。
注意,由(3)表示的偏差向量b被加到卷积运算的结果上。
Figure BDA0002288398780000042
一旦计算了所有C个通道,则将元素式非线性函数应用于卷积运算的结果。然后,可以使用由(5)表示的计算表达式来计算由(4)表示的输出张量Xl的第C个通道。
Figure BDA0002288398780000043
注意,(5)中的*表示卷积运算,而g()是一些非线性函数。例如,假设g()是定义为g(x)=max(0,x)的修正线性单位(ReLU),使得所有激活都是非负的。
为了理解附图和以下描述中使用的符号,请根据需要参考以上内容。
[DNN执行方法]
接下来,将描述根据本实施例的用于在推理期间执行DNN的方法。图1示出说明根据该实施例的DNN执行方法的模型。在图1中,由(a)表示的模型是常规方法,而由(b)表示的模型是根据本实施例的方法。出于比较目的,将这两种模型进行了对比。
由(a)和(b)表示的模型示意性地示出了包括多个卷积层并从左向右进行处理的神经网络。请注意,为简化通知,两个模型均未显示偏差。
首先,利用由(a)表示的常规方法,将N个连续层的计算融合在一起(步骤S100),而不存储中间特征映射X1-N+1至Xl-1,以获得特征映射Xl。可以使用比整个特征映射小得多的存储缓冲器以通道式方式实现该融合。
接下来,使用非线性函数q()来量化特征映射Xl(步骤S110)。预量化特征映射Xl是实数域
Figure BDA0002288398780000045
的元素,而量化特征映射是整数上有限域的元素。由于不完美的近似,量化步骤可能导致准确性降低。量化后,网络架构不会更改,并且仅将特征映射压缩到一定次优位宽分辨率。
接下来,使用额外卷积层执行非线性降维(步骤S120)。在此,使用(7)所表示的投影权重Pl来执行(6)所表示的映射。
Figure BDA0002288398780000051
Figure BDA0002288398780000052
注意,在(6)和(7)中的
Figure BDA0002288398780000053
表示输出通道维度并且小于C。这里,仅压缩特征映射
Figure BDA0002288398780000054
需要被存储在存储缓冲器中(步骤S130)。
之后,可以使用权重Rl将压缩特征映射
Figure BDA0002288398780000055
投影回高维张量上(步骤S140)。最后,执行使用逆量化函数q-1()的逆变换(步骤S150)以获得特征映射Xl+1,该特征映射Xl+1是实数域的元素。
接下来,将描述根据图1的(b)中示出的本实施例的DNN执行方法。与常规方法不同,该方法包括用于使用二进制向量表示中间特征映射的变换。首先,将描述这种变换。
首先,考虑从特征映射X1派生的标量x,其是实数域的元素。在此,常规量化可以由(8)表示,其中标量到标量映射或非线性函数被表示为q(x)。
Figure BDA0002288398780000056
请注意,
Figure BDA0002288398780000057
是量化标量,是用于定点表征的GF(2B)有限域,而B是位数。
在此,在本实施例中,由(9)定义的线性二值化函数b()引入新的
Figure BDA0002288398780000059
表征。
Figure BDA00022883987800000510
这里,
Figure BDA00022883987800000511
按位与运算。另外,向量b=[20,21,…,2B-1]T,并且
Figure BDA00022883987800000512
是有限域GF(2)。
线性二值化函数b()的反函数表示为(10)。
Figure BDA00022883987800000513
等式(9)和(10)表明,可以将更高基数有限域上的标量线性转换为有限域上具有两个元素的向量或者从有限域上具有两个元素的向量转换而来。
在下文中,将根据图1中的(b)描述根据本实施例的包括基于这些推导对特征映射进行压缩的DNN执行方法。
获得了特征映射X1(步骤S200)的层之前的层与(a)中通过步骤S100的那些层相同。因此,省略了步骤S200之前的步骤的描述和在附图中的指示。
在下一层中,量化作为激活的特征映射X1以获得特征映射
Figure BDA0002288398780000061
(步骤S210)。在下一层中,将(9)中的变换应用于特征映射
Figure BDA0002288398780000062
(步骤S215)。这种变换的结果,即特征映射
Figure BDA0002288398780000063
由(11)表示。
Figure BDA0002288398780000064
以这种方式转换为二进制表征的特征映射
Figure BDA0002288398780000065
在下文中也称为二进制中间特征映射。
为了实施方便,可以将新添加到(11)的位维沿着通道维度级联,从而生成(12)中所示的二进制中间特征映射
Figure BDA0002288398780000066
注意,其中执行步骤S210和S215中的处理的层的模块是根据该实施例的第一变换模块的一个示例。
可以将使用投影权重Pl的单个非线性降维层或具有投影权重的一系列非线性降维层应用于此二进制中间特征映射
Figure BDA0002288398780000069
以在有限域GF(2)上获得二进制向量的二进制中间特征映射
Figure BDA00022883987800000610
的压缩表征(以下也称为压缩特征映射
Figure BDA00022883987800000611
)(步骤S220)。
在推理期间,仅压缩特征映射
Figure BDA00022883987800000612
(其是域
Figure BDA00022883987800000613
的元素)需要被存储在存储器中(步骤S230)。非压缩特征映射可以使用小缓冲器例如以顺序按通道方式来处理,因此不需要存储在存储器中。
然后,在使用卷积层进行处理之后的层中,重建其上述压缩被撤销的二进制中间特征映射(步骤S240)。一旦将重建二进制中间特征映射输入到下一层,则使用来自(10)的反函数b-1()来撤销二进制表征(步骤S245),以将二进制中间特征映射转换成中间特征映射,该中间特征映射是整数元素域的元素,然后应用反量化函数q-1()进一步将中间特征映射转换为特征映射,该特征映射是实数域的元素(S250)。
注意,其中执行步骤S245和S250中的处理的层的模块是根据该实施例的第二变换模块的一个示例。
以上结束了对本实施例的DNN执行方法的说明。接下来,将在实施示例(稍后描述)中介绍与该方法下的存储器使用和准确性有关的性能评估并将其与常规方法进行比较。
[DNN学习方法]
接下来,将描述使用上述方法执行的用于深度神经网络的反向传播学习方法。图2是示出在上述执行方法中在推理期间的正向传递的模型。图3是示出与上述执行方法相对应的在反向传播期间的反向传递的模型。图2中的推理传递对应于等式(9),并且图3中的推理传递对应于等式(10)。
根据本实施例的DNN执行方法中新引入的函数b-1()可以表示为做出类似于ReLU的硬决策的门。函数b-1()的梯度然后可以使用(13)计算。
Figure BDA0002288398780000071
最后,函数b()的梯度是由(14)计算的梯度向量的缩放总和。
Figure BDA0002288398780000072
注意,(14)中的
Figure BDA0002288398780000073
是梯度缩放因子,其表示
Figure BDA0002288398780000074
中的非零元素数。实际上,缩放因子可以基于统计信息只计算一次并用作梯度归一化的静态超参数。
由于根据该实施例的网络的目的是学习并保持仅仅最小
Figure BDA0002288398780000075
因此Pl和Rl初始化的选择很重要。因此,我们可以通过恒等函数来初始化这些权重张量,该恒等函数将非压缩特征映射映射到压缩特征映射或相反,以提供合适的训练起点。同时,其他初始化也是可能的,例如,也可以添加从某些分布采样的噪声。
[实施示例1]
[概述]
使用SqueezeNet V1.1和Mobilenet V2作为基础浮点网络架构来实施本实施例中描述的二值化和量化层。
[SqueezeNet V1.1]
在该实施示例中,压缩了由于高空间维度而作为“squeeze”层中最大的层:“fire2/squeeze”层和“fire3/squeeze”层。网络的输入分辨率为227×227,并且权重均为浮点。
量化和压缩模型在ImageNet(ILSVRC2012)训练数据集上以1024的小批量重新训练了100,000次迭代,并且随机梯度下降求解器的步长策略学习率每20,000次迭代则从1e-3/10开始。尽管原始模型使用了该大的小批量,但其也有助于量化和压缩模型来估计梯度。压缩模型是从8位量化模型中导出并重新迭代训练。图4显示了来自ImageNet验证数据集的50,000张图像的推理准确性结果。最左列指示模型类型(fp32:单精度浮点数,uint8:8位无符号整数数组等),其余各列从左至右指示:权重数据大小;激活,即特征映射大小;最高答案(top-1)准确性;以及前五答案(top-5)准确性。括号外的值表示经过重新训练的准确性,并且括号内的值表示未经重新训练的准确性。
根据这些结果,与未执行二进制表征转换时相比,当执行二进制表征转换并使用1×1卷积内核时,尽管权重数略有增加,但各个模型的准确性却有所提高(top-1准确性:6位=1.0%增加,4位=2.4%增加)。当使用3×3跨步2卷积内核时,对于6位模型,观察到权重大小增加了大约47%。这允许通过利用局部空间量化冗余来减少特征映射的空间维度。然后,与没有转换为二进制表征时相比,特征映射激活的大小进一步减小为1/4,而与fp32相比,针对8位和6位模型的top-1准确性分别降低了4.3%和4.6%。
[MobileNetV2]
“conv2_1/linear”特征映射已压缩。此特征映射几乎是其他任何特征映射的大小的三倍。使用与SqueezeNet设置中相同的训练超参数。随着学习率策略的成比例变化,迭代次数为50,000。在“conv2_1/linear”之后添加了ReLU层,以与当前实施的压缩方法兼容。因此,“conv2_1/linear”特征映射包括原始模型中的带符号整数和修改后的模型中的无符号整数。注意,观察到批量归一化层会导致训练过程不稳定。因此,归一化和缩放参数是固定的并且合并进卷积层的权重和偏差。然后从原始模型中重新训练修改后的模型。图5示出了MobileNetV2 ImageNet推理准确性结果的表。这些列大多数情况下对应于图4中的表格。然而,在“量化而不转换为二进制表征”标题下使用的模型类型是包括上述有符号整数的模型(int9:9位有符号整数数组等)。
与fp32相比,重新训练后没有ReLU的量化模型对于9位、7位和5位量化而言分别经受了-0.3%,-0.3%和0.3%的top-1准确性下降。注意,量化的MobileNetV2可以适应较小的位宽,其中与9位模型相比,对于5位模型劣化仅为0.6%。另一方面,就准确性结果而言,ReLU量化模型优于表中的所有其他模型。
以二进制表征并使用1×1卷积内核的模型获得与没有二进制表征的常规方法大致相同的分数。当使用2×2跨步2卷积内核时,特征映射将压缩为1/2,而准确性劣化约4.5%且权重大小增加5%。
尽管未包括在表中,但是对使用2×2跨步2卷积内核和使用3×3跨步2卷积内核的结果进行了比较,结果表明前者在准确性和数据大小方面都优越。
[实施示例2]
[概述]
在此实施示例中,使用Pascal VOC数据集用于对象检测,并评估了准确性。更具体地,使用了4,952个VOC2007图像以及具有16,551个VOC2007和VOC2012图像的训练数据集。此外,在执行上述实施例中描述的方法中,使用了SSD(单发检测器)512模型,并且将在ImageNet上预先训练的SqueezeNet用于代替VGG-16来进行特征提取。这样可以将参数数量和总推理时间分别减少为1/4和1/3。
原始VOC图像重新缩放为512×512分辨率。与利用ImageNet的实施示例一样,生成了多个模型进行比较:浮点模型、量化模型和压缩模型。量化和压缩应用于“fire2/squeeze”和“fire3/squeeze”层,如果应用融合技术,则“fire2/squeeze”和“fire3/squeeze”层由于其较大空间维度而占据总特征映射存储的80%以上。通常,与深度维度中的线性增长相比,由于最大池化层而使空间维度呈二次方减小。压缩模型来自8位量化模型并且使用步长策略学习率每2500次迭代则从1e-3/10开始的SGD求解器对这两个模型进行了10,000次小批量256迭代的重新训练。
[结果]
图6示出了根据该实施例的推理准确性结果的表。从左至右,各列表示:模型类型;权重大小;特征映射,即激活大小;以及mAP(平均精度均值)。
与浮点模型相比,在量化的且未转换为二进制表征(进行重新训练)的模型中,8位量化模型准确性降低了0.04%,而6位,4位和2位模型准确性分别降低约0.5%,2.2%和12.3%。括号内的值是未重新训练的模型的参考值。
在使用包括二进制表征转换的1×1卷积内核的模型中,6位模型的mAP增加了大约0.5%,而4位模型的mAP减少了大约0.5%。
使用跨步为2的2×2卷积内核的模型比相应的3×3卷积内核的性能更好,同时所需的参数和计算量更少,表现出mAP值提高了近1%。
[存储使用]
图7示出了汇总经评估的SSD模型中的存储使用的表。注意,此处仅考虑占据总激活存储的80%以上的最大特征映射。
假设输入帧是单独存储的,则融合技术可以将特征映射压缩为1/19。
融合且量化的8位和4位定点模型分别将特征映射的大小减少为1/4和1/8。
当应用根据上述的包括二进制表示转换(2×2跨步2内核)的实施例的方法时,与上述的4位模型相比,这获得了另2倍的压缩,而mAP仅劣化了1.5%。
总体而言,此特征提取器所需的存储使用量减少了两个数量级。
[结论]
如上所述,根据本发明的DNN执行方法通过在包括融合层计算和量化的常规DNN方法中额外包括在GF(2)上的推理和学习来执行。这种GF(2)二进制表征允许使用嵌入DNN的自动编码器启发层在更高维度的空间中进行特征映射压缩。可以使用具有按位运算的常规卷积层来实施这些压缩-解压缩层。更精确地,根据本公开的方法用有限域的基数与向量空间的维数进行折衷,这使得可以在二进制级学习特征。根据本公开的用于推理的压缩方法可以被用于GPU、CPU或定制加速器。可替代地,可以扩展现有的二进制神经网络,以针对新兴应用(尤其例如对象检测)实现更高的准确性。
[其他实施例]
以上,已经基于实施例描述了根据一个或多个方面的用于DNN的执行方法和学习方法,但是本发明不限于该实施例。只要不背离本发明的实质,则可以包括由本领域技术人员想到的对实施例的各种修改作为这些方面之一。
此外,尽管基于用于DNN的执行和学习方法描述了本公开中的实施例,但是本发明可以被实施为用于DNN的执行和学习装置,其包括执行每个层的处理的功能元件。这些装置各自实施为一个或多个信息处理装置,这些信息处理装置各自包括例如执行该方法的处理器以及用于存储未压缩特征映射的存储器。图8是示出根据该实施例的信息处理装置的硬件配置示例的框图。
如图8所示,信息处理装置100包括CPU(中央处理单元)101、主存储器102、存储装置103、通信I/F(接口)104以及GPU(图形处理单元)105。这些元件经由总线连接,并且能够相互收发数据。
CPU 101是执行例如存储在存储装置103中的控制程序以及例如用于实现上述DNN执行方法的程序的处理器。
主存储器102是由CPU 101用作执行程序的工作区域的易失性存储区域。
存储装置103是存储例如程序的非易失性存储区域。
通信I/F 104是经由通信网络(图中未示出)与外部装置通信的通信接口。例如,当DNN执行装置被实施为多个信息处理装置100时,则通过通信I/F 104经由通信网络执行信息处理装置100之间的数据发送和接收。通信I/F 104例如是有线LAN接口。注意,通信I/F104可以是无线LAN接口。此外,通信I/F 104不限于LAN接口;通信I/F 104可以是能够通信地连接到通信网络的任何种类的通信接口。
GPU 105例如是执行用于实现上述DNN学习方法的程序的处理器。
本发明还可以实施为用于使包括处理器和存储器的信息处理装置执行根据实施例的DNN执行或学习方法的程序,以及实施为在其上记录有这样的程序的非暂时性记录介质。
[工业适用性]
本公开适用于诸如图像分类和物体检测的计算机视觉应用。
[附图标记列表]
100 信息处理装置
101 CPU
102 主存储器
103 存储装置
104 通信接口
105 GPU

Claims (7)

1.一种用于深度神经网络的执行方法,所述执行方法包括:
在深度神经网络推理期间,通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;
通过使用非线性降维层来压缩所述二进制中间特征映射来生成压缩特征映射;
将所述压缩特征映射存储到存储器中;
通过使用与所述非线性降维层相对应的重建层对从所述存储器读取的所述压缩特征映射进行解压缩来重建所述二进制中间特征映射;以及
使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
2.根据权利要求1所述的执行方法,其中,
所述非线性降维层是单个投影卷积层或一系列投影卷积层,并且
所述重建层是单个重建卷积层或一系列重建卷积层。
3.一种使用根据权利要求1或2所述的执行方法执行的用于深度神经网络的基于反向传播的学习方法,所述学习方法包括:
将所述第一变换模块和所述第二变换模块的解析导数应用至用于包括在所述深度神经网络中各层中的下一层的梯度,以生成用于包括在所述深度神经网络中各层中的上一层的梯度;
基于为所述上一层生成的所述梯度更新权重和偏差;以及
基于恒等映射函数初始化用于所述非线性降维层的权重以及用于所述重建层的权重。
4.一种用于深度神经网络的执行装置,所述执行装置包括:
执行深度神经网络推理的处理器,
其中,所述处理器:
通过使用第一变换模块将浮点或定点中间特征映射转换为二进制向量来获得呈二进制表征的二进制中间特征映射;
通过使用非线性降维层压缩所述二进制中间特征映射来生成压缩特征映射;
将所述压缩特征映射存储到存储器中;
通过使用与所述非线性降维层相对应的重建层对从所述存储器读取的所述压缩特征映射进行解压缩来重建所述二进制中间特征映射;以及
使用第二变换模块将重建后的二进制中间特征映射转换为浮点或定点中间特征映射。
5.一种用于深度神经网络的学习装置,该学习装置包括:
处理器,其通过使用根据权利要求1或2所述的执行方法所执行的深度神经网络来执行基于反向传播的学习,
其中,所述处理器:
将所述第一变换模块和所述第二变换模块的解析导数应用至用于包括在所述深度神经网络中各层中的下一层的梯度,以生成用于包括在所述深度神经网络中各层中的上一层的梯度;
基于为所述上一层生成的所述梯度更新权重和偏差;以及
基于恒等映射函数初始化用于所述非线性降维层的权重以及用于所述重建层的权重。
6.一种程序,用于使计算机执行根据权利要求1所述的执行方法。
7.一种程序,用于使计算机执行根据权利要求3所述的学习方法。
CN201880034647.2A 2017-09-05 2018-08-30 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及记录介质 Active CN110663048B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762554224P 2017-09-05 2017-09-05
US62/554,224 2017-09-05
PCT/US2018/048867 WO2019050771A1 (en) 2017-09-05 2018-08-30 EXECUTION METHOD, EXECUTION DEVICE, LEARNING METHOD, LEARNING DEVICE, AND PROGRAM FOR DEEP NEURAL NETWORK

Publications (2)

Publication Number Publication Date
CN110663048A true CN110663048A (zh) 2020-01-07
CN110663048B CN110663048B (zh) 2023-10-24

Family

ID=65634935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880034647.2A Active CN110663048B (zh) 2017-09-05 2018-08-30 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及记录介质

Country Status (5)

Country Link
US (1) US11481613B2 (zh)
EP (1) EP3679524A4 (zh)
JP (1) JP6998968B2 (zh)
CN (1) CN110663048B (zh)
WO (1) WO2019050771A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884123A (zh) * 2021-02-23 2021-06-01 杭州海康威视数字技术股份有限公司 神经网络优化方法、装置、电子设备及可读存储介质
CN113537462A (zh) * 2021-06-30 2021-10-22 华为技术有限公司 数据处理方法、神经网络的量化方法及相关装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190068255A (ko) * 2017-12-08 2019-06-18 삼성전자주식회사 고정 소수점 뉴럴 네트워크를 생성하는 방법 및 장치
CN108256644B (zh) * 2018-01-05 2021-06-22 上海兆芯集成电路有限公司 微处理器电路以及执行神经网络运算的方法
CN110163370B (zh) * 2019-05-24 2021-09-17 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质
CN112085191B (zh) * 2019-06-12 2024-04-02 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN110738141A (zh) * 2019-09-26 2020-01-31 五邑大学 一种静脉识别的方法、装置、设备及存储介质
CN111489739B (zh) * 2020-04-17 2023-06-16 嘉楠明芯(北京)科技有限公司 音素识别方法、装置及计算机可读存储介质
US11829376B2 (en) * 2020-05-06 2023-11-28 Intel Corporation Technologies for refining stochastic similarity search candidates
JP7524667B2 (ja) 2020-08-19 2024-07-30 富士通株式会社 情報処理装置、機械学習方法及び機械学習プログラム
US20220067529A1 (en) * 2020-08-25 2022-03-03 Microsoft Technology Licensing, Llc Compressing and Decompressing Data for Language Models
US20210241025A1 (en) * 2020-10-28 2021-08-05 Beijing More Health Technology Group Co. Ltd. Object recognition method and apparatus, and storage medium
JP7538002B2 (ja) * 2020-11-11 2024-08-21 日立Astemo株式会社 情報処理装置およびニューラルネットワーク縮約方法
CN113593538B (zh) * 2021-09-02 2024-05-03 北京声智科技有限公司 语音特征的分类方法、相关设备及可读存储介质
KR20240131762A (ko) * 2023-02-24 2024-09-02 한국전자기술연구원 BNN의 ResNet에서 외부 메모리 접근 최소화를 위한 데이터 플로우 구조 및 연산 방법

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094402A (zh) * 2007-07-13 2007-12-26 青岛大学 基于神经网络与svm的图像编码方法
US20140156577A1 (en) * 2012-12-05 2014-06-05 Applied Brain Research Inc Methods and systems for artificial cognition
EP2741242A1 (en) * 2012-12-05 2014-06-11 Christopher David Eliasmith Methods and systems for artificial cognition
WO2014210368A1 (en) * 2013-06-28 2014-12-31 D-Wave Systems Inc. Systems and methods for quantum processing of data
CN105320495A (zh) * 2014-07-22 2016-02-10 英特尔公司 用于卷积神经网络的权重移位机制
CN105719001A (zh) * 2014-12-19 2016-06-29 谷歌公司 使用散列的神经网络中的大规模分类
WO2016118257A1 (en) * 2015-01-22 2016-07-28 Qualcomm Incorporated Model compression and fine-tuning
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
CN105979201A (zh) * 2016-04-11 2016-09-28 上海大学 一种基于并行处理器的智能可穿戴设备
US20170103303A1 (en) * 2015-10-08 2017-04-13 Via Alliance Semiconductor Co., Ltd. Neural network unit with output buffer feedback for performing recurrent neural network computations
CN106909970A (zh) * 2017-01-12 2017-06-30 南京大学 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0734546B2 (ja) * 1989-03-13 1995-04-12 彰 岩田 データ圧縮装置
US5161204A (en) * 1990-06-04 1992-11-03 Neuristics, Inc. Apparatus for generating a feature matrix based on normalized out-class and in-class variation matrices
JPH08153081A (ja) * 1994-11-30 1996-06-11 Matsushita Electric Ind Co Ltd 信号認識方法
US6832006B2 (en) * 2001-07-23 2004-12-14 Eastman Kodak Company System and method for controlling image compression based on image emphasis
US6608924B2 (en) * 2001-12-05 2003-08-19 New Mexico Technical Research Foundation Neural network model for compressing/decompressing image/acoustic data files
EP1949313A4 (en) 2005-11-15 2010-03-31 Bernadette Garner METHOD FOR TRAINING NEURAL NETWORKS
US20070233477A1 (en) * 2006-03-30 2007-10-04 Infima Ltd. Lossless Data Compression Using Adaptive Context Modeling
US8503539B2 (en) * 2010-02-26 2013-08-06 Bao Tran High definition personal computer (PC) cam
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
JP6192010B2 (ja) * 2013-09-05 2017-09-06 国立大学法人 東京大学 重み設定装置および方法
GB2530990A (en) * 2014-10-06 2016-04-13 Ibm Decimal and binary floating point arithmetic calculations
JP2016197389A (ja) * 2015-04-03 2016-11-24 株式会社デンソーアイティーラボラトリ 学習システム、学習プログラムおよび学習方法
US10034005B2 (en) * 2015-06-05 2018-07-24 Sony Corporation Banding prediction for video encoding
WO2018093796A1 (en) * 2016-11-15 2018-05-24 Magic Leap, Inc. Deep learning system for cuboid detection
US10586344B2 (en) * 2018-02-21 2020-03-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for feature screening in SLAM
WO2020080827A1 (en) * 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Ai encoding apparatus and operation method of the same, and ai decoding apparatus and operation method of the same
US10922573B2 (en) * 2018-10-22 2021-02-16 Future Health Works Ltd. Computer based object detection within a video or image
US10853670B2 (en) * 2018-11-21 2020-12-01 Ford Global Technologies, Llc Road surface characterization using pose observations of adjacent vehicles

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094402A (zh) * 2007-07-13 2007-12-26 青岛大学 基于神经网络与svm的图像编码方法
US20140156577A1 (en) * 2012-12-05 2014-06-05 Applied Brain Research Inc Methods and systems for artificial cognition
EP2741242A1 (en) * 2012-12-05 2014-06-11 Christopher David Eliasmith Methods and systems for artificial cognition
WO2014210368A1 (en) * 2013-06-28 2014-12-31 D-Wave Systems Inc. Systems and methods for quantum processing of data
CN105320495A (zh) * 2014-07-22 2016-02-10 英特尔公司 用于卷积神经网络的权重移位机制
CN105719001A (zh) * 2014-12-19 2016-06-29 谷歌公司 使用散列的神经网络中的大规模分类
WO2016118257A1 (en) * 2015-01-22 2016-07-28 Qualcomm Incorporated Model compression and fine-tuning
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
US20170103303A1 (en) * 2015-10-08 2017-04-13 Via Alliance Semiconductor Co., Ltd. Neural network unit with output buffer feedback for performing recurrent neural network computations
CN105979201A (zh) * 2016-04-11 2016-09-28 上海大学 一种基于并行处理器的智能可穿戴设备
CN106909970A (zh) * 2017-01-12 2017-06-30 南京大学 一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
L. DENG等: ""Binary Coding of Speech Spectrograms Using a Deep Auto-encoder"", 《INTERSPEECH 2010》, pages 1692 - 1695 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884123A (zh) * 2021-02-23 2021-06-01 杭州海康威视数字技术股份有限公司 神经网络优化方法、装置、电子设备及可读存储介质
CN112884123B (zh) * 2021-02-23 2024-03-01 杭州海康威视数字技术股份有限公司 神经网络优化方法、装置、电子设备及可读存储介质
CN113537462A (zh) * 2021-06-30 2021-10-22 华为技术有限公司 数据处理方法、神经网络的量化方法及相关装置

Also Published As

Publication number Publication date
US20200097802A1 (en) 2020-03-26
EP3679524A4 (en) 2020-10-28
EP3679524A1 (en) 2020-07-15
JP2020532777A (ja) 2020-11-12
WO2019050771A1 (en) 2019-03-14
JP6998968B2 (ja) 2022-01-18
CN110663048B (zh) 2023-10-24
US11481613B2 (en) 2022-10-25

Similar Documents

Publication Publication Date Title
CN110663048B (zh) 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及记录介质
KR102672004B1 (ko) 저 정밀도 뉴럴 네트워크 학습을 위한 방법 및 장치
US20200302276A1 (en) Artificial intelligence semiconductor chip having weights of variable compression ratio
EP3906616B1 (en) Neural network activation compression with outlier block floating-point
US12067495B2 (en) Neural network activation compression with non-uniform mantissas
CN110659725B (zh) 神经网络模型的压缩与加速方法、数据处理方法及装置
KR102608467B1 (ko) 뉴럴 네트워크의 경량화 방법, 이를 이용한 인식 방법, 및 그 장치
US20200210838A1 (en) Neural network activation compression with narrow block floating-point
CN113424202A (zh) 针对神经网络训练调整激活压缩
US10491239B1 (en) Large-scale computations using an adaptive numerical format
CN114402596B (zh) 神经网络模型解码方法、装置、系统和介质
EP4008057B1 (en) Lossless exponent and lossy mantissa weight compression for training deep neural networks
WO2020176250A1 (en) Neural network layer processing with normalization and transformation of data
CN114581544A (zh) 图像压缩方法、计算机设备及计算机存储介质
CN114615507B (zh) 一种图像编码方法、解码方法及相关装置
TW202013261A (zh) 算數框架系統及操作浮點至定點算數框架的方法
TW202312033A (zh) 雙指數邊界框浮點處理器
CN113038134B (zh) 一种图片处理方法、智能终端及存储介质
WO2023159820A1 (zh) 图像压缩方法、图像解压缩方法及装置
CN113313253A (zh) 神经网络压缩方法、数据处理方法、装置及计算机设备
US20220188077A1 (en) Arithmetic processing device, arithmetic processing method, and storage medium
CN118364879A (zh) 一种量化训练方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant