CN109754063A - 用于学习低精度神经网络的方法及装置 - Google Patents

用于学习低精度神经网络的方法及装置 Download PDF

Info

Publication number
CN109754063A
CN109754063A CN201811001199.4A CN201811001199A CN109754063A CN 109754063 A CN109754063 A CN 109754063A CN 201811001199 A CN201811001199 A CN 201811001199A CN 109754063 A CN109754063 A CN 109754063A
Authority
CN
China
Prior art keywords
weight
quantization
neural network
activation
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811001199.4A
Other languages
English (en)
Inventor
崔裕镇
李正元
莫斯塔法·伊尔-哈米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109754063A publication Critical patent/CN109754063A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种用于学习低精度神经网络的方法及装置。所述方法包括:选择神经网络模型,其中所述神经网络模型包括多个层,且所述多个层中的每一者包括权重及激活;通过将多个量化层插入到所述神经网络模型内来修改所述神经网络模型;将成本函数与经修改的所述神经网络模型进行关联,其中所述成本函数包括与第一正则化项对应的第一系数,且所述第一系数的初始值是预定义的;以及训练经修改的所述神经网络模型,以通过增大所述第一系数来产生层的量化权重,直到所有权重均被量化且所述第一系数满足预定义的阈值为止,还包括优化所述量化权重的权重缩放因数及优化量化激活的激活缩放因数,其中所述量化权重是使用经优化的所述权重缩放因数进行量化。

Description

用于学习低精度神经网络的方法及装置
[相关申请的交叉参考]
本申请主张在2017年11月7日以及2017年11月8日在美国专利与商标局提出申请且被授予序列号62/582,848及62/583,390的美国临时专利申请的优先权、以及在2018年3月7日在美国专利与商标局提出申请且被授予序列号15/914,229的美国非临时专利申请的优先权,所述申请中的每一者的全部内容并入本申请供参考。
技术领域
本公开大体来说涉及神经网络,且更具体来说,涉及将权重量化与激活量化进行组合的用于学习低精度神经网络的方法及装置。
背景技术
深度神经网络近来在许多计算机视觉任务(例如,图像分类、对象检测、语义分割(semantic segmentation)及超分辨率(super resolution))中实现了主要的性能突破。最先进的神经网络的性能得益于非常深的及过度参数化的多层架构。目前,通常在多于一百个层中存在数百万或数千万个参数。然而,在大量层中增加网络参数的数目需要使用高性能矢量计算处理器,例如配备有大量存储器的图形处理单元(graphics processing unit,GPU)。此外,当对高分辨率图像及尺寸增大的视频进行处理时,对计算能力及存储器资源的需求迅速增长。
近来,深度神经网络的低精度实施方式受到极大的关注,特别是对于资源受限器件(例如,由电池供电的移动器件或便携式器件)上的深度神经网络的部署而言。在这种平台中,存储器及能力是有限的。此外,可能不支持基本浮点算术运算(floating-pointarithmetic operation)。低精度权重(例如,参数)及激活(例如,特征图)降低了计算成本并且降低了存储器要求。由此,当计算预算和电力预算有限时,低精度权重及激活是优选的,且有时需要以降低的功耗进行高效处理。通过使用较小位宽度的低精度权重及激活而不使用较大位宽度的全精度值也可减少存储器负担。
发明内容
根据一个实施例,一种用于学习低精度神经网络的方法包括:选择神经网络模型,其中所述神经网络模型包括多个层,且其中所述多个层中的每一者包括权重及激活;通过将多个量化层插入到所述神经网络模型内来修改所述神经网络模型;将成本函数与经修改的所述神经网络模型进行关联,其中所述成本函数包括与第一正则化项对应的第一系数,且其中所述第一系数的初始值是预定义的;以及训练经修改的所述神经网络模型,以通过增大所述第一系数来产生层的量化权重,直到所有权重均被量化且所述第一系数满足预定义的阈值为止,还包括优化所述量化权重的权重缩放因数以及优化量化激活的激活缩放因数,且其中所述量化权重是使用经优化的所述权重缩放因数进行量化。
根据一个实施例,一种用于学习低精度神经网络的装置包括:选择器,被配置成选择神经网络模型,其中所述神经网络模型包括多个层,且其中所述多个层中的每一者包括权重及激活;插入器件,被配置成通过将多个量化层插入到所述神经网络模型内来修改所述神经网络模型;关联器件,被配置成将成本函数与经修改的所述神经网络模型进行关联,其中所述成本函数包括与第一正则化项对应的第一系数,且其中所述第一系数的初始值是预定义的;以及训练器件,被配置成训练经修改的所述神经网络模型,以通过增大所述第一系数来产生层的量化权重,直到所有权重均被量化且所述第一系数满足预定义的阈值为止,且优化所述量化权重的权重缩放因数以及优化量化激活的激活缩放因数,其中所述量化权重是使用经优化的所述权重缩放因数进行量化。
附图说明
结合附图阅读以下详细说明,以上及其他方面、特征及本公开某些实施例的优点将更显而易见,在附图中:
图1示出根据本公开实施例的将权重量化与激活量化进行组合的用于一般非线性激活函数的低精度卷积层的方法的示例性流程图。
图2示出根据本公开实施例的将权重量化与激活量化进行组合的用于修正线性单元(rectified linear unit,ReLU)激活函数的低精度卷积层的方法的示例性流程图。
图3示出根据本公开实施例的对低精度神经网络进行权重量化及激活量化的方法的示例性流程图。
图4示出根据本公开实施例的将权重量化与激活量化进行组合的训练低精度神经网络的方法的示例性流程图。
[符号的说明]
100、200:低精度卷积层;
101、201:卷积运算;
103、203:偏置加法运算;
105:第一比例因数乘法运算;
107:非线性激活运算/第一非线性激活运算/激活运算;
109:第二比例因数乘法运算;
111、209:量化运算;
113、211:运算;
205:ReLU运算;
207:比例因数乘法运算;
301、303、305、307、309、311、401、403、405、407、409、411:步骤。
具体实施方式
在下文中,参照附图详细阐述本公开的实施例。应注意,相同的元件将由相同的参考编号指示,尽管它们示出在不同的附图中。在以下说明中,提供例如详细配置及组件等具体细节仅是为了帮助全面理解本公开的实施例。因此,对所属领域中的技术人员应显而易见,在不背离本公开的范围的条件下可对本文所述的实施例作出各种改变及修改。另外,为清晰及简洁起见,省略对众所周知的功能及构造的说明。以下所述的用语是考虑到本公开中的功能而定义的用语,且可根据使用者、使用者的意图或习惯而有所不同。因此,这些用语的定义应基于本说明书通篇的内容来确定。
本公开可具有各种修改及各种实施例,以下参照附图详细阐述其中的一些实施例。然而应理解,本公开并非仅限于所述实施例,而是包括处于本公开的范围内的所有修改、等效形式及替代形式。
尽管可能使用包括例如“第一(first)”、“第二(second)”等序数词的用语来阐述各种元件,但结构元件不受这些用语限制。这些用语仅用于区分各个元件。举例来说,在不背离本公开的范围的条件下,“第一结构元件”可被称为“第二结构元件”。相似地,“第二结构元件”也可被称为“第一结构元件”。本文中所用的用语“和/或(and/or)”包括一个或多个相关项的任意及所有组合。
本文中所用的用语仅用于阐述本公开的各种实施例,而并非旨在限制本公开。除非上下文清楚地另外指明,否则单数形式旨在包括复数形式。在本公开中,应理解,用语“包括(include)”或“具有(have)”指示特征、数目、步骤、操作、结构元件、部件或其组合的存在,而不排除一个或多个其他特征、数字、步骤、操作、结构元件、部件或其组合的存在或添加的可能。
除非进行不同地定义,否则本文中所用的所有用语具有与本公开所属领域中的技术人员所理解的含意相同的含意。例如在常用字典中所定义的用语等用语应被解释为具有与相关技术领域中的上下文含意相同的含意,且除非在本公开中进行清楚定义,否则不应将其解释为具有理想化或过于正式的含意。
根据一个实施例,本系统及方法获得具有量化权重及量化激活(例如,特征图)的低精度神经网络。量化权重及量化激活由低精度(例如,较低位宽度)的固定点数表示。在神经网络的每一个层中分别为权重及激活定义共用缩放因数(common scaling factor)以涵盖权重及激活的对于每一个层均发生变化的动态范围。本系统及方法提供权重量化及激活量化。
对于权重量化而言,本系统在神经网络的每一个层中以权重的均方量化误差(mean square quantization error,MSQE)的正则化系数对神经网络进行训练。根据一个实施例,正则化系数是可学习参数。在初始时,可将正则化系数设定成小的且对高精度(例如,较大位宽度)模型进行训练。随着训练继续进行,本系统逐渐增大正则化系数以使正则化系数迫使权重越来越被量化。本系统在正则化系数变得足够大而使开始时为高精度模型的经训练模型收敛到仅具有量化权重的低精度模型时完成网络训练。在训练期间,每一个层中的权重的缩放因数也是可学习的以使本系统对缩放因数进行优化来将MSQE最小化。
对于激活(例如,特征图)量化而言,本系统包括量化层。量化层是输出输入的量化值的非线性层。类似于权重量化,在每一个层中定义激活的可学习缩放因数,且在训练期间优化所述可学习缩放因数。将每一个层中的激活的MSQE最小化以进行优化。量化层在训练期间产生量化激活且权重是基于量化激活进行优化。相反,权重不在训练迭代期间被量化,而是随着由于MSQE正则化及增大的正则化系数继续进行训练,每一权重会逐渐收敛到量化值。
通过将权重量化过程与激活量化过程进行组合,本系统提供用于学习低精度神经网络的统一训练方法。根据一个实施例,除了用于低精度神经网络的本训练过程之外,本系统及方法还提供对可应用的权重及激活的2的幂缩放因数进行的正则化。当2的幂缩放由位移来实施而非由标量乘法来实施时,2的幂缩放在计算上可为有利的。
根据一个实施例,本系统关注具有量化权重及量化激活(例如,特征图)的低精度神经网络。每一个层中的量化权重及量化激活分别由相似位宽度的低精度固定点数(low-precision fixed-point number)表示。在神经网络的每一个层中分别另外地定义权重及激活的共用缩放因数以涵盖权重及激活的对于每一个层均发生变化的动态范围。缩放因数是量化单元大小(quantization cell size),其对于线性量化而言是固定的。
低精度神经网络可由低精度固定点算术运算来实施。
图1示出根据本公开实施例的将权重量化与激活量化进行组合的用于一般非线性激活函数的低精度卷积层100的方法的示例性流程图。
参照图1,低精度卷积层100的固定点设计包括卷积运算101、偏置加法运算103、第一比例因数乘法运算105、非线性激活运算107、第二比例因数乘法运算109、量化运算111及用于成本函数选择、神经网络训练、量化单元大小优化及权重优化的运算113。
图1所示方法包括选择神经网络模型,其中神经网络模型包括多个层。在实施例中,可使用选择器来选择神经网络模型。所述多个层中的每一者可包括权重及激活。可通过将多个量化层插入到神经网络模型内来修改神经网络模型。在实施例中,可使用插入装置来插入所述多个量化层。将成本函数与经修改的神经网络模型进行关联,其中所述成本函数包括与第一正则化项对应的第一系数,且第一系数的初始值是预定义的。在实施例中,可使用关联装置来将成本函数与经修改的神经网络模型进行关联。训练经修改的神经网络模型以通过增大第一系数来产生层的量化权重直到所有权重均被量化且第一系数满足预定义的阈值为止,并且优化量化权重的权重缩放因数以及优化量化激活的激活缩放因数,其中量化权重是使用经优化的权重缩放因数进行量化。在实施例中,可使用训练装置来提供训练。
权重缩放因数及激活缩放因数可基于将均方量化误差(MSQE)最小化来进行优化。
可将所述多个量化层中的每一量化层插入到神经网络模型内每一个层中的每一激活输出之后。
成本函数可包括与第二正则化项对应的第二系数,第二正则化项基于权重缩放因数及激活缩放因数为2的幂数字。
可将量化权重、权重缩放因数及激活缩放因数应用于固定点神经网络,其中固定点神经网络包括多个卷积层,其中所述多个卷积层中的每一者包括卷积运算,所述卷积运算被配置成接收特征图及量化权重。偏置加法运算可被配置成接收卷积运算的输出、及偏置。第一乘法运算可被配置成接收偏置加法运算的输出、及第一比例因数。激活运算可被配置成接收第一乘法运算的输出。第二乘法运算可被配置成接收激活运算的输出及第二比例因数,且量化运算可被配置成接收第二乘法运算的输出。
可通过以下方式训练神经网络:通过随机梯度下降方法来更新权重;通过随机梯度下降方法来更新权重缩放因数;通过随机梯度下降方法来更新激活缩放因数;如果权重缩放因数及激活缩放因数是2的幂,则包括随机梯度下降方法的附加梯度;通过随机梯度下降方法来更新正则化系数;以及如果正则化系数大于预定常数或者所述随机梯度下降方法的迭代次数大于预定限值,则结束训练。
权重可为固定点权重。第一比例因数可为权重缩放因数与激活缩放因数的乘积。激活运算可为非线性激活函数。
量化权重、权重缩放因数及激活缩放因数可应用于固定点神经网络,其中固定点神经网络包括多个卷积层,且其中所述多个卷积层中的每一者包括卷积运算,所述卷积运算被配置成接收特征图及量化权重。偏置加法运算可被配置成接收卷积运算的输出、及偏置。修正线性单元(ReLU)激活运算可被配置成接收偏置加法运算的输出。比例因数乘法运算可被配置成接收ReLU激活运算的输出及比例因数,且量化运算可被配置成接收比例因数乘法运算的输出。
比例因数可为权重缩放因数与激活缩放因数的乘积。
卷积运算101接收特征图(例如,固定点(fixed-point,FXP)输入)及固定点权重(例如,FXP权重)。在一个实施例中,卷积运算101是利用低精度固定点乘法器及累加器实施的。
偏置加法运算103接收卷积运算101的输出、及偏置,并对卷积运算101的输出与偏置求和。
对于层l,可以权重缩放因数δl及输入特征图缩放因数Δl-1来对固定点权重及输入特征图进行缩放。举例来说,可由第一比例因数乘法运算105以权重缩放因数δl与输入特征图缩放因数Δl-1的乘积(例如,Δl-1δl)来对偏置加法运算103的输出进行缩放,第一比例因数乘法运算105接收偏置加法运算103的输出、及缩放因数Δl-1δl并从偏置加法运算103的输出与缩放因数Δl-1δl产生乘积。在一个实施例中,可通过以缩放因数Δl-1δl对偏置进行缩放来避免对偏置加法运算103的输出进行缩放。
第一非线性激活运算107接收第一比例因数乘法运算105的输出。
非线性激活运算107的输出以缩放因数1/Δl进行缩放。举例来说,第二比例因数乘法运算109接收激活运算107的输出、及缩放因数(例如,1/Δl)并产生激活运算107的输出与缩放因数的乘积。
量化运算111将第二比例因数乘法运算109的输出量化(例如,FXP输出)。
运算113选择成本函数,训练神经网络,优化量化单元大小并优化权重。
图2示出根据本公开实施例的将权重量化与激活量化进行组合的用于ReLU激活函数的低精度卷积层200的方法的示例性流程图。
参照图2,低精度卷积层200包括卷积运算201、偏置加法运算203、ReLU运算205、比例因数乘法运算207、量化运算209及用于成本函数选择、神经网络训练、量化单元大小优化及权重优化的运算211。
卷积运算201接收特征图(例如,FXP输入)及固定点权重(例如,FXP权重)。在一个实施例中,卷积运算201是利用低精度固定点乘法器及累加器实施的。
偏置加法运算203接收卷积运算201的输出、及偏置,并对卷积运算201的输出与偏置求和。
ReLU运算205接收偏置加法运算203的输出。
对于层l,可分别以缩放因数δl及Δl-1来对固定点权重及输入特征图进行缩放。举例来说,可由比例因数乘法运算207以权重缩放因数δl与输入特征图缩放因数Δl-1的乘积除以Δl(例如,(Δl-1δl)/Δl)来对ReLU运算205的输出进行缩放,比例因数乘法运算207接收ReLU运算205的输出及缩放因数Δl-1δll,并从ReLU运算205的输出与缩放因数Δl-1δll产生乘积。也就是说,图1中所示的两个缩放运算在图2中被组合成一个缩放运算。如果缩放因数是2的幂数字,则可通过位移来实施缩放。相似地,可通过利用简单矩阵乘法取代卷积来实施全连接层(fully-connected layer)。
量化运算209将比例因数乘法运算207的输出量化(例如,FXP输出)。
运算211选择成本函数,训练神经网络,优化量化单元大小并优化权重。
在低精度神经网络中,可提供并固定权重及激活的位宽度。可选择用于固定点权重及激活的缩放因数。在确定最优缩放因数的同时,本系统对低精度固定点权重进行优化。根据一个实施例,本系统及方法同时学习量化参数及量化固定点权重。
根据一个实施例,本系统及方法提供包括权重量化及激活量化的低精度神经网络量化。
可定义量化函数。可提供用于表示每一量化值的位数。对于位宽度n而言(其中n是整数),量化函数输出如以下方程式(1)中所示:
Qn(x;δ)=δ·clip(round(2/δ),[-2n-1,2n-1-1]),…(1)
其中x是输入且δ是量化单元大小(例如,共用缩放因数);且舍入函数(roundingfunction)及裁减函数(clipping function)如以下方程式(2)及方程式(3)中所示:
clip(x,[a,b])=min(max(x,a),b),…(3)
其中x、a、及b是输入。
对于具有L个层的一般非线性神经网络而言,W1,W2,...,WL分别为层1到层L中的权重集合,其中L是整数。为使标注简明起见,对于任何符号A而言,方程式(4)均如下:
对于权重量化而言,本系统提供所有L个层中的权重的MSQE的平均值的正则化项,即,如以下方程式(5)中所示:
其中n是低精度权重的位宽度,δl是量化单元大小(即,层L中的权重的共用缩放因数),且N是所有L个层中的权重的总数目,即
根据一个实施例,本系统提供可学习正则化系数以利用以上MSQE正则化逐渐获得量化权重。正则化系数可为另一个可学习参数。本系统从小的正则化系数(例如,预定义的正则化系数)开始,以小的性能损失来学习高精度模型。随着训练继续进行,本系统增大正则化系数直到在训练完成时存在量化权重为止。包括小的正则化系数的附加惩罚项(additional penalty term),例如,-logα,其中α是正则化系数。权重量化的成本函数如以下方程式(6)中所示:
其中是训练数据集X的原始网络损失函数(original network lossfunction),且其中λ是为进行训练而选择及固定的超参数(hyper-parameter)。
本系统对网络训练中的成本函数进行优化并更新权重、量化单元大小及可学习正则化系数。由于存在对小的α值的惩罚项即-logα(其中α使正则化项Rn的重要性在训练期间连续增大),此使用于权重量化的正则化增大且使权重能够通过完成训练而得到量化。正则化系数逐渐增大,只要网络损失函数不明显降低即可。
对于激活量化而言,本系统提供量化层。对于原始全精度模型而言,在需要对低精度模型进行激活量化的任何位置(例如,在每一激活函数之后)插入用于激活的量化层。本系统可在从1到L的每一现存的层之后插入量化层。对于来自层l的激活x而言,量化层输出Qm(x;Δl),其中Qm是位宽度m的量化函数,且Δl是层l的输出激活的可学习量化单元大小(例如,共用缩放因数)。
本系统通过将层l的输出激活的MSQE最小化来对Δl进行优化,如以下方程式(7)中所示:
其中Xl是层l的输出激活值的集合,条件是1≤l≤L。此外,通过假设量化层是紧挨在第一层之前插入以对网络输入进行量化(即,其中X0是网络输入值的集合且Δ0是网络输入的量化单元大小),l可包括l=0。
在训练中将量化层激活以产生量化激活来针对量化激活对权重进行优化。相反,权重量化方法实际上不会在训练期间一次将权重全部量化。权重是在训练期间逐渐被量化的,其中由于MSQE正则化,每一个权重会随着训练以增大的正则化系数进行而逐渐收敛到量化值。
2的幂量化单元大小(例如,共用缩放因数)当由位移实施而非由标量乘法实施时会在计算方面提供有益之处。可如以下在方程式(8)中所示来引入附加正则化项:
其中roundpow2是舍入到最接近的2的幂值的舍入函数,即,如以下方程式(9)中所示:
利用可学习正则化系数,本系统在训练期间将量化单元大小逐渐收敛到最优的2的幂值。举例来说,可通过对以下方程式(10)所示的成本函数进行优化来获得以2的幂的量化单元大小进行的权重量化:
其中λ及ζ是为进行训练而选择及固定的超参数。相似地,可通过将激活量化单元大小正则化到2的幂数字。
图3示出根据本公开实施例对低精度神经网络进行权重量化及激活量化的方法的示例性流程图。
参照图3,在301处,本系统选择具有位宽度n及m的神经网络模型,其中n及m是整数。低精度神经网络的量化方法包括分别针对低精度权重及低精度激活来选择具有位宽度n及m的原始神经网络模型(例如,位宽度可针对不同层而为不同的或者针对所有层为固定的)。
在303处,本系统通过插入量化层对所选择的神经网络模型进行修改。举例来说,在每一激活输出之后及第一层输入之前插入量化层。
在305处,本系统选择成本函数。举例来说,成本函数如以下方程式(11)中所示:
其中λ及η是在训练之前选择及固定的超参数。
在307处,如果量化单元大小是2的幂,则本系统在成本函数中包括附加正则化项,如以下方程式(12)中所示:
其中ζ1及ζ2是在训练之前选择及固定的超参数。
在309处,本系统对网络进行训练以产生经优化的量化单元大小。
在311处,本系统利用经优化的量化单元大小对权重进行优化。在训练结束之后,本系统可利用经优化的量化单元大小对经训练的权重进行量化,这是由于在训练结束时的经训练的权重是经量化的但仍处于高精度。从311产生的损失可为可忽略不计的,只要权重量化成功且α变得足够大即可。
图4示出根据本公开实施例的将权重量化与激活量化进行组合的训练低精度神经网络的方法的示例性流程图。根据一个实施例,图4可如由图3中的309所表示的一样来实施。
利用以迷你批(mini-batch)进行的随机梯度下降,通过随机梯度下降方法的一种来更新每一可学习参数p(例如,权重、量化单元大小、正则化系数),例如如以下方程式(13)中所示:
参照图4,在401处,本系统利用如以下方程式(14)中所示梯度来更新W1 L中的权重:
其中Bnl)是线性量化单元边界的集合,即,如以下方程式(15)中所示:
第一项可从反向传播方法(back propagation method)获得。
在403处,本系统利用以下方程式(16)所示梯度来更新权重量化单元大小
其中
在405处,本系统更新权重正则化系数α。并非直接更新α,本系统利用如以下方程式(17)中所示的梯度来更新γ=logα:
在407处,本系统利用以下方程式(18)所示梯度来更新激活量化单元大小
其中
在409处,如果需要2的幂量化单元大小,则如以下方程式(19)及方程式(20)所示包括附加梯度:
在训练期间,利用以下方程式(21)及方程式(22)的梯度更新ω1=logβ1及ω2=logβ2
在411处,如果对于足够大的预定常数A而言α>A或如果迭代次数大于预定数目,则训练结束。
为能够通过量化层进行反向传播,当输入处于裁剪边界内时,本系统使用将梯度从上层传递到下层的直通估算器(straight-through estimator)。在裁剪边界外部,梯度被确定成零。在量化中可使用随机舍入而非确定性舍入来实现更好的收敛。
梯度的附加计算成本并不昂贵,且附加复杂度仅以O(N)增长,其中N是权重的数目。因此,上述方法适用于具有数百万或数千万个参数的深度神经网络。
根据一个实施例,权重量化方法可扩展到包括权重修剪。也就是说,对于阈值θ而言,用于权重量化与权重修剪两者的函数可如以下方程式(23)中一样进行定义:
如果输入小于阈值θ,则以上方程式(23)输出零。否则,方程式(23)输出输入的量化值。接着,为了除实现权重量化之外还实现权重修剪,将以上方程式(5)中的权重正则化修改为以下方程式(24):
其中θl是预定常数或每一训练迭代中的权重值的函数。
举例来说,对于每一层l中的目标权重修剪速率rl而言,可从每一个层中的权重的绝对值的第r个百分位获得阈值θl,阈值θl可在每一训练迭代中更新。正则化接着迫使低于阈值θl的权重朝零逼近,同时将其他权重量化成它们最近的单元中心。经量化的低精度权重的大小可通过可变速率编码(例如,赫夫曼编码(Huffman coding)或算术编码)得到进一步压缩。
举例来说,对于权重修剪而言,修剪函数可如以下方程式(25)中所示:
权重修剪正则化项可如以下方程式(26)中所示:
其中θl是预定常数或每一训练迭代中的权重值的函数。
类似于以上方程式(24),对于每一层l中的目标权重修剪速率rl而言,可从每一个层中的权重的绝对值的第r个百分位获得阈值θl,且阈值θl可在每一训练迭代中更新。正则化接着使低于阈值θl的权重朝零移动。
根据一个实施例,本系统提供具有量化权重及量化特征图的低精度神经网络。举例来说,假设分别对每一个层中的权重及特征图应用共用缩放因数(即,固定量化单元大小),则经量化的权重及特征图由低精度的固定点数表示。由于固定点权重及特征图为低精度,因此本系统会降低存储/存储器要求及降低计算成本;可使用固定点算术运算而非全精度浮点算术运算。
尽管已在本公开的详细说明中阐述了本公开的某些实施例,然而在不背离本公开的范围的条件下可以各种形式对本公开进行修改。因此,本公开的范围不应仅基于所阐述的实施例来确定,而是应基于随附权利要求及其等效范围来确定。

Claims (20)

1.一种用于学习低精度神经网络的方法,包括:
选择神经网络模型,其中所述神经网络模型包括多个层,且其中所述多个层中的每一者包括权重及激活;
通过将多个量化层插入到所述神经网络模型内来修改所述神经网络模型;
将成本函数与经修改的所述神经网络模型进行关联,其中所述成本函数包括与第一正则化项对应的第一系数,且其中所述第一系数的初始值是预定义的;以及
训练经修改的所述神经网络模型,以通过增大所述第一系数来产生层的量化权重,直到所有权重均被量化且所述第一系数满足预定义的阈值为止,还包括优化所述量化权重的权重缩放因数以及优化量化激活的激活缩放因数,且其中所述量化权重是使用经优化的所述权重缩放因数进行量化。
2.根据权利要求1所述的方法,其中优化所述权重缩放因数及所述激活缩放因数是基于将均方量化误差最小化。
3.根据权利要求1所述的方法,还包括:将所述多个量化层中的每一量化层插入到所述神经网络模型内每一个层中的每一激活输出之后。
4.根据权利要求1所述的方法,其中所述成本函数包括与第二正则化项对应的第二系数,所述第二正则化项是基于所述权重缩放因数及所述激活缩放因数为2的幂数字。
5.根据权利要求1所述的方法,还包括将所述量化权重、所述权重缩放因数及所述激活缩放因数应用于固定点神经网络,其中所述固定点神经网络包括多个卷积层,
其中所述多个卷积层中的每一者包括:卷积运算,被配置成接收特征图及所述量化权重,
偏置加法运算,被配置成接收所述卷积运算的输出、及偏置,
第一乘法运算,被配置成接收所述偏置加法运算的输出、及第一比例因数,
激活运算,被配置成接收所述第一乘法运算的输出,
第二乘法运算,被配置成接收所述激活运算的输出、及第二比例因数,以及
量化运算,被配置成接收所述第二乘法运算的输出。
6.根据权利要求5所述的方法,其中所述权重是固定点权重。
7.根据权利要求5所述的方法,其中所述第一比例因数是所述权重缩放因数与所述激活缩放因数的乘积。
8.根据权利要求5所述的方法,其中所述激活运算是非线性激活函数。
9.根据权利要求1所述的方法,其中训练所述神经网络包括:
通过随机梯度下降方法来更新所述权重;
通过所述随机梯度下降方法来更新所述权重缩放因数;
通过所述随机梯度下降方法来更新所述激活缩放因数;
如果所述权重缩放因数及所述激活缩放因数是2的幂,则包括所述随机梯度下降方法的附加梯度;
通过所述随机梯度下降方法来更新所述第一系数;以及
如果所述第一系数大于预定常数或者所述用于学习低精度神经网络的方法的迭代次数大于预定限值,则结束训练。
10.根据权利要求1所述的方法,还包括将所述量化权重、所述权重缩放因数及所述激活缩放因数应用于固定点神经网络,其中所述固定点神经网络包括多个卷积层,
其中所述多个卷积层中的每一者包括:卷积运算,被配置成接收特征图及所述量化权重,
偏置加法运算,被配置成接收所述卷积运算的输出、及偏置,
修正线性单元激活运算,被配置成接收所述偏置加法运算的输出,
比例因数乘法运算,被配置成接收所述修正线性单元激活运算的输出、及比例因数,以及
量化运算,被配置成接收所述比例因数乘法运算的输出。
11.根据权利要求10所述的方法,其中所述比例因数是所述权重缩放因数与所述激活缩放因数的乘积。
12.一种用于学习低精度神经网络的装置,包括:
选择器,被配置成选择神经网络模型,其中所述神经网络模型包括多个层,且其中所述多个层中的每一者包括权重及激活;
插入器件,被配置成通过将多个量化层插入到所述神经网络模型内来修改所述神经网络模型;
关联器件,被配置成将成本函数与经修改的所述神经网络模型进行关联,其中所述成本函数包括与第一正则化项对应的第一系数,且其中所述第一系数的初始值是预定义的;以及
训练器件,被配置成训练经修改的所述神经网络模型,以通过增大所述第一系数来产生层的量化权重,直到所有权重均被量化且所述第一系数满足预定义的阈值为止,且优化所述量化权重的权重缩放因数以及优化量化激活的激活缩放因数,其中所述量化权重是使用经优化的所述权重缩放因数进行量化。
13.根据权利要求12所述的装置,其中所述训练器件还被配置成基于将均方量化误差最小化来优化所述权重缩放因数及所述激活缩放因数。
14.根据权利要求12所述的装置,其中所述插入器件还被包括以将所述多个量化层中的每一量化层插入到所述神经网络模型内每一个层中的每一激活输出之后。
15.根据权利要求12所述的装置,其中所述成本函数包括与第二正则化项对应的第二系数,所述第二正则化项是基于所述权重缩放因数及所述激活缩放因数为2的幂数字。
16.根据权利要求12所述的装置,其中所述神经网络是固定点神经网络,所述量化权重、所述权重缩放因数及所述激活缩放因数应用于所述固定点神经网络,其中所述固定点神经网络包括多个卷积层,
其中所述多个卷积层中的每一者包括:卷积器件,被配置成接收特征图及所述量化权重,
偏置加法器件,被配置成接收所述卷积器件的输出、及偏置,
第一乘法器,被配置成接收所述偏置加法器件的输出、及第一比例因数,
激活器件,被配置成接收所述第一乘法器的输出,
第二乘法器,被配置成接收所述激活器件的输出、及第二比例因数,以及
量化器件,被配置成接收所述第二乘法器的输出。
17.根据权利要求16所述的装置,其中所述权重是固定点权重。
18.根据权利要求16所述的装置,其中所述第一比例因数是所述权重缩放因数与所述激活缩放因数的乘积。
19.根据权利要求16所述的装置,其中所述激活器件是非线性激活器件。
20.根据权利要求12所述的装置,其中所述训练器件还被包括以:
通过随机梯度下降方法来更新所述权重;
通过所述随机梯度下降方法来更新所述权重缩放因数;
通过所述随机梯度下降方法来更新所述激活缩放因数;
如果所述权重缩放因数及所述激活缩放因数是2的幂,则包括所述随机梯度下降方法的附加梯度;
通过所述随机梯度下降方法来更新所述第一系数;以及
如果所述第一系数大于预定常数或者迭代次数大于预定限值,则结束训练。
CN201811001199.4A 2017-11-07 2018-08-28 用于学习低精度神经网络的方法及装置 Pending CN109754063A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201762582848P 2017-11-07 2017-11-07
US62/582,848 2017-11-07
US201762583390P 2017-11-08 2017-11-08
US62/583,390 2017-11-08
US15/914,229 US11270187B2 (en) 2017-11-07 2018-03-07 Method and apparatus for learning low-precision neural network that combines weight quantization and activation quantization
US15/914,229 2018-03-07

Publications (1)

Publication Number Publication Date
CN109754063A true CN109754063A (zh) 2019-05-14

Family

ID=66327406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811001199.4A Pending CN109754063A (zh) 2017-11-07 2018-08-28 用于学习低精度神经网络的方法及装置

Country Status (4)

Country Link
US (1) US11270187B2 (zh)
KR (1) KR102672004B1 (zh)
CN (1) CN109754063A (zh)
TW (1) TWI775898B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105017A (zh) * 2019-12-24 2020-05-05 北京旷视科技有限公司 神经网络量化方法、装置及电子设备
CN111523526A (zh) * 2020-07-02 2020-08-11 杭州雄迈集成电路技术股份有限公司 一种目标检测方法、计算机设备及可读存储介质
CN112085175A (zh) * 2019-06-14 2020-12-15 华为技术有限公司 基于神经网络计算的数据处理方法和装置
CN112418391A (zh) * 2019-08-22 2021-02-26 畅想科技有限公司 用于对深度神经网络的权重进行转换的方法和系统
CN112446487A (zh) * 2019-08-29 2021-03-05 佳能株式会社 神经网络模型的训练和应用方法、装置、系统及存储介质
CN112561050A (zh) * 2019-09-25 2021-03-26 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN113112012A (zh) * 2020-01-10 2021-07-13 腾讯美国有限责任公司 用于压缩神经网络模型的方法、装置和计算机设备
CN113392954A (zh) * 2020-03-13 2021-09-14 华为技术有限公司 终端网络模型的数据处理方法、装置、终端以及存储介质
WO2022087953A1 (zh) * 2020-10-29 2022-05-05 华为技术有限公司 一种基于神经网络模型的量化方法及其相关设备

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190068255A (ko) * 2017-12-08 2019-06-18 삼성전자주식회사 고정 소수점 뉴럴 네트워크를 생성하는 방법 및 장치
CN108256644B (zh) * 2018-01-05 2021-06-22 上海兆芯集成电路有限公司 微处理器电路以及执行神经网络运算的方法
US11170289B1 (en) * 2018-04-20 2021-11-09 Perceive Corporation Computation of neural network node by neural network inference circuit
JP7287388B2 (ja) * 2018-05-14 2023-06-06 ソニーグループ株式会社 情報処理装置および情報処理方法
US11551077B2 (en) * 2018-06-13 2023-01-10 International Business Machines Corporation Statistics-aware weight quantization
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification
US11640533B2 (en) * 2018-08-03 2023-05-02 Arm Limited System, method and apparatus for training neural networks using multiple datasets
JP7026808B2 (ja) * 2018-09-06 2022-02-28 株式会社Pfu 情報処理装置、方法及びプログラム
US20220004848A1 (en) * 2018-11-22 2022-01-06 Nokia Technologies Oy Learning in Communication Systems
US11847567B1 (en) 2018-12-05 2023-12-19 Perceive Corporation Loss-aware replication of neural network layers
US12045725B1 (en) 2018-12-05 2024-07-23 Perceive Corporation Batch normalization for replicated layers of neural network
GB2580171B (en) * 2018-12-21 2021-02-17 Imagination Tech Ltd Methods and systems for selecting quantisation parameters for deep neural networks using back-propagation
KR102165273B1 (ko) * 2019-04-02 2020-10-13 국방과학연구소 소형 뉴럴 네트워크의 채널 프루닝(pruning) 방법 및 시스템
US11610154B1 (en) 2019-04-25 2023-03-21 Perceive Corporation Preventing overfitting of hyperparameters during training of network
US11900238B1 (en) 2019-04-25 2024-02-13 Perceive Corporation Removing nodes from machine-trained network based on introduction of probabilistic noise during training
US11531879B1 (en) 2019-04-25 2022-12-20 Perceive Corporation Iterative transfer of machine-trained network inputs from validation set to training set
US11556770B2 (en) * 2019-05-31 2023-01-17 International Business Machines Corporation Auto weight scaling for RPUs
US20220129759A1 (en) * 2019-06-26 2022-04-28 Intel Corporation Universal Loss-Error-Aware Quantization for Deep Neural Networks with Flexible Ultra-Low-Bit Weights and Activations
US11847568B2 (en) 2019-07-30 2023-12-19 Perceive Corporation Quantizing neural networks using shifting and scaling
CN110533165B (zh) * 2019-08-16 2022-05-17 浪潮电子信息产业股份有限公司 一种图像处理方法、装置及设备
TWI709090B (zh) * 2019-08-30 2020-11-01 阿證科技股份有限公司 類神經人工智慧決策網路核心系統及其資訊處理方法
JP7419711B2 (ja) * 2019-09-09 2024-01-23 株式会社ソシオネクスト 量子化パラメータ最適化方法、及び、量子化パラメータ最適化装置
US20220284300A1 (en) * 2019-09-19 2022-09-08 Intel Corporation Techniques to tune scale parameter for activations in binary neural networks
US11842169B1 (en) 2019-09-25 2023-12-12 Amazon Technologies, Inc. Systolic multiply delayed accumulate processor architecture
US20210133568A1 (en) * 2019-11-01 2021-05-06 Applied Brain Research Inc. Methods and systems for training multi-bit spiking neural networks for efficient implementation on digital hardware
US11467806B2 (en) 2019-11-27 2022-10-11 Amazon Technologies, Inc. Systolic array including fused multiply accumulate with efficient prenormalization and extended dynamic range
US11816446B2 (en) 2019-11-27 2023-11-14 Amazon Technologies, Inc. Systolic array component combining multiple integer and floating-point data types
TWI732370B (zh) 2019-12-04 2021-07-01 財團法人工業技術研究院 神經網路模型的訓練裝置和訓練方法
US11995555B1 (en) 2019-12-17 2024-05-28 Perceive Corporation Training a neural network with quantized weights
CN111200716B (zh) * 2020-01-08 2021-10-26 珠海亿智电子科技有限公司 特征映射缩放的精度补偿方法、系统及存储介质
US11935271B2 (en) * 2020-01-10 2024-03-19 Tencent America LLC Neural network model compression with selective structured weight unification
CN111240640B (zh) * 2020-01-21 2022-05-10 苏州浪潮智能科技有限公司 基于硬件环境的数据量化方法、装置及可读存储介质
JP7475164B2 (ja) * 2020-03-05 2024-04-26 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
TWI743710B (zh) * 2020-03-18 2021-10-21 國立中山大學 卷積神經網路的方法、電子裝置與電腦程式產品
CN113537447A (zh) * 2020-04-20 2021-10-22 佳能株式会社 多层神经网络的生成方法、装置、应用方法及存储介质
KR102657904B1 (ko) * 2020-05-12 2024-04-17 한국전자통신연구원 뉴럴 네트워크에서의 다중 레벨 단계적 양자화 방법 및 장치
US20210365838A1 (en) * 2020-05-22 2021-11-25 Electronics And Telecommunications Research Institute Apparatus and method for machine learning based on monotonically increasing quantization resolution
CN113762500B (zh) * 2020-06-04 2024-04-02 合肥君正科技有限公司 一种卷积神经网络在量化时提高模型精度的训练方法
CN113762497B (zh) * 2020-06-04 2024-05-03 合肥君正科技有限公司 一种卷积神经网络模型低比特推理优化的方法
CN113762496B (zh) * 2020-06-04 2024-05-03 合肥君正科技有限公司 一种降低低比特卷积神经网络推理运算复杂度的方法
CN113762494B (zh) * 2020-06-04 2024-08-02 合肥君正科技有限公司 一种通过权重预处理提高低比特神经网络模型精度的方法
US11308027B1 (en) 2020-06-29 2022-04-19 Amazon Technologies, Inc. Multiple accumulate busses in a systolic array
WO2022003657A1 (en) * 2020-06-30 2022-01-06 Samsung Electronics Co., Ltd. A method and system for processing data efficiently in a model inference phase in a communication device
US12093816B1 (en) 2020-07-07 2024-09-17 Perceive Corporation Initialization of values for training a neural network with quantized weights
CN111783961A (zh) * 2020-07-10 2020-10-16 中国科学院自动化研究所 基于激活定点拟合的卷积神经网络训练后量化方法及系统
US12061988B1 (en) 2020-08-13 2024-08-13 Perceive Corporation Decomposition of ternary weight tensors
CN112183726A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种神经网络全量化方法及系统
US20220114413A1 (en) * 2020-10-12 2022-04-14 Black Sesame International Holding Limited Integer-based fused convolutional layer in a convolutional neural network
US20220180177A1 (en) * 2020-12-08 2022-06-09 International Business Machines Corporation An efficient method for vlsi implementation of useful neural network activation functions
CN112733863B (zh) * 2021-01-07 2022-06-07 苏州浪潮智能科技有限公司 一种图像特征提取方法、装置、设备及存储介质
US20220222435A1 (en) * 2021-01-08 2022-07-14 Meta Platforms, Inc. Task-Specific Text Generation Based On Multimodal Inputs
CN112884146B (zh) * 2021-02-25 2024-02-13 香港理工大学深圳研究院 一种训练基于数据量化与硬件加速的模型的方法及系统
CN113408695B (zh) * 2021-04-29 2024-05-31 开放智能机器(上海)有限公司 一种离线量化工具的精度调优方法
KR20220154902A (ko) * 2021-05-14 2022-11-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN113516172B (zh) * 2021-05-19 2023-05-12 电子科技大学 基于随机计算贝叶斯神经网络误差注入的图像分类方法
US11880682B2 (en) * 2021-06-30 2024-01-23 Amazon Technologies, Inc. Systolic array with efficient input reduction and extended array performance
CN114067285B (zh) * 2021-11-18 2024-08-20 昆明理工大学 一种基于二值化的卷积神经网络车辆分类方法
TWI795135B (zh) * 2021-12-22 2023-03-01 財團法人工業技術研究院 神經網路模型的量化方法及深度學習加速器
CN114764756B (zh) * 2022-06-15 2022-09-20 杭州雄迈集成电路技术股份有限公司 去雾模型的量化剪枝方法及系统
US20240004952A1 (en) * 2022-06-29 2024-01-04 Mediatek Singapore Pte. Ltd. Hardware-Aware Mixed-Precision Quantization
KR20240078953A (ko) * 2022-11-28 2024-06-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20240120352A (ko) * 2023-01-31 2024-08-07 삼성전자주식회사 곱셈기와 누적기를 이용한 양자화를 수행하는 전자 장치 및 그 제어 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6173301B2 (ja) * 2011-04-20 2017-08-02 ノボ・ノルデイスク・エー/エス 適応的に選択されたカーネルパラメータおよび正則化パラメータを用いた正則化ネットワークベースのグルコース予測子
US9224089B2 (en) * 2012-08-07 2015-12-29 Qualcomm Incorporated Method and apparatus for adaptive bit-allocation in neural systems
CN107077857B (zh) * 2014-05-07 2021-03-09 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
US10417525B2 (en) 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
US10373050B2 (en) 2015-05-08 2019-08-06 Qualcomm Incorporated Fixed point neural network based on floating point neural network quantization
US10262259B2 (en) 2015-05-08 2019-04-16 Qualcomm Incorporated Bit width selection for fixed point neural networks
CN105512289B (zh) 2015-12-07 2018-08-14 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
US20170228646A1 (en) * 2016-02-04 2017-08-10 Qualcomm Incorporated Spiking multi-layer perceptron
US10831444B2 (en) * 2016-04-04 2020-11-10 Technion Research & Development Foundation Limited Quantized neural network training and inference
CN107133919A (zh) 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法
CN115688877A (zh) * 2017-06-06 2023-02-03 格兰菲智能科技有限公司 一种用于对待量化数据进行定点化处理的方法及计算装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085175B (zh) * 2019-06-14 2024-05-03 华为技术有限公司 基于神经网络计算的数据处理方法和装置
CN112085175A (zh) * 2019-06-14 2020-12-15 华为技术有限公司 基于神经网络计算的数据处理方法和装置
WO2020249085A1 (zh) * 2019-06-14 2020-12-17 华为技术有限公司 基于神经网络计算的数据处理方法和装置
CN112418391B (zh) * 2019-08-22 2022-07-08 畅想科技有限公司 用于对深度神经网络的权重进行转换的方法和系统
CN112418391A (zh) * 2019-08-22 2021-02-26 畅想科技有限公司 用于对深度神经网络的权重进行转换的方法和系统
CN112446487A (zh) * 2019-08-29 2021-03-05 佳能株式会社 神经网络模型的训练和应用方法、装置、系统及存储介质
CN112561050A (zh) * 2019-09-25 2021-03-26 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
WO2021057926A1 (zh) * 2019-09-25 2021-04-01 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN112561050B (zh) * 2019-09-25 2023-09-05 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN111105017A (zh) * 2019-12-24 2020-05-05 北京旷视科技有限公司 神经网络量化方法、装置及电子设备
CN111105017B (zh) * 2019-12-24 2023-05-16 北京旷视科技有限公司 神经网络量化方法、装置及电子设备
CN113112012A (zh) * 2020-01-10 2021-07-13 腾讯美国有限责任公司 用于压缩神经网络模型的方法、装置和计算机设备
CN113112012B (zh) * 2020-01-10 2023-04-25 腾讯美国有限责任公司 用于视频图像处理的方法、装置和计算机设备
CN113392954A (zh) * 2020-03-13 2021-09-14 华为技术有限公司 终端网络模型的数据处理方法、装置、终端以及存储介质
CN111523526A (zh) * 2020-07-02 2020-08-11 杭州雄迈集成电路技术股份有限公司 一种目标检测方法、计算机设备及可读存储介质
WO2022087953A1 (zh) * 2020-10-29 2022-05-05 华为技术有限公司 一种基于神经网络模型的量化方法及其相关设备

Also Published As

Publication number Publication date
US20190138882A1 (en) 2019-05-09
TWI775898B (zh) 2022-09-01
TW201918939A (zh) 2019-05-16
US11270187B2 (en) 2022-03-08
KR20190051755A (ko) 2019-05-15
KR102672004B1 (ko) 2024-06-03

Similar Documents

Publication Publication Date Title
CN109754063A (zh) 用于学习低精度神经网络的方法及装置
CN108154228B (zh) 一种人工神经网络计算装置和方法
CN110852439B (zh) 数据处理方法及装置、存储介质
CN108345939A (zh) 基于定点运算的神经网络
CN107578014A (zh) 信息处理装置及方法
CN109726045A (zh) 用于块稀疏递归神经网络的系统和方法
CN107679617A (zh) 多次迭代的深度神经网络压缩方法
CN107563497A (zh) 计算装置和方法
CN110969251A (zh) 基于无标签数据的神经网络模型量化方法及装置
CN108491926A (zh) 一种基于对数量化的低比特高效深度卷积神经网络硬件加速设计方法、模块及系统
CN111488986A (zh) 一种模型压缩方法、图像处理方法以及装置
US20220036189A1 (en) Methods, systems, and media for random semi-structured row-wise pruning in neural networks
CN112508125A (zh) 一种图像检测模型的高效全整数量化方法
CN111260020B (zh) 卷积神经网络计算的方法和装置
CN110782019A (zh) 基于分解和剪枝的卷积神经网络压缩方法、系统、装置
CN109214502B (zh) 神经网络权重离散化方法和系统
CN109975250B (zh) 一种叶面积指数反演方法及装置
CN116113941A (zh) 一种神经网络加速器、加速方法以及装置
CN112561028A (zh) 训练神经网络模型的方法、数据处理的方法及装置
CN111325222A (zh) 图像归一化处理方法及装置、存储介质
CN115017178A (zh) 数据到文本生成模型的训练方法和装置
CN109117455A (zh) 计算装置及方法
CN110796233A (zh) 基于迁移学习的深度残差卷积神经网络的自适应压缩方法
CN115860100A (zh) 一种神经网络模型训练方法、装置及计算设备
CN114677548A (zh) 基于阻变存储器的神经网络图像分类系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination